分析数据流的存储结构是什么?

分析数据流在 Azure Data Lake Storage 中存储数据和元数据。 数据流使用标准结构来存储和描述在湖中创建的数据,这称为“通用数据模型”文件夹。 在本文中,你将详细了解数据流在后台使用的存储标准。

存储需要分析数据流的结构

如果 数据流是标准的,则数据存储在 Dataverse 中。 Dataverse 类似于数据库系统;它具有表、视图等的概念。 Dataverse 是标准数据流使用的结构化数据存储选项。

但是,当 数据流进行分析时,数据存储在 Azure Data Lake Storage 中。 数据流的数据和元数据存储在 Common Data Model 文件夹中。 由于存储帐户中可能存储了多个数据流,因此引入了文件夹和子文件夹的层次结构来帮助组织数据。 根据数据流创建的产品,文件夹和子文件夹可能表示工作区(或环境),然后是数据流的 Common Data Model 文件夹。 在 Common Data Model 文件夹中,存储数据流表的架构和数据。 此结构遵循为通用数据模型定义的标准。

将数据存储在通用数据模型结构中的分析数据流的关系图。

什么是通用数据模型存储结构?

通用数据模型 是一种元数据结构,旨在实现跨多个平台使用数据的符合性和一致性。 通用数据模型不是数据存储,它是存储和定义数据的方式。

常见数据模型文件夹定义表的架构及其数据的存储方式。 在 Azure Data Lake Storage 中,数据组织在文件夹中。 文件夹可以表示工作区或环境。 在这些文件夹下,将为每个数据流创建子文件夹。

工作区文件夹结构的屏幕截图。

数据流文件夹中有哪些内容?

每个数据流文件夹包含每个表的子文件夹和一个名为的 model.json元数据文件。

Common Data Model 文件夹的示意图,其中包括每个表和数据文件的子文件夹。

元数据文件:model.json

该文件 model.json 是数据流的元数据定义。 此文件是包含所有数据流元数据的文件。 它包括表、列及其每个表中的数据类型、表之间的关系等的列表。 即使无权访问 Common Data Model 文件夹结构,也可以轻松地从数据流导出此文件。

数据流列表的屏幕截图,其中显示了如何从数据流导出 model.json 文件。

可以使用此 JSON 文件将数据流迁移到另一个工作区或环境(或导入)。

数据流创建页的屏幕截图,其中突出显示了“导入模型”选择。

若要确切了解 model.json 元数据文件包含的内容,请转到通用数据模型的元数据文件(model.json)。

数据文件

除了元数据文件,数据流文件夹还包括其他子文件夹。 数据流将每个表的数据存储在具有表名称的子文件夹中。 表的数据可能拆分为多个数据分区,以 CSV 格式存储。

如何查看或访问通用数据模型文件夹

如果使用的是由创建它们的产品提供的存储的数据流,则你无权直接访问这些文件夹。 在这种情况下,从数据流获取数据需要使用 Power BI 服务、Power Apps 和 Dynamics 35 Customer Insights 产品或 Power BI Desktop 中的数据体验中 提供的 Microsoft Power Platform 数据流连接器。

“选择数据源”页面的屏幕截图,其中突出显示了 Power Platform 数据流连接器。

若要了解数据流和内部 Data Lake Storage 集成的工作原理,请转到数据流和 Azure Data Lake 集成(预览版)。

如果组织启用了数据流来利用其 Data Lake Storage 帐户,并且被选为数据流的负载目标,则仍可以使用前面提到的 Power Platform 数据流连接器从数据流中获取数据。 但你也可以直接通过湖访问数据流的 Common Data Model 文件夹,即使在 Power Platform 工具和服务之外也是如此。 可以通过 Azure 门户、Microsoft Azure 存储资源管理器或任何其他支持 Azure 数据湖存储的服务或体验访问数据湖。 有关详细信息,请转到 连接 Azure Data Lake Storage Gen2 进行数据流存储