Виртуализировать данные CSV из пула хранения (кластеры больших данных)

Important

Кластеры больших данных Microsoft SQL Server 2019 прекращены. Поддержка кластеров больших данных SQL Server 2019 закончилась с 28 февраля 2025 г. Дополнительные сведения см. в записи блога объявлений и параметрах больших данных на платформе Microsoft SQL Server.

Кластеры больших данных SQL Server могут виртуализировать данные из CSV-файлов в HDFS. Этот процесс позволяет данным оставаться в исходном расположении, но может запрашиваться из экземпляра SQL Server, как и любая другая таблица. Эта функция использует соединители PolyBase и сводит к минимуму потребность в процессах ETL. Дополнительные сведения о виртуализации данных см. в статье "Общие сведения о виртуализации данных с помощью PolyBase"

Prerequisites

Выбор или отправка CSV-файла для виртуализации данных

В Azure Data Studio (ADS) подключитесь к главному экземпляру SQL Server в вашем кластере больших данных. После подключения разверните элементы HDFS в обозревателе объектов, чтобы найти CSV-файлы, которые вы хотите виртуализировать.

В целях этого руководства создайте каталог с именем Data.

  1. Щелкните правой кнопкой мыши контекстное меню корневого каталога HDFS.
  2. Выберите новый каталог.
  3. Назовите новый каталог Data.

Отправка примеров данных. Для простой пошаговой инструкции можно использовать пример CSV-файла данных. В этой статье используются данные о задержке авиакомпании из Министерства транспорта США. Скачайте необработанные данные и извлеките их на компьютер. Назовите файл airline_delay_causes.csv.

Чтобы отправить пример файла после его извлечения:

  1. В Azure Data Studio щелкните правой кнопкой мыши созданный каталог.
  2. Выберите " Отправить файлы".

Пример CSV-файла в HDFS

Azure Data Studio отправляет файлы в HDFS в кластер больших данных.

Создайте внешний источник данных пула хранилища в целевой базе данных

Внешний источник данных пула хранения не создается по умолчанию в базе данных в кластере для больших данных. Прежде чем создать внешнюю таблицу, создайте внешний источник данных SqlStoragePool по умолчанию в целевой базе данных с помощью следующего запроса Transact-SQL. Сначала измените контекст запроса на целевую базу данных.

-- Create the default storage pool source for SQL Big Data Cluster
IF NOT EXISTS(SELECT * FROM sys.external_data_sources WHERE name = 'SqlStoragePool')
    CREATE EXTERNAL DATA SOURCE SqlStoragePool
    WITH (LOCATION = 'sqlhdfs://controller-svc/default');

Создание внешней таблицы

В ADS щелкните правой кнопкой мыши CSV-файл и выберите "Создать внешнюю таблицу из CSV-файла " в контекстном меню. Вы также можете создавать внешние таблицы из CSV-файлов из каталога в HDFS, если файлы в каталоге соответствуют той же схеме. Это позволит виртуализации данных на уровне каталога без необходимости обрабатывать отдельные файлы и получать объединенный результирующий набор по объединенным данным. Azure Data Studio поможет вам создать внешнюю таблицу.

Укажите базу данных, источник данных, имя таблицы, схему и имя внешнего файла таблицы.

Select Next.

Preview Data

Azure Data Studio предоставляет предварительную версию импортированных данных.

Снимок экрана: окно создания внешней таблицы из CSV с предварительным просмотром импортированных данных.

После просмотра предварительной версии нажмите кнопку "Далее ", чтобы продолжить

Modify Columns

В следующем окне можно изменить столбцы внешней таблицы, которую вы планируете создать. Вы можете изменить имя столбца, изменить тип данных и разрешить нулевые строки.

Снимок экрана: окно

После проверки конечных столбцов нажмите кнопку "Далее".

Summary

На этом шаге представлена сводка по выбранным параметрам. Он предоставляет имя SQL Server, имя базы данных, имя таблицы, схему таблицы и сведения о внешней таблице. На этом шаге можно создать скрипт или создать таблицу. Создание скрипта в T-SQL служит для создания внешнего источника данных. Создание таблицы создает внешний источник данных.

Summary screen

При выборе "Создать таблицу" SQL Server создает внешнюю таблицу в целевой базе данных.

При выборе создайте скрипт, Azure Data Studio создает запрос T-SQL для создания внешней таблицы.

После создания таблицы теперь можно выполнить запрос непосредственно с помощью T-SQL из экземпляра SQL Server.

Next steps

Дополнительные сведения о кластере больших данных SQL Server и связанных сценариях см. в статье "Общие сведения о кластерах больших данных SQL Server".