Поделиться через


Загрузка данных в Azure Synapse Analytics с помощью Azure Data Factory или конвейера Synapse

ПРИМЕНИМО К: Azure Data Factory Azure Synapse Analytics

Совет

Data Factory в Microsoft Fabric — это следующее поколение Azure Data Factory с более простой архитектурой, встроенным ИИ и новыми функциями. Если вы не знакомы с интеграцией данных, начните с Fabric Data Factory. Существующие рабочие нагрузки ADF могут обновляться до Fabric для доступа к новым возможностям в области обработки и анализа данных, аналитики в режиме реального времени и отчетов.

Azure Synapse Analytics — это облачная база данных, которая может обрабатывать большие объемы данных, как реляционные, так и нереляционные. Azure Synapse Analytics основан на архитектуре массовой параллельной обработки (MPP), оптимизированной для рабочих нагрузок корпоративного хранилища данных. Оно предоставляет эластичность облака и гибкие возможности масштабирования хранилища и вычислительной мощности независимо друг от друга.

Начало работы с Azure Synapse Analytics теперь проще, чем когда-либо. Azure Data Factory и ее эквивалентные функции конвейеров в Azure Synapse предоставляют полностью управляемую облачную службу интеграции данных. Службу можно использовать для заполнения Azure Synapse Analytics данными из существующей системы и экономии времени при создании решений аналитики.

конвейеры Azure Data Factory и Synapse предоставляют следующие преимущества для загрузки данных в Azure Synapse Analytics:

  • Простота настройки. Вам доступен интуитивно понятный 5-этапный мастер без необходимости создавать сценарии.
  • Расширенная поддержка хранилищ данных. Встроенная поддержка обширного набора локальных и облачных хранилищ данных. Подробный список см. в таблице Поддерживаемые хранилища данных.
  • Безопасность и совместимость. Данные передаются по протоколу HTTPS или ExpressRoute. Наличие глобальной службы гарантирует, что ваши данные никогда не покинут заданных географических границ.
  • Непревзойденная производительность с помощью PolyBase: PolyBase — наиболее эффективный способ перемещения данных в Azure Synapse Analytics. Используйте функцию промежуточного блоб-хранилища для достижения высокой скорости загрузки из всех типов хранилищ данных, включая Azure Blob Storage и Data Lake Store. (Polybase поддерживает Azure хранилище объектов BLOB и хранилище Azure Data Lake по умолчанию.) Дополнительные сведения см. в разделе Производительность действия копирования.

В этой статье показано, как с помощью средства копирования данных загружать данные из Azure SQL Database в Azure Synapse Analytics. Чтобы копировать данные из других типов хранилищ, необходимо выполнить аналогичные шаги.

Примечание.

Дополнительные сведения см. в разделе Copy data to or from Azure Synapse Analytics.

Требования

  • Подписка на Azure: Если у вас нет подписки Azure, создайте бесплатную учетную запись free перед началом работы.
  • Azure Synapse Analytics. Хранилище данных содержит данные, скопированные из базы данных SQL. Если у вас нет Azure Synapse Analytics, см. инструкции в Create Azure Synapse Analytics.
  • Azure SQL Database. В этом руководстве копируются данные из примера набора данных Adventure Works LT в Azure SQL Database. Этот пример базы данных можно создать в базе данных SQL, следуя инструкциям в Create пример базы данных в Azure SQL Database.
  • учетная запись Azure storage: Azure Storage используется в качестве промежуточного хранения большого двоичного объекта в операции массового копирования. Если у вас нет учетной записи Azure для хранения, ознакомьтесь с инструкциями в Создание учетной записи хранения.

Создание фабрики данных

  1. Если вы еще не создали фабрику данных, следуйте шагам в разделе Быстрый старт: создание фабрики данных с помощью портала Azure и Azure Data Factory Studio. После создания перейдите к фабрике данных на портале Azure.

    Главная страница для Azure Data Factory с плиткой Open Azure Data Factory Studio.

  2. Выберите Open на плитке Open Azure Data Factory Studio, чтобы запустить приложение интеграции данных на отдельной вкладке.

Загрузка данных в Azure Synapse Analytics

  1. На домашней странице рабочей области Azure Data Factory или Azure Synapse выберите плитку Ingest, чтобы запустить средство копирования данных. Затем выберите Built-in copy task (Встроенная задача копирования).

  2. На странице Свойства в разделе Тип задачи выберите Built-in copy task (Встроенная задача копирования), а затем нажмите кнопку Далее.

    Страница свойств

  3. На странице Исходное хранилище данных сделайте следующее.

    Совет

    В этом учебном пособии для проверки подлинности исходного хранилища данных используется SQL-аутентификация, но при необходимости можно выбрать другие поддерживаемые методы: служебный принципал и управляемая идентификация. Дополнительные сведения см. в соответствующих разделах этой статьи. Чтобы безопасно хранить секреты для хранилищ данных, также рекомендуется использовать Azure Key Vault. Дополнительные сведения см. в этой статье.

    1. Выберите + Новое подключение.

    2. Выберите Azure SQL Database из коллекции и нажмите Продолжить. Вы можете ввести текст "SQL" в поле поиска, чтобы отфильтровать соединители.

      Выбор Базы данных SQL Azure

    3. На странице New connection (Azure SQL Database) выберите имя сервера и имя базы данных из раскрывающегося списка и укажите имя пользователя и пароль. Выберите Проверить подключение, чтобы проверить настройки, а затем нажмите Создать.

      Настройка Базы данных SQL Azure

    4. На странице Исходное хранилище данных выберите в качестве источника только что созданное подключение в блоке Подключение.

    5. В разделе Таблицы источника данных введите SalesLT, чтобы отфильтровать таблицы. Установите флажок (Выбрать все), чтобы использовать все таблицы для копирования, а затем нажмите кнопку Далее.

    Снимок экрана, на котором показана конфигурация страницы

  4. На странице Применить фильтр укажите параметры или нажмите кнопку Далее. Вы можете просмотреть данные и схему входных данных, нажав кнопку Просмотр данных на странице.

    Снимок экрана, на котором показана страница

  5. На странице Целевое хранилище данных сделайте следующее.

    Совет

    В этом учебнике в качестве типа проверки подлинности для конечного хранилища данных используется проверка подлинности SQL, но при необходимости можно выбрать другие поддерживаемые методы проверки подлинности: субъект-служба и управляемое удостоверение. Дополнительные сведения см. в соответствующих разделах этой статьи. Чтобы безопасно хранить секреты для хранилищ данных, также рекомендуется использовать Azure Key Vault. Дополнительные сведения см. в этой статье.

    1. Выберите + Создать подключение, чтобы добавить подключение.

    2. Выберите Azure Synapse Analytics из коллекции и нажмите Продолжить.

      Select Azure Synapse Analytics

    3. На странице New connection (Azure Synapse Analytics) выберите имя сервера и имя базы данных из раскрывающегося списка и укажите имя пользователя и пароль. Выберите Проверить подключение, чтобы проверить настройки, а затем нажмите Создать.

      Конфигурация Azure Synapse Analytics

    4. На странице Целевое хранилище данных выберите только что созданное подключение в качестве приемника в разделе Подключение.

  6. Просмотрите содержимое раздела Сопоставление таблицы и нажмите кнопку Далее. Отобразится интеллектуальное сопоставление таблиц. Исходные таблицы сопоставляются с целевыми на основе их имен. Если исходная таблица не существует в месте назначения, по умолчанию служба создает таблицу с таким же именем. Вы также можете сопоставить исходную таблицу с имеющейся целевой таблицей.

    Снимок экрана, на котором показана настройка параметров на странице

  7. На странице Сопоставление столбцов проверьте содержимое и нажмите кнопку Далее. Интеллектуальное сопоставление таблиц основано на имени столбца. Если в службе включена возможность автоматического создания таблиц, при наличии несовместимостей между исходным и целевым хранилищами выполняется преобразование типов данных. Если между исходным и целевым столбцами обнаружится преобразование неподдерживаемого типа данных, рядом с соответствующей таблицей появится сообщение об ошибке.

    Страница

  8. На странице Параметры сделайте следующее.

    1. Укажите CopyFromSQLToSQLDW в поле Имя задачи.

    2. В разделе Staging Settings (Промежуточные параметры) нажмите + Создать, чтобы создать промежуточное хранилище. Хранилище используется для промежуточного хранения данных перед загрузкой в Azure Synapse Analytics с помощью PolyBase. После завершения копирования промежуточные данные в Azure Blob Storage автоматически очищаются.

    3. На странице Новая связанная служба выберите свою учетную запись хранения и нажмите кнопку Создать, чтобы развернуть связанную службу.

    4. Снимите флажок Использовать тип по умолчанию и нажмите кнопку Далее.

    Настройка PolyBase

  9. На странице Сводка проверьте параметры и нажмите кнопку Далее.

  10. На странице Развертывание выберите Мониторинг, чтобы отслеживать созданный конвейер (задачу).

    Снимок экрана, на котором показана страница развертывания.

  11. Обратите внимание, что слева автоматически выбирается вкладка Мониторинг. Когда конвейер успешно выполнится, нажмите ссылку CopyFromSQLToSQLDW в столбце Имя конвейера, чтобы просмотреть сведения о выполнении действия или повторно запустить конвейер.


  1. Чтобы вернуться к представлению "Запуски конвейера", выберите ссылку Все запуски конвейеров в верхней части окна. Щелкните Обновить, чтобы обновить список.

    Мониторинг выполнения задач

  2. Чтобы отслеживать ход выполнения каждого действия копирования, нажмите ссылку Подробности (значок очков) в столбце Имя действия в окне выполнения действий. Вы можете отслеживать такие сведения, как объем данных, копируемых из источника в приемник, скорость передачи данных, шаги выполнения с соответствующей продолжительностью и используемые параметры конфигурации.

    Сначала проверьте детали выполнения активности

    Подробности выполнения операции — второй этап

Перейдите к следующей статье, чтобы узнать о поддержке Azure Synapse Analytics:

коннектор Azure Synapse Analytics