Поделиться через


Сопоставление потоков данных в Фабрика данных Azure

ПРИМЕНИМО К: Фабрика данных Azure Azure Synapse Analytics

Совет

Data Factory в Microsoft Fabric — это следующее поколение Фабрика данных Azure с более простой архитектурой, встроенным ИИ и новыми функциями. Если вы не знакомы с интеграцией данных, начните с Fabric Data Factory. Существующие рабочие нагрузки ADF могут обновляться до Fabric для доступа к новым возможностям в области обработки и анализа данных, аналитики в режиме реального времени и отчетов.

Что такое сопоставление потоков данных?

Создание потоков данных в Фабрика данных Azure представляет собой визуальное проектирование преобразования данных. Потоки данных позволяют инженерам по обработке данных разрабатывать логику преобразования данных без написания кода. Результирующие потоки данных выполняются в качестве действий в конвейерах Фабрика данных Azure, которые используют масштабируемые кластеры Apache Spark. Действия потока данных могут быть выполнены с применением возможностей планирования, управления, потоков и мониторинга, имеющихся в Фабрика данных Azure.

Потоки данных для сопоставления обеспечивают полностью визуальный интерфейс без необходимости написания кода. Ваши потоки данных выполняются на кластерах выполнения, управляемых ADF, для масштабируемой обработки данных. Фабрика данных Azure обрабатывает все операции преобразования кода, оптимизации пути и выполнения заданий потока данных.

Начало работы

Потоки данных создаются на панели ресурсов фабрики, например, конвейеры и наборы данных. Чтобы создать data flow, выберите знак плюса рядом с Factory Resources, а затем выберите Поток данных.

Снимок экрана показывает новый поток данных. Это действие переносит вас на холст потоков данных, где вы можете создать логику преобразования. Выберите Добавить источник, чтобы начать настройку преобразования источника. Дополнительные сведения см. в статье Преобразование источника.

Создание потоков данных

У потока данных для сопоставления есть уникальный холст, предназначенный для упрощения создания логики преобразования. Холст потока данных разделен на три части: верхняя панель, диаграмма и панель конфигурации.

На снимке экрана показано полотно потока данных с верхней панелью, диаграммой и панелью конфигурации с подписями.

График

Диаграмма отображает поток преобразования. Здесь показано происхождение исходных данных по мере их перемещения в один или несколько приемников. Приемники могут быть любыми местами назначения для результатов преобразованных данных, куда вы хотите их переместить. Чтобы добавить новый источник, выберите Добавить источник. Чтобы добавить новое преобразование, щелкните знак "плюс" в правом нижнем углу существующего преобразования. Узнайте больше о том, как управлять диаграммой потока данных.

На снимке экрана показана часть диаграммы холста с текстовым полем поиска.

Панель конфигурации

На панели конфигурации отображаются параметры, относящиеся к текущему выбранному преобразованию. Если преобразование не выбрано, то отображается поток данных. В общей конфигурации потока данных можно добавить параметры с помощью вкладки Параметры. Дополнительные сведения см. в разделе Параметры потока данных для сопоставления.

Каждое преобразование содержит по крайней мере четыре вкладки конфигурации.

Параметры преобразования

Первая вкладка в области конфигурации каждого преобразования содержит параметры, относящиеся к этому преобразованию. Дополнительные сведения см. на странице документации по преобразованию.

Снимок экрана: вкладка

Оптимизация

Вкладка Оптимизация содержит параметры для настройки схем секционирования. Чтобы узнать больше о том, как оптимизировать потоки данных, см. руководство по улучшению производительности потоков данных при их сопоставлении.

Снимок экрана: вкладка

Проверка

Вкладка Проверка содержит метаданные потока данных, который вы преобразуете. Можно просмотреть количество столбцов, изменить столбцы, добавить столбцы, типы данных, порядок столбцов и ссылки на столбцы. Инспектирование — это представление метаданных только для чтения. Для просмотра метаданных в области Проверка не нужно включать режим отладки.

Проверка

При изменении формы данных с помощью преобразований вы увидите поток изменений метаданных в области "Проверка ". Если в преобразовании источника не определена схема, метаданные не отображаются на панели проверки . Отсутствие метаданных часто встречается в сценариях смещения схемы.

Предварительный просмотр данных

Если включен режим отладки, на вкладке Предварительный просмотр данных отображается интерактивный моментальный снимок данных при каждом преобразовании. Дополнительные сведения см. в статье Предварительный просмотр данных в режиме отладки.

Верхняя панель

Верхняя панель содержит действия, влияющие на весь поток данных, например, на его сохранение и проверку. Можно также просмотреть базовый код JSON и скрипт потока данных для логики преобразования. Дополнительные сведения см. в статье о сценарии потока данных.

Доступные преобразования

Просмотрите обзор преобразования потока данных для сопоставления, чтобы получить список доступных преобразований.

Типы данных потока данных

  • массив
  • двоичный
  • boolean
  • сложный
  • десятичный (включает точность представления)
  • Дата
  • флоат
  • целое число
  • длинный
  • карта
  • короткий
  • строка
  • метка времени

Активность потока данных

Потоки данных сопоставления операционизируются в конвейерах Azure Data Factory с помощью действия потока данных. Все, что пользователь должен сделать, — это указать, какую среду выполнения интеграции использовать, и передать значения параметров. Дополнительные сведения см. о Azure Integration Runtime.

Режим отладки

Режим отладки позволяет интерактивно просматривать результаты каждого шага преобразования во время сборки и отладки потоков данных. Сеанс отладки можно использовать как при создании логики потока данных, так и при запуске отладки конвейера с использованием действий потока данных. Чтобы узнать больше, см. документацию по режиму отладки.

Мониторинг потоков данных

Поток сопоставления данных интегрируется с существующими возможностями мониторинга в Фабрика данных Azure. Сведения о том, как понять выходные данные мониторинга потока данных, см. в разделе Мониторинг потоков данных для сопоставления.

Команда Фабрика данных Azure создала руководство по настройке перформанса, чтобы оптимизировать время выполнения потоков данных после создания бизнес-логики.