Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Декларативные пакеты автоматизации (ранее известные как пакеты ресурсов Databricks) позволяют программно проверять, развертывать и запускать ресурсы Azure Databricks, такие как Декларативные конвейеры Spark Lakeflow. См. что такое декларативные пакеты автоматизации.
На этой странице описывается создание пакета для программного управления конвейером. См. Lakeflow Spark декларативные конвейеры. Пакет создается с помощью команды CLI pipelines initDatabricks, которая определяет конвейер ETL и задание для его запуска. Затем вы проверяете, развертываете и запускаете развернутый конвейер в рабочей области Azure Databricks на бессерверных вычислительных ресурсах.
Совет
Если у вас есть существующие конвейеры, созданные с помощью пользовательского интерфейса Azure Databricks или API, которые необходимо переместить в пакеты, необходимо определить их в файлах конфигурации пакета. Databricks рекомендует сначала создать пакет, выполнив приведенные ниже действия, а затем добавить конфигурацию и другие источники в пакет. См. статью "Получение существующего определения конвейера с помощью пользовательского интерфейса".
Требования
- Databricks CLI версии 0.283.0 или более поздней. Чтобы проверить установленную версию интерфейса командной строки Databricks, выполните команду
databricks -v. Чтобы установить интерфейс командной строки Databricks, см. статью "Установка или обновление интерфейса командной строки Databricks". - Uv требуется для выполнения тестов и установки зависимостей для этого проекта из интегрированной среды разработки.
- Удаленная рабочая область должна иметь включенные файлы рабочей области. См. раздел "Что такое файлы рабочей области?".
- Существующий каталог данных для таблиц в потоке обработки. См. Создание каталогов.
(Необязательно) Установка модуля Python для поддержки разработки локальных конвейеров
Databricks предоставляет модуль Python для поддержки локальной разработки кода Декларативных конвейеров Lakeflow Spark, предоставляя проверку синтаксиса, автозавершение и проверку типов данных при написании кода в интегрированной среде разработки.
Модуль Python для локальной разработки доступен в PyPi. Чтобы установить модуль, см. заглушка Python для DLT.
Шаг 1. Настройка проверки подлинности
Сначала настройте проверку подлинности между Интерфейсом командной строки Databricks на компьютере разработки и рабочей областью Azure Databricks. На этой странице предполагается, что вы хотите использовать аутентификацию OAuth пользователь-к-машине (U2M) и соответствующий профиль конфигурации Azure Databricks с именем DEFAULT для аутентификации.
Примечание.
Проверка подлинности U2M подходит для выполнения этих действий в режиме реального времени. Для полностью автоматизированных рабочих процессов Databricks рекомендует использовать аутентификацию OAuth «машина-машина» (M2M). Инструкции по настройке проверки подлинности M2M см. в статье "Авторизация доступа субъекта-службы к Azure Databricks с помощью OAuth".
Используйте интерфейс командной строки Databricks для локального запуска управления маркерами OAuth, выполнив следующую команду для каждой целевой рабочей области.
В следующей команде замените
<workspace-url>на ваш URL-адрес Azure Databricks для рабочей области, напримерhttps://adb-1234567890123456.7.azuredatabricks.net.databricks auth login --host <workspace-url>Интерфейс командной строки Databricks предлагает сохранить сведения, введенные в качестве профиля конфигурации Azure Databricks. Нажмите,
Enterчтобы принять предлагаемое имя профиля, или введите имя нового или существующего профиля. Любой существующий профиль с тем же именем перезаписывается с введенными сведениями. Профили можно использовать для быстрого переключения контекста проверки подлинности в нескольких рабочих областях.Чтобы получить список существующих профилей в отдельном терминале или командной строке, используйте интерфейс командной строки Databricks для выполнения команды
databricks auth profiles. Чтобы просмотреть существующие параметры конкретного профиля, выполните командуdatabricks auth env --profile <profile-name>.В веб-браузере выполните инструкции на экране, чтобы войти в рабочую область Azure Databricks.
Чтобы просмотреть текущее значение маркера OAuth профиля и метку времени окончания срока действия маркера, выполните одну из следующих команд:
databricks auth token --host <workspace-url>databricks auth token -p <profile-name>databricks auth token --host <workspace-url> -p <profile-name>
Если у вас есть несколько профилей с одинаковым значением
--host, может потребоваться указать параметры--hostи-pвместе, чтобы помочь Databricks CLI найти правильные данные о соответствии маркера OAuth.
Шаг 2. Создание пакета
Инициализация пакета с помощью конвейера:
Используйте терминал или командную строку, чтобы переключиться в каталог на локальном компьютере разработки, который будет содержать созданный пакет шаблона.
Используйте CLI Databricks, чтобы выполнить команду
pipelines init.databricks pipelines initОставьте значение по умолчанию параметра
Unique name for this project, либо введите другое значение, а затем нажмитеmy_pipeline_project. Это определяет имя корневого каталога для этого пакета. Этот корневой каталог создается в текущем рабочем каталоге.Введите
Initial catalogимя существующего каталога Unity.Для
Use a personal schema for each user working on this project?, выберитеyes.Для
Initial language for this project, выберитеpython.
Шаг 3. Изучение пакета
Чтобы просмотреть файлы, созданные шаблоном, переключитесь в корневой каталог созданного пакета. Следующая структура создается по умолчанию:
my_pipeline_project
├── databricks.yml
├── pyproject.toml
├── README.md
├── resources
│ ├── my_pipeline_project_etl.pipeline.yml
│ └── sample_job.job.yml
└── src
└── my_pipeline_project_etl
├── explorations
│ └── sample_exploration.ipynb
├── README.md
└── transformations
├── sample_trips_my_pipeline_project.py
└── sample_zones_my_pipeline_project.py
К файлам, интересующим особый интерес, относятся следующие:
databricks.yml: этот файл указывает программное имя пакета, содержит ссылки на файлы пакета, определяет переменные каталога и схемы и задает параметры для целевых рабочих областей.resources/sample_job.job.ymlиresources/<project-name>_etl_pipeline.yml: эти файлы определяют задание, содержащее задачу обновления конвейера, и параметры конвейера. Сведения о параметрах конвейера см. в разделе "Конвейер".src/: эта папка содержит исходные файлы примера конвейера, исследования и преобразования.Совет
Если вы добавляете тесты, используйте
pytestдля их выполнения локально.uv run pytestREADME.md: этот файл содержит дополнительные сведения о начале работы и использовании этого шаблона пакета.
Шаг 4. Проверка конфигурации пакета
Теперь проверьте, допустима ли конфигурация пакета.
Из корневого каталога используйте интерфейс командной строки Databricks для выполнения команды
bundle validate.databricks bundle validateЕсли возвращается сводка конфигурации пакета, проверка выполнена успешно. Если возвращаются какие-либо ошибки, исправьте ошибки и повторите этот шаг.
Шаг 5. Развертывание конвейера в удаленной рабочей области
Затем разверните пакет в удаленной рабочей области Azure Databricks и проверьте конвейер в рабочей области.
В корневом каталоге пакета используйте команду Databricks CLI
deploy.databricks bundle deploy --target devИли:
databricks pipelines deploy --target devПримечание.
Шаблон по умолчанию включает задание, которое выполняет конвейер каждый день, но приостанавливается для целевого
devрежима развертывания. См. режимы развертывания декларативных пакетов автоматизации.Убедитесь, что пакет был развернут:
- На боковой панели рабочей области Azure Databricks щелкните "Рабочая область".
- Щелкните папку "Пользователи" >
<your-username>>.bundleи найдите проект пакета.
Проверьте, была ли создана ваша производственная цепочка.
- На боковой панели рабочей области Azure Databricks щелкните "Задания и конвейеры".
- При необходимости выберите фильтры "Конвейеры " и " Принадлежащие мне ".
- Щелкните [dev
<your-username>]<project-name>_etl.
При внесении изменений в пакет после этого шага необходимо повторить шаги 4–5, чтобы проверить, действительна ли конфигурация пакета, а затем повторно разверните проект.
Шаг 6. Запуск развернутого конвейера
Теперь активируйте запуск конвейера в рабочей области из командной строки.
В корневом каталоге используйте команду Databricks CLI
pipelines run. Если в проекте существует только один конвейер, вам не нужно указывать имя конвейера.databricks pipelines run my_pipeline_project_etl --target devСкопируйте значение, которое отображается в терминале и вставьте это значение
Update URLв веб-браузер, чтобы открыть рабочую область Azure Databricks.В рабочей области Azure Databricks после успешного завершения работы сборки щелкните по материализованным представлениям, чтобы просмотреть детали каждого представления.
При внесении изменений в пакет после этого шага необходимо повторить шаги 4-6, чтобы проверить, действительна ли конфигурация пакета, повторно разверните проект и запустите повторно развернутый проект.
Шаг 7. Журнал выходных данных и журналы событий
Сведения, предоставляемые командами pipelines history , pipelines logs могут помочь диагностировать сбои.
Чтобы получить прошлые запуски для конвейера, выполните следующие действия.
databricks pipelines history my_pipeline_project_etl
Updates Summary for pipeline my_pipeline_project_etl:
Update ID: a62293ec-8a63-43b7-8629-b218d56dac7c
State: COMPLETED
Cause: API_CALL
Creation Time: 2026-01-29T23:16:14Z
Full Refresh: false
Validate Only: false
Чтобы вывести (в ФОРМАТЕ JSON) события последнего обновления конвейера:
databricks pipelines logs my_pipeline_project_etl
Используется jq для фильтрации результатов. Смотрите фильтрацию выходных данных JSON с помощью jq.
Шаг 8. Очистка
На этом шаге вы удалите развернутый пакет и конвейер из рабочей области.
Из корневого каталога используйте интерфейс командной строки Databricks для выполнения команды
pipelines destroy.databricks pipelines destroy --target devПри появлении запроса на постоянное уничтожение ресурсов, конвейера и таблиц и представлений, управляемых конвейером, введите
yи нажмите клавишуEnter.Если вы также хотите удалить пакет с компьютера разработки, теперь можно удалить локальный каталог проекта.