Поделиться через


pipelines группа команд

Note

Эта информация относится к Интерфейсу командной строки Databricks версии 0.205 и выше. Интерфейс командной строки Databricks находится в общедоступной предварительной версии.

Использование интерфейса командной строки Databricks подчиняется лицензии Databricks и уведомлению о конфиденциальности Databricks, включая любые положения о данных использования.

Группа pipelines команд в интерфейсе командной строки Databricks содержит два набора функций. Первый набор позволяет управлять проектом конвейера и его рабочим процессом. Второй набор позволяет создавать, изменять, удалять, запускать и просматривать сведения о объектах конвейера в Databricks.

Сведения о конвейерах см. в разделе "Декларативные конвейеры Lakeflow Spark".

Управление проектами конвейера

Следующие команды позволяют управлять конвейерами в проектах. Проект конвейеров — это пакет, который может содержать один или несколько объектов конвейера.

Развертывание конвейеров databricks

Развертывание конвейеров путем отправки всех файлов, определенных в проекте в целевую рабочую область, и создания или обновления конвейеров, определенных в рабочей области.

Это важно

Чтобы выполнить эту команду, файл декларативных пакетов databricks.yml автоматизации должен находиться в корне каталога проекта. Руководство по созданию проекта конвейера, а затем развертывание и запуск конвейера см. в разделе "Разработка конвейеров с помощью декларативных пакетов автоматизации".

databricks pipelines deploy [flags]

Arguments

None

Options

--auto-approve

    Пропуск интерактивных разрешений, которые могут потребоваться для развертывания

--fail-on-active-runs

    Ошибка, если в развертывании выполняются процессы конвейеров

--force-lock

    Принудительное приобретение блокировки развертывания. Этот параметр отключает механизм, который предотвращает взаимодействие параллельных развертываний друг с другом. Его следует использовать только в том случае, если предыдущее развертывание завершилось сбоем или было прервано и оставило устаревший файл блокировки.

Глобальные флаги

Уничтожены конвейеры databricks

Уничтожить проект конвейеров.

databricks pipelines destroy [flags]

Arguments

None

Options

--auto-approve

    Пропуск интерактивных утверждений для удаления конвейеров

--force-lock

    Принудительное приобретение блокировки развертывания. Этот параметр отключает механизм, который предотвращает взаимодействие параллельных развертываний друг с другом. Его следует использовать только в том случае, если предыдущее развертывание завершилось сбоем или было прервано и оставило устаревший файл блокировки.

Глобальные флаги

конвейеры Databricks, тестовый запуск

Проверяет корректность графа конвейера, определяемого с помощью KEY. Не материализует или не публикует наборы данных.

databricks pipelines dry-run [flags] [KEY]

Arguments

KEY

    Уникальное имя конвейера для сухого запуска, как определено в файле YAML. Если в проекте существует только один конвейер, KEY является необязательным, и конвейер выбирается автоматически.

Options

--no-wait

    Не ждите завершения выполнения

--restart

    Перезапустите запуск, если он уже запущен

Глобальные флаги

конвейеры databricks генерируются

Создайте конфигурацию для существующего конвейера Spark.

Эта команда ищет spark-pipeline.yml или *.spark-pipeline.yml файл в указанном каталоге и создает новый *.pipeline.yml файл конфигурации в resources папке проекта, который определяет конвейер. Если существует несколько spark-pipeline.yml файлов, укажите полный путь к конкретному *.spark-pipeline.yml файлу.

databricks pipelines generate [flags]

Note

Сведения о создании конфигурации для существующего конвейера в рабочей области Databricks см. в статье databricks bundle generate pipeline и создание конфигурации для существующей задачи или конвейера с использованием Databricks CLI.

Options

--existing-pipeline-dir

    Путь к существующему каталогу src конвейера (например, src/my_pipeline).

--force

    Перезаписать существующий файл конфигурации конвейера.

Глобальные флаги

Примеры

Следующий пример ищет в текущем каталоге и считывает src/my_pipeline/spark-pipeline.yml, а затем создает файл конфигурации resources/my_pipeline.pipeline.yml, который определяет конвейер.

databricks pipelines generate --existing-pipeline-dir src/my_pipeline

журнал историй потоков Databricks

Получите прошлые запуски конвейера, идентифицированного по KEY.

databricks pipelines history [flags] [KEY]

Arguments

KEY

    Уникальное имя конвейера, как определено в файле YAML. Если в проекте существует только один конвейер, KEY является необязательным, и конвейер выбирается автоматически.

Options

--end-time string

    Фильтрация обновлений до этого времени (формат: 2025-01-15T10:30:00Z)

--start-time string

    Фильтрация обновлений после этого времени (формат: 2025-01-15T10:30:00Z)

Глобальные флаги

databricks pipelines init

Инициализация нового проекта конвейеров.

Руководство по созданию, развертыванию и запуску проекта конвейера с помощью интерфейса командной строки Databricks см. в статье "Разработка конвейеров с помощью декларативных пакетов автоматизации".

databricks pipelines init [flags]

Arguments

None

Options

--config-file string

    JSON-файл, содержащий пары значений ключа входных параметров, необходимых для инициализации шаблона

--output-dir string

    Каталог для записи инициализированного шаблона

Глобальные флаги

Журналы конвейеров Databricks

Получение событий для конвейера, определяемого с помощью KEY. По умолчанию эта команда показывает события последнего обновления конвейера.

databricks pipelines logs [flags] [KEY]

Arguments

KEY

    Уникальное имя конвейера, как определено в файле YAML. Если в проекте существует только один конвейер, KEY является необязательным, и конвейер выбирается автоматически.

Options

--end-time string

    Фильтрация событий, предшествующих этому времени окончания (формат: 2025-01-15T10:30:00Z)

--event-type strings

    Фильтрация событий по списку типов событий

--level strings

    Фильтрация событий по списку уровней журнала (INFO, WARN, ERROR) METRICS

-n, --number int

    Количество возвращаемых событий

--start-time string

    Фильтрация событий после этого времени начала (формат: 2025-01-15T10:30:00Z)

--update-id string

    Фильтрация событий по идентификатору обновления. Если он не указан, использует идентификатор последнего обновления.

Глобальные флаги

Примеры

databricks pipelines logs pipeline-name --update-id update-1 -n 10
databricks pipelines logs pipeline-name --level ERROR,METRICS --event-type update_progress --start-time 2025-01-15T10:30:00Z

конвейеры databricks открыты

Откройте конвейер в браузере, идентифицируемый по KEY.

databricks pipelines open [flags] [KEY]

Arguments

KEY

    Уникальное имя открываемого конвейера, как определено в файле YAML. Если в проекте существует только один конвейер, KEY является необязательным, и конвейер выбирается автоматически.

Options

--force-pull

    Пропуск локального кэша и загрузка состояния из удаленной рабочей области

Глобальные флаги

запуск конвейеров databricks

Запустите конвейер, определенный KEY. Обновляет все таблицы в конвейере, если не указано иное.

Это важно

Чтобы выполнить эту команду, файл декларативных пакетов databricks.yml автоматизации должен находиться в корне каталога проекта, а конвейер должен быть уже развернут. Руководство по созданию проекта конвейера, а затем развертывание и запуск конвейера см. в разделе "Разработка конвейеров с помощью декларативных пакетов автоматизации".

databricks pipelines run [flags] [KEY]

Arguments

KEY

    Уникальное имя выполняемого конвейера, как определено в файле YAML. Если в проекте существует только один конвейер, KEY является необязательным, и конвейер выбирается автоматически.

Options

--full-refresh strings

    Список таблиц для сброса и повторной компиляции

--full-refresh-all

    Выполнить полный сброс графа и переподсчёт

--no-wait

    Не ждите завершения выполнения

--refresh strings

    Список таблиц для запуска

--restart

    Перезапустите запуск, если он уже запущен

Глобальные флаги

Остановка конвейеров Databricks

Остановите конвейер, если он выполняется, идентифицируемый по KEY или PIPELINE_ID. Если для конвейера нет активного обновления, этот запрос является no-op.

databricks pipelines stop [KEY|PIPELINE_ID] [flags]

Arguments

KEY

    Уникальное имя конвейера для остановки, как определено в файле YAML. Если в проекте существует только один конвейер, KEY является необязательным, и конвейер выбирается автоматически.

PIPELINE_ID

    UUID идентификатор конвейера, который нужно остановить.

Options

--no-wait

    Не ждите перехода в состояние IDLE

--timeout duration

    максимальное время достижения состояния IDLE (по умолчанию 20m0s)

Глобальные флаги

Управление объектами конвейера

Следующие команды позволяют управлять объектами конвейера в Databricks. Объект конвейера — это один конвейер в проекте.

Создание конвейеров Databricks

Создайте конвейер обработки данных на основе запрошенной конфигурации. При успешном выполнении эта команда возвращает идентификатор нового конвейера.

databricks pipelines create [flags]

Arguments

None

Options

--json JSON

    Строка JSON inline или @path к JSON-файлу с телом запроса.

Глобальные флаги

Удаление конвейеров Databricks

Удаление конвейера.

databricks pipelines delete PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    Конвейер данных для удаления.

Options

Глобальные флаги

получение пайплайнов Databricks

Получение конвейера.

databricks pipelines get PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    Конвейер для получения.

Options

Глобальные флаги

Конвейеры Databricks обновление-получить

Получение обновления из активного потока.

databricks pipelines get-update PIPELINE_ID UPDATE_ID [flags]

Arguments

PIPELINE_ID

    Идентификатор конвейера.

UPDATE_ID

    Идентификатор обновления.

Options

Глобальные флаги

databricks pipelines list-pipeline-events (команда для отображения списка событий в конвейере)

Получение событий для конвейера.

databricks pipelines list-pipeline-events PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    Канал для получения событий.

Options

--filter string

    Критерии для выбора подмножества результатов, выраженных с помощью синтаксиса, аналогичного SQL.

--max-results int

    Максимальное количество записей, возвращаемых на одной странице.

--page-token string

    Маркер страницы, возвращаемый предыдущим вызовом.

Глобальные флаги

командa 'databricks pipelines list-pipelines' для перечисления конвейеров в Databricks

Перечислите потоки, определенные в системе Delta Live Tables.

databricks pipelines list-pipelines [flags]

Arguments

None

Options

--filter string

    Выберите подмножество результатов на основе указанных критериев.

--max-results int

    Максимальное количество записей, которые можно вернуть на одной странице.

--page-token string

    Маркер страницы, возвращаемый предыдущим вызовом.

Глобальные флаги

databricks pipelines показать-обновления

Перечисление обновлений для активного конвейера.

databricks pipelines list-updates PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    Конвейер для возврата обновлений.

Options

--max-results int

    Максимальное количество записей, возвращаемых на одной странице.

--page-token string

    Маркер страницы, возвращаемый предыдущим вызовом.

--until-update-id string

    Если указано, возвращает обновления вплоть до указанного update_id включительно.

Глобальные флаги

конвейеры databricks start-update

Запустите новое обновление для конвейера. Если для конвейера уже есть активное обновление, запрос завершится ошибкой, и активное обновление останется запущенным.

databricks pipelines start-update PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    Конвейер для запуска обновления.

Options

--cause StartUpdateCause

    Поддерживаемые значения: [API_CALL, JOB_TASK, RETRY_ON_FAILURE, SCHEMA_CHANGE, SERVICE_UPGRADE, USER_ACTION]

--full-refresh

    Если истинно, это обновление сбросит все таблицы перед выполнением.

--json JSON

    Строка JSON inline или @path к JSON-файлу с телом запроса.

--validate-only

    Если значение true, это обновление проверяет правильность исходного кода конвейера, но не материализует или не публикует наборы данных.

Глобальные флаги

Обновление конвейеров Databricks

Обновите конвейер с указанной конфигурацией.

databricks pipelines update PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    Уникальный идентификатор для этого конвейера.

Options

--allow-duplicate-names

    Если значение false, развертывание завершится ошибкой, если имя изменилось, и оно конфликтует с именем другого конвейера.

--budget-policy-id string

    Бюджетная политика этого проекта.

--catalog string

    Каталог в каталоге Unity для публикации данных из этого конвейера.

--channel string

    Канал выпуска Lakeflow для декларативных конвейеров Spark, который указывает, какую версию использовать.

--continuous

    Выполняется ли конвейер непрерывным или запускается.

--development

    Указывает, находится ли конвейер в режиме разработки.

--edition string

    Выпуск продукта конвейера.

--expected-last-modified int

    Если это значение присутствует, время последнего изменения параметров конвейера до редактирования.

--id string

    Уникальный идентификатор для этого конвейера.

--json JSON

    Строка JSON inline или @path к JSON-файлу с телом запроса.

--name string

    Понятный идентификатор для этого конвейера.

--photon

    Включён ли фотон для этого конвейера.

--pipeline-id string

    Уникальный идентификатор для этого конвейера.

--schema string

    Схема по умолчанию (база данных), из которой извлекаются таблицы или в которую они записываются.

--serverless

    Включена ли бессерверная вычислительная мощность для этого конвейера?

--storage string

    Корневой каталог DBFS для хранения контрольных точек и таблиц.

--target string

    Целевая схема (база данных) для добавления таблиц в этот конвейер.

Глобальные флаги

конвейеры обработки данных databricks с уровнями доступа

Получение уровней разрешений конвейера.

databricks pipelines get-permission-levels PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    Конвейер, для которого нужно получить или управлять разрешениями.

Options

Глобальные флаги

databricks pipelines получить разрешения

Получение разрешений потока обработки данных. Конвейеры могут наследовать разрешения от корневого объекта.

databricks pipelines get-permissions PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    Конвейер, для которого нужно получить или управлять разрешениями.

Options

Глобальные флаги

databricks pipelines установить-разрешения

Задайте разрешения конвейера.

Задает разрешения для объекта, заменив существующие разрешения, если они существуют. Удаляет все прямые разрешения, если они не указаны. Объекты могут наследовать разрешения от корневого объекта.

databricks pipelines set-permissions PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    Конвейер, для которого нужно получить или управлять разрешениями.

Options

--json JSON

    Строка JSON inline или @path к JSON-файлу с телом запроса.

Глобальные флаги

Обновление разрешений конвейеров в Databricks

Обновите разрешения для конвейера. Конвейеры могут наследовать разрешения от корневого объекта.

databricks pipelines update-permissions PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    Конвейер, для которого нужно получить или управлять разрешениями.

Options

--json JSON

    Строка JSON inline или @path к JSON-файлу с телом запроса.

Глобальные флаги

Глобальные флаги

--debug

  Следует ли включить ведение журнала отладки.

-h или --help

    Отобразить справку по интерфейсу командной строки Databricks, связанной группе команд или отдельной команде.

--log-file струна

    Строка, представляющая файл для записи журналов выходных данных. Если этот флаг не указан, по умолчанию используется запись журналов выходных данных в stderr.

--log-format формат

    Тип формата журнала: text или json. Значение по умолчанию — text.

--log-level струна

    Строка, представляющая уровень формата журнала. Если не указано, уровень формата журнала отключен.

типа -o, --output

    Тип выходных данных команды: text или json. Значение по умолчанию — text.

-p, --profile струна

    Имя профиля в ~/.databrickscfg файле, используемого для выполнения команды. Если флаг не указан, используется профиль DEFAULT, если он существует.

--progress-format формат

    Формат для отображения журналов хода выполнения: default, appendinplace, илиjson

-t, --target струна

    Если применимо, целевой объект пакета для использования