Поделиться через


Создание определения задания Apache Spark в Fabric

В этом руководстве описано, как создать определение задания Spark в Microsoft Fabric.

Процесс создания определения задания Spark является быстрым и простым; Существует несколько способов приступить к работе.

Определение задания Spark можно создать на портале Fabric или с помощью REST API Microsoft Fabric. В этой статье рассматривается создание определения задания Spark на портале Fabric. Сведения о создании определения задания Spark с помощью REST API см. в api определения заданий Apache Spark версии 1 и API определения заданий Apache Spark версии 2.

Необходимые компоненты

Перед началом работы вам потребуются:

При создании задания Spark необходимо указать имя задания Spark. Имя должно быть уникальным в текущей рабочей области. Новое определение задания Spark создается в текущей рабочей области.

Создание определения задания Spark на портале Fabric

Чтобы создать определение задания Spark на портале Fabric, выполните следующие действия.

  1. Войдите на портал Microsoft Fabric .
  2. Перейдите в нужную рабочую область, в которой необходимо создать определение задания Spark.
  3. Выберите Новый элемент>Определение задания Spark.
  4. В области "Новое определение задания Spark " укажите следующие сведения:
    • Имя: Введите уникальное имя для определения задания Spark.
    • Расположение. Выберите расположение рабочей области.
  5. Выберите "Создать", чтобы создать определение задания Spark.

Альтернативная точка входа для создания определения задания Spark — это аналитика данных с помощью плитки SQL ... на домашней странице Fabric. Вы можете найти тот же параметр, выбрав плитку General.

снимок экрана, показывающий, где выбрать определение задания Spark в центре создания.

При выборе плитки вам будет предложено создать новую рабочую область или выбрать существующую. После выбора рабочей области откроется страница создания определения задания Spark.

Настройка определения задания Spark для PySpark (Python)

Прежде чем создать определение задания Spark для PySpark, необходим пример файла Parquet, загруженного в lakehouse.

  1. Скачайте пример файла Parquet yellow_tripdata_2022-01.parquet.
  2. Перейдите в lakehouse, куда вы хотите загрузить файл.
  3. Загрузите его в секцию "Файлы" lakehouse.

Чтобы создать определение задания Spark для PySpark:

  1. Создайте новое определение задания Spark.

  2. Выберите PySpark (Python) в раскрывающемся списке "Язык ".

  3. Скачайте образец файла определения createTablefromParquet.py. Отправьте его в качестве основного файла определения. Файл основного определения (задание). Main) — это файл, содержащий логику приложения и обязательный для запуска задания Spark. Для каждого определения задания Spark можно отправить только один файл основного определения.

    Примечание.

    Вы можете отправить основной файл определения с локального рабочего стола или отправить из существующего azure Data Lake Storage (ADLS) 2-го поколения, предоставив полный путь ABFSS файла. Например, abfss://your-storage-account-name.dfs.core.windows.net/your-file-path.

  4. При необходимости отправьте ссылочные файлы в виде файлов Python .py. Ссылочные файлы — это модули Python, импортируемые основным файлом определения. Как и файл основного определения, вы можете отправить из рабочего стола или существующего ADLS 2-го поколения. Поддерживаются несколько ссылочных файлов.

    Совет

    Если вы используете путь ADLS 2-го поколения, убедитесь, что файл доступен. Вы должны предоставить учетной записи пользователя, выполняющей задание, соответствующие разрешения для доступа к учетной записи хранения. Ниже приведены два разных способа предоставления разрешения.

    • Назначьте учетную запись пользователя роль участника для учетной записи хранения.
    • Предоставьте разрешение на чтение и выполнение учетной записи пользователя для файла с помощью списка контроль доступа ADLS 2-го поколения (ACL).

    Для выполнения вручную учетная запись текущего пользователя, вошедшего в систему, используется для выполнения задания.

  5. При необходимости укажите аргументы командной строки для задания. Используйте пробел в качестве разбиения для разделения аргументов.

  6. Добавьте ссылку lakehouse на задание. Необходимо добавить в задание по крайней мере одну ссылку lakehouse. Это lakehouse — это контекст озера по умолчанию для задания.

    Поддерживаются несколько ссылок lakehouse. Найдите имя озера по умолчанию и полный URL-адрес OneLake на странице параметров Spark.

    Снимок экрана: пример заполненного экрана файла определения основного кода.

Настройка определения задания Spark для Scala/Java

Чтобы создать определение задания Spark для Scala/Java:

  1. Создайте новое определение задания Spark.

  2. Выберите Spark(Scala/Java) в раскрывающемся списке "Язык ".

  3. Отправьте основной файл определения в виде файла .jar Java. Основной файл определения — это файл, содержащий логику приложения этого задания и обязательный для запуска задания Spark. Для каждого определения задания Spark можно отправить только один файл основного определения. Укажите имя класса Main.

  4. При необходимости отправьте ссылочные файлы в виде .jar файлов Java. Ссылочные файлы — это файлы, на которые ссылается и импортируется основной файл определения.

  5. При необходимости укажите аргументы командной строки для задания.

  6. Добавьте ссылку lakehouse на задание. Необходимо добавить в задание по крайней мере одну ссылку lakehouse. Это lakehouse — это контекст озера по умолчанию для задания.

Настройка определения задания Spark для R

Создание определения задания Spark для SparkR(R):

  1. Создайте новое определение задания Spark.

  2. Выберите SparkR(R) в раскрывающемся списке "Язык ".

  3. Отправьте основной файл определения в формате файла .r R. Основной файл определения — это файл, содержащий логику приложения этого задания и обязательный для запуска задания Spark. Для каждого определения задания Spark можно отправить только один файл основного определения.

  4. При необходимости отправьте ссылочные файлы как .r R-файлы. Ссылочные файлы — это файлы, на которые ссылается или импортируется основной файл определения.

  5. При необходимости укажите аргументы командной строки для задания.

  6. Добавьте ссылку lakehouse на задание. Необходимо добавить в задание по крайней мере одну ссылку lakehouse. Это lakehouse — это контекст озера по умолчанию для задания.

Примечание.

Определение задания Spark создается в текущей рабочей области.

Параметры настройки определений заданий Spark

Существует несколько вариантов для дальнейшей настройки выполнения определений заданий Spark.

  • Вычисления Spark. На вкладке "Вычисления Spark " можно увидеть версию среды выполнения Fabric , которая используется для запуска задания Spark. Вы также можете просмотреть параметры конфигурации Spark, которые используются для выполнения задания. Параметры конфигурации Spark можно настроить, нажав кнопку "Добавить ".

  • Оптимизация. На вкладке "Оптимизация" можно включить и настроить политику повторных попыток для задания. Если этот параметр включен, задание выполняется повторно, если он завершается ошибкой. Можно также задать максимальное количество повторных попыток и интервал между повторными попытками. Для каждой попытки повтора задание перезапускается. Убедитесь, что задание идемпотентно.

    Снимок экрана: место настройки политики повторных попыток.