Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этом руководстве описано, как создать определение задания Spark в Microsoft Fabric.
Процесс создания определения задания Spark является быстрым и простым; Существует несколько способов приступить к работе.
Определение задания Spark можно создать на портале Fabric или с помощью REST API Microsoft Fabric. В этой статье рассматривается создание определения задания Spark на портале Fabric. Сведения о создании определения задания Spark с помощью REST API см. в api определения заданий Apache Spark версии 1 и API определения заданий Apache Spark версии 2.
Необходимые компоненты
Перед началом работы вам потребуются:
- Учетная запись клиента Fabric с активной подпиской. Создайте учетную запись бесплатно .
- Рабочая область в Microsoft Fabric. Дополнительные сведения см. в статье "Создание рабочих областей и управление ими" в Microsoft Fabric.
- По крайней мере один лейкхаус в рабочей области. Lakehouse служит файловой системой по умолчанию для определения задания Spark. Дополнительные сведения см. в разделе "Создание озера".
- Основной файл определения для задания Spark. Этот файл содержит логику приложения и является обязательным для запуска задания Spark. Каждое определение задания Spark может содержать только один основной файл определения.
При создании задания Spark необходимо указать имя задания Spark. Имя должно быть уникальным в текущей рабочей области. Новое определение задания Spark создается в текущей рабочей области.
Создание определения задания Spark на портале Fabric
Чтобы создать определение задания Spark на портале Fabric, выполните следующие действия.
- Войдите на портал Microsoft Fabric .
- Перейдите в нужную рабочую область, в которой необходимо создать определение задания Spark.
- Выберите Новый элемент>Определение задания Spark.
- В области "Новое определение задания Spark " укажите следующие сведения:
- Имя: Введите уникальное имя для определения задания Spark.
- Расположение. Выберите расположение рабочей области.
- Выберите "Создать", чтобы создать определение задания Spark.
Альтернативная точка входа для создания определения задания Spark — это аналитика данных с помощью плитки SQL ... на домашней странице Fabric. Вы можете найти тот же параметр, выбрав плитку General.
При выборе плитки вам будет предложено создать новую рабочую область или выбрать существующую. После выбора рабочей области откроется страница создания определения задания Spark.
Настройка определения задания Spark для PySpark (Python)
Прежде чем создать определение задания Spark для PySpark, необходим пример файла Parquet, загруженного в lakehouse.
- Скачайте пример файла Parquet yellow_tripdata_2022-01.parquet.
- Перейдите в lakehouse, куда вы хотите загрузить файл.
- Загрузите его в секцию "Файлы" lakehouse.
Чтобы создать определение задания Spark для PySpark:
Выберите PySpark (Python) в раскрывающемся списке "Язык ".
Скачайте образец файла определения createTablefromParquet.py. Отправьте его в качестве основного файла определения. Файл основного определения (задание). Main) — это файл, содержащий логику приложения и обязательный для запуска задания Spark. Для каждого определения задания Spark можно отправить только один файл основного определения.
Примечание.
Вы можете отправить основной файл определения с локального рабочего стола или отправить из существующего azure Data Lake Storage (ADLS) 2-го поколения, предоставив полный путь ABFSS файла. Например,
abfss://your-storage-account-name.dfs.core.windows.net/your-file-path.При необходимости отправьте ссылочные файлы в виде файлов Python
.py. Ссылочные файлы — это модули Python, импортируемые основным файлом определения. Как и файл основного определения, вы можете отправить из рабочего стола или существующего ADLS 2-го поколения. Поддерживаются несколько ссылочных файлов.Совет
Если вы используете путь ADLS 2-го поколения, убедитесь, что файл доступен. Вы должны предоставить учетной записи пользователя, выполняющей задание, соответствующие разрешения для доступа к учетной записи хранения. Ниже приведены два разных способа предоставления разрешения.
- Назначьте учетную запись пользователя роль участника для учетной записи хранения.
- Предоставьте разрешение на чтение и выполнение учетной записи пользователя для файла с помощью списка контроль доступа ADLS 2-го поколения (ACL).
Для выполнения вручную учетная запись текущего пользователя, вошедшего в систему, используется для выполнения задания.
При необходимости укажите аргументы командной строки для задания. Используйте пробел в качестве разбиения для разделения аргументов.
Добавьте ссылку lakehouse на задание. Необходимо добавить в задание по крайней мере одну ссылку lakehouse. Это lakehouse — это контекст озера по умолчанию для задания.
Поддерживаются несколько ссылок lakehouse. Найдите имя озера по умолчанию и полный URL-адрес OneLake на странице параметров Spark.
Настройка определения задания Spark для Scala/Java
Чтобы создать определение задания Spark для Scala/Java:
Выберите Spark(Scala/Java) в раскрывающемся списке "Язык ".
Отправьте основной файл определения в виде файла
.jarJava. Основной файл определения — это файл, содержащий логику приложения этого задания и обязательный для запуска задания Spark. Для каждого определения задания Spark можно отправить только один файл основного определения. Укажите имя класса Main.При необходимости отправьте ссылочные файлы в виде
.jarфайлов Java. Ссылочные файлы — это файлы, на которые ссылается и импортируется основной файл определения.При необходимости укажите аргументы командной строки для задания.
Добавьте ссылку lakehouse на задание. Необходимо добавить в задание по крайней мере одну ссылку lakehouse. Это lakehouse — это контекст озера по умолчанию для задания.
Настройка определения задания Spark для R
Создание определения задания Spark для SparkR(R):
Выберите SparkR(R) в раскрывающемся списке "Язык ".
Отправьте основной файл определения в формате файла
.rR. Основной файл определения — это файл, содержащий логику приложения этого задания и обязательный для запуска задания Spark. Для каждого определения задания Spark можно отправить только один файл основного определения.При необходимости отправьте ссылочные файлы как
.rR-файлы. Ссылочные файлы — это файлы, на которые ссылается или импортируется основной файл определения.При необходимости укажите аргументы командной строки для задания.
Добавьте ссылку lakehouse на задание. Необходимо добавить в задание по крайней мере одну ссылку lakehouse. Это lakehouse — это контекст озера по умолчанию для задания.
Примечание.
Определение задания Spark создается в текущей рабочей области.
Параметры настройки определений заданий Spark
Существует несколько вариантов для дальнейшей настройки выполнения определений заданий Spark.
Вычисления Spark. На вкладке "Вычисления Spark " можно увидеть версию среды выполнения Fabric , которая используется для запуска задания Spark. Вы также можете просмотреть параметры конфигурации Spark, которые используются для выполнения задания. Параметры конфигурации Spark можно настроить, нажав кнопку "Добавить ".
Оптимизация. На вкладке "Оптимизация" можно включить и настроить политику повторных попыток для задания. Если этот параметр включен, задание выполняется повторно, если он завершается ошибкой. Можно также задать максимальное количество повторных попыток и интервал между повторными попытками. Для каждой попытки повтора задание перезапускается. Убедитесь, что задание идемпотентно.