Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
AutoML упрощает процесс применения машинного обучения к наборам данных, автоматически найдя оптимальный алгоритм и конфигурацию гиперпараметров.
Примечание.
В Databricks Runtime 18.0 ML или более поздней версии AutoML не входит в встроенную библиотеку.
Как работает AutoML?
Укажите набор данных и укажите тип проблемы машинного обучения, а затем AutoML выполняет следующие действия:
- Очищает и подготавливает данные.
- Оркеструет настройку распределенной модели обучения и гиперпараметра в нескольких алгоритмах.
- Находит лучшую модель с помощью алгоритмов оценки открытый код из scikit-learn, xgboost, LightGBM, Пророка и ARIMA.
- Отображает результаты. AutoML также создает записные книжки исходного кода для каждой пробной версии, позволяя просматривать, воспроизводить и изменять код по мере необходимости.
Начните работу с экспериментами AutoML с помощью интерфейса low-code для регрессии, классификацииили прогнозирования, или API Python.
Требования
AutoML зависит от
databricks-automl-runtimeпакета, содержащего компоненты, которые полезны за пределами AutoML, а также упрощают создание записных книжек, созданных с помощью обучения AutoML.databricks-automl-runtimeдоступен в PyPI.Дополнительные библиотеки, отличные от предварительно установленных в Databricks Runtime для Машинное обучение, не должны быть установлены в кластере.
- Любое изменение (удаление, обновление или понижение) до существующих версий библиотек приводит к сбоям при выполнении из-за несовместимости.
Чтобы получить доступ к файлам в рабочей области, необходимо открыть сетевые порты 1017 и 1021 для экспериментов AutoML. Чтобы открыть эти порты или убедиться, что они открыты, просмотрите конфигурацию брандмауэра и правила группы безопасности облака облака или обратитесь к локальному администратору облака. Дополнительные сведения о настройке и развертывании рабочей области см. в статье "Создание рабочей области".
Используйте вычислительный ресурс с поддерживаемым режимом доступа к вычислительным ресурсам. Не все режимы доступа к вычислительным ресурсам имеют доступ к каталогу Unity:
Режим доступа к вычислительным ресурсам Поддержка AutoML Поддержка каталога Unity Выделенный (ранее однопользовательский) Поддерживается Поддерживается Standard (ранее разделяемое) Не поддерживается Поддерживается Отсутствие общего доступа к изоляции Поддерживается Не поддерживается
Алгоритмы AutoML
AutoML обучает и оценивает модели на основе алгоритмов в следующей таблице.
Примечание.
Для моделей классификации и регрессии дерево принятия решений, случайные леса, логистическая регрессия и линейная регрессия с алгоритмами градиента стохастического градиента основаны на Scikit-learn.
| Classification models (Модели классификации) | Модели регрессии | Модели прогнозирования | Модели прогнозирования (бессерверные) |
|---|---|---|---|
| Деревья принятия решений | Деревья принятия решений | Пророк | Пророк |
| Случайные леса | Случайные леса | Auto-ARIMA (доступно в Databricks Runtime 10.3 ML и более поздних версий). | Auto-ARIMA |
| Логистическая регрессия | Линейная регрессия с использованием стохастического градиентного спуска | DeepAR | |
| XGBoost | XGBoost | ||
| LightGBM | LightGBM |
Создание пробной записной книжки
Классическое вычисление AutoML создает записные книжки исходного кода за пробными версиями, чтобы вы могли просматривать, воспроизводить и изменять код по мере необходимости.
Для экспериментов прогнозирования записные книжки, созданные autoML, автоматически импортируются в рабочую область для всех пробных версий эксперимента.
Для экспериментов классификации и регрессии записные книжки, созданные AutoML для изучения данных, и лучшие пробные версии эксперимента автоматически импортируются в рабочую область. Созданные записные книжки для других пробных версий экспериментов сохраняются в виде артефактов MLflow в DBFS вместо автоматического импорта в рабочую область. Для всех пробных версий, кроме лучшей пробной версии, notebook_path и notebook_url в API Python TrialInfo не заданы. Если вам нужно использовать эти записные книжки, их можно импортировать вручную в рабочую область с помощью пользовательского интерфейса эксперимента AutoML или databricks.automl.import_notebookAPI Python.
Если вы используете только записную книжку для изучения данных или лучшую пробную записную книжку, созданную autoML, столбец
Если в пользовательском интерфейсе эксперимента AutoML используются другие созданные записные книжки, они не импортируются в рабочую область автоматически. Записные книжки можно найти, щелкнув каждый запуск MLflow. Записная книжка IPython сохраняется в разделе артефактов страницы запуска. Эту записную книжку можно скачать и импортировать в рабочую область, если скачивание артефактов включено администраторами рабочей области.
Значения Шапли (SHAP) для объяснимости модели
Примечание.
Для MLR 11.1 и ниже диаграммы SHAP не создаются, если набор данных содержит столбец datetime.
Блокноты, созданные в ходе выполнения регрессии и классификации с использованием AutoML, включают код для вычисления значений Шапли. Значения Шапли основаны на теории игры и оценивают важность каждой функции для прогнозов модели.
Записные книжки AutoML вычисляют значения Шапли с помощью пакета SHAP. Так как эти вычисления являются очень интенсивными в памяти, вычисления по умолчанию не выполняются.
Чтобы вычислить и отобразить значения Шапли, выполните следующие действия:
- Перейдите в раздел "Важность компонентов" в записной книжке, созданной с помощью AutoML.
- Задайте
shap_enabled = True. - Повторно запустите эту записную книжку.