Руководство по машинному обучению для кластеров больших данных SQL Server

Область применения: SQL Server 2019 (15.x)

В этой статье объясняется, как использовать кластеры больших данных SQL Server для сценариев машинного обучения.

Important

Кластеры больших данных Microsoft SQL Server 2019 прекращены. Поддержка кластеров больших данных SQL Server 2019 закончилась с 28 февраля 2025 г. Дополнительные сведения см. в записи блога объявлений и параметрах больших данных на платформе Microsoft SQL Server.

Общие сведения об машинном обучении в кластерах больших данных SQL Server

Кластеры больших данных SQL Server предоставляют возможности для сценариев машинного обучения и решений с использованием различных технологий: служб машинного обучения SQL Server и Apache Spark ML.

Кластеры больших данных SQL Server предоставляют возможности машинного обучения в ядре SQL Server, используя установленный стек технологий служб машинного обучения SQL Server, что позволяет осуществлять высокопроизводительное машинное обучение в базе данных, включая сценарии предсказания и оценки.

В сценариях машинного обучения на основе больших данных использование HDFS для размещения больших данных и возможностей Машинного обучения Apache Spark является более экономичным, масштабируемым и мощным.

Сценарии машинного обучения

Возможности машинного обучения позволяют различным приложениям и решениям решать такие задачи, как обнаружение мошенничества, прогнозирование, отток клиентов, а также общие задачи классификации и регрессии. Тем не менее, важно использовать лучшую технологию для сценария.

Aspect Службы машинного обучения SQL Server Машинное обучение Apache Spark
Data placement Использует локальность табличных данных в SQL Server. Уровень данных "Премиум". Масштабируемый уровень данных больших данных с помощью HDFS; либо неструктурированные, полуструктурированные и структурированные данные.
Best for Сценарии вывода и оценки с низкой задержкой 1. Распределенное пакетное обучение и оценка моделей машинного обучения на основе больших данных
2. Целевые системы ETL и крупномасштабная подготовка данных и выделение признаков для машинного обучения
Feeds Панели BI с поддержкой машинного обучения, отчеты и приложения. Требуется низкая задержка Данные, обработанные в пакетном режиме, могут быть загружены в SQL Server для реализации сценариев с использованием машинного обучения.
Latency Требуется низкая задержка Допустимая более высокая задержка
Read more Запуск скриптов Python и R со службами машинного обучения в кластерах больших данных SQL Server Знакомство с машинным обучением Spark в кластерах больших данных SQL Server

Next steps

Дополнительные сведения см. в разделе "Общие сведения о кластерах больших данных SQL Server".