Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Область применения: SQL Server 2019 (15.x)
В этой статье объясняется, как использовать кластеры больших данных SQL Server для сценариев машинного обучения.
Important
Кластеры больших данных Microsoft SQL Server 2019 прекращены. Поддержка кластеров больших данных SQL Server 2019 закончилась с 28 февраля 2025 г. Дополнительные сведения см. в записи блога объявлений и параметрах больших данных на платформе Microsoft SQL Server.
Общие сведения об машинном обучении в кластерах больших данных SQL Server
Кластеры больших данных SQL Server предоставляют возможности для сценариев машинного обучения и решений с использованием различных технологий: служб машинного обучения SQL Server и Apache Spark ML.
Кластеры больших данных SQL Server предоставляют возможности машинного обучения в ядре SQL Server, используя установленный стек технологий служб машинного обучения SQL Server, что позволяет осуществлять высокопроизводительное машинное обучение в базе данных, включая сценарии предсказания и оценки.
В сценариях машинного обучения на основе больших данных использование HDFS для размещения больших данных и возможностей Машинного обучения Apache Spark является более экономичным, масштабируемым и мощным.
Сценарии машинного обучения
Возможности машинного обучения позволяют различным приложениям и решениям решать такие задачи, как обнаружение мошенничества, прогнозирование, отток клиентов, а также общие задачи классификации и регрессии. Тем не менее, важно использовать лучшую технологию для сценария.
| Aspect | Службы машинного обучения SQL Server | Машинное обучение Apache Spark |
|---|---|---|
| Data placement | Использует локальность табличных данных в SQL Server. Уровень данных "Премиум". | Масштабируемый уровень данных больших данных с помощью HDFS; либо неструктурированные, полуструктурированные и структурированные данные. |
| Best for | Сценарии вывода и оценки с низкой задержкой | 1. Распределенное пакетное обучение и оценка моделей машинного обучения на основе больших данных 2. Целевые системы ETL и крупномасштабная подготовка данных и выделение признаков для машинного обучения |
| Feeds | Панели BI с поддержкой машинного обучения, отчеты и приложения. Требуется низкая задержка | Данные, обработанные в пакетном режиме, могут быть загружены в SQL Server для реализации сценариев с использованием машинного обучения. |
| Latency | Требуется низкая задержка | Допустимая более высокая задержка |
| Read more | Запуск скриптов Python и R со службами машинного обучения в кластерах больших данных SQL Server | Знакомство с машинным обучением Spark в кластерах больших данных SQL Server |
Next steps
Дополнительные сведения см. в разделе "Общие сведения о кластерах больших данных SQL Server".