Учебник по расширениям интеллектуального анализа данных «Покупатель велосипеда»

В этом учебнике рассматривается, как создавать, обучать и исследовать модели интеллектуального анализа данных с помощью языка запросов расширений интеллектуального анализа данных. Затем создаются прогнозы на основе моделей интеллектуального анализа данных, которые позволяют определить, купит ли заказчик велосипед.

Модели интеллектуального анализа данных будут созданы из данных, содержащихся в примере базы данных AdventureWorksDW2012 , в которой хранятся данные для вымышленной компании Adventure Works Cycles. Adventure Works Cycles является крупной многонациональной производственной компанией. Компания изготавливает и продает велосипеды из металла и композитных материалов в Северной Америке, а также на европейском и азиатском рынках. Хотя основное производство расположено в городе Ботель, штат Вашингтон, и имеет 290 служащих, существует несколько региональных групп продаж, расположенных на территории международных рынков сбыта.

Сценарий учебника

Adventure Works Cycles решил расширить анализ данных путем создания пользовательского приложения, использующего функции интеллектуального анализа данных. Целью этого пользовательского приложения является обеспечение следующих возможностей.

  • В качестве входных данных принять особые характеристики потенциального заказчика и предсказать, купит ли этот заказчик велосипед.

  • В качестве входных данных принять список потенциальных заказчиков, а также их характеристики, и предсказать, купит ли кто-нибудь из заказчиков велосипед.

В первом случае данные клиентов предоставляются страницей регистрации клиентов, а во втором случае — списком потенциальных клиентов является маркетинговый отдел Adventure Works Cycles.

Кроме того, маркетинговому отделу потребовалась возможность группировки существующих заказчиков по категориям на основе таких характеристик, как место жительства, количество детей, расстояние до работы. Возможно, эти кластеры могли бы помочь выявить особые категории заказчиков. Для этого потребуется дополнительная модель интеллектуального анализа данных.

Службы Microsoft SQL Server Analysis Services предоставляют несколько средств, которые можно использовать для выполнения следующих задач:

Расширения интеллектуального анализа данных (DMX) — это язык запросов, предоставляемый службами Analysis Services, которые можно использовать для создания и работы с моделями интеллектуального анализа данных. Алгоритм дерева принятия решений Майкрософт создает модели, которые можно использовать для прогнозирования того, будет ли кто-то приобрести велосипед. Результирующая модель принимает в качестве входных данных отдельного заказчика или таблицу заказчиков. Алгоритм кластеризации Майкрософт может создавать группы клиентов на основе общих характеристик. Целью этого учебника является предоставление скриптов расширений интеллектуального анализа данных, которые используются в пользовательском приложении.

Дополнительные сведения: решения интеллектуального анализа данных

Структура и модели интеллектуального анализа данных

Прежде чем приступить к созданию инструкций DMX, важно понимать основные объекты, которые службы Analysis Services используют для создания моделей интеллектуального анализа данных. Структура интеллектуального анализа — это структура данных, определяющая домен данных, на основе которого строятся модели интеллектуального анализа. Одна структура интеллектуального анализа может содержать несколько моделей интеллектуального анализа данных, совместно использующих один домен. Модель интеллектуального анализа данных применяет алгоритм интеллектуального анализа к данным, представленным структурой интеллектуального анализа данных.

Строительными блоками структуры интеллектуального анализа являются столбцы, которые описывают данные, содержащиеся в источнике данных. Эти столбцы содержат такие сведения, как тип данных, тип содержимого и способы распределения данных.

Модели интеллектуального анализа данных должны включать ключевой столбец, описанный в структуре интеллектуального анализа данных, а также набор оставшихся столбцов. Модель интеллектуального анализа данных определяет использование каждого столбца и определяет алгоритм, используемый для создания этой модели. Например, в расширении интеллектуального анализа данных можно указать столбец в качестве ключевого или столбца типа PREDICT. Если столбец не указан, он считается входным столбцом.

В расширении интеллектуального анализа данных существует два способа создания моделей интеллектуального анализа данных. Можно либо создать структуру интеллектуального анализа данных и связанную модель интеллектуального анализа данных вместе, используя инструкцию CREATE MINING MODEL, либо сначала создать структуру интеллектуального анализа данных, используя инструкцию CREATE MINING STRUCTURE, а затем добавить к структуре модель интеллектуального анализа данных, используя инструкцию ALTER STRUCTURE. Описание этих разрешений приводится в следующей таблице.

CREATE MINING MODEL
Эта инструкция используется для одновременного создания структуры интеллектуального анализа данных и связанной с ней модели интеллектуального анализа данных с одним и тем же именем. К имени модели интеллектуального анализа данных добавляется слово «Structure», чтобы отличить ее от структуры интеллектуального анализа данных. Эта инструкция полезна, если создается структура интеллектуального анализа данных, которая будет содержать только одну модель интеллектуального анализа данных.

Дополнительные сведения см. в разделе CREATE MINING MODEL (DMX).

ALTER MINING STRUCTURE
Эта инструкция используется для добавления модели интеллектуального анализа данных к уже существующей на сервере структуре интеллектуального анализа данных. Эта инструкция полезна, если нужно создать структуру интеллектуального анализа данных, которая будет содержать несколько различных моделей интеллектуального анализа данных. Есть несколько причин, почему может понадобиться добавить несколько моделей интеллектуального анализа данных в структуру интеллектуального анализа данных. Например, чтобы выявить лучший алгоритм, можно создать несколько моделей интеллектуального анализа данных, в которых используются разные алгоритмы. Можно создать несколько различных моделей, в которых используется один и тот же алгоритм, но при этом различаются настройки определенного параметра, чтобы выяснить, какое значение параметра является наилучшим.

Дополнительные сведения см. в разделе ALTER MINING STRUCTURE (DMX).

В этом учебнике создается структура интеллектуального анализа данных, которая содержит несколько моделей, поэтому в учебнике используется второй метод.

Дополнительные сведения

Справочник по расширениям интеллектуального анализа данных (DMX), общие сведения о инструкции выбора, структуре и использовании запросов прогнозирования dmX

Обзор учебника

Учебник содержит следующие занятия:

Урок 1. Создание структуры интеллектуального анализа данных для покупателя велосипеда
На этом занятии рассматривается использование инструкции CREATE для создания структур интеллектуального анализа данных.

Урок 2. Добавление моделей интеллектуального анализа к структуре интеллектуального анализа "Покупатель велосипеда"
На этом занятии рассматривается использование инструкции ALTER для добавления моделей интеллектуального анализа данных в структуру интеллектуального анализа данных.

Урок 3. Обработка структуры интеллектуального анализа данных для покупателя велосипеда
На этом занятии вы научитесь обрабатывать структуры интеллектуального анализа данных и связанные с ними модели интеллектуального анализа данных при помощи инструкции INSERT INTO.

Урок 4. Просмотр моделей интеллектуального анализа данных для покупателя велосипеда
На этом занятии рассматривается изучение содержимого моделей интеллектуального анализа данных при помощи инструкции SELECT.

Урок 5. Выполнение прогнозирующих запросов
На этом занятии рассматривается использование инструкции PREDICTION JOIN для создания прогнозов по моделям интеллектуального анализа данных.

Требования

Прежде чем выполнять задания этого учебника, убедитесь, что установлены следующие компоненты:

  • Microsoft SQL Server

  • Microsoft SQL Server 2005 Analysis Services (SSAS), SQL Server 2008 Analysis Services (SSAS), SQL Server 2014 Analysis Services (SSAS) или SQL Server Analysis Services

  • База данных AdventureWorksDW2012. В целях повышения безопасности образцы баз данных по умолчанию не установлены. Чтобы установить официальные образцы баз данных для Microsoft SQL Server, перейдите на страницу примеров баз данных Microsoft SQL и выберите базы данных, которые требуется установить.

Примечание.

При просмотре учебников рекомендуется добавить кнопки "Далее" и "Предыдущий раздел" на панель инструментов средства просмотра документов.

См. также

Учебник по расширениям интеллектуального анализа данных потребительской корзины
Учебник по основам интеллектуального анализа данных