Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Алгоритм дерева принятия решений Майкрософт — это алгоритм классификации и регрессии, предоставляемый службами Microsoft SQL Server Analysis Services для использования в прогнозном моделировании дискретных и непрерывных атрибутов.
Для дискретных атрибутов алгоритм делает прогнозы на основе связей между входными столбцами в наборе данных. В нем используются значения, известные как состояния этих столбцов, для прогнозирования состояний столбца, назначаемого как прогнозируемое. В частности, алгоритм определяет входные столбцы, которые коррелируются с прогнозируемым столбцом. Например, в сценарии прогнозирования того, какие клиенты, скорее всего, приобретут велосипед, если девять из десяти младших клиентов покупают велосипед, но только два из десяти пожилых клиентов делают это, алгоритм делает вывод, что возраст является хорошим показателем покупки велосипеда. Дерево принятия решений делает прогнозы на основе этой тенденции к конкретному результату.
Для непрерывных атрибутов алгоритм использует линейную регрессию, чтобы определить, где разбивается дерево принятия решений.
Если для нескольких столбцов задано прогнозируемое значение или если входные данные содержат вложенную таблицу, установленную для прогнозируемой, алгоритм создает отдельное дерево принятия решений для каждого прогнозируемого столбца.
Пример
Маркетинговый отдел компании Adventure Works Cycles хочет определить характеристики предыдущих клиентов, которые могут указать, могут ли эти клиенты купить продукт в будущем. База данных AdventureWorks2012 хранит демографические сведения, описывающие предыдущих клиентов. Используя алгоритм дерева принятия решений Майкрософт для анализа этих сведений, отдел маркетинга может создать модель, которая прогнозирует, будет ли конкретный клиент приобретать продукты на основе состояний известных столбцов об этом клиенте, таких как демографические или прошлые шаблоны покупки.
Принцип работы алгоритма
Алгоритм дерева принятия решений Майкрософт создает модель интеллектуального анализа данных, создавая ряд разбиений в дереве. Эти разделения представлены как узлы. Алгоритм добавляет узел в модель каждый раз при обнаружении входного столбца, который значительно сопоставляется с прогнозируемым столбцом. Способ определения разделения отличается в зависимости от того, прогнозирует ли он непрерывный столбец или дискретный столбец.
Алгоритм деревьев принятия решений Майкрософт использует выбор признаков для руководства по выбору наиболее полезных атрибутов. Выбор признаков используется всеми алгоритмами интеллектуального анализа данных служб Analysis Services для повышения производительности и качества анализа. Выбор признаков важен для предотвращения использования времени процессора на неважные атрибуты. Если при разработке модели интеллектуального анализа данных используется слишком много входных или предсказуемых атрибутов, обработка модели может занять очень много времени или даже привести к исчерпанию памяти. Методы, используемые для определения того, следует ли разделить дерево, включают стандартные отраслевые метрики для энтропии и байезианских сетей*.* Дополнительные сведения о методах, используемых для выбора значимых атрибутов, а затем оценки и ранжирования атрибутов см. в разделе "Выбор признаков" (Интеллектуальный анализ данных).
Распространенная проблема в моделях интеллектуального анализа данных заключается в том, что модель становится слишком чувствительной к небольшим различиям в обучающих данных, в этом случае, как говорят, она переобучена или чрезмерно обучена. Переопределенная модель не может быть обобщена для других наборов данных. Чтобы избежать переполнения любого определенного набора данных, алгоритм дерева принятия решений Майкрософт использует методы управления ростом дерева. Более подробное описание работы алгоритма деревьев принятия решений Майкрософт см. в техническом справочнике по алгоритму дерева принятия решений Майкрософт.
Прогнозирование дискретных столбцов
Способ построения дерева принятия решений Майкрософт для дискретного прогнозируемого столбца можно продемонстрировать с помощью гистограммы. На следующей схеме показана гистограмма, которая отображает предсказуемый столбец "Bike Buyers" по отношению к входному столбцу "Возраст". Гистограмма показывает, что возраст человека помогает определить, будет ли этот человек приобретать велосипед.
Корреляция, показанная на схеме, приведет к созданию нового узла в модели алгоритма дерева принятия решений Майкрософт.
По мере добавления новых узлов в модель формируется структура дерева. Верхний узел дерева описывает разбивку прогнозируемого столбца для общей совокупности клиентов. По мере роста модели алгоритм учитывает все столбцы.
Прогнозирование непрерывных столбцов
Когда алгоритм дерева принятия решений Майкрософт создает дерево на основе непрерывного прогнозируемого столбца, каждый узел содержит формулу регрессии. Разделение происходит в точке нелинейности в формуле регрессии. Например, рассмотрим следующую схему.
Схема содержит данные, которые можно моделировать с помощью одной строки или с помощью двух подключенных линий. Однако одна строка будет плохо представлять данные. Вместо этого, если вы используете две линии, модель будет значительно лучше справляться с приближением данных. Точка, в которой две линии объединяются, — это точка нелинейности и точка, в которой узел в модели дерева принятия решений будет разделен. Например, узел, соответствующий точке нелинейности в предыдущем графе, может быть представлен на следующей схеме. Два уравнения представляют уравнения регрессии для двух строк.
Данные, необходимые для моделей дерева принятия решений
При подготовке данных к использованию в модели деревьев принятия решений необходимо понимать требования для конкретного алгоритма, включая необходимые данные и способ использования данных.
Ниже приведены требования к модели деревьев принятия решений.
Один ключевой столбец Каждая модель должна содержать один числовый или текстовый столбец, который однозначно идентифицирует каждую запись. Составные ключи не разрешены.
Прогнозируемый столбец Требуется по крайней мере один прогнозируемый столбец. В модель можно включить несколько прогнозируемых атрибутов, а прогнозируемые атрибуты могут быть различными типами, числовыми или дискретными. Однако увеличение числа прогнозируемых атрибутов может увеличить время обработки.
Входные столбцы Требует входных столбцов, которые могут быть дискретными или непрерывными. Увеличение числа входных атрибутов влияет на время обработки.
Дополнительные сведения о типах контента и типах данных, поддерживаемых для моделей дерева принятия решений, см. в разделе "Требования" технического справочника по алгоритму алгоритмов принятия решений Майкрософт.
Просмотр модели деревьев принятия решений
Для изучения модели можно использовать средство просмотра деревьев Майкрософт. Если модель создает несколько деревьев, можно выбрать дерево, а средство просмотра показывает, как варианты классифицируются для каждого прогнозируемого атрибута. Вы также можете просмотреть взаимодействие деревьев с помощью средства просмотра зависимостей. Дополнительные сведения см. в статье "Обзор модели с помощью средства просмотра дерева Майкрософт".
Если вы хотите узнать больше о любой ветви или узле в дереве, вы также можете просмотреть модель с помощью средства просмотра дерева универсального содержимого Майкрософт. Содержимое, хранящееся для модели, включает распределение всех значений на каждом узле, вероятности на каждом уровне дерева и формул регрессии для непрерывных атрибутов. Дополнительные сведения см. в разделе "Содержимое модели интеллектуального анализа данных" для моделей дерева принятия решений (службы Analysis Services — интеллектуальный анализ данных).
Создание прогнозов
После обработки модели результаты хранятся в виде набора шаблонов и статистики, которые можно использовать для изучения связей или прогнозирования.
Примеры запросов, используемых с моделью деревьев принятия решений, см. в примерах запросов модели дерева принятия решений.
Общие сведения о создании запросов к моделям интеллектуального анализа данных см. в разделе "Запросы интеллектуального анализа данных".
Замечания
Поддерживает использование языка разметки прогнозной модели (PMML) для создания моделей добычи данных.
Поддерживает детализацию.
Поддерживает использование моделей OLAP для интеллектуального анализа данных и создание объектов измерения для интеллектуального анализа данных.
См. также
Алгоритмы интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)Технический справочник алгоритма деревьев решений МайкрософтМодель деревьев решений — примеры запросовСодержимое модели интеллектуального анализа данных для моделей деревьев решений (службы Analysis Services — интеллектуальный анализ данных)