Добавление моделей анализа данных в структуру (Службы анализа — интеллектуальный анализ данных)

Структура интеллектуального анализа данных предназначена для поддержки нескольких моделей интеллектуального анализа данных. Поэтому после завершения работы мастера можно открыть структуру и добавить новые модели интеллектуального анализа данных. Каждый раз при создании модели можно использовать другой алгоритм, изменять параметры или применять фильтры для использования другого подмножества данных.

Добавление новых моделей интеллектуального анализа данных

При использовании мастера интеллектуального анализа данных для создания новой модели анализа данных по умолчанию необходимо сначала создать структуру анализа данных. Затем мастер предоставляет возможность добавить начальную модель анализа данных в структуру. Однако вам не нужно сразу создавать модель. Если вы создаете только структуру, вам не нужно принимать решение о том, какой столбец следует использовать в качестве прогнозируемого атрибута или как использовать данные в определенной модели. Вместо этого вы только что настроили общую структуру данных, которую вы хотите использовать в будущем, и позже можно использовать конструктор интеллектуального анализа данных для добавления новых моделей интеллектуального анализа данных, основанных на структуре.

Замечание

В DMX инструкция CREATE MINING MODEL начинается с модели интеллектуального анализа данных. То есть вы выбираете модель интеллектуального анализа данных, а система Analysis Services автоматически создает базовую структуру. Позже вы можете продолжить добавлять новые модели интеллектуального анализа данных в эту структуру, используя оператор ALTER STRUCTURE... ADD MODEL.

Выбор алгоритма

При добавлении новой модели в существующую структуру сначала следует выбрать алгоритм интеллектуального анализа данных для использования в этой модели. Выбор алгоритма важен, так как каждый алгоритм выполняет другой тип анализа и имеет разные требования.

При выборе алгоритма, несовместимого с данными, вы получите предупреждение. В некоторых случаях может потребоваться игнорировать столбцы, которые не могут обрабатываться алгоритмом. В других случаях алгоритм автоматически вносит корректировки. Например, если структура содержит числовые данные, а алгоритм может работать только с дискретными значениями, он сгруппирует числовые значения в дискретные диапазоны. В некоторых случаях может потребоваться вручную исправить данные, выбрав ключ или выбрав прогнозируемый атрибут.

При создании новой модели не нужно изменять алгоритм. Часто можно получить очень разные результаты с помощью одного и того же алгоритма, но фильтрации данных или изменения параметра, например метода кластеризации или минимального размера набора элементов. Рекомендуется поэкспериментировать с несколькими моделями, чтобы увидеть, какие параметры дают наилучшие результаты.

Обратите внимание, что перед их использованием необходимо обработать все новые модели.

Указание использования столбцов в новой модели анализа данных

При добавлении новых моделей интеллектуального анализа данных в существующую структуру интеллектуального анализа данных необходимо указать, как каждый столбец данных должен использоваться моделью. В зависимости от типа алгоритма, выбранного для модели, некоторые из этих вариантов могут быть сделаны по умолчанию. Если тип использования для столбца не указан, столбец не будет включен в структуру майнинга. Однако данные в столбце по-прежнему могут быть доступны для детализации, если модель поддерживает ее.

Столбцы из структуры интеллектуального анализа данных, используемой моделью (если не задано значение "Игнорировать") должны быть ключом, входным столбцом, прогнозируемым столбцом или прогнозируемым столбцом, значения которого также используются в качестве входных данных для модели.

Ключевые столбцы содержат уникальный идентификатор для каждой строки в таблице. Некоторые модели интеллектуального анализа данных, такие как на основе алгоритмов кластеризации последовательностей или временных рядов, могут содержать несколько ключевых столбцов. Несколько ключей не являются составными ключами в реляционном смысле, но должны быть выбраны таким образом, чтобы обеспечить проведение анализа временных рядов и кластеризации последовательностей.
Входные столбцы предоставляют сведения, из которых создаются прогнозы. Мастер интеллектуального анализа данных предоставляет функцию предложения , которая включена при выборе прогнозируемого столбца. Если щелкнуть эту кнопку, мастер произведет выборку прогнозируемых значений и определит, какие из других столбцов структуры являются хорошими переменными. Он отклоняет ключевые столбцы или другие столбцы с множеством уникальных значений и предлагает столбцы, которые, как представляется, коррелируются с результатом.

Эта функция особенно удобна, если в наборах данных больше столбцов, чем вам действительно нужно для создания модели интеллектуального анализа данных. Функция предложения вычисляет числовую оценку от 0 до 1, которая описывает связь между каждым столбцом в наборе данных и прогнозируемым столбцом. На основе этой оценки функция предлагает столбцы, используемые в качестве входных данных для модели интеллектуального анализа данных. Если вы используете функцию предложения , можно использовать предлагаемые столбцы, изменить выбранные элементы в соответствии с вашими потребностями или игнорировать предложения.
Прогнозируемые столбцы содержат сведения, которые вы пытаетесь спрогнозировать в модели интеллектуального анализа данных. Можно выбрать несколько столбцов в качестве прогнозируемых атрибутов. Модели кластеризации являются исключением в том, что прогнозируемый атрибут является необязательным.

В зависимости от типа модели прогнозируемый столбец может быть определенным типом данных: например, для модели линейной регрессии требуется числовой столбец в качестве прогнозируемого значения; Наивный алгоритм Байес требует дискретного значения (и все входные данные должны быть дискретными, а также).

Указание содержимого столбца

Для некоторых столбцов также может потребоваться указать содержимое столбца. В интеллектуальном анализе данных SQL Server свойство типа контента каждого столбца данных сообщает алгоритму, как он должен обрабатывать данные в этом столбце. Например, если данные имеют столбец "Доход", необходимо указать, что столбец содержит непрерывные числа, задав тип контента в значение "Непрерывный". Однако можно также указать, что числа в столбце "Доход" можно сгруппировать в контейнеры, задав тип контента дискретизованным и при необходимости указав точное количество контейнеров. Вы можете создавать разные модели, обрабатывающие столбцы по-разному: например, можно попробовать одну модель, которая объединяет клиентов в три возрастные группы и другую модель, которая объединяет клиентов в 10 возрастных групп.

См. также

Структуры добычи данных (Analysis Services — интеллектуальный анализ данных)
Создание реляционной структуры интеллектуального анализа данных
Свойства модели интеллектуального анализа данных
Столбцы модели интеллектуального анализа данных

Last updated on 2017-06-13