Методы дискретизации (интеллектуальный анализ данных)

Для правильной работы некоторых алгоритмов, используемых для создания моделей интеллектуального анализа данных в службах SQL Server Analysis Services, требуются определенные типы контента. Например, алгоритм Microsoft Naive Bayes не может использовать непрерывные столбцы в качестве входных данных и не может прогнозировать непрерывные значения. Кроме того, некоторые столбцы могут содержать так много значений, что алгоритм не может легко определить интересные шаблоны в данных, из которых создается модель.

В таких случаях можно дискретизировать данные в столбцах, чтобы использовать алгоритмы для создания модели интеллектуального анализа данных. Дискретизация — это процесс размещения значений в контейнеры, чтобы было ограниченное количество возможных состояний. Сами корзины обрабатываются как упорядоченные и дискретные значения. Можно дискретизировать числовые и строковые столбцы.

Существует несколько методов, которые можно использовать для дискретизации данных. Если решение интеллектуального анализа данных использует реляционные данные, можно управлять количеством контейнеров, используемых для группировки данных, задав значение DiscretizationBucketCount свойства. Число контейнеров по умолчанию равно 5.

Если в решении интеллектуального анализа данных используются данные из куба оперативной аналитической обработки (OLAP), алгоритм интеллектуального анализа данных автоматически вычисляет количество контейнеров для создания с помощью следующего уравнения, где n — это число различных значений данных в столбце:

Number of Buckets = sqrt(n)

Если вы не хотите, чтобы службы Analysis Services вычисляли количество контейнеров, можно использовать DiscretizationBucketCount это свойство, чтобы вручную указать количество контейнеров.

В следующей таблице описаны методы, которые можно использовать для дискретизации данных в службах Analysis Services.

Метод дискретизации Описание
AUTOMATIC Службы Analysis Services определяют, какой метод дискретизации следует использовать.
CLUSTERS Алгоритм делит данные на группы путем выборки обучающих данных, инициализации в нескольких случайных точках, а затем выполнения нескольких итераций алгоритма кластеризации Майкрософт с помощью метода максимального правдоподобия (EM). Этот CLUSTERS метод полезен, так как он работает на любой кривой распределения. Однако для этого требуется больше времени обработки, чем другие методы дискретизации.

Этот метод можно использовать только с числовыми столбцами.
EQUAL_AREAS Алгоритм делит данные на группы, содержащие равное количество значений. Этот метод лучше всего используется для обычных кривых распределения, но не работает хорошо, если распределение содержит большое количество значений, происходящих в узкой группе в непрерывных данных. Например, если одна половина элементов имеет стоимость 0, одна половина данных будет распределяться под одной точкой на графике. В таком распределении этот метод разбивает данные с целью достичь равномерной дискретизации на несколько областей. Это создает неточное представление данных.

Замечания

См. также

Типы контента (интеллектуальный анализ данных)
Типы контента (DMX)
Алгоритмы интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)
Структуры добычи данных (Analysis Services — интеллектуальный анализ данных)
Типы данных (интеллектуальный анализ данных)
Столбцы структуры майнинга
Дистрибутивы столбцов (интеллектуальный анализ данных)