Настройка моделей интеллектуального анализа данных и структуры

После выбора алгоритма, соответствующего бизнес-потребностям, можно настроить модель интеллектуального анализа данных следующими способами, чтобы улучшить результаты.

Используйте различные столбцы данных в модели или измените использование, тип контента или метод дискретизации для столбцов.
Создайте фильтры в модели интеллектуального анализа данных, чтобы ограничить объем данных, используемых для обучения модели.
Измените алгоритм, используемый для анализа данных.
Задайте параметры алгоритма для управления пороговыми значениями, разделением деревьев и другими важными условиями.

В этом разделе описаны эти параметры.

Изменение данных, используемых моделью

Решения о том, какие столбцы данных следует использовать в модели, а также как использовать и обрабатывать эти данные, значительно влияют на результаты анализа. В следующих разделах содержатся сведения, которые помогут вам понять эти варианты.

Использование выбора компонентов

Большинство алгоритмов интеллектуального анализа данных в службах Analysis Services используют процесс , называемый выбором признаков , чтобы выбрать только наиболее полезные атрибуты для добавления к модели. Уменьшение числа столбцов и атрибутов может повысить производительность и качество модели. Доступные методы выбора признаков зависят от выбранного алгоритма.

Выбор признаков (интеллектуальный анализ данных)

Изменение использования

Вы можете изменить столбцы, которые включены в модель интеллектуального анализа данных, а также изменить, как используется каждый столбец. Если вы не получаете ожидаемые результаты, вы должны проверить столбцы, которые использовали в качестве входных данных, и спросить себя, были ли столбцы хорошим выбором и что можно сделать для улучшения обработки данных, включая:

Определение категориальных переменных, которые ошибочно помечены как числа.
Добавление категорий для свертывание количества атрибутов и упрощение поиска корреляций.
Изменение способа группировки или дискретизации чисел.
Удаление столбцов с большим количеством уникальных значений или столбцов, которые действительно являются эталонными данными и не полезны для анализа, таких как адреса или промежуточные имена.

Вам не нужно физически удалять столбцы из структуры данных; можно просто пометить столбец как Игнорировать. Столбец удаляется из модели интеллектуального анализа данных, но по-прежнему может использоваться другими моделями интеллектуального анализа данных в структуре, на которые ссылается запрос детализации.

Создание псевдонимов для столбцов модели

При создании модели интеллектуального анализа данных служба Analysis Services использует те же имена столбцов, которые находятся в структуре интеллектуального анализа данных. Псевдоним можно добавить к любому столбцу модели анализа данных. Это может упростить понимание содержимого столбца или использования или сделать его более коротким для удобства при создании запросов. Псевдонимы также полезны, если вы хотите создать копию столбца и дать ей описательное название.

Вы создаете псевдоним, изменяя свойство Name столбца модели анализа данных. Службы Analysis Services продолжают использовать исходное имя как идентификатор столбца, а новое значение, которое вы вводите для Name, становится псевдонимом столбца и отображается в сетке в скобках рядом с названием столбца.

псевдонимы на столбцах модели интеллектуального анализа данных

На графике представлены модели, связанные с несколькими копиями столбца структуры данных, все они связаны с доходом. Каждая копия столбца структуры дискретизирована по-другому. Модели на схеме используют разные столбцы из структуры интеллектуального анализа данных; однако для удобства сравнения столбцы в каждой модели переименованы в [Доход].

Добавление фильтров

Вы можете добавить фильтр в модель интеллектуального анализа данных. Фильтр — это набор условий WHERE, ограничивающих данные в случаях модели в некоторых подмножествах. Фильтр используется при обучении модели и может использоваться при тестировании модели или создании диаграмм точности.

Добавив фильтры, можно повторно использовать структуры интеллектуального анализа данных, но создавать модели на основе очень разных подмножеств данных. Кроме того, можно просто использовать фильтры для устранения определенных строк и повышения качества анализа.

Для получения дополнительной информации см. раздел "Фильтры для моделей интеллектуального анализа данных" (службы Analysis Services — интеллектуальный анализ данных).

Изменение алгоритма

Несмотря на то что новые модели, добавляемые в структуру интеллектуального анализа данных, используют один и тот же набор данных, вы можете получить разные результаты, используя другой алгоритм (если это поддерживается данными), или изменяя параметры алгоритма. Вы также можете задать флаги моделирования.

Выбор алгоритма определяет, какой тип результатов вы получите. Общие сведения о том, как работает конкретный алгоритм, и о бизнес-сценариях, в которых выгодно использовать конкретный алгоритм, см. раздел «Алгоритмы интеллектуального анализа данных» (службы Analysis Services — интеллектуальный анализ данных).

Ознакомьтесь с технической справочной темой для каждого алгоритма, чтобы узнать описание требований и ограничений, а также подробное описание настроек, которые поддерживаются каждым алгоритмом.


Алгоритм деревьев принятия решений Майкрософт	Алгоритм временных рядов Майкрософт
Алгоритм кластеризации Майкрософт	Алгоритм нейронной сети Майкрософт
Алгоритм Microsoft Naive Bayes	Алгоритм логистической регрессии Майкрософт
Алгоритм ассоциации Майкрософт	Алгоритм линейной регрессии Майкрософт
Алгоритм кластеризации последовательностей Майкрософт

Настройка параметров алгоритма

Каждый алгоритм поддерживает параметры, которые можно использовать для настройки поведения алгоритма и точной настройки результатов модели. Описание использования каждого параметра см. в следующих разделах:

В разделе для каждого типа алгоритма также перечислены функции прогнозирования, которые можно использовать с моделями на основе этого алгоритма.

Название свойства	Применимо к
АВТО_ОПРЕДЕЛЕНИЕ_ПЕРИОДИЧНОСТИ	Технический справочник по алгоритму временных рядов Майкрософт
Количество кластеров	Технический справочник по алгоритму кластеризации Майкрософт Технический справочник по алгоритму кластеризации последовательностей Майкрософт
CLUSTER_SEED	Технический справочник по алгоритму кластеризации Майкрософт
CLUSTERING_METHOD	Технический справочник по алгоритму кластеризации Майкрософт
ШТРАФ_ЗА_СЛОЖНОСТЬ	Технический справочник по алгоритму деревьев принятия решений Майкрософт Технический справочник по алгоритму временных рядов Майкрософт
РЕГРЕССОР СИЛЫ	Технический справочник по алгоритму деревьев принятия решений Майкрософт Технический справочник по алгоритму линейной регрессии Майкрософт Флаги моделирования (интеллектуальный анализ данных)
МЕТОД_ПРОГНОЗИРОВАНИЯ	Технический справочник по алгоритму временных рядов Майкрософт
скрытое_отношение_узла	Технический справочник по алгоритму нейронной сети Майкрософт
КОЛИЧЕСТВО_ИСТОРИЧЕСКИХ_МОДЕЛЕЙ	Технический справочник по алгоритму временных рядов Майкрософт
ИСТОРИЧЕСКАЯ_МОДЕЛЬ_РАЗРЫВ	Технический справочник по алгоритму временных рядов Майкрософт
HOLDOUT_PERCENTAGE	Технический справочник по алгоритму логистической регрессии Майкрософт Технический справочник по алгоритму нейронной сети Майкрософт Примечание: этот параметр отличается от процента данных, оставленных для тестирования, который применяется к структуре анализа данных.
HOLDOUT_SEED	Технический справочник по алгоритму логистической регрессии Майкрософт Технический справочник по алгоритму нейронной сети Майкрософт Примечание. Этот параметр отличается от значения отсевного семени, которое применяется к структуре интеллектуального анализа данных.
ЧУВСТВИТЕЛЬНОСТЬ_НЕУСТОЙЧИВОСТИ	Технический справочник по алгоритму временных рядов Майкрософт
Максимальные входные атрибуты	Технический справочник по алгоритму кластеризации Майкрософт Технический справочник по алгоритму деревьев принятия решений Майкрософт Технический справочник по алгоритму линейной регрессии Майкрософт Технический справочник по наивному алгоритму Байеса Технический справочник по алгоритму нейронной сети Майкрософт Технический справочник по алгоритму логистической регрессии Майкрософт
MAXIMUM_ITEMSET_COUNT	Технический справочник по алгоритму ассоциаций Майкрософт
МАКСИМАЛЬНЫЙ_РАЗМЕР_НАБОРА_ЭЛЕМЕНТОВ	Технический справочник по алгоритму ассоциаций Майкрософт
максимальные_характеристики_выхода	Технический справочник по алгоритму деревьев принятия решений Майкрософт Технический справочник по алгоритму линейной регрессии Майкрософт Технический справочник по алгоритму логистической регрессии Майкрософт Технический справочник по наивному алгоритму Байеса Технический справочник по алгоритму нейронной сети Майкрософт
МАКСИМАЛЬНОЕ_КОЛИЧЕСТВО_СОСТОЯНИЙ_ПОСЛЕДОВАТЕЛЬНОСТИ	Технический справочник по алгоритму кластеризации последовательностей Майкрософт
МАКСИМАЛЬНОЕ_ЗНАЧЕНИЕ_СЕРИИ	Технический справочник по алгоритму временных рядов Майкрософт
Максимальное количество состояний	Технический справочник по алгоритму кластеризации Майкрософт Технический справочник по алгоритму нейронной сети Майкрософт Технический справочник по алгоритму кластеризации последовательностей Майкрософт
МАКСИМАЛЬНАЯ ПОДДЕРЖКА	Технический справочник по алгоритму ассоциаций Майкрософт
минимальная важность	Технический справочник по алгоритму ассоциаций Майкрософт
MINIMUM_ITEMSET_SIZE	Технический справочник по алгоритму ассоциаций Майкрософт
Минимальная вероятность зависимости	Технический справочник по наивному алгоритму Байеса
МИНИМАЛЬНАЯ_ВЕРОЯТНОСТЬ	Технический справочник по алгоритму ассоциаций Майкрософт
МИНИМАЛЬНОЕ_ЗНАЧЕНИЕ_РЯДА	Технический справочник по алгоритму временных рядов Майкрософт
МИНИМАЛЬНАЯ ПОДДЕРЖКА	Технический справочник по алгоритму ассоциаций Майкрософт Технический справочник по алгоритму кластеризации Майкрософт Технический справочник по алгоритму деревьев принятия решений Майкрософт Технический справочник по алгоритму кластеризации последовательностей Майкрософт Технический справочник по алгоритму временных рядов Майкрософт
ЗАМЕНА_ОТСУТСТВУЮЩЕГО_ЗНАЧЕНИЯ	Технический справочник по алгоритму временных рядов Майкрософт
МОДЕЛИРОВАНИЕ_КАРДИНАЛЬНОСТИ	Технический справочник по алгоритму кластеризации Майкрософт
Подсказка по периодичности	Технический справочник по алгоритму временных рядов Майкрософт
Сглаживание_прогнозов	Технический справочник по алгоритму временных рядов Майкрософт
РАЗМЕР_ВЫБОРКИ	Технический справочник по алгоритму кластеризации Майкрософт Технический справочник по алгоритму логистической регрессии Майкрософт Технический справочник по алгоритму нейронной сети Майкрософт
МЕТОД ОЦЕНКИ	Технический справочник по алгоритму деревьев принятия решений Майкрософт
МЕТОД_РАЗДЕЛЕНИЯ	Технический справочник по алгоритму деревьев принятия решений Майкрософт
Допустимое_Отклонение_Остановки	Технический справочник по алгоритму кластеризации Майкрософт

См. также

Алгоритмы интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)физическая архитектура (службы Analysis Services — интеллектуальный анализ данных)

Last updated on 2017-03-06