Технический справочник по алгоритму ассоциаций Майкрософт

Алгоритм правил ассоциаций Майкрософт — это простая реализация известного алгоритма Apriori.

Алгоритм деревьев принятия решений Майкрософт и алгоритм правил ассоциаций Майкрософт можно использовать для анализа связей, но правила, найденные каждым алгоритмом, могут отличаться. В модели деревьев принятия решений разделение, приводящее к определенным правилам, основано на получении информации, в то время как в модели ассоциации правила основаны полностью на достоверности. Таким образом, в модели ассоциации строгое правило или одно, которое имеет высокую достоверность, может не обязательно быть интересным, так как он не предоставляет новую информацию.

Реализация алгоритма ассоциаций Майкрософт

Алгоритм Apriori не анализирует шаблоны, а создает, а затем подсчитывает наборы элементов-кандидатов. Элемент может представлять событие, продукт или значение атрибута в зависимости от типа анализируемых данных.

В наиболее распространенном типе модели ассоциаций булевые переменные, представляющие значения "Да/Нет" и "Отсутствует/Существующий", назначаются каждому атрибуту, например, имени продукта или события. Анализ рыночной корзины является примером модели правил ассоциации, которая использует логические переменные для представления присутствия или отсутствия определенных продуктов в корзине покупок клиента.

Для каждого набора элементов алгоритм создает оценки, представляющие поддержку и уверенность. Эти оценки можно использовать для ранжирования и получения интересных правил из наборов элементов.

Модели ассоциаций также можно создавать для числовых атрибутов. Если атрибуты непрерывны, числа могут быть дискретизированы или сгруппированы в контейнеры. Затем дискретизированные значения можно обрабатывать как логические пары или как пары "атрибут-значение".

Поддержка, вероятность и важность

Поддержка, которую иногда называют частотой, означает количество случаев, содержащих искомый элемент или сочетание элементов. В модель можно включить только элементы, имеющие по крайней мере указанный объем поддержки.

Часто задаваемый набор элементов ссылается на коллекцию элементов, где сочетание элементов также поддерживает пороговое значение, определенное параметром MINIMUM_SUPPORT. Например, если набор элементов имеет значение {A,B,C}, а значение MINIMUM_SUPPORT равно 10, каждый отдельный элемент A, B и C должны находиться по крайней мере в 10 случаях, которые должны быть включены в модель, а сочетание элементов {A,B,C} также должно быть найдено по крайней мере в 10 случаях.

Заметка Вы также можете контролировать количество наборов элементов в модели интеллектуального анализа данных, указав максимальную длину набора элементов, где длина означает количество элементов.

По умолчанию поддержка любого определенного элемента или набора элементов представляет количество случаев, содержащих этот элемент или элементы. Однако вы также можете выразить MINIMUM_SUPPORT в процентах от общего числа случаев в наборе данных, введя число как десятичное значение меньше 1. Например, если указать значение MINIMUM_SUPPORT 0,03, это означает, что не менее 3% общих случаев в наборе данных должны содержать этот элемент или набор элементов для включения в модель. Необходимо поэкспериментировать с моделью, чтобы определить, имеет ли значение количество или процент.

В отличие от этого, пороговое значение правил выражается не как количество или процент, а как вероятность, иногда называемая доверием. Например, если набор элементов {A,B,C} происходит в 50 случаях, но набор элементов {A,B,D} также происходит в 50 случаях, а набор элементов {A,B} в других 50 случаях, очевидно, что {A,B} не является сильным прогнозором {C}. Таким образом, чтобы взвесить определенные результаты по всем известным результатам, служба Analysis Services вычисляет вероятность отдельного правила (например, если {A,B}, то {C}), разделив поддержку набора элементов {A,B,C} на поддержку всех связанных наборов элементов.

Можно ограничить количество правил, создаваемых моделью, задав значение для MINIMUM_PROBABILITY.

Для каждого созданного правила службы Analysis Services выводит оценку, указывающую его важность, которая также реферируется как приподнятость. Значение лифта вычисляется по-разному для наборов элементов и правил.

Важность набора элементов вычисляется как вероятность набора элементов, разделенного на составную вероятность отдельных элементов в наборе элементов. Например, если набор элементов содержит {A,B}, Analysis Services сначала подсчитывает все случаи, содержащие эту комбинацию A и B, и делит их на общее число случаев, а затем нормализует вероятность.

Важность правила вычисляется по логарифмической вероятности правой части правила при условии левой части правила. Например, в правиле If {A} Then {B} служба Analysis Services вычисляет соотношение случаев с A и B по отношению к случаям только с B без A, а затем нормализует это соотношение, используя логарифмическую шкалу.

Выбор признаков

Алгоритм правил ассоциаций Майкрософт не выполняет какой-либо автоматический выбор компонентов. Вместо этого алгоритм предоставляет параметры, управляющие данными, используемыми алгоритмом. Это может включать ограничения на размер каждого набора элементов или установку максимальной и минимальной поддержки, необходимой для добавления набора элементов в модель.

Чтобы отфильтровать элементы и события, которые слишком распространены и поэтому неинтересны, уменьшите значение MAXIMUM_SUPPORT, чтобы удалить очень частые наборы элементов из модели.
Чтобы отфильтровать элементы и наборы элементов, которые являются редкими, увеличьте значение MINIMUM_SUPPORT.
Чтобы отфильтровать правила, увеличьте значение MINIMUM_PROBABILITY.

Настройка алгоритма правил ассоциаций Майкрософт

Алгоритм ассоциативных правил Майкрософт поддерживает несколько параметров, которые влияют на поведение, производительность и точность создаваемой модели интеллектуального анализа данных.

Настройка параметров алгоритма

Параметры модели интеллектуального анализа данных можно изменить в любое время с помощью конструктора интеллектуального анализа данных в SQL Server Data Tools (SSDT). Вы также можете программно изменять параметры с помощью AlgorithmParameters коллекции в AMO или с помощью элемента MiningModels (ASSL) в XMLA. В следующей таблице содержатся описания всех параметров.

Замечание

Невозможно изменить параметры в существующей модели с помощью инструкции DMX; Необходимо указать параметры в модели DMX CREATE или ALTER STRUCTURE... ДОБАВЛЕНИЕ МОДЕЛИ при создании модели.

MAXIMUM_ITEMSET_COUNT
Указывает максимальное количество наборов элементов для создания. Если число не указано, используется значение по умолчанию.

Значение по умолчанию — 200000.

Замечание

Наборы элементов ранжируются по поддержке. Среди наборов элементов, имеющих ту же поддержку, упорядочение является произвольным.

MAXIMUM_ITEMSET_SIZE
Указывает максимальное количество элементов, разрешенных в наборе элементов. При задании этого значения значение равно 0 указывает, что размер набора элементов не ограничен.

Значение по умолчанию — 3.

Замечание

Уменьшение этого значения может снизить время, необходимое для создания модели, так как обработка модели останавливается при достижении предела.

MAXIMUM_SUPPORT
Указывает максимальное количество вариантов, которые имеет набор элементов для поддержки. Этот параметр можно использовать для устранения часто появляющихся элементов и, следовательно, имеет мало смысла.

Если это значение меньше 1, значение представляет процент от общего числа случаев. Значения, превышающие 1, представляют абсолютное число случаев, которые могут содержать набор элементов.

Значение по умолчанию — 1.

MINIMUM_ITEMSET_SIZE
Указывает минимальное количество элементов, разрешенных в наборе элементов. Если увеличить это число, модель может содержать меньше наборов элементов. Это может быть полезно, если вы хотите игнорировать наборы элементов с одним элементом, например.

Значение по умолчанию — 1.

Замечание

Невозможно сократить время обработки модели, увеличив минимальное значение, так как службы Analysis Services должны вычислять вероятности для отдельных элементов в любом случае в процессе обработки. Однако, установив это значение выше, можно отфильтровать небольшие наборы элементов.

MINIMUM_PROBABILITY
Указывает минимальную вероятность того, что правило истинно.

Например, если задать этому параметру значение 0,5, это означает, что правило с вероятностью менее пятидесяти процентов не может быть создано.

Значение по умолчанию — 0.4.

MINIMUM_SUPPORT
Указывает минимальное количество случаев, которые должны содержать набор элементов, прежде чем алгоритм создает правило.

Если задать это значение меньше 1, минимальное количество случаев вычисляется в процентах от общего числа случаев.

Если задать это значение целым числом, превышающим 1, минимальное количество случаев указывается как число случаев, которые должны содержать набор элементов данных. Алгоритм может автоматически увеличить значение этого параметра, если память ограничена.

Значение по умолчанию — 0.03. Это означает, что для включения в модель набор элементов должен быть обнаружен по крайней мере в 3% процентах случаев.

OPTIMIZED_PREDICTION_COUNT
Определяет количество элементов, кэшируемых для оптимизации прогнозирования.

Значение по умолчанию — 0. Если используется значение по умолчанию, алгоритм будет создавать столько прогнозов, сколько запрашивается в запросе.

Если указать ненулевое значение для OPTIMIZED_PREDICTION_COUNT, запросы прогнозирования могут возвращать не более указанного количества элементов, даже если запрашивать дополнительные прогнозы. Однако установка значения может повысить производительность прогнозирования.

Например, если для значения задано значение 3, алгоритм кэширует только 3 элемента для прогнозирования. Вы не можете увидеть дополнительные прогнозы, которые могут быть столь же вероятны, как и 3 возвращаемых элемента.

Флаги моделирования

Следующие флаги моделирования поддерживаются для использования с алгоритмом правил ассоциации Майкрософт.

НЕ ПУСТОЙ
Указывает, что столбец не может содержать значение NULL. Ошибка возникнет, если службы Analysis Services столкнутся с null'ом во время обучения модели.

Применяется к столбцу структуры добычи данных.

MODEL_EXISTENCE_ONLY
Означает, что столбец будет рассматриваться как наличие двух возможных состояний: Missing и Existing. Значение NULL — это отсутствующее значение.

Применяется к столбцу модели данных.

Требования

Модель ассоциации должна содержать ключевой столбец, входные столбцы и один прогнозируемый столбец.

Входные и предсказуемые столбцы

Алгоритм правил ассоциаций Майкрософт поддерживает определенные входные столбцы и прогнозируемые столбцы, перечисленные в следующей таблице. Дополнительные сведения о значении типов контента в модели интеллектуального анализа данных см. в разделе "Типы контента" (интеллектуальный анализ данных).

колонна	Типы содержимого
Входной атрибут	Циклическая, дискретная, дискретная, ключ, таблица, упорядоченная
Прогнозируемый атрибут	Циклическая, дискретная, дискретизированная, таблица, упорядоченная

Замечание

Поддерживаются циклические и упорядоченные типы контента, но алгоритм обрабатывает их как дискретные значения и не выполняет специальную обработку.

См. также

Алгоритм ассоциации Майкрософт
Примеры запросов модели ассоциаций
Содержимое модели интеллектуального анализа данных для моделей ассоциаций (службы Analysis Services — интеллектуальный анализ данных)

Last updated on 2017-06-13

Технический справочник по алгоритму ассоциаций Майкрософт

Реализация алгоритма ассоциаций Майкрософт

Поддержка, вероятность и важность

Выбор признаков

Настройка алгоритма правил ассоциаций Майкрософт

Настройка параметров алгоритма

Флаги моделирования

Требования

Входные и предсказуемые столбцы

См. также

Дополнительные ресурсы