Отбор признаков (интеллектуальный анализ данных)

Выбор признаков — это термин, часто используемый в интеллектуальном анализе данных, чтобы описать средства и методы, доступные для уменьшения входных данных в управляемый размер для обработки и анализа. Выбор признаков подразумевает не только сокращение кратности, то есть применение произвольного или предопределенного сокращения числа атрибутов, которые можно учитывать при создании модели, но и выбор атрибутов, что означает, что аналитик или средство моделирования активно выбирает или отменяет атрибуты на основе их полезности для анализа.

Возможность применения выбора признаков имеет решающее значение для эффективного анализа, так как наборы данных часто содержат гораздо больше информации, чем требуется для построения модели. Например, набор данных может содержать 500 столбцов, описывающих характеристики клиентов, но если данные в некоторых столбцах очень разрежены, вы получите очень мало преимуществ от их добавления в модель. Если вы сохраняете ненужные столбцы во время сборки модели, требуется больше ЦП и памяти во время обучения, а для завершенной модели требуется больше места хранения.

Даже если ресурсы не являются проблемой, обычно требуется удалить ненужные столбцы, так как они могут снизить качество обнаруженных шаблонов по следующим причинам:

  • Некоторые столбцы шумные или избыточные. Этот шум затрудняет обнаружение значимых шаблонов из данных;

  • Для обнаружения качественных паттернов большинству алгоритмов интеллектуального анализа данных требуется гораздо больший набор обучающих данных в высокоразмерных данных. Но обучающие данные очень малы в некоторых приложениях интеллектуального анализа данных.

Если только 50 из 500 столбцов в источнике данных содержат информацию, полезную для создания модели, вы можете просто выйти из модели или использовать методы выбора признаков для автоматического обнаружения лучших функций и исключения значений, которые являются статистически незначительными. Выбор признаков помогает решать двойственные проблемы: слишком много данных, которые мало ценны, или слишком мало данных, которые имеют высокую ценность.

Выбор компонентов в интеллектуальном анализе данных служб Analysis Services

Обычно выбор компонентов выполняется автоматически в службах Analysis Services, и каждый алгоритм имеет набор методов по умолчанию для интеллектуального применения сокращения функций. Выбор признаков всегда выполняется перед обучением модели, чтобы автоматически выбирать атрибуты в наборе данных, который, скорее всего, будет использоваться в модели. Однако можно также вручную задать параметры для влияния на поведение выбора компонентов.

Как правило, выбор признаков работает путем вычисления оценки для каждого атрибута, а затем выбора только атрибутов, имеющих лучшие оценки. Можно также настроить пороговое значение для лучших показателей. Службы Analysis Services предоставляют несколько методов для вычисления этих показателей, а точный метод, применяемый в любой модели, зависит от следующих факторов:

  • Алгоритм, используемый в модели

  • Тип данных атрибута

  • Все параметры, которые могут быть заданы в модели

Выбор признаков применяется к входным данным, прогнозируемым атрибутам или к состояниям в столбце. После завершения оценки для выбора признаков только атрибуты и состояния, которые выбирает алгоритм, включаются в процесс построения модели и могут использоваться для прогнозирования. Если выбрать прогнозируемый атрибут, который не соответствует пороговой значению выбора признаков, атрибут по-прежнему можно использовать для прогнозирования, но прогнозы будут основаны исключительно на глобальной статистике, существующей в модели.

Замечание

Выбор признаков влияет только на столбцы, используемые в модели, и не влияет на хранение структуры майнинга данных. Столбцы, которые вы оставляете вне модели интеллектуального анализа данных, остаются доступными в её структуре, а данные в столбцах структуры будут кэшироваться.

Определение методов выбора признаков

Существует множество способов реализации выбора признаков в зависимости от типа данных, с которыми вы работаете, и алгоритма, выбранного для анализа. Службы SQL Server Analysis Services предоставляют несколько популярных и хорошо установленных методов для оценки атрибутов. Метод, применяемый в любом алгоритме или наборе данных, зависит от типов данных и использования столбцов.

Оценка интересности используется для ранжирования и сортировки атрибутов в столбцах, содержащих небинарные непрерывные числовые данные.

Энтропия Шаннона и две оценки Байезиана доступны для столбцов, содержащих дискретные и дискретизированные данные. Однако если модель содержит любые непрерывные столбцы, оценка интересности будет использоваться для оценки всех входных столбцов, чтобы обеспечить согласованность.

В следующем разделе описывается каждый метод выбора признаков.

Оценка интересности

Функция интересна, если она говорит вам некоторые полезные фрагменты информации. Поскольку определение того, что полезно, зависит от сценария, отрасль интеллектуального анализа данных разработала различные способы измерения интересности. Например, новизна может быть интересной в обнаружении выбросов, но способность различать тесно связанные элементы или дискриминирующий вес может быть более интересной для классификации.

Мера интересности, используемая в службах SQL Server Analysis Services, основанная на энтропии, означает, что атрибуты с случайными распределениями имеют более высокую энтропию и меньший прирост информации; таким образом, такие атрибуты менее интересны. Энтропия для любого конкретного атрибута сравнивается с энтропией всех остальных атрибутов, как показано ниже.

Интересность(атрибут) = - (m - Энтропия(атрибут)) * (m - Энтропия(атрибут))

Центральная энтропия или m означает энтропию всего набора признаков. Вычитая энтропию целевого атрибута из центральной энтропии, можно оценить объем информации, предоставляемой атрибутом.

Эта оценка используется по умолчанию, когда столбец содержит небинарные непрерывные числовые данные.

Энтропия Шеннона

Энтропия Шаннона измеряет неопределенность случайной переменной для определенного результата. Например, энтропия монеты броска может быть представлена как функция вероятности его появления голов.

Службы Analysis Services используют следующую формулу для вычисления энтропии Шеннона:

H(X) = -∑ P(xi) log(P(xi))

Этот метод оценки доступен для дискретных и дискретизированных атрибутов.

Байесовский с априорным распределением K2

Службы Analysis Services предоставляют две оценки выбора признаков, основанные на байезианских сетях. Сеть Bayesian — это направленный или ациклический граф состояний и переходов между состояниями, то есть некоторые состояния всегда находятся до текущего состояния, некоторые состояния являются постериорными, и граф не повторяется и не содержит циклов. По определению байесские сети позволяют использовать предыдущие знания. Однако вопрос о том, какие предыдущие состояния следует использовать при вычислении вероятностей последующих состояний, важно для проектирования алгоритма, производительности и точности.

Алгоритм K2 для обучения из сети Bayesian был разработан Купером и Херсковитс и часто используется в интеллектуальном анализе данных. Она масштабируется и может анализировать несколько переменных, но требует упорядочения переменных, используемых в качестве входных данных. Дополнительные сведения см. в разделе Learning Bayesian Networks by Chickering, Geiger и Heckerman.

Этот метод оценки доступен для дискретных и дискретизированных атрибутов.

Байесовский Дирихле эквивалент с равномерным априорным распределением

Оценка Байесовского Дирихле Эквивалента (BDE) также использует байесовский анализ для оценки сети на основе заданного набора данных. Метод оценки BDE был разработан Хекерманом и основан на метриках BD, разработанных Купером и Херсковитс. Распределение Dirichlet — это многономное распределение, описывающее условную вероятность каждой переменной в сети, и имеет множество свойств, полезных для обучения.

Метод Bayesian Dirichlet Эквивалент с равномерным приоритетом (BDEU) предполагает особый случай распределения Дирихле, в котором используется математическая константа для создания фиксированного или равномерного распределения априорных состояний. Оценка BDE также предполагает эквивалентность вероятности, что означает, что данные не могут быть использованы для различения эквивалентных структур. Иными словами, если оценка для Если A Тогда B совпадает с показателем для Если B Тогда A, структуры не могут быть различены на основе данных, и причинность не может быть выведена.

Дополнительные сведения о байезианских сетях и реализации этих методов оценки см. в разделе Learning Bayesian Networks.

Методы выбора признаков, используемые алгоритмами служб Analysis Services

В следующей таблице перечислены алгоритмы, поддерживающие выбор компонентов, методы выбора признаков, используемые алгоритмом, и параметры, заданные для управления поведением выбора компонентов:

Алгоритм Метод анализа Комментарии
Наивный Байес Энтропия Шеннона

Байесовский с априорным распределением K2

Байесовский Дирихлеев с равномерным априорным распределением (по умолчанию)
Алгоритм Microsoft Naïve Bayes принимает только дискретные или дискретизированные атрибуты; таким образом, он не может использовать оценку интересности.

Дополнительные сведения об этом алгоритме см. в техническом справочнике по алгоритму Microsoft Naive Bayes.
деревья принятия решений Оценка интересности

Энтропия Шеннона

Байесовский с априорным распределением K2

Байесовский Дирихлеев с равномерным априорным распределением (по умолчанию)
Если для всех столбцов содержатся не двоичные непрерывные значения, оценка интересности используется для всех столбцов, чтобы обеспечить согласованность. В противном случае используется метод выбора компонентов по умолчанию или метод, указанный при создании модели.

Дополнительные сведения об этом алгоритме см. в техническом справочнике по алгоритму дерева принятия решений Майкрософт.
Нейронная сеть Оценка интересности

Энтропия Шеннона

Байесовский с априорным распределением K2

Байесовский Дирихлеев с равномерным априорным распределением (по умолчанию)
Алгоритм нейронных сетей Майкрософт может использовать методы Байезиана и энтропии, если данные содержат непрерывные столбцы.

Дополнительные сведения об этом алгоритме см. в техническом справочнике по алгоритму нейронной сети Майкрософт.
Логистическая регрессия Оценка интересности

Энтропия Шеннона

Байесовский с априорным распределением K2

Байесовский Дирихлеев с равномерным априорным распределением (по умолчанию)
Хотя алгоритм логистической регрессии Майкрософт основан на алгоритме нейронной сети Майкрософт, вы не можете настроить модели логистической регрессии для управления поведением выбора признаков; Поэтому выбор компонентов всегда используется по умолчанию для метода, который наиболее подходит для атрибута.

Если все атрибуты дискретны или дискретизированы, значение по умолчанию — BDEU.

Дополнительные сведения об этом алгоритме см. в техническом справочнике по алгоритму логистической регрессии Майкрософт.
Кластеризация Оценка интересности Алгоритм кластеризации Майкрософт может использовать дискретные или дискретизированные данные. Однако, поскольку оценка каждого атрибута вычисляется как расстояние и представлена в виде непрерывного числа, необходимо использовать оценку интересности.

Дополнительные сведения об этом алгоритме см. в техническом справочнике по алгоритму кластеризации Майкрософт.
Линейная регрессия Оценка интересности Алгоритм линейной регрессии Майкрософт может использовать только оценку интересности, так как она поддерживает только непрерывные столбцы.

Дополнительные сведения об этом алгоритме см. в техническом справочнике по алгоритму линейной регрессии Майкрософт.
Правила ассоциации

Кластеризация последовательностей
Не используется Выбор компонентов не вызывается с помощью этих алгоритмов.

Однако можно управлять поведением алгоритма и уменьшать размер входных данных при необходимости, задав значение параметров MINIMUM_SUPPORT и MINIMUM_PROBABILIITY.

Дополнительные сведения см. в техническом справочнике по алгоритму сопоставления Майкрософт и техническом справочнике по алгоритму кластеризации последовательностей Майкрософт.
Временной ряд Не используется Выбор признаков не применяется к моделям временных рядов.

Дополнительные сведения об этом алгоритме см. в техническом справочнике по алгоритму временных рядов Майкрософт.

Параметры выбора компонентов

В алгоритмах, поддерживающих выбор компонентов, можно управлять включением выбора компонентов с помощью следующих параметров. Каждый алгоритм имеет значение по умолчанию для количества разрешенных входных данных, но можно переопределить этот параметр по умолчанию и указать количество атрибутов. В этом разделе перечислены параметры, предоставляемые для управления выбором компонентов.

Максимальные входные атрибуты

Если модель содержит больше столбцов, чем указано в параметре MAXIMUM_INPUT_ATTRIBUTES, алгоритм игнорирует столбцы, которые считает неинтересными.

максимальные_характеристики_выхода

Аналогичным образом, если модель содержит больше прогнозируемых столбцов, чем число, указанное в параметре MAXIMUM_OUTPUT_ATTRIBUTES, алгоритм игнорирует любые столбцы, которые он считает неинтересными.

Максимальное количество состояний

Если модель содержит больше случаев, чем указано в параметре MAXIMUM_STATES , наименее популярные состояния группируются и обрабатываются как отсутствующие. Если для одного из этих параметров задано значение 0, выбор компонентов отключен, что влияет на время обработки и производительность.

Помимо этих методов выбора признаков, вы можете улучшить способность алгоритма определять или продвигать значимые атрибуты, устанавливая флаги моделирования в модели или устанавливая флаги распределения в структуре. Дополнительные сведения об этих понятиях см. в разделе "Флаги моделирования" (интеллектуальный анализ данных) и распределение столбцов (интеллектуальный анализ данных).

См. также

Настройка моделей добычи данных и структуры