Алгоритм Microsoft Naive Bayes

Алгоритм Microsoft Naive Bayes — это алгоритм классификации на основе теорем Байеса и предоставляемый Microsoft SQL Server Analysis Services для использования в прогнозном моделировании. Слово "наивное" в названии "Наивный Байес" происходит от того факта, что алгоритм использует байесовские методы, но не учитывает возможные зависимости.

Этот алгоритм является менее вычислительным, чем другие алгоритмы Майкрософт, поэтому он полезен для быстрого создания моделей интеллектуального анализа данных для обнаружения связей между входными столбцами и прогнозируемыми столбцами. Этот алгоритм можно использовать для первоначального изучения данных, а затем можно применить результаты для создания дополнительных моделей интеллектуального анализа данных с другими алгоритмами, которые являются более вычислительными и более точными.

Пример

В качестве текущей рекламной стратегии, отдел маркетинга компании Adventure Works Cycle решил нацелиться на потенциальных клиентов, отправив рассылку листов. Чтобы снизить затраты, они хотят отправлять флиеры только тем клиентам, которые, скорее всего, отвечают. Компания хранит информацию в базе данных о демографических данных и ответе на предыдущую рассылку. Они хотят использовать эти данные, чтобы узнать, как демографические данные, такие как возраст и расположение, могут помочь прогнозировать ответ на повышение, сравнивая потенциальных клиентов с клиентами, которые имеют аналогичные характеристики и которые приобрели у компании в прошлом. В частности, они хотят увидеть различия между теми клиентами, которые купили велосипед, и теми клиентами, которые не купили.

Используя алгоритм Microsoft Naive Bayes, отдел маркетинга может быстро прогнозировать результат для определенного профиля клиента и, следовательно, определить, какие клиенты, скорее всего, отвечают на флиеры. Используя средство просмотра Microsoft Naive Bayes в SQL Server Data Tools (SSDT), они также могут провести визуальный анализ, какие входные столбцы способствуют положительным ответам на рекламные материалы.

Принцип работы алгоритма

Алгоритм Microsoft Naive Bayes вычисляет вероятность каждого состояния каждого входного столбца, учитывая каждое возможное состояние прогнозируемого столбца.

Чтобы понять, как это работает, используйте средство просмотра Microsoft Naive Bayes в SQL Server Data Tools (SSDT) (как показано на следующем рисунке) для визуального изучения распределения состояний алгоритма.

Наивное байесовское распределение состояний

Здесь средство просмотра Microsoft Naive Bayes выводит каждый входной столбец в наборе данных и показывает, как распределяются состояния каждого столбца, учитывая каждое состояние прогнозируемого столбца.

Это представление модели используется для идентификации входных столбцов, важных для разных состояний прогнозируемого столбца.

Например, в строке для Commute Distance, показанной здесь, распределение входных значений заметно отличается для покупателей и не покупателей. Это говорит вам о том, что входные данные, а именно Commute Distance = 0-1 миль, являются потенциальным прогнозом.

Зритель также предоставляет значения для распределений, поэтому можно увидеть, что для клиентов, которые ездят на работу от одной до двух миль, вероятность покупки велосипеда составляет 0,387, а вероятность, что они не купят велосипед, составляет 0,287. В этом примере алгоритм использует числовые сведения, выведенные из характеристик клиента (например, расстояние пути на работу), чтобы предсказать, будет ли клиент покупать велосипед.

Дополнительные сведения об использовании средства просмотра Microsoft Naive Bayes, см. статью Обзор модели с помощью средства просмотра Microsoft Naive Bayes.

Данные, необходимые для наивных моделей Bayes

При подготовке данных для обучения модели Naive Bayes необходимо понимать требования к алгоритму, включая необходимые данные и способ использования данных.

Требования к наивной модели Bayes приведены следующим образом:

  • Один ключевой столбец Каждая модель должна содержать один числовый или текстовый столбец, который однозначно идентифицирует каждую запись. Составные ключи не допускаются.

  • Входные столбцы В модели Naive Bayes все столбцы должны быть дискретными или дискретизированными столбцами. Сведения о дискретизации столбцов см. в разделе "Методы дискретизации " (интеллектуальный анализ данных)".

    Для наивной модели Bayes также важно убедиться, что входные атрибуты не зависят друг от друга. Это особенно важно при использовании модели для прогнозирования.

    Причина заключается в том, что если вы используете два столбца данных, которые уже тесно связаны, эффект будет умножить влияние этих столбцов, что может скрыть другие факторы, влияющие на результат.

    И наоборот, возможность алгоритма определять корреляции между переменными полезна при изучении модели или набора данных для выявления связей между входными данными.

  • По крайней мере один прогнозируемый столбец Прогнозируемый атрибут должен содержать дискретные или дискретизированные значения.

    Значения прогнозируемого столбца можно рассматривать как входные данные. Эта практика может быть полезной при изучении нового набора данных для поиска связей между столбцами.

Просмотр модели

Для изучения модели можно использовать Microsoft Naive Bayes Viewer. Средство просмотра показывает, как входные атрибуты связаны с прогнозируемым атрибутом. Средство просмотра также предоставляет подробный профиль каждого кластера, список атрибутов, которые отличают каждый кластер от других, а также характеристики всего набора обучающих данных. Дополнительные сведения см. в статье "Обзор модели" с помощью средства просмотра Microsoft Naive Bayes.

Если вы хотите узнать больше сведений, вы можете просмотреть модель в средстве просмотра деревьев универсального содержимого Майкрософт (Data Mining). Дополнительные сведения о типе сведений, хранящихся в модели, см. в разделе "Содержимое модели интеллектуального анализа данных" для наивных моделей Байеса (службы Analysis Services — интеллектуальный анализ данных).

Создание прогнозов

После обучения модели результаты хранятся в виде набора шаблонов, которые можно изучить или использовать для прогнозирования.

Вы можете создавать запросы для возврата прогнозов о том, как новые данные связаны с прогнозируемым атрибутом, или получить статистику, описывающую корреляции, найденные моделью.

Сведения о создании запросов к модели интеллектуального анализа данных см. в разделе "Запросы интеллектуального анализа данных". Примеры использования запросов с наивной моделью Bayes см. в примерах наивных примеров запросов модели Bayes.

Замечания

  • Поддерживает использование языка разметки прогнозной модели (PMML) для создания моделей добычи данных.

  • Поддерживает детализацию.

  • Не поддерживает создание измерений дата-майнинга.

  • Поддерживает использование OLAP-моделей для интеллектуального анализа данных.

См. также

Алгоритмы интеллектуального анализа данных (Analysis Services - интеллектуальный анализ данных)Выбор характеристик (интеллектуальный анализ данных)Примеры запросов модели Наивного БайесаСодержание моделей интеллектуального анализа данных для Наивного Байеса (Analysis Services - интеллектуальный анализ данных)Техническое руководство по алгоритму Наивного Байеса