Матрица классификации (Службы анализа — добыча данных)

Матрица классификации сортирует все случаи из модели в категории, определяя, соответствует ли прогнозируемое значение фактическому значению. Затем учитываются все случаи в каждой категории, а итоговые данные отображаются в матрице. Матрица классификации является стандартным инструментом для оценки статистических моделей и иногда называется матрицей путаницы.

Диаграмма, созданная при выборе параметра "Матрица классификации ", сравнивает фактические значения с прогнозируемыми значениями для каждого указанного состояния. Строки в матрице представляют прогнозируемые значения для модели, а столбцы представляют фактические значения. Категории, используемые в анализе, являются ложными положительными, истинными положительными, ложными отрицательными и истинными отрицательными

Матрица классификации является важным инструментом для оценки результатов прогнозирования, так как это упрощает понимание и учет последствий неправильных прогнозов. Просмотрев количество и проценты в каждой ячейке этой матрицы, можно быстро увидеть, как часто модель прогнозировала точно.

В этом разделе объясняется, как создать матрицу классификации и интерпретировать результаты.

Общие сведения о матрице классификации

Рассмотрите модель, которую вы создали в рамках учебного пособия по базовым методам интеллектуального анализа данных. Модель [TM_DecisionTree] используется для создания целевой кампании рассылки и может использоваться для прогнозирования того, какие клиенты, скорее всего, купить велосипед. Для проверки ожидаемой полезности этой модели используется набор данных, для которого уже известны значения атрибута результата [Bike Buyer]. Как правило, при создании структуры интеллектуального анализа данных, используемой для обучения модели, используется набор данных тестирования.

Существует только два возможных результата: да (клиент, скорее всего, купить велосипед), и нет (клиент, скорее всего, не приобретет велосипед). Поэтому результирующая матрица классификации относительно проста.

Интерпретация результатов

В следующей таблице показана матрица классификации для модели TM_DecisionTree. Помните, что для этого прогнозируемого атрибута 0 означает No и 1 означает "Да".

Спрогнозировано	0 (фактический)	1 (фактический)
0	362	144
1	121	373

Первая ячейка результата, содержащая значение 362, указывает количество истинных положительных значений для значения 0. Поскольку 0 указывает, что клиент не приобрел велосипед, эта статистика говорит вам, что модель предсказала правильное значение для не велосипед-покупателей в 362 случаях.

Ячейка непосредственно под той, которая содержит значение 121, показывает количество ложных положительных результатов, или сколько раз модель предсказала, что кто-то купит велосипед, когда на самом деле не купили.

Ячейка, содержащая значение 144, указывает количество ложных срабатываний для значения 1. Поскольку 1 означает, что клиент купил велосипед, эта статистика показывает, что в 144 случаях модель ошибочно предсказала, что человек не купит велосипед, когда на самом деле он купил.

Наконец, ячейка, содержащая значение 373, указывает количество истинных положительных значений целевого значения 1. Другими словами, в 373 случаях модель правильно предсказала, что кто-то купит велосипед.

Суммируя значения в ячейках, расположенных по диагонали, можно определить общую точность модели. Одна диагонали указывает общее количество точных прогнозов, а другая диагонали указывает общее количество ошибочных прогнозов.

Использование нескольких прогнозируемых значений

Дело "Покупатель велосипедов" особенно легко интерпретировать, так как существует только два возможных значения. Если прогнозируемый атрибут имеет несколько возможных значений, матрица классификации добавляет новый столбец для каждого возможного фактического значения, а затем подсчитывает количество совпадений для каждого прогнозируемого значения. В следующей таблице показаны результаты для другой модели, где возможны три значения (0, 1, 2).

Спрогнозировано	0 (фактический)	1 (фактический)	2 (фактический)
0	111	3	5
1	2	123	17
2	19	0	20

Хотя добавление дополнительных столбцов делает отчет более сложным, дополнительные сведения могут оказаться очень полезными, если вы хотите оценить совокупные затраты на создание неправильного прогноза. Чтобы создать суммы по диагонали или сравнить результаты для различных сочетаний строк, можно нажать кнопку "Копировать ", указанную на вкладке "Матрица классификации " и вставить отчет в Excel. Кроме того, можно использовать клиент, например клиент интеллектуального анализа данных для Excel, который поддерживает SQL Server 2005 и более поздних версий, чтобы создать отчет классификации непосредственно в Excel, который включает как количество, так и проценты. Дополнительные сведения см. в разделе "Интеллектуальный анализ данных SQL Server".

Ограничения матрицы классификации

Матрицу классификации можно использовать только с дискретными прогнозируемыми атрибутами.

Хотя можно добавить несколько моделей при выборе моделей на вкладке Выбор входных данных конструктора Диаграмма точности интеллектуального анализа данных, вкладка Матрица классификации будет отображать отдельную матрицу для каждой модели.

В следующих разделах содержатся дополнительные сведения о том, как создавать и использовать матрицы классификации и другие диаграммы.

Темы	Ссылки.
Содержит пошаговое руководство по созданию лифт-чарта для модели таргетированной рассылки.	Учебник по интеллектуальному анализу данных Проверка точности с помощью диаграммы лифта (Базовый учебник по интеллектуальному анализу данных)
Объясняет связанные типы диаграмм.	Диаграмма эффективности (службы Analysis Services — анализ данных) Диаграмма доходности (Службы анализа - интеллектуальный анализ данных) Точечная диаграмма (службы Analysis Services — интеллектуальный анализ данных)
Описывает использование перекрестной проверки для моделей интеллектуального анализа данных и структур интеллектуального анализа данных.	Перекрестная проверка (службы Analysis Services — интеллектуальный анализ данных)
Описывает шаги по созданию диаграмм лифта и других диаграмм точности.	Задачи тестирования и проверки и инструкции (интеллектуальный анализ данных)

См. также

Тестирование и проверка (интеллектуальный анализ данных)

Last updated on 2017-06-13