Изучение модели Call Center (учебник по интеллектуальному анализу данных — средний уровень)
После того как построена исследовательская модель, с ее помощью можно получить дополнительные сведения о данных, используя следующие средства, входящие в среду Business Intelligence Development Studio.
Средство просмотра нейронных сетей (Microsoft): Это средство просмотра доступно на вкладке Средство просмотра моделей интеллектуального анализа данных конструктора интеллектуального анализа данных и предназначено для упрощения работы со взаимосвязями в данных.
Средство просмотра деревьев содержимого общего вида (Майкрософт): Это стандартное средство просмотра предоставляет подробные данные о закономерностях и статистические данные, обнаруженные алгоритмом во время создания модели.
Конструктор представлений источников данных**:** Это средство просмотра выводит таблицы, диаграммы, сводные диаграммы и сводные таблицы, упрощающие изучение исходных данных. Возврат к исходным данным может быть весьма полезен для понимания трендов, которые выделены моделью.
Средство просмотра нейронных сетей (Microsoft)
Это средство просмотра содержит три панели: Входные данные, Выходные данные и Переменные.
На панели Выходные данные можно выбрать различные значения для прогнозируемого атрибута (или зависимой переменной). Если модель содержит несколько прогнозируемых атрибутов, атрибут можно выбрать из списка Выходной атрибут.
На панели Переменные два выбранных результата сравниваются относительно составляющих их атрибутов или переменных. Цветные линии визуально представляют степень влияния переменной на конечные результаты. Также можно просмотреть оценку точности прогноза для переменных. Оценка точности вычисляется различным образом в зависимости от типа используемой модели интеллектуального анализа данных, но обычно сообщает, как улучшается работа модели в случае использования данного атрибута для прогнозирования.
Панель Входные данные позволяет добавлять в модель факторы влияния, чтобы проверить работу в различных гипотетических вариантах сценариев.
Использование панели «Выходные данные»
В этой первоначальной модели задачей является изучение влияния различных факторов на уровень обслуживания. Для этого из списка выходных атрибутов можно выбрать атрибут Service Grade, а затем сравнивать различные уровни обслуживания, выбирая диапазоны из раскрывающихся списков для Value 1 и Value 2.
Сравнение самого низкого и самого высокого уровней обслуживания
В поле Value 1 выберите диапазон с самыми низкими значениями. Например, диапазон 0-0-0,7 представляет самые низкие показатели вызовов, прекращенных абонентом, что соответствует самому высокому уровню обслуживания.
ПримечаниеЗначения, фактически присутствующие в этом диапазоне, могут различаться в зависимости от конфигурации модели.
В поле Value 2 выберите диапазон с самыми высокими значениями. Например, диапазон со значением >=0,12 представляет самый высокий показатель вызовов, прекращенных абонентом, что соответствует самому низкому уровню обслуживания. Другими словами, 12 % клиентов, позвонивших за эту смену, повесили трубку до разговора с представителем компании.
Содержимое панели Переменные обновляется, чтобы сравнивать атрибуты, составляющие результирующие значения. Поэтому в левом столбце показаны атрибуты, связанные с самым высоким уровнем обслуживания, а в правом столбце — атрибуты, связанные с самым низким уровнем обслуживания.
Использование панели «Переменные»
В данной модели важным фактором является переменная Average Time Per Issue. Эта переменная указывает среднее время, затрачиваемое на ответ на звонок, независимо от его типа.
Просмотр и копирование вероятности и оценки точности прогноза для атрибута
Наведите указатель мыши на цветную полосу в первой строке панели Переменные.
Эта цветная полоса показывает, как сильно переменная Average Time Per Issue влияет на уровень обслуживания. В подсказке выводится общая оценка, значения вероятности и оценка точности прогноза для каждого сочетания переменной и конечного результата.
Щелкните правой кнопкой мыши любую цветную полосу на панели Переменные и выберите команду Копировать.
Щелкните правой кнопкой мыши любую ячейку на листе Excel и выберите команду Вставить.
Отчет будет вставлен в виде HTML-таблицы, где показаны только оценки для каждой полосы.
Щелкните правой кнопкой мыши любую ячейку на другом листе Excel и выберите команду Специальная вставка.
Отчет будет вставлен в текстовом формате, и будут показаны связанные статистические данные, описанные в следующем разделе.
Использование панели «Входные данные»
Предположим, что нужно изучить влияние отдельного фактора, например смены или количества операторов. Можно выбрать отдельную переменную на панели Входные данные, и панель Переменные автоматически обновится, чтобы сравнить две ранее выбранные группы по заданной переменной.
Просмотр влияния, оказываемого изменением входных атрибутов на уровень обслуживания
На панели Входные данные выберите в поле атрибут значение Shift.
В поле Значение выберите AM.
Панель Переменные обновится, чтобы показать, как изменится модель, если выбрать смену AM. При этом сохраняются все остальные выбранные значения, и продолжается сравнение самого низкого и самого высокого уровней обслуживания.
В поле Значение выберите PM1.
Панель Переменные обновится, чтобы показать, как изменится модель, если меняется смена.
На панели Входные данные щелкните следующую пустую строку под строкой Атрибут и выберите значение Calls. В поле Значение выберите диапазон, в котором указано самое большое количество звонков.
В список будет добавлено новое входное условие. Панель Переменные обновится, чтобы показать, как изменится модель для заданной смены при максимальном количестве звонков.
Продолжайте изменять значения Shift и Calls, чтобы обнаружить содержательные взаимосвязи между сменой, количеством звонков и уровнем обслуживания.
ПримечаниеЧтобы очистить панель Входные данные и использовать другие атрибуты, щелкните ссылку Обновить содержимое средства просмотра.
Интерпретация статистических данных, представленных в средстве просмотра
При увеличенном времени ожидания можно уверенно прогнозировать высокий показатель вызовов, прекращенных абонентом во время ожидания, что свидетельствует о низком уровне обслуживания. Такое заключение может показаться самоочевидным, однако модель интеллектуального анализа данных предоставляет также дополнительные статистические данные, позволяющие интерпретировать подобные тренды.
Оценка: значение, которое указывает общую важность данной переменной для определения различий между результатами. Чем выше оценка, тем сильнее влияние переменной на результат.
Вероятность значения 1: процентное отношение, представляющие вероятность данного значения в этом результате.
Вероятность значения 2: процентное отношение, представляющие вероятность данного значения в этом результате.
Точность прогноза для Value 1 и Точность прогноза для Value 2: оценки, которые представляют влияние заданной переменной на прогноз результатов Value 1 и Value 2. Чем выше оценка, тем лучше данная переменная подходит для прогнозирования результатов.
В следующей таблице приведены несколько примеров значений для самых важных факторов. Например, Вероятность Value 1 составляет 60.6 %, а Вероятность Value 2 составляет 8.30 %. Это значит, что когда значение Average Time Per Issue находилось в диапазоне от 44 до 70 минут, 60.6 % вариантов попало в смену с самым высоким уровнем обслуживания (Value 1), а 8.30 % вариантов — в смену с самым низким уровнем обслуживания (Value 2).
По этим данным можно сделать ряд заключений. Меньшее время ответа на звонок (в диапазоне 44–70) сильно влияет на повышение уровня обслуживания (диапазон 0,00–0,07). Оценка (92.35) сообщает, что данная переменная является очень важной.
Однако в списке влияющих факторов присутствуют и другие факторы, воздействие которых менее заметно и более сложно для интерпретации. Например, смена влияет на качество обслуживания, однако оценка точности прогноза и относительные значения вероятности показывают, что смена не является важным фактором.
Атрибут |
Значение |
Подходит < 0,07 |
Подходит >= 0,12 |
|---|---|---|---|
Средние затраты времени на решение проблемы |
89.087 - 120.000 |
|
Оценка: 100
Вероятность Value1: 4.45 %
Вероятность Value2: 51.94 %
Точность прогноза для Value1: 0.19
Точность прогноза для Value2: 1.94
|
Средние затраты времени на решение проблемы |
44.000 - 70.597 |
Оценка: 92.35
Вероятность Value1: 60.06 %
Вероятность Value2: 8.30 %
Точность прогноза для Value1: 2.61
Точность прогноза для Value2: 0.31
|
|
В начало
Средство просмотра деревьев содержимого общего вида (Майкрософт)
Это средство просмотра предназначено для вывода еще более подробных сведений, полученных алгоритмом во время обработки модели. Средство просмотра деревьев содержимого общего вида (Майкрософт) представляет модель интеллектуального анализа данных в виде последовательности узлов, где каждый узел представляет набор известных знаний об обучающих данных. Это средство просмотра может использоваться с любыми моделями, однако содержимое узлов различается в зависимости от типа модели.
Для моделей нейронной сети или логистической регрессии может оказаться особенно полезным marginal statistics node. Этот узел содержит выведенные статистические сведения о распределении значений в данных. Эти сведения могут быть полезны, если нужно получить сводное представление о данных, не создавая большое количество запросов T-SQL. Диаграмма распределения значений по сегментам в предыдущем разделе была получена из граничного узла статистики.
Получение сводки по значениям данных из модели интеллектуального анализа данных
В конструкторе интеллектуального анализа данных на вкладке Средство просмотра моделей интеллектуального анализа данных выберите <имя модели интеллектуального анализа данных>.
Из списка Средство просмотра выберите Средство просмотра деревьев содержимого общего вида (Майкрософт).
Представление модели интеллектуального анализа данных обновится и будет отображать иерархию узлов в левой панели и HTML-таблицу в правой панели.
На панели Заголовок узла щелкните узел с именем 10000000000000000.
Самый верхний узел в любой модели всегда является ее корневым узлом. В модели нейронной сети или логистической регрессии граничный узел статистики расположен непосредственно под корневым узлом.
Прокрутите панель Сведения об узле вниз, пока не появится строка NODE_DISTRIBUTION.
Прокрутите таблицу NODE_DISTRIBUTION, чтобы просмотреть распределение значений, вычисленное алгоритмом нейронной сети.
Чтобы использовать эти данные в отчете, можно выделить и скопировать сведения из отдельных строк или использовать следующий запрос расширений интеллектуального анализа данных для извлечения полного содержимого узла.
SELECT *
FROM [Call Center EQ4].CONTENT
WHERE NODE_NAME = '10000000000000000'
Также можно использовать иерархию узлов и данные из таблицы NODE_DISTRIBUTION, чтобы пройти по определенным путям в нейронной сети и просмотреть статистику скрытого слоя. Дополнительные сведения см. в разделе Запросы к модели нейронной сети (Майкрософт) (службы Analysis Services — интеллектуальный анализ данных).
В начало
Конструктор представления источника данных
Это средство просмотра используется при построении структуры интеллектуального анализа данных или куба, но также предоставляет набор средств, упрощающих интерпретацию исходных данных. Например, если модель обнаружила тренд, который не совсем понятен, можно просмотреть отдельные строки базовых данных, либо создать сводные представления или диаграммы, которые помогут понять взаимосвязи.
В этом разделе приводится пример использования конструктора представлений источников данных для изучения трендов, обнаруженных моделью, без необходимости копировать данные в Excel или выполнять несколько запросов T-SQL к источнику данных.
В этом сценарии создается несколько диаграмм, которые графически демонстрируют обнаруженную моделью взаимосвязь между временем ответа и качеством обслуживания.
Создание сводной диаграммы, которая иллюстрирует тренд, обнаруженный моделью интеллектуального анализа данных
В обозревателе решений в разделе Представления источников данных дважды щелкните файл Call Center.dsv.
На вкладке Call Center.dsv щелкните правой кнопкой мыши таблицу FactCallCenter и выберите команду Просмотр данных.
Откроется новая вкладка Просмотр таблицы FactCallCenter. Эта вкладка содержит четыре раздела на различных вкладках: Таблица, Сводная таблица, Диаграмма и Сводная диаграмма.
Перейдите на вкладку Сводная диаграмма.
В разделе Список полей диаграммы выберите атрибут AverageTimePerIssue, а затем перетащите его в область диаграммы в поле Перетащите сюда поля категорий.
Поскольку исходные данные берутся из плоской таблицы, иерархия в разделе Список полей диаграммы содержит одинаковые данные на уровне иерархии и на уровне полей. Однако во время работы с кубом или с измерением иерархия может содержать несколько элементов. Например, иерархия Date может содержать такие поля, как Quarter, Month и Day. Можно перетащить на диаграмму как иерархию целиком, так и отдельный ее элемент.
Перетащите атрибут ServiceGrade из раздела Список полей диаграммы в центр области диаграммы.
Диаграмма обновится, и в верхней ее части появится поле с заголовком Сумма ServiceGrade.
Щелкните значок суммы на панели инструментов и выберите функцию Среднее.
Заголовок изменится на Среднее ServiceGrade.
В списке Список полей диаграммы выберите атрибут Shift, а затем перетащите его в область диаграммы в поле Перетащите сюда поля фильтра. Перетащите атрибут WageType из списка Список полей диаграмма и поместите его рядом с атрибутом Shift.
Теперь можно отфильтровать данные по смене и увидеть, меняется ли тренд в зависимости от смены или от дня недели (рабочий или выходной).
Выберите атрибут AverageTimePerIssue в нижней части диаграммы и перетащите его обратно в список Список полей диаграммы.
В списке Список полей диаграммы выберите атрибут AverageTimePerLevelTwoOperators, а затем перетащите его в область диаграммы в поле Перетащите сюда поля категорий.
Диаграмма обновится и отразит взаимосвязь между увеличением числа операторов и средним уровнем обслуживания. Эта связь представляется нелинейной. Можно продолжить эксперименты, перетаскивая новые поля на диаграмму или изменяя ее тип.
Однако обратите внимание, что обычно такие диаграммы могут одновременно отображать лишь несколько атрибутов одновременно, а алгоритм нейронной сети анализирует множество сложных взаимосвязей между несколькими входными значениями. Кроме того, модель нейронной сети обнаруживает много взаимосвязей, которые слишком слабы для представления на диаграмме.
Если нужно экспортировать схемы или создать презентацию сложной модели нейронной сети, также можно использовать шаблоны интеллектуального анализа данных для Visio. Эта бесплатная надстройка для Visio 2007 предоставляет сложные настраиваемые схемы для моделей интеллектуального анализа данных, которые можно использовать для презентаций и отчетов. Дополнительные сведения см. в разделе Надстройки интеллектуального анализа данных для Office 2007.
В начало
Следующая задача занятия
См. также