Структуры интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)

Структура данных для анализа определяет данные, из которых создаются модели: указывает представление исходных данных, число и тип столбцов, а также необязательное разбиение на обучающий и тестовый наборы. Одна структура анализа данных может поддерживать несколько моделей анализа данных, которые используют один общий домен. На следующей схеме показана связь структуры интеллектуального анализа данных с источником данных и ее составными моделями интеллектуального анализа данных.

Обработка данных: от источника к структуре к модели

Структура интеллектуального анализа данных на схеме основана на источнике данных, который содержит несколько таблиц или представлений, присоединенных к полю CustomerID. Одна таблица содержит сведения о клиентах, таких как географический регион, возраст, доход и пол, а связанная вложенная таблица содержит несколько строк дополнительных сведений о каждом клиенте, таких как продукты, приобретенные клиентом. На схеме показано, что на одной структуре дата-майнинга можно создавать несколько моделей, а модели могут использовать разные колонки из структуры.

Модель 1 использует Идентификатор клиента, доход, возраст, регион и фильтрует данные по региону.

Модель 2 Использует customerID, доход, возраст, регион и фильтрует данные по возрасту.

Модель 3 Использует CustomerID, Age, Gender и вложенную таблицу без фильтра.

Так как модели используют разные столбцы для ввода, а две модели дополнительно ограничивают данные, используемые в модели, применяя фильтр, модели могут иметь очень разные результаты, даже если они основаны на одних и том же данных. Обратите внимание, что столбец CustomerID требуется во всех моделях, так как он является единственным доступным столбцом, который можно использовать в качестве ключа дела.

В этом разделе объясняется базовая архитектура структур интеллектуального анализа данных: определение структуры интеллектуального анализа данных, его заполнение данными и его использование для создания моделей. Дополнительные сведения об управлении или экспорте существующих структур интеллектуального анализа данных см. в разделе "Управление решениями и объектами интеллектуального анализа данных".

Определение структуры майнинга данных

Настройка структуры интеллектуального анализа данных включает следующие действия.

Определение источника данных.
Выберите столбцы данных для включения в структуру (не все столбцы должны быть добавлены в модель) и определение ключа.
Определите ключ для структуры, включая ключ для лучшей таблицы, если это применимо.
Укажите, следует ли разделить исходные данные на набор обучения и набор тестирования. Этот шаг является необязательным.
Обработка структуры.

Данные шаги подробно описываются в следующих разделах.

Источники данных для структур анализа данных

При определении структуры интеллектуального анализа данных используются столбцы, доступные в существующем представлении источника данных. Представление источника данных — это общий объект, который позволяет объединять несколько источников данных и использовать их в качестве одного источника. Исходные источники данных не видны клиентским приложениям, и вы можете использовать свойства представления источника данных для изменения типов данных, создания агрегатов или столбцов псевдонимов.

Если вы создаете несколько моделей анализа данных из одной структуры данных, модели могут использовать разные столбцы в этой структуре. Например, можно создать одну структуру, а затем создать отдельные модели дерева принятия решений и кластеризации из нее, используя разные столбцы и прогнозируя различные атрибуты.

Кроме того, каждая модель может использовать столбцы из структуры разными способами. Например, представление источника данных может содержать столбец "Доход", который можно использовать различными способами для различных моделей.

Структура интеллектуального анализа данных сохраняет определение источника данных и столбцы в нем в виде привязок к исходным данным. Дополнительные сведения о привязках источников данных см. в статьях "Источники данных" и "Привязки" (многомерные службы SSAS). Однако обратите внимание, что можно также создать структуру интеллектуального анализа данных без привязки ее к определенному источнику данных с помощью инструкции DMX CREATE MINING STRUCTURE (DMX).

Столбцы структуры добычи данных

Стандартные блоки структуры интеллектуального анализа данных — это столбцы структуры интеллектуального анализа данных, описывающие данные, содержащиеся в источнике данных. Эти столбцы содержат такие сведения, как тип данных, тип контента и распределение данных. Структура интеллектуального анализа данных не содержит сведений о том, как столбцы используются для определенной модели интеллектуального анализа данных или о типе алгоритма, используемого для создания модели; эта информация определяется в самой модели интеллектуального анализа данных.

Структура данных также может содержать вложенные таблицы. Вложенная таблица представляет собой отношение «один ко многим» между сущностью дела и ее связанными атрибутами. Например, если сведения, описывающие клиента, находятся в одной таблице, а покупки клиента находятся в другой таблице, можно использовать вложенные таблицы для объединения сведений в один случай. Идентификатор клиента — это сущность, а покупки — это связанные атрибуты. Дополнительные сведения об использовании вложенных таблиц см. в разделе "Вложенные таблицы" (Analysis Services — интеллектуальный анализ данных).

Чтобы создать модель интеллектуального анализа данных в SQL Server Data Tools (SSDT), необходимо сначала создать структуру интеллектуального анализа данных. Мастер интеллектуального анализа данных описывает процесс создания структуры интеллектуального анализа данных, выбора данных и добавления модели интеллектуального анализа данных.

При создании модели интеллектуального анализа данных с помощью расширений интеллектуального анализа данных (DMX) можно указать модель и столбцы в ней, а dmX автоматически создаст необходимую структуру интеллектуального анализа данных. Дополнительные сведения см. в разделе CREATE MINING MODEL (DMX).

Дополнительные сведения см. в разделе «Столбцы структуры анализа данных».

Разделение данных на наборы обучения и тестирования

При определении данных структуры интеллектуального анализа данных можно также указать, что часть данных используется для обучения, а часть для тестирования. Поэтому нет необходимости заранее отделять данные перед созданием структуры интеллектуального анализа данных. Вместо этого, при создании модели, можно указать, что определенный процент данных следует отложить для тестирования, а остальные использовать для обучения, или можно указать определенное количество случаев для использования в качестве тестового набора данных. Сведения о наборах данных для обучения и тестирования кэшируются вместе со структурой для анализа данных, и в результате один и тот же тестовый набор данных можно использовать со всеми моделями, основанными на этой структуре.

Дополнительные сведения см. в разделе "Обучение и тестирование наборов данных".

Включение детализации

Столбцы можно добавить в структуру интеллектуального анализа данных, даже если вы не планируете использовать столбец в определенной модели интеллектуального анализа данных. Это полезно, если, например, вы хотите получить адреса электронной почты клиентов в модели кластеризации без использования адреса электронной почты во время процесса анализа. Чтобы игнорировать столбец во время этапа анализа и прогнозирования, добавьте его в структуру, но не указываете использование для столбца или установите флаг использования в значение "Игнорировать". Данные, помеченные таким образом, можно по-прежнему использовать в запросах, если возможность прямого доступа к данным включена в модели анализа данных и если у вас есть соответствующие разрешения. Например, можно просмотреть кластеры, полученные из анализа всех клиентов, а затем использовать запрос детализации для получения имен и адресов электронной почты клиентов в определенном кластере, даже если эти столбцы данных не использовались для сборки модели.

Дополнительные сведения см. в разделе «Запросы детализации» (интеллектуальный анализ данных).

Обработка структур майнинга данных

Структура интеллектуального анализа данных — это только контейнер метаданных, пока он не будет обработан. При обработке структуры интеллектуального анализа данных службы Analysis Services создает кэш, в который хранятся статистические данные, сведения о том, как дискретизированы любые непрерывные атрибуты и другие сведения, которые позже используются моделями интеллектуального анализа данных. Модель интеллектуального анализа данных сама по себе не хранит эти сводные сведения, а вместо этого ссылается на данные, которые были сохранены в кэше при обработке структуры анализа данных. Поэтому не нужно повторно обрабатывать структуру при каждом добавлении новой модели в существующую структуру; можно обработать только модель.

Вы можете отказаться от этого кэша после обработки, если кэш очень велик или вы хотите удалить подробные данные. Если вы не хотите, чтобы данные кэшировались, можно изменить свойство CacheMode в структуре интеллектуального анализа данных на ClearAfterProcessing. Это приведет к уничтожению кэша после обработки любых моделей. Установка свойства CacheMode в ClearAfterProcessing отключит функцию детализации в модели интеллектуального анализа данных.

Однако после удаления кэша вы не сможете добавлять новые модели в структуру майнинга данных. При добавлении новой модели интеллектуального анализа данных в структуру или изменении свойств существующих моделей сначала потребуется повторно обработать структуру интеллектуального анализа данных. Дополнительные сведения см. в разделе "Требования к обработке и рекомендации" (интеллектуальный анализ данных).

Просмотр структур интеллектуального анализа данных

Вы не можете использовать средства просмотра для просмотра данных в структуре интеллектуального анализа данных. Однако в SQL Server Data Tools (SSDT) можно использовать вкладку " Структура интеллектуального анализа данных" конструктора интеллектуального анализа данных для просмотра столбцов структуры и их определений. Дополнительные сведения см. в конструкторе интеллектуального анализа данных.

Если вы хотите просмотреть данные в структуре для интеллектуального анализа данных, можно создавать запросы с помощью расширений для интеллектуального анализа данных (DMX). Например, инструкция SELECT * FROM <structure>.CASES возвращает все данные из структуры данных для интеллектуального анализа. Для получения этой информации необходимо, чтобы структура интеллектуального анализа была обработана, а результаты обработки были закэшированы.

Оператор SELECT * FROM <model>.CASES возвращает те же столбцы, но только для случаев, относящихся к этой конкретной модели. Дополнительные сведения см. в SELECT FROM <structure>.CASES и SELECT FROM <model>.CASES (DMX).

Использование моделей интеллектуального анализа данных с структурами для анализа данных

Модель интеллектуального анализа данных применяет алгоритм модели интеллектуального анализа данных к данным, представленным структурой интеллектуального анализа данных. Модель интеллектуального анализа данных — это объект, принадлежащий определенной структуре интеллектуального анализа данных, и модель наследует все значения свойств, определенных структурой интеллектуального анализа данных. Модель может использовать все столбцы, которые содержит структура интеллектуального анализа данных, или подмножество столбцов. В структуру можно добавить несколько копий столбца структуры. Вы также можете добавить несколько копий столбца структуры в модель, а затем назначить разные имена или псевдонимы для каждого столбца структуры в модели. Дополнительные сведения о назначении псевдонимов столбцам структуры см. в статье «Создание псевдонима для столбца модели» и «Свойства модели интеллектуального анализа данных».

Дополнительные сведения об архитектуре моделей интеллектуального анализа данных см. в статье "Модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)".

Используйте ссылки, предоставленные ей, чтобы узнать больше о том, как определить, управлять и использовать структуры интеллектуального анализа данных.

Задачи	Ссылки.
Работа с реляционными структурами интеллектуального анализа данных	Создание новой реляционной структуры анализа данных Добавление вложенной таблицы в структуру интеллектуального анализа данных
Работа со структурами обработки данных на основе кубов OLAP	Создайте новую структуру интеллектуального анализа данных OLAP Фильтрация исходного куба для структуры интеллектуального анализа данных
Работа со столбцами в структуре интеллектуального анализа данных	Добавление столбцов в структуру для анализа данных Удаление столбцов из структуры интеллектуального анализа данных
Изменение или запрос свойств структуры интеллектуального анализа данных и данных	Изменение свойств структуры добычи данных
Работа с базовыми источниками данных и обновлением исходных данных	Изменение представления источника данных, используемого для структуры интеллектуального анализа данных Обработка структуры данных

См. также

Объекты базы данных (Службы анализа — многомерные данные)
Модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)

Last updated on 2017-06-13