Проекты интеллектуального анализа данных

Проект интеллектуального анализа данных — часть решения Analysis Services. В процессе разработки объекты, создаваемые в этом проекте, доступны для тестирования и запроса в рамках базы данных рабочей области. Если вы хотите, чтобы пользователи могли запрашивать или просматривать объекты в проекте, необходимо развернуть проект в экземпляре служб Analysis Services, работающих в многомерном режиме.

В этом разделе приведены основные сведения, необходимые для понимания и создания проектов интеллектуального анализа данных.

Создание проектов интеллектуального анализа данных

В SQL Server Data Tools (SSDT) вы создаете проекты интеллектуального анализа данных с помощью шаблона, OLAP и проекта интеллектуального анализа данных. Вы также можете создавать проекты интеллектуального анализа данных программными средствами с помощью AMO. Отдельные объекты анализа данных можно скриптовать с помощью языка сценариев служб аналитики (ASSL). Дополнительные сведения см. в разделе "Доступ к данным многомерной модели" (службы Analysis Services — многомерные данные).

При создании проекта интеллектуального анализа данных в существующем решении объекты интеллектуального анализа данных по умолчанию будут развернуты в базе данных Служб Analysis Services с тем же именем, что и файл решения. Это имя и целевой сервер можно изменить с помощью диалогового окна "Свойства проекта ". Дополнительные сведения можно найти в разделе «Настройка свойств проекта служб Analysis Services (SSDT)».

Предупреждение

Чтобы успешно построить и развернуть проект, необходимо иметь доступ к экземпляру служб Analysis Services, работающих в режиме OLAP/Data Mining. Вы не можете разрабатывать или развертывать решения интеллектуального анализа данных в экземпляре служб Analysis Services, поддерживающих табличные модели, и не можете использовать данные непосредственно из книги PowerPivot или из табличной модели, которая использует хранилище данных в памяти. Чтобы определить, может ли экземпляр служб Analysis Services поддерживать интеллектуальный анализ данных, см. раздел "Определение режима сервера экземпляра служб Analysis Services".

В рамках каждого создаваемого проекта интеллектуального анализа данных выполните следующие действия.

Выберите источник данных, например куб, базу данных или даже текстовые файлы Excel или текстовые файлы, содержащие необработанные данные, которые будут использоваться для создания моделей.
Определите подмножество данных в источнике данных для анализа и сохраните его в виде представления источника данных.
Определите структуру майнинга для поддержки моделирования.
Добавьте модели интеллектуального анализа данных в структуру интеллектуального анализа данных , выбрав алгоритм и указав способ обработки данных.
Обучите модели, заполняя их выбранными данными или отфильтрованным подмножеством данных.
Изучение, тестирование и перестроение моделей.

По завершении проекта вы можете развернуть его для пользователей с целью просмотра или выполнения запросов, или предоставить программный доступ к моделям интеллектуального анализа данных в приложении для поддержки прогнозов и анализа.

Объекты в проектах дата-майнинга

Все проекты интеллектуального анализа данных содержат следующие четыре типа объектов. У вас может быть несколько объектов всех типов.

Источники данных
Представления источников данных
Структуры добычи
Модели анализа данных

Например, один проект интеллектуального анализа данных может содержать ссылку на несколько источников данных, при этом каждый источник данных поддерживает несколько представлений источников данных. В свою очередь, каждое представление источника данных может поддерживать несколько структур интеллектуального анализа данных, каждый из которых имеет множество связанных моделей интеллектуального анализа данных.

Кроме того, проект может включать подключаемые алгоритмы, пользовательские сборки или пользовательские хранимые процедуры; Однако эти объекты здесь не описаны. Дополнительные сведения см. в руководстве разработчика (службы Analysis Services).

Источники данных

Источник данных определяет строку подключения и сведения проверки подлинности, которые сервер Служб Analysis Services будет использовать для подключения к источнику данных. Источник данных может содержать несколько таблиц или представлений; он может быть как простым, например одна книга Excel или текстовый файл, так и сложным, например база данных онлайновой аналитической обработки (OLAP) или крупная реляционная база данных.

Один проект интеллектуального анализа данных может ссылаться на несколько источников данных. Несмотря на то, что модель интеллектуального анализа данных может использовать только один источник данных за раз, проект может использовать несколько моделей на основе разных источников данных.

Службы Analysis Services поддерживают данные от многих внешних поставщиков, а интеллектуальный анализ данных SQL Server может использовать реляционные и кубовые данные в качестве источника данных. Однако при разработке обоих типов моделей проектов на основе реляционных источников и моделей на основе кубов OLAP может потребоваться разработать и управлять ими в отдельных проектах.

Обычно модели, основанные на кубе OLAP, должны быть разработаны в решении проектирования OLAP. Одна из причин заключается в том, что модели на основе куба должны обрабатывать куб для обновления данных. Как правило, следует использовать данные куба только в том случае, если это основное средство хранения данных и доступа, или если требуется агрегирование, измерения и атрибуты, созданные многомерным проектом.
Если в проекте используются только реляционные данные, необходимо создать реляционные модели в отдельном проекте, чтобы не переобработать другие объекты. Во многих случаях промежуточная база данных или хранилище данных, используемая для поддержки создания куба, уже содержит представления, необходимые для интеллектуального анализа данных, и эти представления можно использовать для интеллектуального анализа данных, а не использовать агрегаты и измерения в кубе.
Нельзя использовать данные в памяти или PowerPivot непосредственно для создания моделей интеллектуального анализа данных.

Источник данных определяет только сервер или поставщик и общий тип данных. Если необходимо изменить форматирование и агрегирование данных, используйте объект представления источника данных.

Чтобы управлять способом обработки данных из источника данных, можно добавлять производные столбцы или вычисления, изменять агрегаты или переименовать столбцы в представлении источника данных. (Кроме того, можно работать с подчиненными данными, изменяя столбцы структуры интеллектуального анализа данных или используя флаги моделирования и фильтры на уровне столбца модели интеллектуального анализа данных.)

Если требуется очистка данных, или данные в хранилище данных должны быть изменены для создания дополнительных переменных, изменения типов данных или создания альтернативных способов агрегации, может потребоваться создать дополнительные типы проектов для поддержки интеллектуального анализа данных. Дополнительные сведения об этих связанных проектах см. в разделе "Связанные проекты для решений интеллектуального анализа данных".

Представление источника данных

После определения этого подключения к источнику данных создайте представление, определяющее конкретные данные, относящиеся к модели.

Представление источника данных также позволяет настроить способ передачи данных в модель майнинга. Структуру данных можно изменить, чтобы сделать ее более релевантной для проекта или выбрать только определенные типы данных.

Например, с помощью редактора представления источника данных можно:

Создайте производные столбцы, такие как части даты, подстроки и т. д.
Агрегировать значения с помощью инструкций Transact-SQL, таких как GROUP BY
Временное ограничение данных или выборка данных

Дополнительные сведения об изменении данных в представлении источника данных см. в разделе "Представления источников данных" в многомерных моделях.

Предупреждение

Если вы хотите отфильтровать данные, это можно сделать в представлении источника данных, а также создавать фильтры на уровне модели анализа данных. Поскольку определение фильтра хранится в модели интеллектуального анализа данных, использование модельных фильтров упрощает определение данных, использованных для обучения модели. Кроме того, можно создать несколько связанных моделей с различными критериями фильтрации. Для получения дополнительной информации см. раздел "Фильтры для моделей интеллектуального анализа данных" (службы Analysis Services — интеллектуальный анализ данных).

Обратите внимание, что создаваемое представление источника данных может содержать дополнительные данные, которые не используются непосредственно для анализа. Например, можно добавить в представление источника данных данные, которые используются для тестирования, прогнозирования или детализации. Дополнительные сведения об этих использованиях см. в статьях "Тестирование и проверка (интеллектуальный анализ данных)" и Drillthrough.

Структуры добычи данных

После создания источника данных и его представления, необходимо выбрать столбцы данных, наиболее релевантные для вашей бизнес-проблемы, с помощью структур интеллектуального анализа данных в проекте. Структура анализа данных указывает проекту, какие столбцы данных из представления источника данных должны фактически использоваться в моделировании, обучении и тестировании.

Чтобы добавить новую структуру интеллектуального анализа данных, запустите мастер интеллектуального анализа данных. Мастер автоматически определяет структуру интеллектуального анализа данных, проводит вас через процесс выбора данных и при необходимости позволяет добавить начальную модель интеллектуального анализа данных в структуру. В структуре интеллектуального анализа данных вы выбираете таблицы и столбцы из представления источника данных или куба OLAP и определяете связи между таблицами, если данные включают вложенные таблицы.

Ваш выбор данных будет существенно отличаться в мастере интеллектуального анализа данных, в зависимости от того, используете вы реляционные источники данных или OLAP.

При выборе данных из реляционного источника данных настройка структуры майнинга проста: вы выбираете столбцы из данных в представлении источника данных и выполняете дополнительные настройки, такие как псевдонимы, или определяете, как значения в столбце следует сгруппировать или распределить. Дополнительные сведения см. в разделе "Создание реляционной структуры интеллектуального анализа данных".
При использовании данных из куба OLAP структура интеллектуального анализа данных должна находиться в той же базе данных, что и решение OLAP. Чтобы создать структуру анализа данных, вы выбираете атрибуты из измерений и связанных мер в OLAP решении. Числовые значения обычно встречаются в мерах, а категориальные переменные — в измерениях. Дополнительные сведения см. в разделе "Создание структуры интеллектуального анализа данных OLAP".
Можно также определить структуры интеллектуального анализа данных с помощью DMX. Дополнительные сведения см. в инструкциях определения данных DMX — расширений интеллектуального анализа данных.

После создания начальной структуры интеллектуального анализа данных можно скопировать, изменить и создать псевдонимы для столбцов структуры.

Каждая аналитическая структура может содержать несколько аналитических моделей. Поэтому после завершения можно снова открыть структуру интеллектуального анализа данных и использовать конструктор интеллектуального анализа данных для добавления в структуру дополнительных моделей интеллектуального анализа данных.

Кроме того, вы можете разделить данные на набор обучающих данных, используемый для создания моделей, и контрольный набор данных, который можно использовать для тестирования или проверки интеллектуальных моделей.

Предупреждение

Некоторые типы моделей, такие как модели временных рядов, не поддерживают создание контрольных наборов данных, так как для обучения требуются последовательные ряды данных. Дополнительные сведения см. в разделе "Обучение и тестирование наборов данных".

Модели добычи данных

Модель анализа данных определяет алгоритм или метод анализа, который будет использоваться для данных. В каждую структуру данных добавьте одну или несколько моделей данных.

В зависимости от потребностей можно объединить множество моделей в одном проекте или создать отдельные проекты для каждого типа модели или аналитической задачи.

После создания структуры и модели необходимо обработать каждую модель, выполнив данные из представления источника данных с помощью алгоритма, который создает математическую модель данных. Этот процесс также называется обучением модели. Дополнительные сведения см. в разделе "Требования к обработке и рекомендации" (интеллектуальный анализ данных).

После обработки модели можно сначала визуально исследовать модель анализа данных, а затем создать к ней прогнозирующие запросы. Если данные из процесса обучения кэшированы, можно использовать запросы детализации для возврата подробных сведений о случаях, используемых в модели.

Если вы хотите использовать модель для рабочей среды (например, для создания прогнозов или для изучения общими пользователями), можно развернуть модель на другом сервере. Если в будущем необходимо повторно обработать модель, необходимо одновременно экспортировать определение исходной структуры данных для интеллектуального анализа (а также обязательно экспортировать определение источника данных и представления источника данных).

При развертывании модели необходимо также убедиться, что правильные параметры обработки заданы в структуре и модели, а потенциальные пользователи имеют разрешения, необходимые для выполнения запросов, просмотра моделей или детализации данных структуры или модели. Дополнительные сведения см. в разделе "Обзор безопасности" (интеллектуальный анализ данных).

Использование завершенного проекта интеллектуального анализа данных

В этом разделе приведены сведения о способах использования завершенного проекта интеллектуального анализа данных. Вы можете создавать диаграммы точности, просматривать и проверять данные, а также создавать шаблоны интеллектуального анализа данных для пользователей.

Предупреждение

Диаграммы, запросы и визуализации, используемые с моделями интеллектуального анализа данных, не сохраняются в рамках проекта интеллектуального анализа данных и не могут быть развернуты. Если вам нужно сохранить эти объекты, вы должны либо сохранить представленное содержимое, либо создать сценарий, как описано для каждого объекта.

Просмотр и изучение моделей

После создания модели можно использовать визуальные инструменты и запросы для изучения шаблонов в модели и получения дополнительных сведений о базовых шаблонах и статистике. На вкладке "Средство просмотра моделей интеллектуального анализа данных" в конструкторе интеллектуального анализа данных службы Analysis Services предоставляют средства просмотра для каждого типа модели интеллектуального анализа данных, который можно использовать для изучения моделей интеллектуального анализа данных.

Эти визуализации являются временными и закрываются без сохранения при выходе сеанса со службами Analysis Services. Таким образом, если необходимо экспортировать эти визуализации в другое приложение для презентации или дальнейшего анализа, используйте команды копирования , предоставленные на каждой вкладке или панели интерфейса просмотра.

Надстройки интеллектуального анализа данных для Excel также предоставляют шаблон Visio, который можно использовать для представления моделей на схеме Visio и анимации и изменения схемы с помощью инструментов Visio. Дополнительные сведения см. в надстройках анализа данных Microsoft SQL Server 2008 SP2 для Microsoft Office 2007.

Тестирование и проверка моделей

После создания модели можно исследовать результаты и принимать решения о том, какие модели обладают наилучшей эффективностью.

Службы Analysis Services предоставляют несколько диаграмм, которые можно использовать для предоставления инструментов, которые можно использовать для непосредственного сравнения моделей интеллектуального анализа данных и выбора наиболее точной или полезной модели интеллектуального анализа данных. Эти средства включают график подъемов, график прибыли и матрицу классификации. Эти диаграммы можно создать с помощью вкладки "Диаграмма точности интеллектуального анализа данных" конструктора интеллектуального анализа данных.

Вы также можете использовать отчет о перекрестной проверке для выполнения итеративного подсемпирования данных, чтобы определить, является ли модель предвзятой к определенному набору данных. Статистические данные, которые предоставляет отчет, можно использовать для объективного сравнения моделей и оценки качества обучающих данных.

Обратите внимание, что эти отчеты и диаграммы не хранятся в проекте или в базе данных ssASnoversion, поэтому, если необходимо сохранить или дублировать результаты, следует сохранить результаты или создать скрипт объектов с помощью dmX или AMO. Для перекрестной проверки можно также использовать хранимые процедуры.

Дополнительные сведения см. в разделе "Тестирование и проверка" (интеллектуальный анализ данных).

Создание прогнозов

Служба Analysis Services предоставляет язык запросов, называемый Расширения для интеллектуального анализа данных (DMX), который является основой для создания прогнозов и легко программируется. Для создания DMX запросов прогнозирования SQL Server предоставляет построитель запросов, доступный в SQL Server Management Studio. В SQL Server Management Studio также существует множество шаблонов интеллектуального анализа данных для редактора запросов. Если вы не знакомы с прогнозируемыми запросами, рекомендуется использовать построитель запросов, предоставляемый в конструкторе интеллектуального анализа данных и SQL Server Management Studio. Дополнительные сведения см. в разделе "Средства интеллектуального анализа данных".

Прогнозы, создаваемые в SQL Server Data Tools (SSDT) или SQL Server Management Studio, не сохраняются, поэтому если ваши запросы являются сложными или необходимо воспроизвести результаты, рекомендуется сохранить прогнозирующие запросы в файлы запросов DMX, скрипты или внедрить запросы в составе пакета служб Integration Services.

Программный доступ к объектам интеллектуального анализа данных

Службы Analysis Services предоставляют несколько средств, которые можно использовать для программной работы с проектами интеллектуального анализа данных и объектами в них. Язык DMX предоставляет инструкции, которые можно использовать для создания источников данных и представлений источников данных, а также для создания, обучения и использования структур и моделей интеллектуального анализа данных. Дополнительные сведения см. в справочнике по расширениям интеллектуального анализа данных (DMX).

Эти задачи также можно выполнять с помощью языка сценариев служб Analysis Services (ASSL) или с помощью объектов управления анализом (AMO). Дополнительные сведения см. в статье "Разработка с помощью XMLA в службах Analysis Services".

В следующих разделах описывается использование мастера интеллектуального анализа данных для создания проекта интеллектуального анализа данных и связанных объектов.

Задачи	Темы
Описание работы со столбцами структуры данных добычи	Создание реляционной структуры интеллектуального анализа данных
Дополнительные сведения о добавлении новых моделей интеллектуального анализа данных и обработке структуры и моделей	Добавление моделей интеллектуального анализа данных в структуру (Analysis Services — анализ данных)
Предоставляет ссылки на ресурсы, которые помогают настроить алгоритмы, создающие модели анализа данных.	Настройка моделей добычи данных и структуры
Содержит ссылки на информацию о каждом из визуализаторов моделей интеллектуального анализа данных.	Средства просмотра моделей интеллектуального анализа данных
Узнайте, как создать диаграмму лифта, диаграмму прибыли, матрицу классификации или проверить структуру интеллектуального анализа данных.	Тестирование и проверка (интеллектуальный анализ данных)
Сведения о параметрах обработки и разрешениях	Обработка объектов интеллектуального анализа данных
Дополнительные сведения о службах Analysis Services	Многомерные базы данных моделей (SSAS)

См. также

Конструктор интеллектуального анализа данных
Создание многомерных моделей с помощью SQL Server Data Tools (SSDT)
База данных табличной модели SSAS

Last updated on 2017-07-17

Проекты интеллектуального анализа данных

Создание проектов интеллектуального анализа данных

Объекты в проектах дата-майнинга

Источники данных

Представление источника данных

Структуры добычи данных

Модели добычи данных

Использование завершенного проекта интеллектуального анализа данных

Просмотр и изучение моделей

Тестирование и проверка моделей

Создание прогнозов

Программный доступ к объектам интеллектуального анализа данных

Связанные задачи

См. также

Дополнительные ресурсы