Занятие 5. Автоматизация очистки данных и сопоставления с помощью служб SSIS

На занятии 1 вы создали базы знаний «Поставщики», использовали ее для очистки данных в занятии 2 и сопоставления данных в занятии 3 с использованием средства Клиент DQS. В практическом сценарии может потребоваться извлечь данные из источника, который не поддерживается DQS, или автоматизировать процесс очистки и сопоставления без применения средства Клиент DQS. Службы SQL Server Integration Services (SSIS) содержат компоненты, которые можно использовать для объединения данных из различных разнородных источников, и компонент Преобразование «Очистка DQS» для вызова функции очистки, предоставленной службами DQS. В настоящее время службы DQS не предоставляют функцию сопоставления для служб SSIS, но вы можете использовать Преобразование «Нечеткое группирование» для поиска повторений в данных.

Можно передать данные в службы MDS с помощью функции промежуточного хранения на основе сущностей. При создании сущности в MDS соответствующие промежуточные таблицы и хранимые процедуры создаются автоматически. Например, после создания сущности «Поставщик» таблица stg.supplier_Leaf и хранимая процедура stg.udp_Supplier_Leaf были созданы автоматически. Эти промежуточные таблицы и процедуры используются для создания, обновления и удаления элементов сущности. На этом занятии вы создадите новые элементы сущности для сущности «Поставщик». Чтобы загрузить данные на сервер MDS, пакет служб SSIS сначала загружает данные в промежуточную таблицу stg.supplier_Leaf, а затем вызывает связанную хранимую процедуру stg.udp_Supplier_Leaf. Дополнительные сведения см. в разделе Импорт данных.

На этом занятии требуется выполнить следующие задачи:

  1. Удалите данные поставщика в службах MDS (если вы завершили четыре предыдущих занятия). Пакет служб SSIS, созданный на этом занятии, передает данные в службы MDS автоматически. Ранее вы загрузили очищенные и сопоставленные данные о поставщике на сервер MDS вручную с помощью клиента служб DQS.

  2. Создайте представление подписки для сущности «Поставщик», чтобы предоставить доступ к данным в сущности другим приложениям. Это действие создает представление SQL, которое вы проверите с помощью SQL Server Management Studio. Вы не будете использовать это представление в данной версии учебника.

  3. Создайте и запустите проект служб SSIS с помощью SQL Server Data Tools. Проект использует преобразование Очистка данных для отправки запроса очистки на сервер DQS. Службы DQS пока не предоставляют подобную функцию, поэтому для поиска повторений следует использовать преобразование Нечеткое группирование.

  4. Убедитесь, что данные создаются в MDS с помощью диспетчера основных данных.

  5. Просмотрите результаты проекта очистки DQS, созданного пакетом служб SSIS, и при необходимости выполните интерактивную очистку для расширения базы знаний.

Следующий шаг

Задача 1 (предварительно). Удаление сведений о поставщике данных в MDS