Урок 5. Автоматизация очистки и сопоставления с помощью служб SSIS

На уроке 1 вы создали базу знаний "Поставщики" и использовали её для очистки данных на уроке 2, а также для сопоставления данных на уроке 3 с помощью инструмента DQS Client. В реальном мире может потребоваться извлечь данные из источника, который DQS не поддерживает, или вы хотите автоматизировать процесс очистки и сопоставления, не используя клиентское средство DQS . Службы SQL Server Integration Services (SSIS) имеют компоненты, которые можно использовать для интеграции данных из различных разнородных источников и компонента преобразования очистки DQS для вызова функциональных возможностей очистки, предоставляемых DQS. На данный момент DQS не предоставляет функциональность сопоставления для использования в SSIS, но вы можете использовать преобразование нечеткой группировки для выявления дубликатов в данных.

Данные можно передать в MDS с помощью функции промежуточного хранения на основе сущностей. При создании сущности в Microsoft Master Data Services автоматически создаются соответствующие промежуточные таблицы и хранимые процедуры. Например, при создании сущности поставщика автоматически создается таблица stg.supplier_Leaf и хранимая процедура stg.udp_Supplier_Leaf . Вы используете промежуточные таблицы и процедуры для создания, обновления и удаления членов сущностей. На этом занятии вы создадите новые элементы для сущности 'Поставщик'. Чтобы загрузить данные на сервер MDS, пакет служб SSIS сначала загружает данные в промежуточную таблицу stg.supplier_Leaf, а затем запускает связанную хранимую процедуру stg.udp_Supplier_Leaf. Дополнительные сведения см. в разделе "Импорт данных ".

На этом занятии выполняются следующие задачи:

  1. Удалите данные поставщика в MDS (если вы прошли предыдущие четыре урока). Пакет служб SSIS, создаваемый на этом занятии, автоматически передает данные в MDS. Ранее вы отправили очищенные и соответствующие данные поставщика на сервер MDS вручную с помощью клиента DQS.

  2. Создайте вид подписки в сущности «Поставщик», чтобы предоставить данные этой сущности другим приложениям. Это действие создает представление SQL, которое будет проверяться с помощью SQL Server Management Studio. Вы не будете применять это представление в данной версии руководства.

  3. Создайте и запустите проект служб SSIS с помощью SQL Server Data Tools. Проект использует преобразование "Очистка данных " для отправки запроса на очистку на сервер DQS. DQS пока не предоставляет соответствующие функциональные возможности, поэтому для идентификации дубликатов вы будете использовать преобразование "Нечеткое группирование ".

  4. Убедитесь, что данные создаются в MDS с помощью master Data Manger.

  5. Просмотрите результаты проекта очистки DQS, созданного пакетом служб SSIS, и при необходимости выполните интерактивную очистку для дальнейшего создания базы знаний.

Следующий шаг

Задача 1 (предварительные требования): удаление данных поставщика в MDS