Задача 1. Определение политики сопоставления

В этой задаче вы создаете политику сопоставления с одним правилом. Правило будет иметь одно обязательное условие: идентификатор поставщика, что означает, что идентификаторы поставщика должны соответствовать перед использованием других доменов в правиле. Правило использует два других домена: имя поставщика со значением сходства , равное 70% , и контактная почта со значением сходства имеет значение 30%.

  1. На главной странице клиента DQS щелкните правой кнопкой мыши рядом с базой знаний "Поставщики " и выберите "Политика сопоставления".

    Меню политики соответствия на главной странице

  2. На странице "Карта" выберите файл Excel для источника данных.

  3. Нажмите кнопку "Обзор", убедитесь, что фильтр имеет значение "Книга Excel" и выберите "Очищенный поставщик" List.xlsфайл, экспортированный после выполнения действия очистки.

    Замечание

    В конце этого действия невозможно экспортировать результаты, так как это действие в основном сосредоточено на определении политики сопоставления. Вы создадите проект качества данных для действия сопоставления и запустите его, чтобы удалить дубликаты из списка поставщиков с помощью этой политики сопоставления в следующем занятии.

  4. Сопоставьте столбец SupplierID с доменом Supplier ID, столбец Supplier Name с доменом Supplier Name, столбец ContactEmailAddress с доменом Contact Email. Необходимо сопоставить только исходные столбцы с доменами, которые необходимо использовать при определении политики сопоставления. В этом случае вы делаете идентификатор поставщика, имя поставщика и контактный email доступными для активности политики сопоставления.

    Страница

  5. Нажмите кнопку "Далее ", чтобы перейти на страницу политики сопоставления, в которой вы определите политику сопоставления с одним правилом в нем.

  6. Нажмите кнопку "Создать соответствующее правило " на панели инструментов, чтобы создать правило в политике.

    Кнопка

  7. В области сведений о правиле справа введите "Удалить повторяющихся поставщиков " для имени правила.

  8. Нажмите кнопку "Добавить новый элемент домена " на панели инструментов справа.

    Подробности правила — кнопка добавления нового элемента домена

  9. Выберите идентификатор поставщика для домена и установите флажок "Предварительные требования ". Обратите внимание, что сходство автоматически задано как "Точное". При задании идентификатора поставщика в качестве необходимого условия необходимо указать, что значения для этого поля в двух записях должны обеспечивать 100% совпадения, иначе записи не считаются совпадением, и остальные предложения в правиле не рассматриваются.

    Удаление повторяющихся поставщиков Определение правила

  10. Снова нажмите кнопку "Добавить новый элемент домена " на панели инструментов.

  11. Выберите домен Имя поставщика, выберите Сходное для Сходства и введите 70 для веса. Здесь вы указываете, что имена поставщиков не должны совпадать, но могут быть похожими для записей, которые следует рассматривать как совпадение. Вес указывает на вклад оценки этого поля в общую оценку соответствия.

  12. Повторите предыдущие два шага, чтобы добавить домен контактной электронной почты с 30 для веса.

  13. Обратите внимание, что для минимальной оценки сопоставления задано значение 80%, которое отображается на вкладке "Общие" страницы "Конфигурация" администрирования DQS. Вы можете увеличить эту оценку только выше этого порогового значения.

  14. Обратите внимание, что выбран параметр "Перекрывающиеся кластеры ". С помощью этого параметра запись может отображаться в нескольких кластерах. Если изменить параметр на неперекрытые кластеры, кластеры с общими записями объединяются в один кластер.

  15. Кнопка "Пуск " на этой странице позволяет протестировать каждое правило в политике отдельно, а кнопка "Пуск" на следующей странице позволяет протестировать всю политику (все правила в политике).

  16. Нажмите кнопку "Далее", чтобы перейти на страницу "Результаты сопоставления ".

Следующий шаг

Задача 2. Тестирование и публикация политики сопоставления