Проекты качества данных (DQS)

Проект качества данных в службах качества данных (DQS) — это средство использования базы знаний для повышения качества исходных данных путем выполнения действий очистки и сопоставления данных, а затем экспорта результирующих данных в базу данных SQL Server или файл .csv. Вы можете создать проект качества данных как проект очистки или соответствующий проект для выполнения соответствующих действий. Очистка и сопоставление проектов можно запускать с помощью той же базы знаний, так как знания по очистке и сопоставлению данных могут быть встроены в одну базу знаний.

Проект качества данных имеет следующие преимущества:

  • Позволяет выполнять очистку данных в исходных данных с помощью знаний в базе знаний DQS.

  • Позволяет выполнять сопоставление данных в исходных данных с помощью политики сопоставления в базе знаний.

  • Предоставляет помощник, который проведет вас через задачи очистки и сопоставления, и экспортирует данные в базу данных SQL Server или в файл .csv. Администратор данных может использовать проект качества данных для запуска и управления этапами очистки и сопоставления данных с помощью компьютера или интерактивно.

Проект управления качеством данных: мероприятие по очистке

Проект по улучшению качества данных путем очистки позволяет вам очищать исходные данные на основе базы знаний. Действие очистки данных в DQS — это двухэтапный процесс:

  1. Процесс очистки данных с помощью компьютера , который анализирует исходные данные на основе знаний в базе знаний и предлагает изменения. Обработанные данные классифицируются (предлагаемые, новые, недопустимые, исправленные и правильные) DQS и отображаются пользователю для дальнейшей обработки.

  2. Интерактивный процесс очистки, позволяющий администратору данных утвердить, отклонить или изменить данные, предлагаемые компьютерным процессом очистки данных.

Подробные сведения о действии очистки в проекте качества данных см. в разделе "Очистка данных".

Проект качества данных: мероприятие по сопоставлению

Проект соответствия качества данных позволяет выполнять действия сопоставления на основе политики сопоставления в базе знаний, чтобы предотвратить дублирование данных путем определения точных и приблизительных совпадений, что позволяет удалять повторяющиеся данные. Перед выполнением сопоставления рекомендуется очистить данные. Для этого:

  1. Создайте проект качества данных, выберите действие очистки , завершите действие очистки данных в исходных данных, а затем экспортируйте его в таблицу в базе данных SQL Server.

  2. Создайте другой проект качества данных с помощью базы знаний, содержащей политику сопоставления, выберите действие сопоставления , а затем на странице карты выберите базу данных и таблицу, в которой вы экспортировали очищенные данные на шаге 1.

  3. Выполните соответствующее действие для очищенных данных.

Подробные сведения о действии сопоставления в проекте качества данных см. в разделе "Сопоставление данных".

Профилирование данных и уведомления

При выполнении действий очистки и сопоставления в проекте качества данных можно просмотреть статистику в режиме реального времени и сведения о данных, обрабатываемых DQS. Профилирование данных помогает оценить эффективность процессов очистки и сопоставления, а также определить степень очистки или сопоставления данных, которая помогла улучшить качество данных. Профилирование DQS предоставляет два измерения качества данных: полноту (степень, в которой присутствуют данные) и точность (степень использования данных для его предполагаемого использования). Кроме того, на основе сведений о профилировании данных уведомления отображаются пользователю по действиям, которые можно предпринять для улучшения операций очистки данных и сопоставления данных. Подробные сведения о профилировании данных и уведомлениях см. в разделе "Профилирование данных" и "Уведомления" в DQS.

Описание задачи Тема
Описывает создание проекта качества данных. Создание проекта качества данных
Описывает управление (открытие, разблокировка, переименование и удаление) проекта качества данных. Управление (открытие, разблокировка, переименование и удаление) проекта качества данных
Описывается, как открыть проект Integration Services в клиенте Data Quality Client. Открытие проектов Integration Services в клиенте управления качеством данных

См. также

Базы знаний и домены DQS