Преобразование "Извлечение терминов"

Преобразование "Извлечение терминов" извлекает термины из текста в входном столбце преобразования, а затем записывает термины в выходной столбец преобразования. Преобразование работает только с английским текстом и использует собственный словарь английского языка и лингвистическую информацию о английском языке.

Преобразование "Извлечение терминов" можно использовать для обнаружения содержимого набора данных. Например, текст, содержащий сообщения электронной почты, может предоставлять полезные отзывы о продуктах, чтобы можно было использовать преобразование "Извлечение терминов" для извлечения тем в сообщениях в качестве способа анализа отзывов.

Извлеченные термины и типы данных

Преобразование "Извлечение терминов" может извлекать только существительные, только существительные фразы или как существительные, так и этапы существительных. Существительное — это одиночное слово; именная группа — это как минимум два слова, одно из которых является существительным, а другое — существительным или прилагательным. Например, если преобразование использует параметр только для существительных, он извлекает такие термины, как велосипед и ландшафт; Если преобразование использует вариант фразы существительных, он извлекает такие термины, как новый синий велосипед, шлем велосипеда и коробки велосипедов.

Статьи и местоимения не извлекаются. Например, преобразование "Извлечение терминов" извлекает термин велосипед из текста велосипед, мой велосипед, и тот велосипед.

Преобразование "Извлечение терминов" создает оценку для каждого из извлеченных терминов. Оценка может быть значением TFIDF или необработанной частотой, т. е. число нормализованных терминов в входных данных. В любом случае оценка представлена реальным числом, превышающим 0. Например, оценка TFIDF может иметь значение 0,5, а частота — значение 1.0 или 2.0.

Выходные данные преобразования "Извлечение терминов" включают только два столбца. Один столбец содержит извлеченные термины, а другой столбец содержит оценку. Имена столбцов по умолчанию — Термин и Score. Так как текстовый столбец во входных данных может содержать несколько терминов, выходные данные преобразования извлечения терминов обычно имеют больше строк, чем входные данные.

Если извлеченные термины записываются в таблицу, они могут использоваться другими преобразованиями поиска, такими как "Поиск терминов", "Нечеткий поиск" и "Поиск".

Преобразование "Извлечение терминов" может работать только с текстом в столбце с типом данных DT_WSTR или DT_NTEXT. Если столбец содержит текст, но не имеет одного из требуемых типов данных, преобразование данных можно использовать для добавления столбца типа данных DT_WSTR или DT_NTEXT в поток данных и копирования значений столбца в новый столбец. Затем выходные данные преобразования данных можно использовать в качестве входных данных для извлечения терминов. Дополнительные сведения см. в статье Data Conversion Transformation.

Условия исключения

При необходимости преобразование "Извлечение терминов" может ссылаться на столбец в таблице, содержащей термины исключения, то есть термины, которые преобразование должно пропускать при извлечении терминов из набора данных. Это полезно, если набор терминов уже определен как не имеющий значения в определенном бизнесе или отрасли, как правило, потому что термин возникает с такой высокой частотой, что становится словом-паразитом. Например, при извлечении терминов из набора данных, содержащего сведения о поддержке клиентов определенного бренда автомобилей, само название бренда может быть исключено, так как оно упоминается слишком часто, чтобы иметь значение. Поэтому значения в списке исключений должны быть настроены для набора данных, с которым вы работаете.

При добавлении термина в список исключений все термины или фразы существительных, содержащие термин, также исключаются. Например, если список исключений содержит одно слово , все термины, содержащие это слово, такие как данные, интеллектуальный анализ данных, целостность данных и проверка данных , также будут исключены. Если вы хотите исключить только составные выражения, содержащие слово data, необходимо явно добавить эти выражения в список исключений. Например, если требуется извлечь случаи , но исключить проверку данных, необходимо добавить проверку данных в список исключений и убедиться, что данные удаляются из списка исключений.

Эталонная таблица должна быть таблицей в SQL Server или базе данных Access. Преобразование "Извлечение терминов" использует отдельное подключение OLE DB для подключения к справочной таблице. Дополнительные сведения см. в разделе OLE DB Connection Manager.

Преобразование "Извлечение терминов" работает в полностью закэшированном режиме. Во время выполнения преобразование "Извлечение терминов" считывает термины исключения из эталонной таблицы и сохраняет их в частной памяти перед обработкой входных строк преобразования.

Извлечение терминов из текста

Чтобы извлечь термины из текста, преобразование "Извлечение терминов" выполняет следующие задачи.

Идентификация слов

Во-первых, преобразование "Извлечение терминов" определяет слова, выполняя следующие задачи:

  • Разделение текста на слова с помощью пробелов, разрывов строк и других терминаторов слов на английском языке. Например, знаки препинания, такие как ? и : являются символами разбиения слов.

  • Сохранение слов, которые связаны дефисом или подчеркиванием. Например, слова, защищенные копией и доступные только для чтения , остаются одним словом.

  • Сохранение нетронутых акронимов, включающих периоды. Например, компания A.B.C будет токенизирована как ABC и Company.

  • Разделение слов на специальные символы. Например, слово даты и времени извлекается как дата и время, (велосипед) как велосипед, и C# обрабатывается как C. Специальные символы удаляются и не могут быть лексичными.

  • Распознавая, когда специальные символы, такие как апостроф, не должны разделять слова. Например, слово велосипеда не разделено на два слова, и дает один термин велосипед (существительное).

  • Разделение выражений времени, выражений денежных средств, адресов электронной почты и почтовых адресов. Например, дата 31 января 2004 года разделена на три токена 31января и 2004 года.

Помеченные слова

Во-вторых, преобразование "Извлечение терминов" помечает слова как одну из следующих частей речи:

  • Существительное в единственной форме. Например, велосипед и картофель.

  • Существительное в форме множественного числа. Например, велосипеды и картофель. Все существительные множественного числа, которые не лемматизированы, подвергаются приведению к основе.

  • Правильное существительное в единственной форме. Например, Апрель и Питер.

  • Правильное существительное в форме множественного числа. Например Эйприлс и Питерс. Чтобы имя собственное подлежало стеммингу, оно должно быть частью внутреннего лексикона, который ограничен стандартными английскими словами.

  • Прилагательное. Например, синий.

  • Сравнительное прилагательное, которое сравнивает две вещи. Например, выше и выше.

  • Суперлативный прилагательный, определяющий вещь, которая имеет качество выше или ниже уровня по крайней мере двух других. Например, самый высокий и высокий.

  • Число. Например, 62 и 2004.

Слова, которые не являются одной из этих частей речи, удаляются. Например, глаголы и существительные удаляются.

Замечание

Теги частей речи основаны на статистической модели, а тег может быть не совсем точным.

Если преобразование "Извлечение терминов" настроено для извлечения только существительных, извлекаются только слова, помеченные как сингулярные или плюрулярные формы существительных и правильных существительных.

Если преобразование "Извлечение терминов" настроено для извлечения только фраз существительных, слова, отмеченные как существительные, имена собственные, прилагательные и числительные, могут быть объединены, чтобы создать фразу существительных, но фраза должна содержать по крайней мере одно слово, отмеченное как единственное или множественное форму существительного или имени собственного. Например, фраза существительная самая высокая гора объединяет слово, помеченное как суперлативное прилагательное (самое высокое) и слово, помеченное как существительное (гора).

Если для извлечения терминов настроено извлечение существительных и существительных фраз, применяются правила для существительных и правил для фраз существительных. Например, преобразование извлекает велосипед и красивый синий велосипед из текста много красивых голубых велосипедов.

Замечание

Извлеченные термины подчиняются максимальной длине и порогу частоты, установленным преобразованием.

Стволовые слова

Преобразование "Извлечение терминов" также стебляет существительные для извлечения только единственной формы существительных. Например, преобразование извлекает мужчину из мужчин, мышь из мышей и велосипед из велосипедов. Преобразование использует свой словарь для создания существительных. Герунды рассматриваются как существительные, если они находятся в словаре.

Преобразование "Извлечение терминов" приводит слова к форме словаря, как показано в этих примерах, используя внутренний словарь преобразования "Извлечение терминов".

  • Удаление буквы с из существительных. Например, велосипеды становятся велосипедами.

  • Удаление es из существительных. Например, истории превращаются в историю.

  • Получение единственной формы для нерегулярных существительных из словаря. Например, гуси становятся гусь.

Нормализованные слова

Преобразование извлечения терминов нормализует термины, которые начинаются с прописной буквы только из-за их позиции в предложении, и вместо этого использует строчную форму. Например, в фразах собаки преследуют кошек и горные тропы круты, собаки и горы будут нормализованы до собака и гора.

Преобразование "Извлечение терминов" нормализует слова таким образом, чтобы прописные и некапитализированные версии слов не рассматриваются как разные термины. Например, в тексте вы видите много велосипедов в Сиэтле и велосипеды синие, велосипеды и велосипеды распознаются как одно и то же слово, и преобразование сохраняет только велосипед. Правильные существительные и слова, которые не перечислены во внутреннем словаре, не нормализуются.

нормализация Case-Sensitive

Преобразование "Извлечение терминов" можно настроить для рассмотрения строчных и прописных слов как отдельных терминов или различных вариантов одного и того же термина.

  • Если преобразование настроено для распознавания различий в случае, термины, такие как метод и метод , извлекаются как два разных термина. Прописные слова, которые не являются первым словом в предложении, никогда не нормализованы, и помечены как правильные существительные.

  • Если преобразование настроено без учета регистра, термины, такие как Method и method, распознаются как варианты одного термина. Список извлеченных терминов может включать метод или метод, в зависимости от того, какое слово происходит сначала в входном наборе данных. Если Метод написан с заглавной буквы лишь потому, что является первым словом в предложении, он извлекается в нормализованной форме.

Границы предложения и слова

Преобразование "Извлечение терминов" разделяет текст на предложения, используя следующие символы в качестве границ предложения:

  • Символы разрыва строки ASCII 0x0d (возврат каретки) и 0x0a (канал строки). Чтобы использовать этот символ в качестве границы предложения, в строке должно быть два или более символов разрыва строки.

  • Дефисы (-). Чтобы использовать этот символ в качестве границы предложения, ни символ слева, ни справа от дефиса не может быть буквой.

  • Подчеркивание (_). Чтобы использовать этот символ в качестве границы предложения, ни символ слева, ни справа от дефиса не может быть буквой.

  • Все символы Юникода, которые меньше или равны 0x19, или больше или равно 0x7b.

  • Сочетания чисел, знаков препинания и алфавитных символов. Например, A23B#99 возвращает термин A23B.

  • Символы: %, @, &, $, #, *, :, ;, ., , !, ?, , , +, =, ^, ~, |, \, /, (, ), [, ], {, }, ", '.

    Замечание

    Акронимы, включающие один или несколько периодов (.), не разделены на несколько предложений.

Затем преобразование "Извлечение терминов" разделяет предложение на слова, используя следующие границы слов:

  • Космос

  • вкладка

  • ASCII 0x0d (возврат каретки)

  • ASCII 0x0a (перевод строки)

    Замечание

    Если апостроф находится в слове, которое является сокращением, например, мы или это, слово разбито на апострофе; в противном случае буквы после апострофа обрезаются. Например, «мы» разделено на «мы» и «есть», а «велосипеда» обрезается до «велосипед».

Настройка преобразования для извлечения терминов

Преобразование "Извлечение текста" использует внутренние алгоритмы и статистические модели для создания результатов. Может потребоваться выполнить преобразование "Извлечение терминов" несколько раз и проверить результаты, чтобы настроить преобразование, чтобы создать тип результатов, которые работают для решения интеллектуального анализа текста.

Преобразование "Извлечение терминов" имеет один регулярный вход, одни выходные данные и один выход для ошибок.

Свойства могут быть заданы с помощью конструктора SSIS или программным путем.

Дополнительные сведения о параметрах, которые можно задать в диалоговом окне редактора трансформации извлечения терминов, можно найти, перейдя по одной из следующих тем:

Дополнительные сведения о свойствах, которые вы можете задать в диалоговом окне Расширенный редактор или программными средствами, см. в следующих разделах.

Дополнительные сведения о настройке свойств см. в разделе "Задание свойств компонента потока данных".