Авторитетность издания
Добавить в закладки
Следующий номер на сайте
В Новосибирском государственном университете совместно с Институтом систем информатики им. А.П. Ершова СО РАН исследуется влияние различных языковых моделей на качество извлечения научных терминов из текстов на русском языке.
21.02.2023В общем случае тексты делятся на значимые интервалы, часто совпадающие с отдельными словами и называемые токенами. Каждому токену соответствует вектор. С множеством таких векторов далее работает модель. В зависимости от специфики задачи при вычислениях весов модели делается упор на предсказание либо токена в контексте, либо контекста для токена. Предварительно обученная на объемном корпусе текстов модель выделяет термины-кандидаты, которые далее могут быть верифицированы. Для определения, является ли последовательность слов термином, могут быть использованы разные признаки: общелингвистическая информация (частеречная принадлежность слов, главное слово фразы, количество имен существительных во фразе и др.), статистические (длина фразы, TF, IDF, TF-IDF или частота встречаемости фразы в корпусе научных текстов) и гибридные признаки.
Подробное описание дается в статье «Извлечение терминов из текстов научных статей», авторы Дементьева Я.Ю., Бручес Е.П., Батура Т.В. (Новосибирский государственный университет, а также Институт систем информатики им. А.П. Ершова СО РАН, г. Новосибирск).