Журнал "Программные продукты и системы" - научные статьи в области информационных технологий

Подать статью

Авторитетность издания

ВАК - К1

RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

№2

Ожидается:

16 Июня 2024

Выпуски

2024

№1 2024

2023

все выпуски

все статьи

Подписаться на RSS

В Новосибирском государственном университете совместно с Институтом систем информатики им. А.П. Ершова СО РАН исследуется влияние различных языковых моделей на качество извлечения научных терминов из текстов на русском языке.

21.02.2023

В общем случае тексты делятся на значимые интервалы, часто совпадающие с отдельными словами и называемые токенами. Каждому токену соответствует вектор. С множеством таких векторов далее работает модель. В зависимости от специфики задачи при вычислениях весов модели делается упор на предсказание либо токена в контексте, либо контекста для токена. Предварительно обученная на объемном корпусе текстов модель выделяет термины-кандидаты, которые далее могут быть верифицированы. Для определения, является ли последовательность слов термином, могут быть использованы разные признаки: общелингвистическая информация (частеречная принадлежность слов, главное слово фразы, количество имен существительных во фразе и др.), статистические (длина фразы, TF, IDF, TF-IDF или частота встречаемости фразы в корпусе научных текстов) и гибридные признаки.

Подробное описание дается в статье «Извлечение терминов из текстов научных статей», авторы Дементьева Я.Ю., Бручес Е.П., Батура Т.В. (Новосибирский государственный университет, а также Институт систем информатики им. А.П. Ершова СО РАН, г. Новосибирск).