На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

1
Ожидается:
16 Марта 2024

В Новосибирском государственном университете совместно с Институтом систем информатики им. А.П. Ершова СО РАН исследуется влияние различных языковых моделей на качество извлечения научных терминов из текстов на русском языке.

21.02.2023

В общем случае тексты делятся на значимые интервалы, часто совпадающие с отдельными словами и называемые токенами. Каждому токену соответствует вектор. С множеством таких векторов далее работает модель. В зависимости от специфики задачи при вычислениях весов модели делается упор на предсказание либо токена в контексте, либо контекста для токена. Предварительно обученная на объемном корпусе текстов модель выделяет термины-кандидаты, которые далее могут быть верифицированы. Для определения, является ли последовательность слов термином, могут быть использованы разные признаки: общелингвистическая информация (частеречная принадлежность слов, главное слово фразы, количество имен существительных во фразе и др.), статистические (длина фразы, TF, IDF, TF-IDF или частота встречаемости фразы в корпусе научных текстов) и гибридные признаки.

Подробное описание дается в статье «Извлечение терминов из текстов научных статей», авторы Дементьева Я.Ю., Бручес Е.П., Батура Т.В. (Новосибирский государственный университет, а также Институт систем информатики им. А.П. Ершова СО РАН, г. Новосибирск).