Авторитетность издания
Добавить в закладки
Следующий номер на сайте
В Московском государственном университете им. М.В. Ломоносова рассмотрено современное состояние области автоматического извлечения терминов из специализированных текстов на естественном языке
19.03.2025Машинное обучение позволяет выявить оптимальную комбинацию признаков терминов и тем самым повысить качество их извлечения. Качество традиционно оценивается как точность (доля истинных терминов среди найденных), полнота (доля истинных терминов среди всех терминов текста) и F1-мера (среднее значение гармонической полноты и точности).
Для обучения классификатора необходим корпус с терминологической разметкой, что дол- гое время составляло проблему из-за малочисленности и отсутствия общепринятых корпусов с ручной (эталонной) разметкой. В исследовательских работах последних лет из немногих доступных ныне корпусов с ручной размет- кой терминов преимущественно используется ACTER – недавно созданный мультиязычный корпус, включающий тексты на трех языках (английском, французском, голландском) для четырех предметных областей (ветровая энергетика, сердечная недостаточность, коррупция, выездка лошадей). Кроме размеченных текстов, корпус содержит списки терминов для каждого языка и каждой области.
Подробное описание дается в статье "Методы и средства извлечения терминов из текстов для терминологических задач", авторы Большакова Е.И., Семак В.В. (Московский государственный университет им. М.В. Ломоносова, Москва).