Авторитетность издания
Добавить в закладки
Следующий номер на сайте
В Новосибирсом государственном университете совместно с институт систем информатики им. А.П. Ершова СО РАН исследованы методы автоматического обнаружения сущностей (NER) и классификации семантических отношений (RC) в научных текстах из области информационных технологий.
07.07.2021С распространением Интернета количество информации, в том числе на естественном языке, стремительно растет. Если говорить о различных областях, то, по данным журнала «Nature», только по биомедицинской тематике мировое научное сообщество издает ежегодно свыше миллиона статей. Научные публикации содержат ценную информацию о передовых научных достижениях, однако эффективная обработка столь огромных объемов данных является трудоемкой задачей. Усложняется она тем, что тексты научных статей слабоструктурированные и извлечь из них какую-либо полезную информацию нетривиально.
Предположим, стоит задача выбора научной литературы, направленной на решение некоторой проблемы определенным образом или содержащей разносторонний анализ причинно-следственных связей при описании наблюдаемого феномена. Подобный качественный отбор научной литературы в настоящее время находится за пределами возможностей стандартных поисковых систем. В связи с этим, по мнению авторов, совершенствование методов обработки информации должно быть направлено на выявление и классификацию понятий и отношений, связывающих их, чтобы можно было автоматически идентифицировать соответствующие предметно-специфические семантические отношения в научных публикациях. К примеру, было бы полезно находить и классифицировать отношения, содержащиеся в та-ких выражениях, как «описан новый способ решения задачи» или «результаты экспериментов, полученные предложенным методом, оказались лучше ранее известных» и т.д. Выявление семантических отношений между предметно-ориентированными понятиями позволило бы выявлять исследовательские работы, посвященные той же проблеме, или отслеживать эволюцию результатов по ней.
Одной из задач извлечения информации из текстов является распознавание именованных сущностей (Named Entity Recognition, NER). Для ее решения необходимо найти и классифицировать упоминания именованных сущностей (слов или групп слов) в тексте по заранее определенным категориям, таким как имена людей, организации, местоположение, медицинские коды, выражения времени, денежные значения и т.д. Эта задача часто решается вместе с задачей обнаружения отношений (Relation Extraction, RE), суть которой состоит в выделении в тексте пар сущностей, которые могут быть связаны друг с другом. Если заранее заданы классы отношений, то говорят о задаче классификации отношений (Relation Classification, RC) – сопоставлении каждой паре сущностей конкретного класса отношения или распределения вероятностей классов. Для упрощения этих задач вводится следующее ограничение – сущности должны находиться в одном предложении.
Современные методы, как правило, неплохо решают обозначенные задачи с помощью глубокого машинного обучения, которое позволяет строить языковые модели на основе огромного корпуса неразмеченных текстов, например Википедии. Чтобы добиться хорошего качества на данных из конкретных областей знаний, необходимо дообучать полученные модели на специально подготовленных корпусах. В статье описан процесс создания такой коллекции текстов по информационным технологиям, которая названа RuSERRC (Russian Scientific Entity Recognition and Relation Extraction Dataset). На этом корпусе проведена серия экспериментов по исследованию и сравнению различных методов, результаты которых также включены в статью. Сам корпус, реализация методов и модели доступны по адресу https://github.com/iis-research-team.
Подробное описание дается в статье «Семантический анализ научных текстов: опыт создания корпуса и построения языковых моделей», авторы Е.П. Бручес, А.Е. Паульс, Т.В. Батура, В.В. Исаченко, Д.Р. Щербатов (Новосибирский государственный университет, г. Новосибирск, а также Институт систем информатики им. А.П. Ершова СО РАН, г. Новосибирск).