Журнал "Программные продукты и системы" - научные статьи в области информационных технологий

Подать статью

Авторитетность издания

ВАК - К1

RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

№2

Ожидается:

16 Июня 2024

Выпуски

2024

№1 2024

2023

все выпуски

все статьи

Подписаться на RSS

В Институте систем информатики им. А.П. Ершова СО РАН исследовались проблемы семантического анализа текстов.

18.01.2017

Помимо знаний о структуре языка, семантика тесно связана с философией, психологией и другими науками, так как неизбежно затрагивает вопросы о происхождении значений слов, их отношении к бытию и мышлению. При семантическом анализе необходимо учитывать социальные и культурные особенности носителя языка. Процесс человеческого мышления, как и язык, который является инструментом выражения мыслей, очень гибкий и трудно поддается формализации. Поэтому семантический анализ по праву считается самым сложным этапом автоматической обработки текстов.

На данный момент существует много методов представления смысла высказываний, однако ни один из них не является универсальным. Над соотнесением смысла тексту работали многие исследователи. Так, И.А. Мельчук ввел понятие лексической функции, развил понятия синтаксических и семантических валентностей и рассмотрел их в контексте толково-комбинаторного словаря, который представляет собой языковую модель. Он показал, что значения слов соотносятся не непосредственно с окружающей действительностью, а с представлениями носителя языка об этой действительности. В.Ш. Рубашкин и Д.Г. Лахути ввели иерархию синтаксических связей для более эффективной работы семантического анализатора. Самыми важными являются обязательные ролевые связи, далее идут связи кореференции, затем факультативные ролевые связи и только потом предметно-ассоциативные. Известный лингвист Е.В. Падучева предлагает рассматривать тематические классы слов, в частности глаголов, поскольку они несут основную смысловую нагрузку. Существенной в данном подходе является идея разделения понятий языка на некоторые семантические группы с учетом того, что эти понятия имеют некоторый нетривиальный общий смысловой компонент. Элементы таких групп склонны иметь один и тот же набор зависимых понятий.

Универсальный язык представления знаний должен быть удобным для осуществления вывода новых знаний из уже имеющихся, а значит, необходимо создать аппарат для проверки правильности высказываний. Здесь как раз полезны логические модели представления знаний. Например, семантический язык, предложенный В.А. Тузовым, содержит в себе формализмы логики предикатов, в нем присутствуют атомарные понятия, функции над этими понятиями и правила вывода, с помощью которых можно описывать новые понятия. Не исключено, что в направлении создания подобных семантических языков будет развиваться научная мысль в будущем.

Подробное описание дается в статье «Семантический анализ и способы представления смысла текста в компьютерной лингвистике», автор Батура Т.В. (Институт систем информатики им. А.П. Ершова СО РАН, г. Новосибирск).