Авторитетность издания
ВАК - К1
RSCI, ядро РИНЦ
Добавить в закладки
Следующий номер на сайте
№3
Ожидается:
16 Сентября 2025
Метод автоматического формирования семантической сети из слабоструктурированных источников
Method of automatic generation of semantic network from semi-structured sources
Дата подачи статьи: 09.03.2016
УДК: 004.912
Статья опубликована в выпуске журнала № 3 за 2016 год. [ на стр. 74-78 ]Аннотация:Автоматическая обработка текста – одно из основных научно-практических направлений в современных информационных технологиях. Важным предметом изучения в этой области остается возможность автоматического построения и обновления тезаурусов и семантических сетей. Семантическая сеть – это ориентированный граф; узлами его являются понятия, а ребрами – отношения между ними. Автоматическое построение сети требует наличия внешнего источника, из которого будут импортироваться узлы сети и на основе которого будут формироваться связи между ними. В качестве такого источника решено использовать внешний открытый словарь Wiktionary, формируемый сообществом пользователей сети Интернет. Внесение данных в семантическую сеть из вышеупомянутого источника может значительно повысить связность такой сети, однако, чтобы использовать этот подход, необходимо устранить структурный недостаток источника, состоящий в том, что разделы Wiktionary зачастую имеют ошибки в уровне вложенности. В ходе работы были исследованы существующие ошибки в сформированных словарных статьях и предложен метод их разрешения. Метод основывается на механизмах конечных автоматов, где выходной сигнал автомата – правильный уровень вложенности текущего раздела. На базе данного метода был разработан алгоритм, который стал основой программного модуля, осуществляющего автоматическую корректировку структуры словарных статей Wiktionary в процессе их импорта в семантическую сеть. Тестирование показало, что разработанный модуль обеспечивает им производительность и погрешность, достаточные для его использования в качестве составной части системы семантического анализа текста на естественном языке.
Abstract:Natural language processing is one of the most rapidly growing areas in current IT-related research. An important task in this area is the ability to automatically build and update thesauri and semantic networks. Semantic network is a directed graph with concepts as nodes and relations between them as edges. Automatic semantic network generation requires some external dictionary nodes and relations source. It was decided to use an external source of Wiktionary dictionary for this task. Wiktionary articles, which are effectively imported into semantic network, can significally increase this network’s completeness and coherence. Wiktionary is open for editing by anyone, so there are some typical problems in Wiktionary articles markup that must be solved to effectively import it into semantic network. The main problems are errors in article sections nesting structure. The authors propose a novel approach for automatic nesting structure errors resolving. The proposed method is based on finite automata approach. The output signal of the automata is the correct level of nesting of the current section. A new Wiktionary artlicle processing algorythm was developed based on the proposed approach and a new software module based on this algorythm was developed. Test results showed the applicability of the developed software module for using in modern complex NLP systems.
Авторы: Письмак А.Е. (alexey.pismak@cs.ifmo.ru) - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (магистрант), Санкт-Петербург, Россия, Харитонова А.Е. (nasty@tune-it.ru) - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (тьютор), Санкт-Петербург, Россия, Цопа Е.А. (evgenij.tsopa@cs.ifmo.ru) - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (ассистент), Санкт-Петербург, Россия, Клименков С.В. (serge.klimenkov@cs.ifmo.ru) - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (ассистент), Санкт-Петербург, Россия | |
Ключевые слова: семантические сети, автоматическая обработка текста, wiktionary, словарные источники, конечные автоматы |
|
Keywords: semantic network, automatic text processing, wiktionary, dictionary, thesauri, finite automata |
|
Количество просмотров: 13306 |
Версия для печати Выпуск в формате PDF (6.81Мб) Скачать обложку в формате PDF (0.36Мб) |
Метод автоматического формирования семантической сети из слабоструктурированных источников
DOI: 10.15827/0236-235X.115.074-078
Дата подачи статьи: 09.03.2016
УДК: 004.912
Статья опубликована в выпуске журнала № 3 за 2016 год. [ на стр. 74-78 ]
Автоматическая обработка текста – одно из основных научно-практических направлений в современных информационных технологиях. Важным предметом изучения в этой области остается возможность автоматического построения и обновления тезаурусов и семантических сетей. Семантическая сеть – это ориентированный граф; узлами его являются понятия, а ребрами – отношения между ними. Автоматическое построение сети требует наличия внешнего источника, из которого будут импортироваться узлы сети и на основе которого будут формироваться связи между ними. В качестве такого источника решено использовать внешний открытый словарь Wiktionary, формируемый сообществом пользователей сети Интернет. Внесение данных в семантическую сеть из вышеупомянутого источника может значительно повысить связность такой сети, однако, чтобы использовать этот подход, необходимо устранить структурный недостаток источника, состоящий в том, что разделы Wiktionary зачастую имеют ошибки в уровне вложенности. В ходе работы были исследованы существующие ошибки в сформированных словарных статьях и предложен метод их разрешения. Метод основывается на механизмах конечных автоматов, где выходной сигнал автомата – правильный уровень вложенности текущего раздела. На базе данного метода был разработан алгоритм, который стал основой программного модуля, осуществляющего автоматическую корректировку структуры словарных статей Wiktionary в процессе их импорта в семантическую сеть. Тестирование показало, что разработанный модуль обеспечивает им производительность и погрешность, достаточные для его использования в качестве составной части системы семантического анализа текста на естественном языке.
Письмак А.Е. (alexey.pismak@cs.ifmo.ru) - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (магистрант), Санкт-Петербург, Россия, Харитонова А.Е. (nasty@tune-it.ru) - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (тьютор), Санкт-Петербург, Россия, Цопа Е.А. (evgenij.tsopa@cs.ifmo.ru) - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (ассистент), Санкт-Петербург, Россия, Клименков С.В. (serge.klimenkov@cs.ifmo.ru) - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (ассистент), Санкт-Петербург, Россия
Ключевые слова: семантические сети, автоматическая обработка текста, wiktionary, словарные источники, конечные автоматы
Ссылка скопирована!
Постоянный адрес статьи: http://swsys.ru/index.php?page=article&id=4180 |
Версия для печати Выпуск в формате PDF (6.81Мб) Скачать обложку в формате PDF (0.36Мб) |
Статья опубликована в выпуске журнала № 3 за 2016 год. [ на стр. 74-78 ] |
Статья опубликована в выпуске журнала № 3 за 2016 год. [ на стр. 74-78 ]
Возможно, Вас заинтересуют следующие статьи схожих тематик:Возможно, Вас заинтересуют следующие статьи схожих тематик:
- Семантический анализ и способы представления смысла текста в компьютерной лингвистике
- Параллельная система автоматической текстовой классификации
- Использование вероятностного вывода в слабоформализованных базах знаний
- Автоматизация оценки знаний студентов в системе электронного обучения ECOLE
Назад, к списку статей