Journal influence
Higher Attestation Commission (VAK) - К1 quartile
Russian Science Citation Index (RSCI)
Bookmark
Next issue
№2
Publication date:
16 June 2024
Method of automatic generation of semantic network from semi-structured sources
Date of submission article: 09.03.2016
UDC: 004.912
The article was published in issue no. № 3, 2016 [ pp. 74-78 ]Abstract:Natural language processing is one of the most rapidly growing areas in current IT-related research. An important task in this area is the ability to automatically build and update thesauri and semantic networks. Semantic network is a directed graph with concepts as nodes and relations between them as edges. Automatic semantic network generation requires some external dictionary nodes and relations source. It was decided to use an external source of Wiktionary dictionary for this task. Wiktionary articles, which are effectively imported into semantic network, can significally increase this network’s completeness and coherence. Wiktionary is open for editing by anyone, so there are some typical problems in Wiktionary articles markup that must be solved to effectively import it into semantic network. The main problems are errors in article sections nesting structure. The authors propose a novel approach for automatic nesting structure errors resolving. The proposed method is based on finite automata approach. The output signal of the automata is the correct level of nesting of the current section. A new Wiktionary artlicle processing algorythm was developed based on the proposed approach and a new software module based on this algorythm was developed. Test results showed the applicability of the developed software module for using in modern complex NLP systems.
Аннотация:Автоматическая обработка текста – одно из основных научно-практических направлений в современных информационных технологиях. Важным предметом изучения в этой области остается возможность автоматического построения и обновления тезаурусов и семантических сетей. Семантическая сеть – это ориентированный граф; узлами его являются понятия, а ребрами – отношения между ними. Автоматическое построение сети требует наличия внешнего источника, из которого будут импортироваться узлы сети и на основе которого будут формироваться связи между ними. В качестве такого источника решено использовать внешний открытый словарь Wiktionary, формируемый сообществом пользователей сети Интернет. Внесение данных в семантическую сеть из вышеупомянутого источника может значительно повысить связность такой сети, однако, чтобы использовать этот подход, необходимо устранить структурный недостаток источника, состоящий в том, что разделы Wiktionary зачастую имеют ошибки в уровне вложенности. В ходе работы были исследованы существующие ошибки в сформированных словарных статьях и предложен метод их разрешения. Метод основывается на механизмах конечных автоматов, где выходной сигнал автомата – правильный уровень вложенности текущего раздела. На базе данного метода был разработан алгоритм, который стал основой программного модуля, осуществляющего автоматическую корректировку структуры словарных статей Wiktionary в процессе их импорта в семантическую сеть. Тестирование показало, что разработанный модуль обеспечивает им производительность и погрешность, достаточные для его использования в качестве составной части системы семантического анализа текста на естественном языке.
Authors: Pismak A.E. (alexey.pismak@cs.ifmo.ru) - The National Research University of Information Technologies, Mechanics and Optics, St. Petersburg, Russia, Kharitonova A.E. (nasty@tune-it.ru) - The National Research University of Information Technologies, Mechanics and Optics (Tutor), St. Petersburg, Russia, Tsopa E.A. (evgenij.tsopa@cs.ifmo.ru) - The National Research University of Information Technologies, Mechanics and Optics (Assistant), St. Petersburg, Russia, Klimenkov S.V. (serge.klimenkov@cs.ifmo.ru) - The National Research University of Information Technologies, Mechanics and Optics (Assistant), St. Petersburg, Russia | |
Keywords: semantic network, automatic text processing, wiktionary, dictionary, thesauri, finite automata |
|
Page views: 13207 |
Print version Full issue in PDF (6.81Mb) Download the cover in PDF (0.36Мб) |
Метод автоматического формирования семантической сети из слабоструктурированных источников
DOI: 10.15827/0236-235X.115.074-078
Date of submission article: 09.03.2016
UDC: 004.912
The article was published in issue no. № 3, 2016. [ pp. 74-78 ]
Natural language processing is one of the most rapidly growing areas in current IT-related research. An important task in this area is the ability to automatically build and update thesauri and semantic networks. Semantic network is a directed graph with concepts as nodes and relations between them as edges. Automatic semantic network generation requires some external dictionary nodes and relations source. It was decided to use an external source of Wiktionary dictionary for this task. Wiktionary articles, which are effectively imported into semantic network, can significally increase this network’s completeness and coherence. Wiktionary is open for editing by anyone, so there are some typical problems in Wiktionary articles markup that must be solved to effectively import it into semantic network. The main problems are errors in article sections nesting structure. The authors propose a novel approach for automatic nesting structure errors resolving. The proposed method is based on finite automata approach. The output signal of the automata is the correct level of nesting of the current section. A new Wiktionary artlicle processing algorythm was developed based on the proposed approach and a new software module based on this algorythm was developed. Test results showed the applicability of the developed software module for using in modern complex NLP systems.
Pismak A.E. (alexey.pismak@cs.ifmo.ru) - The National Research University of Information Technologies, Mechanics and Optics, St. Petersburg, Russia, Kharitonova A.E. (nasty@tune-it.ru) - The National Research University of Information Technologies, Mechanics and Optics (Tutor), St. Petersburg, Russia, Tsopa E.A. (evgenij.tsopa@cs.ifmo.ru) - The National Research University of Information Technologies, Mechanics and Optics (Assistant), St. Petersburg, Russia, Klimenkov S.V. (serge.klimenkov@cs.ifmo.ru) - The National Research University of Information Technologies, Mechanics and Optics (Assistant), St. Petersburg, Russia
Ссылка скопирована!
Permanent link: http://swsys.ru/index.php?page=article&id=4180&lang=en |
Print version Full issue in PDF (6.81Mb) Download the cover in PDF (0.36Мб) |
The article was published in issue no. № 3, 2016 [ pp. 74-78 ] |
The article was published in issue no. № 3, 2016. [ pp. 74-78 ]
Perhaps, you might be interested in the following articles of similar topics:Perhaps, you might be interested in the following articles of similar topics:
- Семантический анализ и способы представления смысла текста в компьютерной лингвистике
- Параллельная система автоматической текстовой классификации
- Использование вероятностного вывода в слабоформализованных базах знаний
- Автоматизация оценки знаний студентов в системе электронного обучения ECOLE
Back to the list of articles