Технология автоматизированной оценки содержательной близости текстов

Подать статью

Авторитетность издания

ВАК - К1

RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

№4

Ожидается:

09 Декабря 2024

Выпуски

2024

2023

№4 2023

все выпуски

все статьи

Подписаться на RSS

Технология автоматизированной оценки содержательной близости текстов

Automated technology conformance evaluation of the text’s

Статья опубликована в выпуске журнала № 1 за 2013 год. [ на стр. 34-42 ]
Аннотация:Рассматривается сопоставление содержания информационных источников на естественном языке. Разработана технология сопоставления на основе формализации текстов в виде вероятностных моделей, количество информации в которых оценивается энтропией, а мерой подобия является количество взаимной информации. Показана технология формализации текстов разложением содержания текста по системе случайных семантических компонентов, ве-роятности которых отражают семантические оттенки информационных источников. Выявление близости семантического содержания текстов базируется на соответствии морфологических и син-таксических объектов языка их семантической роли в текстах. Сопоставляемые тексты предлагается представлять в виде формальных систем одноименных морфологических и/или синтаксических объектов, которым ставится в соот-ветствие определенная семантическая роль. Семантическая близость текстов может оцениваться в этом случае по близости введенных систем семантических компонентов. Представление текстов в виде формальных систем позволяет использовать статистические инструменты для получения количественной оценки их близости. Собственно представление текстов в виде морфологических и синтаксических систем может осуществляться с использованием автоматических систем анализа и разбора текстов, в которых формализованы существующие нормы языка. Приводятся примеры реализации технологии и оценки ее адекватности некоторым практическим задачам.
Abstract:Considered matching the content of information sources in natural language. Developed a comparison technology based on formalization of texts in the form of probabilistic models, the amount of information is estimated by entropy, and a measure of similarity is the amount of mutual information. Described the technology of text formalization by decomposition of the text in random semantic components, which reflect the probability of semantic nuances of information sources. Identifying closeness of texts semantic content based on the compliance of the morphological and syntactic language objects and their semantic roles. Compared texts are requested to be provided in the form of formal systems of similar morphological and/or syntactic objects, which is associated with a certain semantic role. Semantic proximity of texts may be assessed by proximity of introduced systems of semantic components. Representation of the text in the form of a formal system allows the use of statistical tools for quantitative assessment of their proximity. Proper representation of the text in the form of morphological and syntactic systems can be performed using automated systems analysis and parsing texts in which formalized the existing rules of the language. Provided the examples of implementation this technology and evaluation its adequacy.

Авторы: Кузнецов Л.А. (kuznetsov@stu.lipetsk.ru) - Липецкий государственный технический университет (профессор), Липецк, Россия, доктор технических наук, Кузнецова В.Ф. (kuznetsov@stu.lipetsk.ru) - Липецкий государственный технический университет (доцент ), Липецк, Россия, кандидат технических наук
Ключевые слова: близость текстов., энтропия, теория информации, математическая модель текста, разложение текста, семантические компоненты, вероятностная модель, технология оценки подобия текстов, текст
Keywords: semantic similarity of text’s, entropy, information theory, mathematical text model, components expansion of text, semantic components, probabilistic model, conformance evaluation technology of texts, text
Количество просмотров: 12855	Версия для печати Выпуск в формате PDF (5.29Мб) Скачать обложку в формате PDF (1.21Мб)

Проблема автоматической оценки содержательной близости информационных источников, представленных на естественном языке (текстов), весьма актуальна для информационных технологий. В настоящее время в информационно-поисковых системах при классификации текстов, проверке на плагиат [1] применяются статистические подходы на основе векторно-пространственной модели текста, предложенной в работе [2]. Формальной основой этой модели является скалярное произведение векторов, которое, как известно, изменяется от нуля для ортогональных векторов до единицы для коллинеарных. Формальным представителем текста является вектор частот входящих в него слов, а мерой близости текстов – косинус угла между векторами, соответствующими сравниваемым текстам. В такой модели совершенно не используются семантические характеристики слов и словосочетаний, которые представлены в грамматиках языков и составляют их основное содержание. Поэтому при использовании данной модели фактическая близость текстов устанавливается последующим субъективным анализом.

При субъективной интеллектуальной оценке содержательного подобия текстов сопоставляются содержательные характеристики объектов, их состояний, действий, условий, результатов и т.п., которые могут быть названы семантическими компонентами текста. В статье излагается оригинальная технология, позволяющая автоматизировать процесс оценки семантической близости текстовых документов. Технология базируется на формализации этапов обработки текстов, используемых по умолчанию при субъективном сопоставлении. Численные примеры иллюстрируют некоторые возможности разработанной технологии.

Основная идея

Технологию оценки степени семантической адекватности текстов, используемую субъективно, можно представить последовательностью следующих основных этапов.

1. Анализ содержания одного из текстов (условно эталонного) и конкретизация его содержательных аспектов. О ком (чем) в нем сообщается, что, когда, как, при каких обстоятельствах, для кого, чего и т.п. он делал, сделал и т.д. При этом выделяются наиболее существенные для последующего сравнения содержательные аспекты текста. Содержательные аспекты могут именоваться семантическими компонентами исследованного текста.

2. Исследование других текстов и извлечение из них информации по всем семантическим компонентам.

3. Неформальное сопоставление и оценка близости содержания одноименных компонентов сравниваемых текстов экспертом или группой экспертов.

4. Свертка оценок по отдельным компонентам в общую оценку семантического содержания текста.

5. Сравнение оценок содержания текстов и упорядочение их каким-либо образом по степени близости к эталонному тексту.

Для автоматизации технологии оценки близости текстов необходимо разработать процедуры автоматической реализации перечисленных этапов.

Для первого этапа необходимо разработать автоматические процедуры формирования спектра содержательных аспектов – семантических компонентов текста, достаточно полно отражающих содержание текста в представляющем интерес смысле. Автоматизация второго этапа требует разработки процедур автоматического разложения текстов по заданной системе семантических компонентов. В результате разложения исходный текст структурируется в виде совокупности компонентов. Автоматизация третьего этапа может базироваться на введении количественной меры наполнения семантических компонентов в сопоставляемых текстах и на процедурах автоматической оценки этой меры в разных текстах. Наличие меры содержания компонентов при необходи- мости позволяет осуществлять поэлементное сравнение текстов. Для автоматизации четвертого этапа необходима возможность соизмерения семантических компонентов текста друг с другом посредством некоторых весов. На основе весов должна формироваться общая оценка информационной меры текста по оценкам значимости отдельных компонентов, составляющих текст. Наконец, для автоматизации последнего этапа сле- дует обеспечить автоматическое сопоставление содержания текстов и формирование значения меры, отражающей близость их информационного содержания.

Возможности синтеза перечисленных автоматизированных процедур открываются при формализации текста в виде вероятностной модели, для количественных исследований и характеризации которой может быть применен математический аппарат теории информации. Грамматики структурированных языков определяют их морфологическую и синтаксическую структуры и содержат вербальные правила и алгоритмы отнесения отдельных слов к конкретным компонентам структур. В настоящее время большая часть этих правил и алгоритмов реализованы в виде автоматических инструментов морфологического и синтаксического анализа текстов, позволяющих производить разбор текстов и достаточно однозначно устанавливать принадлежность конкретного слова к конкретным морфологическим и синтаксическим компонентам.

Морфология структурирует слова по их принадлежности к частям речи, синтаксис определяет принадлежность слов к членам предложения. Части речи и члены предложения несут достаточно узкую и определенную семантическую нагрузку. Вопросы, используемые при отнесении слов к определенным грамматическим (морфологическим и синтаксическим) компонентам, в значительной мере отражают и их семантическую роль в тексте. Для сопоставления содержания текстов необходимо ввести систему семантических компонентов, которые отражают все содержательные представления, заключенные в текстах и существенные для оценки их близости. С помощью инструмента вопросов могут быть разработаны процедуры установления соответствия между грамматическими и семантическими компонентами и на их основе определены правила формирования семантических компонентов текста на базе грамматических компонентов. Во многих случаях они могут отождествляться.

Разработанная методология автоматической оценки адекватности текстов обеспечивает формальное представление этапов описанной выше схемы субъективной оценки, базируясь на использовании грамматических характеристик естественного языка для оценки степени близости содержания текстов. Для этого текст формализуется в виде вероятностно-статистической модели, представляющей композицию единой системы семантических компонентов.

На первом этапе представленной интеллектуальной технологии формируется множество семантических компонентов на основании одного из текстов, принимаемого за эталонный. Для структуризации текстов по грамматическим компонентам могут быть использованы уже существующие автоматизированные версии грамматического разбора. Дополнительно к ним в большинстве структурированных языков возможно введение формальных правил соотнесения семантических компонентов с грамматическими: морфологическими (существительными, глаголами, прилагательными и пр.) и синтаксическими (подлежащими, сказуемыми, обстоятельствами и т.д.) компонентами языка. При формализации семантические компоненты классифицируются случайными событиями.

На втором этапе осуществляется автоматическое разложение текстов по определенной на первом этапе системе семантических компонентов. При этом отдельные элементы исследуемого текста – слова или составные конструкции – трактуются элементарными случайными событиями (исходами). Система семантических компонентов определяет семантическую структуру текста. Вероятности случайных событий являются их мерой.

На третьем этапе схемы сопоставляются вероятности одноименных семантических компонентов в текстах.

На четвертом этапе схемы определяется энтропия текстов, которая является мерой общего количества информации в конкретном случайном объекте.

На пятом этапе – оценка близости семантического содержания – определяется количество взаимной информации в сопоставляемых объектах.

Технология базируется на представлениях теории информации. Тексты формально представляются в виде образов вероятностно-статистической модели, определенных на множестве образующих их слов. Слова объединяются в группы – случайные события, по вероятностям которых определяется энтропия, являющаяся оценкой количества информации в вероятностных образах текстов. Количество совместной (совпадающей) информации в образах двух текстов, являющееся мерой их близости, оценивается взаимной информацией, непрерывно изменяющейся от нуля при полном несовпадении текстов до количества информации в обоих текстах при совпадении. Представление сравниваемых текстов в виде вероятностно-статистических образов [3] позволяет по единой шкале оценить количество информации в текстах, количество общей информации в текстах и количество информации, отличающей тексты, то есть содержащейся в одном и не содержащейся в другом. Принципиальным является вероятностный подход к определению семантических компонентов текста, которые могут быть представлены случайными наборами конструкций языка.

Вероятностно-статистическая модель текста

В теории вероятностей [4] вводится вероятностная модель, позволяющая отразить всю информацию об объекте, состояния которого являются случайными величинами. Множество реализаций, или пространство элементарных исходов W={w1, w2, …, wn}, случайной величины и их вероятности р(wi) – это полная характеристика модели. При исследовании содержания случайной величины вводится дифференциация пространства W ее элементарных исходов wi, i=1, 2, …, n, на подпространства AjÍW, j=1, 2, …, J, которые отражают содержательные особенности состояний случайной величины. Подпространства или подмножества Aj, j=1, 2, …, J, формируются из элементарных событий wi множества W={w1, w2, …, wn} с помощью операций логического сложения, умножения и отрицания и являются случайными событиями. Их система AjÎW, j=1, 2, …, J, дополненная невозможным Æ и достоверным W событиями, называется алгеброй:

À={A1, A2, …, Aj, Æ, W}. (1)

Вследствие того что вероятности реализаций р(wi) известны, по ним вычисляются вероятности случайных событий, составляющих алгебру:

. (2)

Пространство элементарных исходов W={w1, w2, …, wn}, алгебра (1) и вероятности (2) образуют вероятностную модель случайного объекта:

Mw={W, À, P(Aj)}. (3)

Модель случайного объекта (3) трансформируется в вероятностно-статистическую модель информационного объекта приданием соответствующего содержания ее компонентам. В вероятностной модели текстового документа множество элементарных исходов W={w1, w2, …, wn} образуют слова, составляющие текст. Выбор слов и стиля для отражения некоторого содержания зависит от множества причин и является случайным. Индивидуальность моделируемого объекта в вероятностной модели отражается алгеброй событий À. Алгебра событий в вероятностно-статистической модели информационного объекта представляет систему семантических компонентов, суперпозиция которых отражает содержание текста.

Подчеркнем, что речь идет об оценке близости семантики двух текстов, один из которых может быть условно принят за эталонный, полностью определяющий сравниваемое содержание. Система семантических компонентов, по которым раскладывается содержание текстов, определяется и формируется по содержанию эталонного с учетом задаваемой степени детализации представления. Благодаря грамматической структуризации языков и наличию инструментов автоматизации грамматического анализа текстов формирование системы семантических компонентов может быть автоматизировано. Данная система формируется на основе частей речи, членов предложения, иных конструируемых из них многословных структур, которые в совокупности позволяют отразить с требуемым уровнем детализации семантическое содержание эталонного текста.

Для автоматизации формирования системы семантических компонентов текста могут использоваться существующие автоматические морфологические и синтаксические анализаторы текста. После определения семантических компонентов по ним, как по базису, раскладываются тексты и определяются вероятности компонентов. В результате формируется вероятностно-статистический образ i-го текста в виде

Oi={Wi, À, P(Aij)}. (4)

В (4) учтено, что множества слов, составляющих тексты, различны и, следовательно, наполнение семантических компонентов Aij и их вероятности в разных текстах различны, поэтому они снабжены индексами, идентифицирующими текст. Система семантических компонентов едина для всех сопоставляемых текстов, поэтому образы текстов (4) могут использоваться для оценки степени их совпадения.

Мера семантической близости информационных объектов

Инструмент для получения количественной оценки подобия информационных объектов может быть разработан на основе теории информации, в которой для оценки близости сообщений введена количественная мера информации. В [5] предложено количество информации, содержащейся в случайном объекте Mw (3), оценивать энтропией

, (5)

где обозначения совпадают с использованными выше.

Из (5) следует, что энтропия Hw (мера количества информации случайной величины Mw) определяется распределением ее вероятностей (2). Вследствие того что P(wi)£1 и lnP(wi)£0, для получения положительной величины в (5) используется знак минус.

Образы текстов (4) позволяют оценить количество информации в каждом из них:

. (6)

При сопоставлении l-го и k-го текстов образ общего вероятностно-статистического объекта формируется на объединении этих текстов, имеющем вид

. (7)

В (7) используется множество элементарных событий Wlk={Wl+Wk} – объединение всех слов, принадлежащих текстам l и k. Алгебра объединенного объекта должна отражать принадлежность элементов множества wÎWlk к текстам l и k, поэтому каждый из семантических компонентов (1) разделяется на три:

j=1, 2, …, J, (8)

компоненты определяются следующим образом:

, (8а)

, (8б)

, (8в)

где в верхним индексом отмечен образ текста, в который входит рассматриваемое слово, а нижним – образ, в который слово не входит.

Событие (8а) составляется из слов, входящих в семантические компоненты Aj текстов l и k; компонент (8б) объединяет слова, входящие в семантическую компоненту Aj текста k, но отсутствующие в тексте l; (8в) объединяет слова, входящие в семантическую компоненту Aj текста l, но отсутствующие в тексте k. Других вариантов для слов, присутствующих в двух сопоставляемых текстах, нет: P(wlkÎWlk)=1, P{wlkÏWlÇwlkÏWk}=0. Важно заметить, что система компонентов (8) подобна системе (1), поэтому ее j-е компоненты могут быть сформированы непосредственно из компонентов

Вероятности этих j-х компонентов определяются по вероятностям элементов мно- жества (7). Количество информации в общем образе l-го и k-го текстов характеризуется совместной энтропией:

(9)

На основании значений энтропии (6) для l-го и k-го текстов и их совместной энтропии (9) определяется взаимная информация текстов:

. (10)

В данном контексте совместная информация может трактоваться как количество информации из текста l, содержащееся в тексте k. Вследствие симметрии (10) индексы можно поменять местами.

Получаемое в соответствии с (10) количество совместной информации согласуется с интуитивными представлениями о близости содержания текстов. Чтобы убедиться в этом, можно рассмотреть два предельных варианта: 1 – полное совпадение текстов l и k, 2 – их полное несовпадение.

Если тексты полностью совпадают, то в (6) для всех j и, следовательно, Нl=Нk. Далее из (8) видно, что в этом случае содержание семантических компонентов совместного образа будет совпадать с содержанием сумм соответствующих компонентов образов текстов (= ). Поэтому вероятности будут равны () для всех . Из равенства вероятностей следует . Так что, при полном совпадении текстов количество взаимной информации (10) будет , то есть оно равно сумме ее содержания в каждом из текстов, которые полностью совпадают, поэтому .

Другой крайний случай получается при полном несовпадении текстов. При этом, очевидно, не будет слов, принадлежащих одновременно текстам l и k. Поэтому все компоненты (8а) приобретут нулевую вероятность ( для всех j), так что первая сумма в правой части (9) будет

В теории информации принято 0ln0=0 и, следовательно, В этом случае содержание семантических компонентов совпадет, поэтому будут равны вероятности , а из (9) следует . Подстановка этого результата в (10) показывает, что количество совместной информации в этом случае получается равным нулю.

Таким образом, количество взаимной информации по (10) при описанном способе определения совместных событий изменяется от нуля при полном различии текстов до количества общей информации, содержащейся в текстах, которое при полном совпадении текстов равно , что соответствует содержательному смыслу оценки уровня адекватности текстов. Это является достаточным обоснованием использования количества взаимной информации в качестве меры соответствия информационных объектов, представленных на естественном языке.

Технология сравнения семантического содержания объектов, опирающаяся на меру количества взаимной информации, может применяться для решения самых разнообразных задач в области обработки информации и в образовательной сфере. Побудительным мотивом разработки технологии явилось стремление создать автоматизированную систему оценки знаний [3], которая позволяла бы исключить (или по крайней мере минимизировать) человеческий фактор при полноценной проверке уровня знаний.

Система оценки уровня знаний является подсистемой «Автоматизированной системы поддержки образовательной программы обучения», разрабатываемой на кафедре АСУ Липецкого государственного технического университета. В базу системы заносится учебно-методическая документация, включая специальным образом структурированные конспекты лекций, так что заголовки последнего уровня представляют вопросы для текущей проверки знаний, предпоследнего – вопросы для экзаменационных билетов, а лекционный материал под соответствующими рубриками – эталонный ответ. Перечни вопросов для текущей проверки и экзаменационные билеты формируются случайно автоматизированной системой. Ответы на них обучаемых, введенные в систему, могут оцениваться автоматически по их семантической близости эталону.

Так, аттестация учебно-методического обеспечения образовательной программы бакалавра, специалиста, магистра на полноту формальной и содержательной поддержки компетенций, сформулированных в регламенте требований к качеству его подготовки по конкретному направлению или программе, представляет одно из важных практических применений технологии.

Разнообразие сфер практического применения технологии обеспечивается широкими возможностями ее адаптации к специфике конкретных задач. Настройка на конкретную задачу достигается заданием соответствующей алгебры (1) или принципа ее автоматического формирования, а алгебра может включать самые различные словосочетания и позволяет сформировать статистический образ информационного объекта, отражающий его специфические аспекты. При поиске информационных объектов, близких к определенному, алгебра может формироваться автоматически на его основе. Автоматизация может опираться на частоты отдельных частей речи (членов предложения), отражаемых в образе эталонного объекта.

Повысить качество семантического сравнения информационных объектов можно с помощью условных вероятностей и порождаемых ими условных энтропий, что позволит глубже детализировать формальное представление семантических аспектов исследуемых информационных объектов.

Автоматизированная оценка уровня знаний требует сравнения не только объектов на естественном языке, но и информационных объектов, представленных на формальных языках, например математических выражений, формул. При определенной трансформации формального представления подобных объектов изложенная технология может быть использована для оценки степени их близости.

Иллюстрация формирования и представления вероятностно-статистического образа текста

Базой для экспериментов стал текст на английском языке, содержащий после исключения артиклей, частиц и междометий 174 слова. Исходный текст, называемый эталонным, позволяет пояснить еще раз содержательную трактовку элементов вероятностно-статистических образов, используемых при сопоставлении содержания текстов, и показать возможность их представления в виде обычных таблиц. Множество слов W={w1, w2, …, w174} – это первый элемент вероятностно-статистического образа эталонного текста. На этом множестве задается алгебра (1), структурирующая множество слов W={w1, w2, …, w174}, по системе семантических компонентов, являющейся аналогом алгебры событий в общем случае вероятностной модели.

По эталонному тексту была определена минимальная обозримая, отражающая морфологический состав текста система семантических компонентов: À=(А1=Существительное, А2=Глагол, А3=Прилагательное, А4=Наречие, (11) А5=Числительное, А6=Неопределенное слово). Для разложения текста по компонентам (11) разработана автоматическая система (используемые численные результаты получены с помощью варианта системы, разработанной в магистерской диссертации Кондаурова А.С.). В разработанной системе использовался свободно распространяемый продукт Cognitive Dwarf [6], ориентированный на русский и английский языки. Система позволяет выполнять разбор текста со скоростью порядка нескольких килобайт в секунду.

Структурированное представление образов текста (4) удобно форматировать в виде таблицы (см. табл. 1).

Табличное представление соответствует структуре реляционных БД, которые для преобразования данных при изменении системы компонентов позволяют применять аппарат реляционной алгебры. В общем случае система семантических компонентов может расширяться включением дополнительных компонентов, способствующих более полному отражению содержания текста.

Таблица 1

Пример табличного представления вероятностно-статистического образа текста с системой семантических компонентов (11)

Семантический компонент	Слово	Частота
Существительное	Advice	P(advice)
	Bang	P(bang)
	…	…
	Р(А1)
Глагол	allow	p(allow)
	appear	p(appear)
	…	…
	Р(А2)
Прилагательное	American	p(American)
	British	p(British)
	…	…
	Р(А3)
…
Неопределенное слово	Of	p(of)
	For	p(for)
	…	…
	Р(А6)

Из таблицы 1 видно, что расширение числа семантических компонентов для детализации семантики текста выразится в увеличении числа ее столбцов, а изменение объема текста приведет к изменению числа строк. Эти вариации не влекут изменений в технологии представления и обработки информации.

Изменение взаимной информации при заданном уровне различия текстов

Исходные данные для выполнения исследования формировались следующим образом. На основе эталонного текста TЭ на английском языке был синтезирован массив его искаженных копий Tj, j=1, 2, …, 20. Для формирования копий на каждом шаге в эталонном тексте 1/20 его слов заменялась отличающимися словами из текста с другой тематикой. Первая искаженная копия, T1, получена из эталонного текста путем замены 1/20 его слов, вторая копия, T2 – заменой в эталоне 2/20 слов и т.д. Для искаженных копий Tj определялась прямая оценка их соответствия эталону в виде доли слов из эталонного текста, сохраненных в копии, по 100-балльной шкале:

(12)

где mj – число слов из эталонного текста TЭ в копии Tj; n – число слов в эталоне.

Для каждой j-й копии формировался вероятностно-статистический образ Oj на множестве семантических компонентов (11). По нему вычислялась энтропия (6) образа Hj. По образу эталонного текста и копии вычислялась (9) совместная энтропия Hэj и в соответствии с (10) – количество взаимной информации между эталоном и копией Iэj.

На рисунке 1 показано соответствие количества совместной информации между эталоном и копиями, определенное по (10), и заданной степенью (12) искажения эталона при формировании копии.

На рисунке 1 видно, что значение совместной информации монотонно изменяется при монотонном изменении реального уровня искажения текстов, причем между ними существует линейная связь с коэффициентом линейной корреляции 0,992. Монотонность изменения количества взаимной информации позволяет упорядочивать разные информационные объекты по степени их близости к одному эталонному.

Градуировка и пример практического применения информационной меры

Количество взаимной информации (10) является абстрактной величиной, а в практических ситуациях может оказаться целесообразным придание мере сравнения некоторого содержательного смысла. Ярким примером является оценка знаний. Объективная и полноценная оценка знаний обеспечивается письменными экзаменами, результаты которых анонимно оцениваются компетентной экспертной комиссией. Принципиальное решение возможно при использовании автоматизированных систем, воспринимающих от обучаемых полноценные ответы и обеспечивающих их оценку на уровне хотя бы среднего преподавателя.

Исходными данными для исследования являлись результаты контрольной проверки знаний студентов по английскому языку. Контроль осуществлялся написанием изложения по обычной технологии: преподаватель прочитал эталонный текст, который по памяти был воспроизведен студентами. Целью написания изложения в соответствии с методикой обучения языку стала проверка знания орфографии, восприятия на слух и умения передавать содержание. Изложения оценивались преподавателем английского языка на предмет орфографии (первая оценка), полноты и правильности передачи содержания (вторая оценка) по 100-балльной шкале. В настоящем исследовании использовалась вторая оценка за полноту и правильность изложения эталонного текста, отражающая семантическую близость ответа эталону, орфографические ошибки игнорировались (автоматически исправлялись).

Все изложения и эталонный текст были введены в базу системы. Для каждого экземпляра изложения формировался вероятностно-статистический образ и определялось количество взаимной информации IЭj между ним и образом эталонного текста. Далее осуществлялась градуировка ко- личества информации в оценках по принятой в университете 100-балльной шкале. Проградуированные оценки автоматизированной системы сопоставлялись с оценками преподавателя, и определялись характеристики адекватности (табл. 2).

Таблица 2

Результаты расчета оценок изложений студентов

№ ответа сту-дента	Оценка преподавателя	Количество информации, IЭj	Оценка по количеству информации		Оценка по векторно-пространственной модели текста Г. Солтона
№ ответа сту-дента	Оценка преподавателя	Количество информации, IЭj	без взвешивания	c весами частей речи	Сos(T0,Tj)	Q100 по Сos(T0,Tj)
1	25	0,2413	41,83	35,35	0,444	32,74
2	30	0,2485	42,28	30,24	0,532	43,01
3	35	0,3365	47,68	32,31	0,589	49,54
4	45	0,3348	47,58	47,18	0,638	55,34
5	45	0,5127	58,5	50,15	0,694	61,82
6	50	0,3681	49,62	44,24	0,495	38,64
7	50	0,4157	52,55	60,1	0,730	65,94
8	53	0,5318	59,67	54,5	0,788	72,77
9	53	0,2753	43,92	43,05	0,606	51,57
10	55	0,4472	54,48	52,92	0,713	63,98
11	60	0,4954	57,44	60,4	0,617	52,83
12	60	0,449	54,59	65,8	0,641	55,61
13	65	0,5648	61,7	70,57	0,735	66,52
14	78	0,8275	77,83	74,87	0,829	77,48
15	80	0,8549	79,52	88,53	0,846	79,43
16	80	0,4352	53,74	65,45	0,601	51,03
17	85	1,0268	90,07	90,43	0,868	82,09
18	85	1,0163	89,42	80,51	0,883	83,73
19	88	0,9875	87,66	88,62	0,867	81,94
20	88	1,024	89,9	81,74	0,889	84,48
21	90	0,5166	58,74	83,32	0,641	55,69
22	97	1,1603	98,27	96,74	0,944	90,82

Градуировка сводится к установлению однозначного соответствия значений информационной меры (10) оценкам по выбранной шкале. В простейшем случае соответствие количества взаимной информации 100-балльным оценкам может быть получено в виде линейной регрессии y1=a+bx, где x – количество взаимной информации ответа и эталона, вычисляемое автоматически, а y1 – оценка по 100-балльной шкале.

Для градуировки могут использоваться более сложные модели, позволяющие учесть конкретные содержательно-методические особенности дисциплин и регламентов. Приведем результаты использования для градуировки более подробной модели: где А0=1, Aj для j=1, …, 6 – семантические компоненты (11); аj – веса семантических компонентов (в примере – частей речи), которые определялись методом наименьших квадратов по рядам значений оценок преподавателя и количеству взаимной информации.

Для первого варианта получена линейная регрессия y1=27,02+61,41 хj, где хj=IЭj – количество взаимной информации в эталонном тексте и j-м изложении; а y1 – автоматически формируемая по нему оценка. Во втором варианте модели пересчета информационной оценки в 100-балльную с весами aj была получена регрессия у2=0,8436 – 242,23 А1+451,27 А2+131,60 А3–262,16 А4–110,75 А5.

Значения оценок у1 и у2 приведены соответственно в четвертом и пятом столбцах таблицы 2. Среднеквадратичное отклонение оценок у1 от оценок преподавателя составляет 11,04 балла, коэффициент корреляции равен 0,847. Значения 100-балльных оценок, вычисленные с использованием модели у2, показаны в 5-м столбце таблицы 2. Их среднеквадратичное отклонение от оценок преподавателя составило 6,324 балла, а множественный коэффициент корреляции достиг 0,955. Этот пример показывает возможности повышения адекватности автоматически формируемых оценок идентификацией формул перевода количества информации в баллы реальной шкалы оценок.

На рисунке 2 представлено наглядное сопоставление оценок, выставленных преподавателем, и оценок у1 без взвешивания и у2 со взвешиванием частей речи, сформированных автоматически по количеству взаимной информации. Наибольший вклад в ошибку вносят две точки – 16-я и 21-я (в таблице 2 они выделены полужирным шрифтом). При детальном анализе было выяснено, что оценки, выставленные преподавателем, не в полной мере адекватны содержанию изложений. Интересно отметить, что исключение этих точек и расчет по оставшимся 20 точкам принципиально меняют результат: среднеквадратичная ошибка оценки у1 получается равной 1,593 балла, а оценки у2 – 1,248 балла.

Как известно, наиболее распространенной является векторно-пространственная модель текста, в которой мерой близости текстов служит косинус угла между векторами, отражающими надлежащим образом преобразованные тексты (в авторских обозначениях): cos(TЭ, Tj)=(TЭ, Tj)/(½TЭ½´ ´½Tj½).

Такая мера была вычислена для всех 22 изложений и эталонного текста и сопоставлена с оценками преподавателя. Регрессия для перевода ее значений в 100-балльные оценки имеет вид Q100= =–18,97+116,3cos(TЭ, Tj). Результаты вычислений представлены в 6-м и 7-м столбцах таблицы 2. Среднеквадратичное отклонение прогноза оценки по этой регрессии от оценки преподавателя составило 13,27 балла, а коэффициент корреляции равен 0,769. После удаления из массива проблемных 16-й и 21-й точек ошибка составила 2,155 балла.

Для сопоставления ошибок, получаемых по разным технологиям, можно предположить, что ошибка является нормально распределенной случайной величиной, диапазон вариации которой оценивается 3s-м интервалом. При такой оценке возможная максимальная ошибка с использованием предлагаемой методики достигает 3,744 балла, в то время как при использовании векторно-пространственной модели – 6,466 балла.

Из примера видно, что использование информационной меры для автоматической оценки изложений обеспечивает существенное снижение возможной ошибки по отношению к оценкам, выставленным преподавателем, по сравнению с использованием векторно-пространственной модели. Разработанная технология открывает широкие возможности для создания различной направленности систем оценки семантической близости информационных объектов, представленных на естественном языке. Важно отметить, что вероятностная модель текста и информационная мера близости текстов содержательно соответствуют существу задачи семантического сопоставления текстов и имеют практически неограниченные возможности детализации и повышения на этой основе достоверности оценки семантической адекватности ответа эталону.

В заключение отметим, что изложенная оригинальная методологическая основа технологии автоматизированной оценки уровня семантического подобия текстов может быть использована в автоматических системах оценки уровня подобия информационных объектов, представленных на естественном языке. Технология позволяет при оценке подобия объектов формально отразить в виде, допускающем сопоставление, их содержательную сущность, что существенно повышает адекватность формальных образов объектов их реальному содержанию. На этой основе качество автоматизированной оценки близости текстовых документов может быть доведено до уровня, обеспечиваемого экспертами. Технология открывает широкие перспективы разработки автоматизированных систем оценки знаний, которые смогут воспринимать реальные полноценные ответы учащихся на поставленные вопросы и обеспечивать автоматическую оценку уровня адекватности ответа содержанию эталонного ответа, хранящегося в БД системы.

Литература

1. Christopher D., Manning, Prabhakar Raghavan & Hinrich Schütz. An Introduction to Information Retrieval, Cambridge Univ. Press, 2009, 569 p.

2. Salton G., Wong A., Yang C.S., Communications of the ACM, 1975, Vol. 18, no. 11, pp. 613–620.

3. Кузнецов Л.А. Теоретические основы автоматизированной оценки знаний // Качество. Инновации. Образование. 2010. № 11. С. 8–19.

4. Гнеденко Б.В. Курс теории вероятностей: учебник. М.: Изд-во ЛКИ, 2007. 448 с.

5. Шеннон К. Математическая теория связи. В кн.: Работы по теории информации и кибернетике; [пер. с англ.; под ред. Р.Л. Добрушина и О.Б. Лупанова]. М.: Изд-во «Иностранная литература», 1963.

6. Программный пакет синтаксического разбора и машинного перевода. URL: http://cs.isa.ru:10000/dwarf/ (дата обращения: 24.04.2011).

Постоянный адрес статьи: http://swsys.ru/index.php?id=3377&page=article	Версия для печати Выпуск в формате PDF (5.29Мб) Скачать обложку в формате PDF (1.21Мб)
Статья опубликована в выпуске журнала № 1 за 2013 год. [ на стр. 34-42 ]

Возможно, Вас заинтересуют следующие статьи схожих тематик:

Назад, к списку статей

Программные продукты и системы

Авторитетность издания

Добавить в закладки

Следующий номер на сайте

Выпуски

Технология автоматизированной оценки содержательной близости текстов