На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

1
Ожидается:
24 Декабря 2024

Реализация темпоральной базы данных для интеллектуальных систем поддержки принятия решений реального времени на примере образовательного процесса вуза

Дата подачи статьи: 01.01.1970
Статья опубликована в выпуске журнала № 4 за 2024 год.
Аннотация:
Abstract:
Авторы: Еремеев А.П. (eremeev@appmat.ru) - Национальный исследовательский университет «Московский энергетический институт» (профессор), г. Москва, Россия, доктор технических наук, Панявин Н.А. (paniavinna@mpei.com) - 1 Национальный исследовательский университет «Московский энергетический институт» (аспирант), Москва, Россия, Маренков М.А. () -
Количество просмотров: 67
Версия для печати

Размер шрифта:       Шрифт:

Введение. При интеллектуальном анализе динамических данных и разработке соответствующей темпоральной БД необходимо учитывать специфику предметной области, в данном случае специфику образовательного процесса. Так, например, в зарубежных вузах эта специфика представлена в работах [1–3], а в отечественных – в [4, 5]. Необходимо применение интеллектуальных методов анализа для выявления и извлечения паттернов в исходных данных обучающихся. Решение поставленной задачи путем формирования и применения традиционных select-запросов при использовании реляционных БД неэффективно из-за возможных скрытых данных. В образовательном процессе посредством анализа данных определяются ключевые характеристики и скрытые данные, что позволяет проводить более качественную обработку имеющейся информации и прогнозирование последствий принимаемых решений, в частности, прогноз успеваемости обу- чаемых в реальном времени и на заданный  временной интервал (например, до ближайшей контрольной недели или зачетной сессии). Необходимо также своевременное выявление проблемных ситуаций, связанных, например, со студентами, которые в настоящий момент по различным причинам находятся в группе риска и могут показать неудовлетворительные результаты при ближайшем контрольном мероприятии. Также в функции интеллектуальной системы (ИС) поддержки принятия решений реального времени (ИСППР РВ) входит оперативное оповещение соответствующего преподавателя или руководства университета (ЛПР) о проблемной ситуации и помощь в ее разрешении [6–8]. Для качественного выполнения перечисленных функций и поддержки  образовательного процесса необходима реализация темпоральных моделей и на их основе темпоральных БД и БЗ для современных ИС/ ИСППР РВ. Данной проблематике и посвящена статья. К сожалению, к настоящему времени авторам неизвестны коммерческие про- граммные продукты, поддерживающие темпоральные БД, а в свободном доступе есть только темпоральный язык запросов TSQL2.

Темпоральная модель данных

Классическая модель данных характеризуется такими показателями, как структура представления данных, целостность, операции с хранимыми данными. Темпоральное расширение модели предполагает внедрение средств обработки темпоральных зависимостей в виде темпоральной алгебры или логики (например, известной и активно используемой в ИС РВ интервальной логики Аллена [9]), которые могут поддерживаться на уровнях модели в целом, ограничений целостности, ключей и зависимостей, запросов.

В темпоральных моделях выделяют три основных типа времени:

·       модельное – действительное время, пред- ставляющее собой метку или промежуток времени актуальности данных с точки зрения моделируемого мира;

·       транзакционное – время регистрации события с точки зрения времени в системе;

·       пользовательское – временная метка, представляющая момент или моменты времени, которые пользователь намерен хранить  в атрибуте сущности.

Для поиска решения на основе темпоральной модели и соответствующей темпоральной БД предлагается применить метод анализа иерархий (Analytical Hierarchy Process, AHP), позволяющий представить сложные многофакторные или многокритериальные задачи в виде иерархических структур [10–12]. Иерархия в виде дерева определяется посредством декомпозиции исходной сложной проблемы посредством многоуровневой структуры, где первым уровнем является цель, вниз по иерархии следуют уровни подцелей и так далее до последнего уровня с рекомендуемыми решениями. Применение этого подхода к процессам высшего образования рассмотрено, например, в работах [12, 13].

К достоинствам метода АНР можно отнести:

·       более удобную для анализа ЛПР при наличии многих критериев иерархическую структуру в виде дерева решений;

·       наличие иерархии, что позволяет редуцировать сложные или неструктурированные задачи на более простые подзадачи, пока не будут получены так называемые элементарные задачи, решение которых известно или легко находится;

·       допустимость в определенных пределах несоответствия различных альтернатив, выбранных ЛПР.

Основные этапы, входящие в процедуру AHP:

1)    декомпозиция исходной задачи/пробле- мы и выявление критериев оценки;

2)    установка приоритетов и попарная оценка результатов, когда процесс декомпозиции завершен и иерархия хорошо структурирована;

3)    обобщение результатов и формирование общих приоритетов в иерархии;

4)    проверка непротиворечивости полученных результатов;

5)    принятие решения, заключающегося в вы- боре наилучшей альтернативы на основе заданных критериев.

При поиске решения на основе предложенной темпоральной графовой модели применена интеграция метода АНР и вывода средствами интервальной логики Аллена.

Разработка темпоральной модели  и БД для представления и обработки  динамических данных

Рассмотрим построение темпоральной модели и на ее основе темпоральной БД для ИСППР РВ, призванных помочь в организации учебного процесса кафедры на примере подготовки специалистов по направлению «Прикладная математика и информатика». Образовательная программа «Математическое и программное обеспечение вычислительных машин и компьютерных сетей» включает ряд профильных дисциплин (математический анализ, теория вероятностей и математическая статистика, основы программирования, основы искусственного интеллекта и др.), направленных на формирование у специалиста набора компетенций [13, 14].

Каждая из дисциплин построена таким образом, чтобы студенты осваивали темы последовательно. Контрольные мероприятия, включая тестирование, организуются для проверки знаний и практических навыков, полученных при освоении разделов.

Процесс обучения и контроля может быть представлен и визуализирован в виде графических структур, например, диаграмм Хассе [15], сетей Петри, включая темпоральные сети Пет- ри, ориентированные на моделирование динамических систем [16].

Для обеспечения высокой производительности при обработке многомерных графов, со- держащих значительный объем динамических данных по обучающимся, была применена OLAP-структура и концепция нереляционной (NoSQL) БД. Это позволит оперировать пространственными данными, состоящими в разные моменты времени как из отдельных точек, линий, так и из целых областей - срезов, поверхностей или гиперкубов с более высокими размерностями, для обработки которых классические реляционные таблицы и реляционные (SQL) БД и СУБД плохо применимы.

В качестве реальных данных для организации темпоральной БД в прототипе ИСППР РВ были использованы обезличенные данные 2 000 студентов НИУ «МЭИ» по ряду профильных дисциплин, полученные из специализированных систем университета за последние несколь- ко лет.

Рассмотрим следующую ситуацию. В соответствии с учебным планом студенту необходимо выполнить контрольные мероприятия  к 4-й (КМ1-2), 8-й (КМ3), 12-й (КМ4-6) и 16-й (КМ7-8) учебным неделям. На рисунке 1 представлен пример фрагмента темпоральной  модели, отображающей этап процесса обучения некоторого студента. Начальная вершина (START) соответствует началу процесса обучения по выбранной дисциплине, конечная вершина (END) – концу обучения по данной дисциплине Зеленые вершины означают успешно пройденные студентом контрольные мероприятия учебного процесса, красные – несданные или еще недостигнутые мероприятия на текущий момент времени, оранжевые – сданные с опозданием. Связи между вершинами отражают темпоральные зависимости интервальной логики Аллена - «быть раньше» (Before)  и «одновременно» (Equal).

Любое из контрольных мероприятий направлено на выработку определенных компетенций  в рамках каждой из предметных областей.

Отслеживание состояния процесса обучения одного из студентов, а также группы студентов или потока в целом представляет собой достаточно сложную процедуру формирования огромных массивов динамических данных, содержащих информацию о контрольных мероприятиях, текущие и средние баллы обучаемых и проч. Темпоральная БД, организованная на ос- нове нереляционной графовой СУБД Neo4J (https://habr.com/ru/articles/650623/) и дополненная системой темпорального вывода на базе интервальной логики Аллена и метрической логики [17, 18], позволяет существенно упростить процедуру. На рисунке 2 представлена схема прототипа ИСППР РВ со средствами обработки динамических данных.

Реализация прототипа ИСППР РВ

На основе имеющихся данных о студентах и учебном процессе с применением языка программирования Python v.3.10, библиотеки для распределенных и параллельных вычислений Dask, и графовой СУБД Neo4j был разработан прототип ИСППР РВ с применением средств для обработки темпоральной информации. Выбор библиотеки Dask обусловлен возможностью разбиения данных (массивы, csv-таблицы и др.), которые не помещаются в оперативной памяти, на множество мелких частей и их параллельной обработкой. Рассмотрим основные компоненты прототипа (рис. 2.)

 

Рис. 1. Пример фрагмента темпорального графа

Fig. 1. Example of a temporal graph part
БД общеуниверситетской системы содержит информацию о статусе каждого студента (обучается, в академическом отпуске, отчис- лен), его успеваемости по каждой дисциплине в соответствии с образовательной программой, а также его различные рейтинги, показывающие в реальном времени активность обучающегося в учебной и других областях.

Подсистема сбора и обработки исходных данных отвечает за автоматизацию фильтрации, сбора, предобработки (препроцессинга) исходных данных с целью представления их  в формате, пригодном для дальнейшего применения с использованием средств темпоральной БД и темпорального вывода. Темпоральными данными являются планируемые сроки начала и окончания прохождения каждого контрольного мероприятия обучающимся, фактическое состояние обучаемого по каждой дисциплине на текущий момент и другие характеристики. Для организации темпорального вывода используются методы интервальной логики Аллена, согласования темпоральных ограничений, темпоральной модификации алгоритма К-ближайших соседей (K-Nearest Neighbors, KNN) и метод сравнения графовых структур Jaccard Graph Similarity (https://habr.com/ru/articles/ 650623/, [17]). Вывод осуществлялся посредством преобразования темпорального графа из текущего состояния обучаемого в планируемое.

База знаний содержит темпоральные правила. Для регистрации запросов, вызываемых при изменениях (при создании, обновлении, удалении данных) в темпоральной БД, созданной на основе СУБД Neo4j, использованы триггеры, которые могут выполняться до или после фиксации данных командой

 

Call apoc.trigger.add(<name>, <statement>, <selector>)

 

Рис. 2. Схема прототипа ИСППР РВ 
с темпоральной БД/БЗ

Fig. 2. Diagram of the DSS RT prototype 
with a temporal database/knowledgebase
Для организации на основе темпоральной БД темпоральной БЗ, содержащей продукционные правила с заданной частотой их применения, используются команды запроса и отмены правил следующего вида:

пример запроса на правило:

Call apoc.periodic.repeat(<правило>, <частота повторений>),

пример отмены правила:

Call apoc.periodic.cancel(<правило>);

Чтобы отобразить все активные правила, необходимо ввести команду

Call apoc.periodic.list( );

Так как в день экзамена студент может сдавать только один экзамен, то в конце дня БД следует обновить и установить необходимые связи между узлами. Если студент сдает экзамен не с первого раза, то у обучаемого на темпоральном графе будет отмечено, что экзамен был сдан после определенной даты. Для этого в модель введено отношение passed_exam_after.

Пиведем пример темпорального правила «после», устанавливающего отсутствующие связи между узлами студентов и узлом экзамена 05 мая 2024 и считающего число восстановлений:

 

CALL apoc.periodic.commit("

MATCH (s:Student)

WHERE s.passed_exam IS NOT NULL

AND NOT (s)-[passed_exam]->(e:Exam)

WITH s LIMIT {limit}

MATCH (e:Exam) WHERE s.passed_exam = e.name

AND e.examdate < datetime(‘2024-05- -05’)

CREATE (s)-[:passed_exam_after]->(e)

RETURN count(*)

"", {limit:10000})"

 

Следует отметить, что расширенная версия языка запросов Cypher позволяет создавать темпоральные запросы на уровне целых узлов или связей. Так, темпоральный запрос на поиск всех студентов, получивших оценки после момента времени 05.05.2024, выглядит следующим образом:

 

MATCH (s:Student)

WHERE s.MarkDate > datetime(‘2024- -05-05’)

return s

 

Установлено, что средства Neo4j обеспечивают три базовых типа темпоральных запросов – текущие, последовательные и произвольные.  В реализованной темпоральной модели был использован язык запросов TSQL2 [19], позволя- ющий задавать темпоральные характеристики объектов на уровне отдельных кортежей; БЗ демонстрационного прототипа ИСППР РВ содержит правила, отражающие темпоральные зависимости между данными.

Представим алгоритм формирования темпорального графа G состояний объекта Граф G состоит из множества вершин, связанных темпоральными отношениями, где Hi = {Hi1, Hi2, …, Hin} – n-мерное описание состояния объекта  в момент t регистрации события на i-м такте записи:

i=0

G¬GÈHi(t)

For k¬1 to t-1

  if Hk(t)¹Hi(t) then

     G¬GÈHi(t)

     k¬i

  end if

end for

return G

Помимо классических продукционных правил «Если …То …» (в синтаксисе языка запросов Neo4j Cypher «Case When … Then …»),  построенных с применением логических операций конъюнкции (And), дизъюнкции (Or)  и отрицания (Not), средства Neo4j позволяют расширить базу правил с помощью введения правил логики предикатов первого порядка  с применением кванторов существования (Exists) и общности (All), а также модальностей «для любого» (Any), «ни одного» (None). Это дает возможность реализовать темпоральный вы- вод на основе интервальной логики Аллена,  а также вводить новые правила вывода. С помощью графовой модели также определяются темпоральные отношения на уровне модели, кроме того, она может быть расширена метрическими данными.

Средства СУБД Neo4j позволяют обраба- тывать хранимую информацию в различных плоскостях-срезах. За счет распределенного хранения данных в отдельных файлах во время обработки данных в оперативную память подгружаются только необходимые файлы с нужной информацией. Пример темпорального запроса возвращает имена любых (ANY) студентов, имевших оценки «0» или «2» на момент  5 мая 2024 года:

MATCH (s:Student)

  WHERE s.ExamDate = ‘2024-05-05’ AND

  ANY (x IN s.marks WHERE x = 0 OR x = 2)

  RETURN s.name, s.marks

По итогам анализа и кластеризации графов состояний студентов, изучающих дисциплину «Теория принятия решений», методами KNN, K-means, и Jaccard Graph Similarity были получены результаты, отраженные в таблице.

Результаты кластеризации  графов состояний

State graph clustering results

Группа

Среднее значение балла  выборки после  классификации

Метод KNN

Метод K-means

Отличники

4,8341

4,7065

Хорошисты

4,4369

4,4137

Группа риска

2,0841

1,9836

Для прогнозирования сроков сдачи задолженностей отстающими студентами был предложен алгоритм, строящий граф состояний, содержащий наборы контрольных мероприятий, необходимых для сдачи экзамена на удовлетворительную оценку или выше. При прогнозировании использовались материалы образовательной программы и данные студентов, успешно сдавших профильную дисциплину.

На рисунке 3 приведен фрагмент дерева  решений относительно текущего состояния (Current_state) с прогнозом сценария образовательного процесса, когда обучающийся со степенью уверенности 0,998 (практически 100 %) сдаст дисциплину с оценкой «удовлетворительно», со степенью уверенности 0,740 (74 %) с оценкой «хорошо» при условиях выполнения соответствующих контрольных мероприятий. При расчете прогноза учитываются такие параметры, как вес и темп выполнения контрольных мероприятий, темпоральные отношения типа Before, After относительно сроков промежуточных контрольных точек.

Заключение

В работе изложен подход к организации темпоральной модели и БД (и на ее основе темпоральной БЗ) с применением графовой нереляционной СУБД Neo4j для ИСППР РВ для помощи в организации учебного процесса и повышения его эффективности.

За счет реализации временных зависимостей и правил вывода темпоральной интервальной логики Аллена, дополненной средствами  представления точечных событий, можно обра- батывать достаточно сложные запросы и проводить исследования учебного процесса в различных плоскостях-срезах как для отдельного обучающегося, так и для групп и потоков в целом.

 

Рис. 3. Фрагмент дерева решений с прогнозом сценария образовательного процесса 
для обучающегося

Fig. 3. Decision tree part with the forecast of the educational process scenario for a student
Предложенная распределенная предобработка и интеллектуальный анализ данных  с применением библиотеки Dask обеспечивают возможность кластеризации обучающихся на потоке по наиболее важным признакам, а так- же формирование предупреждений и рекомендаций студентам о возможном попадании их  в группу риска. В системе прогнозирования  на этапе предобработки данных производится поиск закономерностей, зависимостей данных с построением темпоральных графов и алгоритмов темпорального вывода и построение моделей поведения студентов на основе выявленных паттернов.

Список литературы

1.   Celik I. Towards Intelligent-TPACK: An empirical study on teachers’ professional knowledge to ethically integrate artificial intelligence (AI)-based tools into education. Computers in Human Behavior, 2023, vol. 138, art. 107468.  doi: 10.1016/j.chb.2022.107468.

2.   Hung H.C., Liu I.F., Liang C.T., Su Y.S. Applying educational data mining to explore students’ learning patterns in the flipped learning approach for coding education. Symmetry, 2020, vol. 12, no. 2, art. 213. doi: 10.3390/sym12020213.

3.   Tasrif E., Saputra H.K., Kurniadi D., Hidayat H., Mubai A. Designing website-based scholarship management application for teaching of Analytical Hierarchy Process (AHP) in Decision Support Systems (DSS) subjects. IJIM, 2021, vol. 15, no. 9, pp. 179–191. doi: 10.3991/ijim.v15i09.23513.

4.   Баранова Е.В., Швецов Г.В. Методы и инструменты для анализа цифрового следа студента при освоении образовательного маршрута // Перспективы науки и образования. 2021. № 2. С. 415–430.

5.   Гафаров Ф.М., Руднева Я.Б., Шарифов У.Ю. Прогностическое моделирование в высшем образовании: определение факторов академической успеваемости // Высшее образование в России. 2023. Т. 32. № 1. С. 51–70. doi: 10.31992/0869-3617-2023-32-1-51-70.

6.   Khan A., Ghosh S.K. Student performance analysis and prediction in classroom learning: A review of educational data mining studies. EAIT, 2021, vol. 26, no. 1, pp. 205–240. doi: 10.1007/s10639-020-10230-3.

7.   Aleem A., Gore M.M. Educational data mining methods: A survey. Proc. IEEE CSNT, 2020, pp. 182–188.  doi: 10.1109/CSNT48778.2020.9115734.

8.   Терентьев А.В. Методы и алгоритмы интеллектуального анализа данных в образовании // Вестник науки. 2024. Т. 4. № 5. С. 1545–1550.

9.   Allen J.F., Ferguson G. Actions and events in interval temporal logic. Journal of logic and computation, 1994, vol. 4, no. 5, pp. 531–579.

10. Kukreja V., Aggarwal A. Multi-expert and multi-criteria evaluation of Online Education Factors: A fuzzy AHP approach. JEET, 2021, vol. 35, no. 2, pp. 140–148. doi: 10.16920/jeet/2021/v35i2/22081.

11. Barcelona A.B. An analytic hierarchy process for quality action researches in education. IJERE, 2020, vol. 9,  no. 3, pp. 517–523. doi: 10.11591/ijere.v9i3.20626.

12. Yu D., Kou G., Xu Z., Shi S. Analysis of collaboration evolution in AHP research: 1982–2018. IJITDM, 2021,  vol. 20, no. 01, pp. 7–36. doi: 10.1142/S0219622020500406.

13. Chernetsov A., Eremeev A., Izhutkin V., Kutepov V., Varshavskii P., Fominykh I. Experience of development and application of intelligent IT and software in the educational process. Proc. Int. Conf. Inforino, 2024, pp. 1–5. doi: 10.1109/ Inforino60363.2024.10551929.

14. Chernetsov A., Shevtsov D., Ivanov O. Development of a cross-platform interpreter for the muLISP language. Proc. Int. Conf. Inforino, 2024, pp. 1–6. doi: 10.1109/Inforino60363.2024.10551992.

15. Zhang Q., Cheng Y., Zhao F., Wang G., Xia S. Optimal scale combination selection integrating three-way decision with Hasse diagram. IEEE Transactions on Neural Networks and Learning Systems, 2021, vol. 33, no. 8, pp. 3675–3689. doi: 10.1109/TNNLS.2021.3054063.

16. Еремеев А.П., Королев Ю.И. Анализ и верификация моделей процессов в сложных динамических системах // Искусственный интеллект и принятие решений. 2015. № 1. С. 45–56.

17. Еремеев А.П., Панявин Н.А. Унификация модели представления данных и преобразование форматов  на основе нереляционной СУБД Neo4j // Программные продукты и системы. 2022. Т. 35. № 4. С. 549–556.  doi: 10.15827/0236-235X.140.549-556.

18. Еремеев А.П., Куриленко И.В. Реализация вывода в темпоральных моделях ветвящегося времени // Известия РАН. Теория и системы управления. 2017. № 1. С. 107–127. doi: 10.7868/S0002338816060044.

19. Snodgrass R.T. The TSQL2 temporal query language. In: SECS, 1995, vol. 330, 674 p. doi: 10.1007/978-1-4615-2289-8.


Постоянный адрес статьи:
http://swsys.ru/index.php?id=5118&page=article
Версия для печати
Статья опубликована в выпуске журнала № 4 за 2024 год.

Назад, к списку статей