Авторитетность издания
Добавить в закладки
Следующий номер на сайте
Разработка системы для управления профессиональным развитием студента на основе его цифрового следа
Аннотация:Большинство существующих в вузах информационных систем лишено функции глубокого анализа работ студента. Такой анализ должен включать тексты отчетов, реализованные проекты и программный код, в комплексе составляющие цифровой след студента. Авторы разработали интеллектуальную систему, решающую эти задачи и представленную набором модулей для мониторинга, управления и прогнозирования профессионального развития студента как ИТ-специалиста с по-мощью технологий Big Data и Data mining. При разработке были учтены особенности текущего процесса: например, наличие нескольких информационных систем и файловых хранилищ в вузе, наличие различных ролей внутренних и внешних пользователей и учет потребностей и проблем пользователей, с которыми они сталкиваются в процессе работы и обучения. Одним из ключевых элементов системы является разработанное мультиуровневое хранилище данных, состоящее из двух компонентов: реляционной БД и NoSQL-хранилища. Система ориентирована не только на анализ успеваемости, но и на текстовые документы, продуцируемые самими студентами, а также документы, регламентирующие его образовательную траекторию. Разработанная система позволяет расширить возможности принятия решений в управлении образовательным процессом на всех уровнях (студент, преподаватель, администрация университета) за счет применения современных методов и технологий интеллектуального анализа данных к менее изученной части цифрового следа студента. Кроме того, открываются новые возможности для взаимодействия университета с работодателями и абитуриентами.
Abstract:Most existing information systems in universities lack the possibility to analyze a student's work in de-tail. Such analysis should include student's report texts, implemented projects and a program code that make up student digital footprint. The authors have developed an intelligent system that solves these problems. The system is represented by a set of modules for monitoring, managing and predicting the professional development of a student as an IT specialist using Big Data and Data mining technologies. The development takes into account the features of the current process: for example, several infor-mation systems and file storages in the university, various roles of internal and external users, users’ needs and problems that they face in the process of work and learning. One of the key elements of the system is a multi-level data storage, which consists of two components: a relational database and a NoSQL storage. The system is focused not only on the academic performance analysis, but also on text documents produced both by the students themselves and documents regulating their educational tra-jectory. The developed system allows expanding the ability to make decisions in the educational process management at every level (student, teacher, university administration) through applying modern data mining methods and technologies to the less studied part of the student's digital footprint. In addition, the developed system gives new opportunities for interaction between a university and employers and applicants. The system was tested using the data of students of the Institute of Mathematics and Com-puter Science of the Tyumen State University.
Авторы: Боганюк Ю.В. (y.v.boganyuk@utmn.ru) - Тюменский государственный университет (аспирант), Тюмень, Россия, Воробьева М.С. (m.s.vorobeva@utmn.ru) - Тюменский государственный университет (доцент), Тюмень, Россия, кандидат технических наук, Захарова И.Г. (i.g.zakharova@utmn.ru ) - Тюменский государственный университет (профессор), Тюмень, Россия, доктор педагогических наук | |
Ключевые слова: подготовка ит-специалистов, технологии big data и data mining, nosql-хранилище, анализ текста на естественном языке |
|
Keywords: training it specialists, big data technologies, data mining, nosql storages, natural language processing |
|
Количество просмотров: 2849 |
Статья в формате PDF |
Информационные системы для автоматизации процессов в образовательных организациях выполняют в большей мере сбор данных. Формально они предназначены для управления образовательным процессом, однако использовать их с этой целью затруднительно, поскольку в них отсутствуют инструменты соотнесения планируемых и достигнутых результатов обучения. Кроме того, они имеют узкокорпоративный характер и поэтому не позволяют сравнивать развитие профессиональных компетенций студента с актуальными требованиями рынка труда. Системы электронного обучения (например, Microsoft Teams, eLearning, системы на платформе Moodle и т.д.) расширяют возможности сбора данных, отражающих разные стороны образовательного процесса, и построения обобщенных отчетов, но не позволяют отслеживать цифровой след студента. В последние годы активно развиваются методы и подходы интеллектуальной поддержки в области управления образовательным про- цессом и анализа цифрового следа студента. Например, авторы работ [1, 2] описывают разработанные для внутреннего использования системы управления подготовкой ИТ-специалистов и особенно отмечают важность оценки и учета личностных и психологических качеств студентов для формирования учебных команд и определения дальнейших обучающих программ и заданий. В исследовании [3] отмечена важность учета при разработке методов прогнозирования профессионального развития психологических особенностей цифрового поколения. Также разрабатываются системы, позволяющие соотносить профессиональное развитие студентов с актуальными требованиями рынка труда с целью адаптации образовательных программ [4, 5]. Кроме того, проблема несоответствия количественного и качественного состава и компетенций выпускников вузов требованиям рынка труда актуальна также для работодателей и руководителей регионов, вследствие чего в стандартизации программ высшего образования происходят процессы, направленные на переход к рамочной регламентации структуры образовательных программ, условий их реализации и результатов освоения, представленных в форме компетенций студентов [6]. Отмечаются и новые задачи, которые необходимо решать перед реализацией и внедрением интеллектуальных систем анализа данных, накопленных в вузах. Например, в статье [7] акцентировано внимание на потребности приведения хранимых разными вузами данных к единому формату для последующей агрегации, а также на необходимости перехода от множества локальных хранилищ образовательных организаций к общему. В свою очередь, работа с большими объемами данных требует внедрения современных Big Data-технологий [8]. В данной статье описывается разработанная интеллектуальная информационная система, которая позволяет проводить глубокий анализ данных цифрового следа студента и извлекать новые знания для управления образовательным процессом с помощью технологий Big Data и Data mining. Использование современных методов сбора и анализа данных дает возможность извлекать новые знания и анализировать их в различных разрезах (по отдельным студентам и группам, по курсам, направлениям, дисциплинам и др.), выявлять кластеры студентов, отражающие особенности профессионального развития, и соотносить их с требованиями стандартов. Функциональная схема системы При проектировании системы были учтены особенности образовательных процессов, существующих в Институте математики и компьютерных наук (ИМиКН) Тюменского государственного университета (ТюмГУ), а именно: - наличие нескольких информационных систем и файловых хранилищ, в которых ведется работа сотрудниками и студентами университета; - наличие различных ролей внутренних (студенты, преподаватели, администрация) и внешних (гостевых) (абитуриенты и работодатели) пользователей; - учет потребностей и проблем пользователей, с которыми они сталкиваются в процессе работы и обучения. Разработанная информационная система (рис. 1) включает в себя следующие компоненты. · Хранилище данных, предназначенное для хранения структурированных и неструктурированных данных. · Интеграционная шина, обеспечивающая централизованный и унифицированный событийно-ориентированный обмен сообще- ниями с внешними системами на принципах сервис-ориентированной архитектуры. Она содержит сервисы приема-отправки данных, предназначенные для проверки поступающих сообщений на предмет соответствия форматам и отправки их в другие сервисы, а также внешним информационным системам. · Сервер приложений, содержащий основные системные функции, в том числе функции разграничения доступа. В структуру входят следующие компоненты: - функциональные модули, предоставляющие пользователям системы доступ к сырым данным и результатам их анализа, а также графический интерфейс для взаимодействия с системой; - системные сервисы, предназначенные для выполнения внутренних функций – пополнения хранилища данными и включающие загрузку сырых данных, преобразование к различным форматам, извлечение метаданных, запись данных в таблицы реляционной и NoSQL-части хранилища. - сервис аутентификации, предназначенный для управления доступом и позволяющий определять права доступа на просмотр и запрос данных. · Внешние системы, представляющие собой корпоративные информационные системы вуза и внешние открытые рекрутинговые порталы. Структура системы Система спроектирована по принципу относительной независимости модулей, компонентов и системных сервисов, реализованных так, чтобы при функционировании они были связаны между собой как можно меньшим числом связей (параметров) и обладали максимально возможной независимостью во внешней среде без ущерба для реализации целей интегрирующей автоматизированной информационной системы. В системе выделены и реализованы уровни доступа к данным, бизнес-логики, авторизации и управления доступом и пользовательский уровень, включающий пользовательские интерфейсы для доступа и управления функциями и данными системы (рис. 2). Предусмотрены четыре уровня доступа к системе. На уровне 1 осуществляется доступ к сырым данным, которые выгружаются в систему из внешних источников. С системой работают технические специалисты (системные администраторы, разработчики), решающие задачи реализации и поддержки высоконагруженных систем. Взаимодействие с системой происходит посредством модификации и написания программного кода и API, а также обезличивания и извлечения метаданных общего характера из сырых данных. Уровень 2 – это уровень бизнес-логики. Исходными данными для работы являются предобработанные на системном уровне данные. С подготовленными исходными данными работают аналитики (исследователи, специалисты data science, UI/UX и frontend-разработчики), создавая программный код и выполняя запросы к API, реализованному техническими специалистами системного уровня. На уровне 3 с системой работают администраторы, основная задача которых – разграничение прав доступа пользователей к функционалу системы. Уровень 4 является пользовательским. На нем выполняется взаимодействие пользователей (студент, преподаватель, администрация, менеджер, гость) с системой через функциональные модули. Работа в системе на уровнях 3 и 4 осуществляется с помощью разработанного графического интерфейса. Система имеет клиент-серверную архитектуру и состоит из двух частей. · Серверная часть. Содержит основные системные функции, обеспечивающие работоспособность и взаимодействие компонентов системы друг с другом и хранилищем данных. В серверной части выделены три уровня: - уровень доступа к данным, включающий описание правил и протоколов работы с хранилищем данных системы; с системой работают администраторы, технические специалисты и разработчики, взаимодействие с ней происходит посредством модификации и написания программного кода и запросов к хранилищу, а также обезличивания и извлечения метаданных общего характера из сырых данных; - уровень бизнес-логики, включающий описание объектов системы, объектной модели, правила обработки информации; на данном уровне работают программисты-аналитики, исследователи, специалисты data science, UI/UX и frontend-разработчики, взаимодействие с системой происходит посредством написания программного кода и методов API; - уровень авторизации и управления доступом, включающий данные и функции по администрированию прав доступа, контроль и предоставление доступа, обеспечение информационной безопасности по принципу разграничения доступа к данным. · Клиентская часть. Это набор пользовательских интерфейсов, реализующих группу функциональных возможностей для обработки данных в модулях и управления ими. Источники данных и хранилище Ключевой элемент системы – информационное хранилище, спроектированное с учетом того, что данные о студентах распределены по различным источникам и в совокупности составляют цифровой след студента. Важно подчеркнуть, что данная интеллектуальная система ориентирована не только на анализ успеваемости, но и на определенную часть данных цифрового следа, которая исследована в меньшей степени. Это текстовые документы, продуцируемые самими студентами (отчеты по курсовым работам, практикам, выпускным квалификационным работам, научно-исследовательские работы), а также регламентирующие его образовательную траекторию (учебные планы, программы, стандарты). Кроме профессиональных стандартов, в системе анализи- руются тексты вакансий (www.hh.ru, www. superjob.ru). Необходимые данные распределены по нескольким системам (см. таблицу). Источники данных Datasources
Информацию, полученную в образовательном процессе, фактически можно разделить на два типа – неструктурированные и структурированные данные. Подробно проектирование мультислойного хранилища описано в статье [9]. Неструктурированные данные поступают из разрозненных источников, не имеют предопределенной модели данных и требуют пред- варительной обработки перед выполнением анализа. Например, к таким данным можно отнести тексты работ студентов, РПД, програм- мный код и др. После загрузки из текстов извлекаются признаки, которые также сохраняются в хранилище и используются как исходные данные для последующего анализа и интерпретации в системе. Хранение неструктурированных данных реализовано в NoSQL-части хранилища на основе HBase. Структурированные данные организованы в существующих системах и имеют определенную структуру, поэтому низка вероятность того, что они будут изменяться. Однако сложность их анализа заключается в сопоставлении информации, полученной из разных источников: параметры учебных планов и успеваемости студентов, метаданные работ студентов, РПД, опросы, лабораторные работы. Структурированные данные хранятся в реляционной части хранилища, реализованной с помощью PostgreSQL. Авторизация и управление доступом Авторизация пользователей в системе осуществляется через интерфейс главной страницы. Информация предоставляется пользователю в соответствии с установленными для него правами доступа (на создание, чтение, модификацию и удаление данных). При проектировании и разработке функционала системы авторы ориентировались на широкий круг пользователей: студент, преподаватель, администрация (заведующий кафедрой, директор института), менеджер. Каждый из пользователей решает задачи управления образовательным процессом с учетом выданных ему прав доступа к информации. Например, студент имеет возможность просматривать информацию только о своем обучении в отличие от преподавателя, которому доступны сведения о разных студентах и группах обучающихся. Кроме этого, в системе предусмотрен специальный режим гостевого доступа (для абитуриента и работодателя) без регистрации в системе с возможностью просмотра агрегированной и обезличенной информации. Функциональные модули В системе реализованы модули для внутренних пользователей – студентов, преподавателей, а также внешних (гостевых) – абитуриентов и работодателей. · Модуль анализа текста работы. Рассчитываются статистические характеристики и структурная сложность текста работы, происходит поиск вложений (изображений, таблиц, формул, приложений и др.) и проверяется корректность их оформления в соответствии с требованиями. · Модуль анализа профессиональных компетенций. По текстам работ студентов определяются перечень используемых технологий и уровней владения ими, а также динамика развития студента как ИТ-специалиста. · Модуль анализа требований рынка труда. Уровень профессиональной подготовки студента сопоставляется с актуальными требованиями работодателей, составляются рекомендации по повышению уровня знаний и подготовки студента [10]. · Модуль оценки качества программного кода. Рассчитываются метрики качества программного кода лабораторных работ студента. Определяются динамика уровня программирования и кластеризация по паттернам написания программного кода. · Модуль подбора направления подготовки абитуриента. Составляются рекомендации абитуриенту по наиболее подходящему для него направлению подготовки по его предпочтениям в сфере ИТ. На рисунке (см. http://www.swsys.ru/uploaded/image/2022-3/2022-3-dop/39.jpg) приведен интерфейс модуля анализа профессиональных компетенций студента. В модуле среди прочего отражена динамика приобретения компетенций студентом (по семестрам), была ли изучена технология самостоятельно или в рамках дисциплины, уровень владения технологией. Интерпретация и визуализация динамики получены в результате извлечения информации из корпуса текстов рабочих программ дисциплин, текстов работ студента и других дополнительных документов. Используемый подход к определению уровня владения профессиональными компетенциями отражен в статье [10]. Для реализации функциональных модулей были разработаны не менее важные системные сервисы, среди которых можно выделить сервисы конвертации файлов в форматы PDF, DOC, TXT, извлечения метаданных файлов, сервис извлечения иерархической структуры текста, программного кода из текста, сервис поиска ключевых слов в тексте. Рассмотрим работу внешних функциональных модулей и системных сервисов на примере загрузки текстов работ студентов (рис. 3). Первым звеном является сервис импорта данных в хранилище, который вызывает системный сервис конвертации содержимого файла во внутренний формат TXT, необходимый для проведения дальнейшего анализа. Таким образом, на данном этапе формируется первый слой хранилища, содержащий сырые данные. Кроме того, из текста извлекаются метаданные, которые также сохраняются в реляционную компоненту хранилища. После сервиса импорта отрабатывает и записывает результаты своей работы в хранилище сервис извлечения иерархической структуры текста, разделяющий целостный текст на взаимосвязанные части: содержание, главы, параграфы, пункты, фрагменты программного кода, приложения, список литературы. На данном этапе в хранилище появляется второй слой иерархии сохраняемых сервисами данных. Благодаря установленной в рамках образовательного процесса структуре отчетов появляется возможность из необходимых частей текста (параграфов, приложения) извлекать используемые студентом в работе технологии, а также определять уровень владения ими. Список актуальных технологий и требуемых уровней владения ими в фоновом режиме обновляется из текстов вакансий работодателей. Извлеченные технологии и уровни сохраняются в третьем слое хранилища и отображаются в системе пользователю в интерфейсе модуля анализа профессиональных компетенций. Аппаратно-программная часть Для развертывания системы была предоставлена виртуальная машина (сервер) на платформе VMware со следующими характеристиками: 10 ядер Intel Xeon X5670 с частотой 2.93 GHz, 20 GB оперативной памяти, жесткий диск объмом 500 GB. На сервере установлена система из семейства Linux – CentOS 7. Доступ к серверу выполняется с помощью ssh-подключения. Для управления контейнерами с приложениями используются Docker и Docker-compose, для обеспечения доступа разработчиков к инфраструктуре – OpenVPN и iptables. Для развертывания системы на сервере применяются контейнеры. Контейнер – это единица ПО, которая упаковывает код и все его зависимости, поэтому приложение быстро и надежно перемещается из одной вычислительной среды в другую. Каждому контейнеру задан IP-адрес из одной подсети, что позволяет разработчикам получать доступ к контейнерам через vpn-сеть. На данный момент система состоит из следующих взаимосвязанных элементов, каждый из которых является контейнером: PostgreSQL, Hadoop + HBase, Python backend, C# backend, Nginx + Vue.js frontend, Keycloak, Hue, Apache NiFi (рис. 4). Для организации бесперебойной и надежной работы системы настроены режимы: - ежедневное копирование всей размещенной в системе информации и логов операций на резервный носитель, обеспечивающий возможность их восстановления; - хранение резервной копии установочного пакета системы, а также актуальной версии конфигурационных файлов, обеспечивающих работоспособность системы. Заключение Разработанная система позволяет расширять возможности принятия решения в управлении образовательным процессом на всех уровнях (студент, преподаватель, администрация университета) за счет применения современных методов и технологий интеллектуального анализа данных к менее изученной части цифрового следа студента. Кроме того, открываются новые возможности для взаимодействия университета с работодателями и абитуриентами. В настоящий момент проводится апробация реализованных в системе методов на данных студентов бакалавриата и специалитета ИТ‑направлений Института математики и компьютерных наук Тюменского государственного университета. Так, для апробации подхода к диагностике профессиональной компетентности студентов были обработаны тексты рабочих программ дисциплин ИТ‑направлений, 542 выпускные квалификационные работы и 879 текстов вакансий работодателей. Для проверки результативности подхода были также привлечены дополнительные данные – информация о фактическом трудоустройстве выпуск- ников. В результате сопоставления реально занимаемых студентами позиций и диагностированного уровня подготовки был сделан вывод о результативности предложенного подхода. Результаты опубликованы в статье [10]. К особенностям предложенного решения можно отнести: - оригинальность подхода к разработке архитектуры Big Data to Smart Data для создания распределенного мультислойного хранилища больших данных с учетом поэтапного преобразования данных цифрового следа; - наличие трех уровней доступа (системный, прикладной, пользовательский), что позволяет обеспечить взаимодействие ИТ-специалистов и пользователей с системой с учетом их ролей и прав. Постоянная работа системы осуществляется благодаря разработанным системным сервисам, реализующим обработку данных в соответствии с описанными ETL-процессами, а также интеграции с внешними источниками данных. Подходы и методы, реализованные в информационной системе, могут быть масштабированы для анализа цифрового следа студентов других направлений, отличных от ИТ‑области. Для этого необходимо проработать терминологические словари компетенций требуемых профессиональных областей, перечень требований к работам студентов и правил оформления и выполнения работ. Разработка поддержана грантом РФФИ, проект № 19-37-51028. Литература 1. Борисов В.В., Янукович С.П., Мрочек Т.В., Ореховский Д.С. Программный комплекс управления подготовкой IT-специалистов SkillsForYou // Программные продукты и системы. 2020. Т. 33. № 2. С. 177–185. DOI: 10.15827/0236-235X.130.177-185. 2. Борисов В.В., Янукович С.П., Захарченков К.В., Вайнилович Ю.В. Метод управления процессом обучения промышленному программированию на основе алгоритмов роевого интеллекта // Cloud of Science. 2020. Т. 7. № 1. С. 189–206. 3. Зеер Э.Ф., Церковникова Н.Г., Третьякова В.С. Цифровое поколение в контексте прогнозирования профессионального будущего // Образование и наука. 2021. Т. 23. № 6. С. 153–184. DOI: 10.17853/1994-5639-2021-6-153-184. 4. Ботов Д.С. Интеллектуальный анализ учебных курсов с учетом требований рынка труда // Интеллектуальные технологии обработки информации и управления: тр. Междунар. конф. 2014. С. 189–191. 5. Деев М.В., Гамидуллаева Л.А., Финогеев А.Г., Финогеев А.А. Разработка системы адаптивного управления компонентами интеллектуальной образовательной среды // Информатика и образование. 2021. № 4. C. 26–35. DOI: 10.32517/0234-0453-2021-36-4-26-35. 6. Зрелов П.В., Кореньков В.В., Кутовский Н.А. и др. Автоматизированная система мониторинга и анализа кадровых потребностей по номенклатуре специальностей вуза // Федерализм. 2016. № 4. С. 63–76. 7. Guo S., Zeng D., Dong S. Pedagogical data analysis via federated learning toward Education 4.0. American J. of Education and Information Technology, 2020, vol. 4, no. 2, pp. 56–65. 8. Mjhool A.Y., Alhilali A.H., Al-augby S. A proposed architecture of big educational data using hadoop at the University of Kufa. IJECE, 2019, vol. 9, no. 6, pp. 4970–4978. DOI: 10.11591/ijece.v9i6.pp4970-4978. 9. Vorobyova M., Zakharova I., Ivanenko O., Baklanov I., Vorobev A. An approach to building a multilayer data repository of the university learning process. In: Lecture Notes in Networks and Systems, 2022, pp. 66–76. DOI: 10.1007/978-3-030-89477-1_8. 10. Захарова И.Г., Боганюк Ю.В., Воробьева М.С., Павлова Е.А. Диагностика профессиональной компетентности студентов ИТ-направлений на основе данных цифрового следа // Информатика и образование. 2020. № 4. С. 4–11. DOI: 10.32517/0234-0453-2020-35-4-4-11. References
|
Постоянный адрес статьи: http://swsys.ru/index.php?page=article&id=4935&lang= |
Версия для печати |
Статья опубликована в выпуске журнала № 3 за 2022 год. [ на стр. 518-526 ] |
Назад, к списку статей