TL;DR: Hit Rate перед внедрением в проект: 0.25 для результатов обучения и 0.16 для пререквизитов при 15 рекомендациях.
- Описание задачи
- Данные
- Предобработка
- Рекомендация результатов обучения
- Рекомендация пререквизитов обучения
- Оценка
- Реализация алгоритма в проекте
- Прочее
- Пререквизиты -- навыки, которые студент должен знать перед началом курса.
- Результаты обучения -- навыки, которые студент получит после прохождения курса.
Страница сервиса для создания рабочей программы дисциплины (РПД)
Сервис "Конструктор образовательных программ" создан для работы с учебными планами, РПД и другими концептами в цифровом фомате, где преподаватели заполняют всю необходимую информацию: описание курса, изучаемые разделы и темы, систему оценивания и прочее.
Проблема: при заполнении РПД нет подсказок/рекомендаций для разделов результатов и пререквизитов; нужно выбирать область и искать концепты вручную.
Решение: выводить рекомендации на основе описания РПД.
Все данные были взяты из базы данных сервиса.
Данные | Количество |
---|---|
Учебные сущности (возможные результаты и пререквизиты) | 18 351 |
Введеные экспертом результаты обучения для РПД | 35 801 |
Введеные экспертом пререквизиты для РПД | 1 065 |
РПД | 6 205 |
Учебные планы | 313 |
В случае разработки базового варианта алгоритма рекомендаций результатов обучения, описанного дальше, была произведена предобработка текстовых данных: названия тем в РПД, названия разделов в РПД, названий учебных сущностей.
Текст был переведен в нижний регистр, проведена токенизация, лемматизация и удаление стоп-слов и знаков пунктуации.
В качестве базового варианта учебная сущность считается результатом обучения, если она входит в название раздела или темы РПД.
Для улучшенной модели была осуществлена работа с векторными представлениями. Была выбрана модель Universal Sentence Encoder (USE), которая применялась в итоговом варианте по следующему принципу:
- вычисление векторных представления тем, разделов РПД и всех учебных сущностей,
- подсчет косинусного сходства между векторами учебных сущностей и векторами элементов из описания РПД,
- фильтрация учебных сущностей со сходством выше порогового,
- вывод N учебных сущностей, где N – заданное количество рекомендаций
Косинусное сходство предложений по версии (а) ELMo, (b) BERT, (c) SBERT, and (d) USE
В учебных планах дисциплины стоят в строгом порядке, поэтому подразумевается, что для освоения дисциплины на месте Х пригодятся знания, полученные в результате прохождения дисциплин, стоящих ранее; для выявления пререквизитов конкретной дисциплины нужно просмотреть результаты обучения дисциплин, находящихся выше в списке. В базовой модели чаще встречаемые результаты обучения в вышестоящих дисциплинах будут являться пререквизитами обучения для исходной.
Для улучшенной версии была также задействована информация о предметных областях учебных сущностей: если результаты обучения из области, например, математики, то и пререквизиты для освоения этой дисциплины должны быть из той же области. Схема работы следующая:
- получить предметные области результатов обучения исходной РПД,
- найти дисциплины в учебных планах, где присутствует исходная РПД,
- получить результаты обучения дисциплин изучающихся ранее исходной,
- отфильтровать результаты обучения вне предметных областей, найденных на первом этапе.
- вывод N самых часто встречаемых учебных сущностей, где N – заданное количество рекомендаций.
Для оценки результатов работы использовались РПД с уже заполненными результатами и/или пререквизитами обучения и где введены темы и/или разделы. Применялась метрика hit rate – усредненный процент успешно рекомендованных сущностей относительно общего количества экспертно введенных сущностей; число рекомендаций от 5 до 15 включительно. На рисунке представлены итоговые графики оценки, где красная линия – улучшенная модель.
Hit Rate рекомендаций для (а) результатов обучения и (b) пререквизитов
Т.к. при всех числах рекомендованных сущностей не достигнуто значение hit rate, равное 1, то подразумевается, что ни одна из рекомендаций не подойдет. Тем не менее, учитывая, что на данном этапе проекта мало полностью заполненных РПД, а введенные преподавателями данные недостаточны, оценка выполняется с целью определить, превосходят ли разработанные улучшенные модели базовые. Окончательную оценку алгоритма рекомендаций можно будет провести только после его внедрения в проект.
Помимо того факта, что обе улучшенные модели превзошли базовые по значениям метрики, в случае рекомендаций пререквизитов обучения можно заметить, что один этап учета предметных областей как дополнение к алгоритму базовой модели позволил увеличить итоговые значения (при 15 рекомендаций) почти в 4 раза.
Были осуществлены следующие изменения для блока рекомендаций пререквизитов обучения: объединение базовой и улучшенной модели, так как может оказаться, что все ранее изучаемые дисциплины находятся в другой области.
В случае блока рекомендаций результатов обучения было необходимо найти вариант работы с моделью векторных представлений, который бы не подразумевал регулярную загрузку модели при каждом ее вызове. Таким решением стала система Tensorflow Serving: в проекте был создан дополнительный docker контейнер с загруженной моделью USE, который отвечает за работу с ней посредством REST- запросов.
Компоненты со встроенным разделом рекомендаций
При нажатии на рекомендацию поля «Предметная область» и «Учебная сущность» автоматически заполняются соответствующими данными, что оставляет преподавателю/эксперту возможность изменить, при необходимости, уровень освоения учебной сущности и нажать кнопку «Сохранить» для добавления сущности.
Работа опубликована после выступления на конференции ICETC-2021. The Development of Learning Outcomes and Prerequisite Knowledge Recommendation System // ACM International Conference Proceeding Series - 2021, pp. 1–6, https://doi.org/10.1145/3498765.3498766