Analysis of achievement predictive factors and predictive AI model development – Focused on blended math classes

Research
안 도연  Doyeon Ahn1이 광호  Kwang-Ho Lee2*

Abstract

As information and communication technologies are being developed so rapidly, education research is actively conducted to provide optimal learning for each student using big data and artificial intelligence technology. In this study, using the mathematics learning data of elementary school 5th to 6th graders conducting blended mathematics classes, we tried to find out what factors predict mathematics academic achievement and developed an artificial intelligence model that predicts mathematics academic performance using the results. Math learning propensity, LMS data, and evaluation results of 205 elementary school students had analyzed with a random forest model. Confidence, anxiety, interest, self-management, and confidence in math learning strategy were included as mathematics learning disposition. The progress rate, number of learning times, and learning time of the e-learning site were collected as LMS data. For evaluation data, results of diagnostic test and unit test were used. As a result of the analysis it was found that the mathematics learning strategy was the most important factor in predicting low-achieving students among mathematics learning propensities. The LMS training data had a negligible effect on the prediction. This study suggests that an AI model can predict low-achieving students with learning data generated in a blended math class. In addition, it is expected that the results of the analysis will provide specific information for teachers to evaluate and give feedback to students.

Keyword



서론

4차 산업혁명의 시대를 맞이하면서 교육 현장에서도 정보통신기술을 적용하여 더 나은 교육 환경을 만들고자 하는 움직임이 활발히 진행되고 있다. 또한, 2020년 갑작스러운 코로나19 감염병의 대유행은 온라인 수업의 가능성과 중요성을 확인시켰고, 교육 현장에서는 어떻게 정보통신기술을 교육에 효과적으로 활용할 것인지 고민하는 것이 매우 중요해졌다. 정보통신기술의 발달이 교육에 가져온 대표적인 변화가 인터넷의 활용이다. 온라인 교육 플랫폼은 학생들에게 언제 어디서나 자신에게 맞는 학습 콘텐츠를 제공하고, 교실 수업에서 부족한 부분을 보완해주는 역할을 하였다. 코로나19 사태와 같이 대면 수업이 어려운 상황에서 e학습터와 같은 온라인 학습관리시스템(Learning Management System, LMS)은 학습 결손을 줄이는 데 일조하였다. 온라인 학습이 보편화되면서 교실에서의 오프라인 수업과 온라인 학습의 장점을 모두 활용하는 블렌디드 러닝(Blended Learning)이 효과적인 교육 방법으로 대두되어왔다(Lim, 2009). 2020~2021년에도 코로나19 감염 예방을 위해 대면 수업과 비대면 수업을 병행하는 블렌디드 러닝이 전국적으로 시행되면서 포스트 코로나 시대에 블렌디드 러닝은 그 중요성이 더욱 커졌다(Kim, 2021).

온라인 학습관리시스템은 블렌디드 러닝 환경에서 기본적이고 신뢰할 수 있는 도구이며(Kakasevski et al., 2008) 이를 구축하고 활용하는 것이 매우 중요해졌다. 그러나 여전히 온라인 학습 효과를 두고는 상반되는 의견이 제시되고 있으며, 온라인 학습의 효과를 극대화하기 위해서는 온라인 학습관리시스템에서 ‘개별화된 학습’이 제공되어야 한다는 주장이 이어져 왔다(Montebello, 2021). 최근에는 빅 데이터 기술을 활용하여 학생들의 학습데이터를 분석하고 학습자의 특성에 따라 차별화된 처방을 제시하는 학습분석(Learning Analytics, LA)을 적용하여 더욱 효과적인 학습관리시스템을 구축하려는 시도가 이어지고 있다(Jo et al., 2019). 교육부도 2024년까지 온라인 수학 학습관리시스템에 인공지능(Artificial Intelligence, AI)을 결합하여 교사가 학생들의 수학학습을 관리할 수 있는 학습 보조 도구의 역할을 하는 학습관리시스템을 개발할 계획이라고 밝혔다(Ministry of Education, 2020).

인공지능을 활용한 효과적인 학습관리시스템을 개발하기 위해서는 적절한 학습데이터 수집과 인공지능을 활용한 예측 모델을 제작하는 것이 필수적이다. 국내외적으로 학습분석학을 활용한 연구가 수학 교과 및 타 교과에서 활발히 연구되고 있지만, 데이터 수집이 용이한 성인을 대상으로 이루어진 연구가 대부분이며 초등학생을 대상으로 한 연구는 찾아보기 어렵다. 처방을 목적으로 하는 학습분석학의 취지에 비추어보면 아쉬운 실태이다.

이에 본 연구에서는 2021년 코로나19 사태로 전국적으로 이루어진 블렌디드 러닝 환경에서 우리나라 초등학생들의 수학학습성향과 온·오프라인의 수학 학습 데이터를 분석하고, 어떠한 요인이 수학 학업성취도를 예측하는지 알아보고자 한다. 또 인공지능의 한 분야인 머신러닝 기술을 활용하여 수학교과에서 저성취 학생을 예측할 수 있는 머신러닝 모델을 개발하여 그 효과와 교육 현장에서의 활용 가능성에 대해 고찰해보자 한다. 이를 위해 설정한 연구 문제는 다음과 같다.

가. 어떤 수학 학습 요인이 수학 학업성취도 예측에 영향을 미치는가?

나. 수학 학업성취도 예측 모델은 어떻게 구성될 수 있는가?

이론적 배경

학습분석학(Learning Analytics)

다양한 스마트 기기와 SNS의 발달로 비정형 데이터가 기하급수적으로 증가하고 있다. 최근 웹과 더불어 각종 네트워크들 또한 디지털 데이터를 생성하고 주고받음에 따라 데이터 사용량이 폭발적으로 증가하고 있다. 이처럼 폭발적으로 증가하는 디지털 데이터를 빅 데이터(Big Data)라고 한다(Jo, 2014). 빅 데이터의 활용은 기업들의 마케팅 분야에서 활발히 이루어져 왔고, 공공 분야에서도 적극적으로 추진되고 있다. 교육 분야에서는 상대적으로 소극적이었으나 교육적 데이터 마이닝(Educational Data Mining, EDM)과 연결되면서 발전되고 있다(Elias, 2011).

EDM은 학습이 일어나는 환경과 학생들의 특징을 보다 심층적으로 이해하기 위하여, 교육 환경에서 얻어지는 데이터의 유형을 탐색하는 방법을 개발하는 것을 목적으로 한다(Romero & Ventura, 2007). EDM은 가설주도적인 통계 분석 접근과는 분석 방법에서 차이가 있다. 사전에 어떤 선험적 판단도 하지 않으며 데이터의 특성에 따라 선별하고 분류, 연관시키는 귀납적 접근 방식이다. 이를 통해 학습 성과를 효과적이고 효율적으로 예측하고, 문제 상황을 조기에 처방하는 지능형 학습 지원 모형을 개발할 수 있다(Jo et al., 2019). 회귀분석이나 구조방정식 등의 통계 분석은 변인 간의 상관관계를 논하기에 적절하지만 무질서한 정보들이 다양하게 발생하는 데이터를 분석하기에는 한계가 있어 본 연구에서는 EDM을 분석 방법으로 사용하였다.

학습분석학(Learning Analytics, LA)은 빅 데이터를 대상으로 EDM을 활용하여 학습을 위한 처방적 설계하는 학문이라고 할 수 있다. Seimens와 Long (2011)은 학습분석학을 ‘학습과 학습이 일어나 환경의 이해와 최적화를 목적으로 학습자와 학습자의 맥락에 대한 데이터를 측정, 수집, 분석 보고하는 것’으로 정의하였다. Elias (2011)는 ‘데이터 마이닝 결과를 활용하여 교수 학습적 처방을 가함으로써 학습성과를 통제하는 단계까지 포함하는 학문적 접근’으로 보았다. 앞선 연구들에서 학습분석학이 공통으로 가지는 속성은 ‘빅 데이터 활용’, ‘데이터 마이닝 기술’과 ‘분석을 통한 처방’이라고 할 수 있다(Jo, 2015). 학습분석학은 학습자를 위한 개별화 학습, 개별 맞춤형 교수, 교육 콘텐츠 개발, 교육정책 및 교육과정 개선 등의 다양한 측면에서 효과를 거둘 수 있어 초·중등교육 현장에서 다양하게 활용될 수 있다(Ahn et al., 2016).

본 연구는 학습분석학을 ‘빅 데이터와 데이터 마이닝 기술을 활용하여 학습에 효과적인 처방을 내리고자 하는 학문적 접근’으로 정의하고 연구를 진행하였으며, Jo (2012)가 제시한 LAPA 모형 중 분석·예측 모형을 기반으로 데이터를 수집 및 처리하여 모델을 개발하고자 하였다.

랜덤 포레스트

빅 데이터와 함께 빠른 속도로 발전하고 있는 인공지능(Artificial Intelligence) 학습 방법은 교육적 데이터 마이닝을 위한 효과적인 데이터 분석 방법이다. 인공지능은 특정 영역에서 인간처럼 작업을 수행할 수 있도록 개발된다. 빅 데이터를 인간보다 효과적으로 다를 수 있으므로 학습분석학적 측면에서도 학습자 분석·예측과 교수·처방에 쓰일 수 있다.

인공지능 학습 방법은 크게 머신러닝(Machine Learning)과 딥러닝(Deep Learning)으로 나뉜다. 딥러닝은 머신러닝에 포함되는 학습기반 인공지능이지만, 인공신경망(Aritificial Neural Network)를 사용한다는 점에서 일반적인 머신러닝과 구별된다. 일반적으로 처리해야 하는 데이터가 이미지, 영상, 소리 등의 비정형 데이터일 때 딥러닝이 효과적이며, 데이터베이스, 엑셀, CSV 등의 정형화된 데이터를 처리할 때에는 머신러닝이 효과적이다(Park, 2019). 본 연구에서는 연구자가 가공한 정형화된 데이터를 사용하였기 때문에 머신러닝 학습 방법을 선택하였다.

본 연구에서는 수학 학업성취도 예측 모델 개발을 위한 주된 방법으로 랜덤 포레스트(Random Forest)를 사용하였다. 랜덤 포레스트는 인공지능 학습 방법의 하나로 머신러닝의 한 종류이다. Breiman (2001)에 의해 개발되었으며, 현재까지 검출, 분류, 회귀 등 다양한 문제에 활용되고 있다.

랜덤 포레스트는 대표적인 분류 모델 학습 방법인 의사결정트리(Decision Tree)의 과적합(Overfitting) 문제와 성능의 불규칙성 문제를 보완한 방법으로, 속성을 달리한 여러 개의 트리를 무작위로 생성하여 최적화된 최종의 단일 분류기(포레스트)를 생성하는 원리이다(Breiman, 1996). 의사결정트리는 깊이가 깊어질수록 이상치(Outlier)에 과적합되는 문제가 있다. 랜덤 포레스트는 일부 샘플을 추출해서 여러 개의 트리를 만드는 배깅(Bagging)을 통해 과적합의 문제를 해결하며, 분산을 줄여 로지스틱 회귀(Logistic Regression)나 의사결정트리에 비해 일반화 가능성이 높다(Qi, 2012). 또한 샘플의 수가 적고 요인이 여러 개일 때 적합한 방법으로(Bureau et al., 2005), 200여 개의 적은 데이터와 10개의 요인을 가지는 본 연구에 적합한 학습 방법으로 생각된다.

랜덤 포레스트의 가장 큰 장점 중 하나는 투입된 각 요인이 결과 예측에 어느 정도 영향을 미쳤는지를 파악할 수 있는 요인별 중요도(Feature Importance)를 확인할 수 있다는 것이다. 이를 통해 연구에 투입된 10가지 예측 요인 중 어떤 요인들이 학업성취도 예측에 영향을 주는지 분석하였다. 또한, 트리 기반의 머신러닝 모델에서 각 요인의 수치 변화에 따른 예측 양상을 나타내는 Partial Dependence Plot을 추출하여 요인별 기여 양상을 살펴보았다. 랜덤 포레스트를 사용하여 예측 모델을 생성할 경우, 모델의 정확도를 최대로 끌어올리기 위해 랜덤 포레스트의 여러 속성을 최적화하도록 찾는 과정이 필요하다. 모델을 최적화하는데 필요한 속성을 하이퍼파라미터(Hyperparpameter)라고 한다. 본 연구에서는 랜덤 포레스트 분류 모델과 관련이 있는 7개의 주요 하이퍼파라미터를 최적화하는 과정을 거쳤다.

LMS

LMS란 학습 관리 시스템으로 위키피디아에서는 ‘교육과정, 학습 및 개발 프로그램을 관리하고, 기록하고, 추적하며, 종합 보고서를 만들기 위해 활용하는 소프트웨어 애플리케이션’으로 정의한다. LMS는 ‘e-러닝’ 시스템으로부터 시작되었으며 컴퓨터와 인터넷을 활용하여 교육과 학습의 간극을 최소화하는 것을 목적으로 한다. Nichols (2003)는 LMS란 ‘공유 관리 인터페이스를 통해 이용 가능한 e-러닝 도구의 모음’으로 보았다. 여기에는 메시지, 게시판 등의 상호작용 도구와 강의 자료와 같은 과정 전달이 포함된다. 이를 통해 교실에서 직접 효과적으로 전달할 수 있는 학생 중심 과정과 온라인 강의(Jordan & Dukett, 2018)를 설계하는 데 도움이 된다.

대표적인 LMS의 예로는 Blackboard, eCollege, Moodle, Desire2Learn 등이 있다. 이 매체들은 학문을 효율적으로 코드화하고 공유할 수 있도록 하며, 교수자와 학습자들이 이러한 기술을 효과적인 방법으로 가르치고 학습하는데 사용할 것으로 기대하고 있다(Murshitha, 2013; Park et al., 2020).

외국의 경우 대부분의 고등교육 기관이 전자학습의 지원을 위해 LMS를 채택하고 있다(Alharbi & Drew, 2014; Nagy, 2016). 특히 미국의 경우, 고등교육 대부분이 LMS를 교육 및 학습에 사용한다(Lang & Pirani, 2014). 우리나라에서도 2020년 코로나19 사태로 인하여 교육부가 관리하는 LMS인 e학습터를 전국적으로 활용하여 등교 중지 상황에서도 학습 공백을 채울 수 있도록 하였다. 이처럼 학교 교육에서의 LMS 사용은 지속적으로 증가하고 있으며, 교육기관에서의 웹 기반 교육을 위한 LMS 채택은 필수적인 사항이 되었다(Kim, 2021).

본 연구에서는 2021년 코로나19 방역으로 전국적 비대면 수업을 위해 사용된 LMS인 e학습터(https://cls.edunet.net)의 데이터를 사용하였다.

수학 학습 성향

Schoenfeld (1985)는 자원이나 발견술과 같은 인지적 요소 이외에도 문제해결과정을 지속적으로 관리하는 능력과 수학에 대한 긍정적인 신념이나 사고방식과 같은 정의적 요소가 문제해결 성패에 중대한 영향을 미친다고 하였다. Charles와 Lester (1984) 역시 문제를 성공적으로 해결하기 위해서는 지식이나 경험만으로는 부족하며, 문제해결자의 충분한 동기가 요구되며, 스트레스와 불안 정도가 큰 영향을 미친다고 하였다.

TIMSS(Trends in International Mathematics and Science Study)에서 발표한 결과에서 우리나라 초등학교 4학년 학생의 수학에 대한 흥미와 자신감이 최하위(각각 50위, 49위)에 이르면서(Mullis et al., 2012), 인지적 측면에 집중한 우리나라 수학 교육에 대한 비판과 함께, 수학 학습에 있어 정의적 측면에 대한 분석과 관리가 요구되었다.

이에 한국과학창의재단은 ‘수학클리닉’을 운영하여 수학 학습에서 학생들이 겪는 어려움이나 기피현상, 곤란함이 무엇인지 스스로 드러내게 하고 이를 통해 긍정적인 마음으로 다시 수학 학습에 임할 수 있도록 돕고자 학습상담을 진행하였고, 상담에 앞서 학생들의 수학 학습 성향을 진단하기 위한 검사지를 개발하였다(Ko et al., 2015). 이렇게 개발된 ‘수학클리닉 진단검사’는 수학 학습 심리, 수학 학습 방법, 수학 학습 성향을 측정할 수 있는 검사도구이다. 수학 학습 심리는 하위 요인으로 수학학습능력 자신감, 수학불안, 수학교과 태도가 있으며, 수학 학습 방법에는 수학학습 자기관리, 수학학습 전략이 포함된다. 수학 학습 성향은 수학학습 습관, 학습관리 방법, 학습동기, 학습의 사회적 성향을 측정한다.

이에 따라 본 연구에서는 학생들의 수학 학습 성향을 미리 파악하면 수학 학업성취도를 예측하고 처방하는 데 도움이 될 것이라고 기대하며(Kim, 2020) 수학클리닉 진단검사에서 수치화하여 나타낼 수 있는 5가지(수학학습 자신감, 수학불안, 수학교과 태도, 수학학습 자기관리, 수학학습능력 자신감) 성향을 수학 학업성취도 예측 요인으로 포함하였다. ‘수학교과 태도’는 ‘수학학습 자신감’ 등 다른 요인의 어휘와 내포하는 의미가 중복될 수 있어 본 연구에서는 ‘수학 교과 흥미’로 바꾸어 사용하였다.

연구방법

연구 참여자

본 연구는 학업성취도 예측 모델을 만들기 위해 평가지, 설문지, e학습터 학습 기록을 수집한다. 그러므로 수집하는 자료의 특성과 학습분석학의 연구 방법에 적절한 연구 참여자를 선정하고자 하였다.

설문 검사지를 통해 수학 학습 성향을 파악하기 때문에 스스로의 학습 성향을 비교적 객관적으로 반성해 볼 수 있는 초등학교 고학년 학생을 대상으로 하고자 하였다. 또한, 스스로 컴퓨터를 다루고 온라인 학습에 참여할 수 있어야 하므로 저학년보다는 고학년이 연구 대상으로 적절하다고 판단하여 초등학교 5~6학년 학생을 대상으로 하였다.

학습분석학의 자료 주도적 성격을 최대한 보존하기 위하여 기존에 e학습터를 이용하고 연구 기간 동안 10차시 이상 e학습터를 활용하여 수학 수업을 진행하는 학급을 대상으로 연구 참여자를 모집하였다.

최종 선정된 연구의 참여자는 경기도 지역의 5~6학년 학생 205명(11개 학급)이다. 연구 참여자의 성비를 살펴보면 남학생 97명(47%), 여학생 108명(53%)으로 여학생이 조금 더 많았으며, 학년은 5학년 127명(62%), 6학년 78명(38%)으로 구성되었다. 참여 학급의 지역 분포를 살펴보면 수원시 5개, 고양시 3개, 화성시 2개, 오산시 1개 학급으로 총 11개 학급이 참여하였다.

연구 절차

진단평가, 단원평가, 학기말평가를 위해 평가지는 직접 개발하였다. 각 문항은 2015 개정 교육과정의 국정교과서 수학익힘책에서 발췌하여 구성하였다. 4인의 전문가 집단이 3회에 걸쳐 타당도를 검토하였고, 모든 평가지는 크론바흐알파(Cronbach-α) 계수 0.6 이상의 신뢰도를 확보하였다. 2021년 3월~8월 1학기에 걸쳐 실험을 진행하였다. 연구 참여자는 수학클리닉 사전검사와 진단평가를 가장 먼저 실시하고, 각 단원의 학습이 종료되는 시점에 단원평가를 하였다. 모든 단원의 학습이 끝나고 학기말 평가를 실시하였다.

e학습터로는 1학기 동안 10차시 이상의 수학 수업을 진행하였다. 연구 참여자의 수학클리닉 사전검사 결과, 수학 평가 결과, e학습터 데이터를 수집하였다. 수학클리닉 사전검사 결과는 해석방법에 따라 점수로 나타내었다. 평가 결과는 각 학년 집단별 표준점수(T점수)로 나타내었다. e학습터 데이터는 홈페이지의 ‘학생관리’ 탭에서 보이는 진도율, 학습 횟수, 학습 시간의 학생별 평균값을 사용하였다.

랜덤 포레스트 모델의 중요도 분석을 통해 학업성취도 예측 요인을 알아보고, 각 요인의 수치 변화에 따른 학업성취도 변화를 살펴보았다. 중요도가 큰 상위 5개 요인으로 최종 수학 학업성취도 예측 모델을 만들었다.

데이터 수집

수학 학습 성향

구 참여자의 수학 학습 성향을 알아보기 위하여 수학클리닉 진단검사지(Ko et al., 2015)를 사용하였다. 검사지는 총 49개의 5점 적도 문항으로 이루어져 있으며, 수학학습 심리, 수학학습 방법, 수학학습의 개인적 성향의 3가지 대영역으로 구성되어 있다. 총 9가지의 하위 요인을 검사할 수 있다. 본 연구에서는 9가지 요인 중 수치화하여 나타낼 수 있는 5가지 요인(수학학습 자신감, 수학불안, 수학교과 태도, 수학학습 자기관리, 수학학습 전략)을 분석 대상으로 하였다. ‘수학교과 태도’는 ‘수학학습 자신감’과 요인 명이 내포하는 의미가 중복될 수 있어 본 연구에서는 ‘수학교과 흥미’로 나타내었다.

수학클리닉 검사 결과를 점수로 환산하여 학업성취도 예측을 위한 최종 요인 값을 산출하였다. 수학학습 자신감, 수학불안, 수학교과 태도, 수학 학습 자기관리, 수학 학습 전략 5가지 요인의 환산 점수가 최종 예측 요인 분석 및 예측 모델 개발에 사용되었다.

LMS 데이터

e학습터(https://cls.edunet.net)는 17개 시도에서 이용 가능한 통합 초등학교, 중학교 온라인 학습서비스이다. 온라인 학급을 개설하여 담임 교사가 학생들의 학습을 관리할 수 있으며, 학생들은 담임 교사가 업로드한 교육 콘텐츠를 보거나, 과제를 수행할 수도 있다.

연구 참여자는 1학기 동안 10차시 이상 e학습터의 교육 콘텐츠를 사용하여 수학 교과 수업을 진행하였다. e학습터로 수업한 차시 및 각 차시별 콘텐츠는 학급에 따라 차이가 있었으나 학습 계획에 따라 특정 요일 및 시간을 정하여 1~2주에 1차시 정도로 일정하게 온라인 학습을 진행하였다.

수업을 진행하고 나면 담임 교사가 학생들의 학습 이력을 볼 수 있는 ‘학습관리’ 탭에 학습 이력이 나타난다. 학습 이력에는 개인별 차시별 진도율, 학습 시간, 학습 횟수가 나타난다. 본 연구에서는 연구 참여자의 차시별 진도율, 학습 시간 학습 횟수를 수집하였다. 세 종류의 데이터 분포가 모두 정규성을 보였으며, 총 학습 차시의 평균값이 예측 요인 분석에 사용되었다.

수학 평가지

수집 데이터 중 진단평가, 단원평가, 학기말평가에 해당하는 평가지는 직접 개발하였다. 진단평가와 학기말평가는 각각 20문항으로 구성하였고, 6개 단원평가는 10문항씩 구성하였다. 각 문항은 타당도 확보를 위해 2015 개정 교육과정의 국정교과서 수학익힘책에서 발췌하였다.

난이도 조정 및 타당도 검증을 위하여 4명(박사 1명, 석사 1명, 5~6학년 담임 2명)의 전문가 집단을 구성하여 검토하였다. 전문가 집단은 각 문항의 난이도와 타당도를 3개 척도(상, 중, 하)로 나누어 분류하였고 한 평가지의 난이도 구성이 3:4:3의 비율이 되도록 조정하였다. 또한, 타당도에서 3명 이상 ‘하’로 분류한 문항은 제외하고 다른 문항으로 대체하였다. 총 3회의 검토를 통해 최종 걸쳐 평가지를 완성하였다.

수학클리닉 진단검사는 개발 과정에서 0.986의 신뢰도(크론바흐알파 계수)가 확보되었으며, 연구 참여자를 대상으로 신뢰도를 검사한 결과 0.907의 신뢰도를 확인하였다.

모든 검사지는 총점 100점으로 구성하였으며, 검사지가 다른 5학년과 6학년의 비교를 위해 표준점수(T점수)로 환산하여 사용하였다.

학업성취도 예측 요인 분석

‘연구문제 가. 어떤 수학 학습 요인이 수학 학업성취도 예측에 영향을 미치는가?’를 해결하기 위하여 수학 학업성취도 예측 요인을 분석하였다. 예측 요인 분석 및 모델 개발은 Python 3.10과 JupyterLab 3.0.14 환경에서 이루어졌다.

학업성취도 예측 요인은 10가지로, 수학 평가(진단평가, 단원평가) 결과와 5가지 수학 학습 성향(수학학습 자신감, 수학불안, 수학교과 흥미, 수학학습 전략, 수학학습 자기관리), e학습터의 학습 기록(진도율, 학습시간, 학습횟수)이다. 학업성취도는 학기말평가 결과 하위 20%의 학생을 ‘1’, 나머지 학생을 ‘0’으로 코딩하여 저성취 학생을 조기 발견하는 데 중점을 두었다.

랜덤 포레스트를 이용하면 투입된 각 요인이 결과 예측에 어느 정도 영향을 미쳤는지를 파악할 수 있는 변수 중요도(Feature Importance)를 확인할 수 있다. MDI (Mean Decrease in Impurity)는 분류 모델에서 변수중요도를 확인할 수 있는 대표적인 방법이다(Breiman et al., 1984; Biau & Scornet, 2016). 이 척도는 의사결정트리에서 예측변수가 마디를 분리함으로써 발생하는 지니 불순도(Gini impurity)의 감소량을 누적시켜 여러 개의 의사결정트리에 대해 평균을 구한 값이다(Shin & Cho, 2021). 이 연구에서는 MDI 분석을 통해 연구에 투입된 10가지 예측 요인 중 어떤 요인들이 학업성취도 예측에 영향을 주는지 알아보았다.

또한, 트리 기반의 머신러닝 모델에서 각 변수의 수치 변화에 따라 모델의 예측 결과에 미치는 효과를 보여주는 Partial Dependence Plot (PDP, Friedman, 2001)을 추출하였다. PDP는 예측값과 해당 변수의 관계를 선형이나 단조 증가 등으로 나타낼 수 있다. 본 연구에서도 10개의 변수 각각 PDP를 추출하여 각 변수와 예측 결과와의 관계를 살펴보았다.

학업성취도 예측 모델 개발

‘연구문제 나. 수학 학업성취도 예측 모델은 어떻게 구성될 수 있는가?’를 위하여 수학 학업성취도 예측 모델을 개발하였다.

최종 예측 모델도 랜덤 포레스트 분류 모델로 만들어졌다. 랜덤 포레스트는 분류 모델에 일반적으로 쓰이는 다른 학습 방법인 로지스틱 회귀나 의사결정트리의 과적합 문제를 해결하며, 분산을 줄여 일반화 가능성이 높다는 장점이 있다(Qi, 2012). 또한, 샘플의 수가 적고 요인이 여러 개일 때 적합한 방법이기 때문에(Bureau et al., 2005) 최종 예측 모델 개발에도 랜덤 포레스트를 사용하였다.

학업성취도 예측 모델 개발에 있어 중요하게 고려한 사항은 두 가지였다. 첫째는 성능이 좋은 모델을 만드는 것, 둘째는 현장에서 사용하기 쉽게 만드는 것이었다.

성능이 좋은 분류 모델을 만들기 위해서는 정확도(accuracy), 정밀도(precision), 재현율(recall) 등을 조정해야 한다. 정확도는 테스트 데이터의 결괏값을 예측하는 확률로 정확도를 높이기 위해 랜덤 포레스트 분류 모델의 7가지 하이퍼파라미터(n_estimators, criterion, max_depth, min_samples_split, min_samples_leaf, max_features, max_leaf_nodes)를 최고의 정확도를 낼 수 있도록 조정하였다. 그리드서치(Gridsearch)를 활용하여 데이터가 변하여도 데이터에 따라 각각의 하이퍼파라미터 값을 최적화하도록 설정하였다.

정확도를 높이기 위한 또 다른 방법으로 훈련 데이터와 테스트 데이터를 분리하는 방법을 다르게 할 수 있다. 일반적인 방법이 훈련 데이터와 테스트 데이터를 8:2, 7:3 등으로 나누는 hold out 방식이다. 이외에 k-fold cross validation, leave-one-out cross validation 등이 있으나 확인 결과 정확도 차이에는 큰 차이가 나타나지 않았다. 본 연구에서는 정밀도와 재현율 확인이 쉽도록 훈련 데이터와 테스트 데이터를 7:3으로 나누는 hold out 방식을 사용하였다. 훈련 데이터가 줄어드는 단점을 보완하기 위해 랜덤 시드 넘버(random seed number)를 달리하여 여러 번 반복 실행을 거쳐 정확도를 확인하였다.

정밀도는 Figure 1에서 모델이 ‘1’로 분류한 것 중에 실제 ‘1’인 것의 비율(TP/TP+FP)이다. 반대로 재현율은 실제 결괏값이 ‘1’인 것 중에 모델이 ‘1’로 분류한 것의 비율(TP/TP+FN)이다. 모델의 목적에 따라 정밀도와 재현율의 중요도가 다를 수 있는데 본 연구에서는 실제 성취가 낮은 학생을 성취가 높다고 판단하여 처방의 기회를 놓치는 상황을 방지하는 것이 더 중요하다고 판단하여 정밀도에서 다소 떨어지더라도 재현율이 높은 모델을 만들고자 하였다. 이를 위해 확률값 기준(cut-off value)을 기본값(0.5)보다 낮게 설정하였다. F1-score (정밀도와 재현율의 조화평균)가 가장 높게 나타나는 확률값 기준인 0.2로 설정하여 최종 모델을 개발하였다.

http://dam.zipot.com:8080/sites/JKSMEA/images/JKSMEA_2022_05_03_image/Fig_JKSMEA_61_02_03_F1.png

Figure 1. Confusion matrix.

또한 현장에서 사용하기 쉽도록 모델의 성능이 유지되는 한에서 투입되는 예측 요인의 수를 줄이고자 하였다. MDI 상위 5개 요인을 투입하였을 때 모델의 정확도가 소폭 상승하였으며 그보다 적은 수의 요인을 투입하였을 때는 정확도가 떨어졌기 때문에 5가지 요인(단원평가, 진단평가, 수학학습 전략, 수학학습 자신감, 수학교과 흥미)을 최종 선정하였다.

결과분석 및 논의

학업성취도 예측 요인

MDI 분석 결과

수학 학업성취도 예측 요인을 알아보기 위해 투입된 변수는 10가지로, 수학 평가(진단평가, 단원평가) 결과와 5가지 수학 학습 성향(수학학습 자신감, 수학불안, 수학교과 흥미, 수학학습 전략, 자기관리), e학습터의 학습 기록(e진도율, e학습시간, e학습횟수)이었다. 랜덤 포레스트 분류 모델을 만들어 이 10가지 변수 중 어떤 변수가 저성취 학생을 예측하는 데 큰 영향을 미치는지 알아보기 위하여 변수중요도(MDI)를 알아보았다. Table 1은 랜덤 시드 넘버(random seed number)를 달리한 5개의 모델의 변수중요도와 평균을 순위에 나타낸 것이고, Figure 2는 이를 그래프로 나타낸 것이다. 학업성취도 예측에 가장 큰 영향을 미치는 요인은 단원평가로 38.4%의 중요도를 보였다. 그 다음으로는 진단평가(21.8%), 수학학습 전략(10.6%), 수학교과 자신감(7.1%) 순으로 나타났다. 각 랜덤 시드 넘버 5개의 모델 모두에서 단원평가와 진단평가의 순위는 1위, 2위로 고정되어 나타났다. 수학 학습 성향 중 수학학습 전략이 가장 높은 중요도를 보였고 수학불안이 가장 낮은 중요도를 보였다. e학습터 데이터는 중요도가 모두 5% 미만으로 낮게 나타났다. 학습 횟수가 가장 중요도가 높았고 진도율이 가장 낮게 나타났지만 세 변수 모두 차이가 크지 않았다.

Table 1. MDI of 10 factors.

http://dam.zipot.com:8080/sites/JKSMEA/images/JKSMEA_2022_05_03_image/Table_JKSMEA_61_02_03_T1.png
http://dam.zipot.com:8080/sites/JKSMEA/images/JKSMEA_2022_05_03_image/Fig_JKSMEA_61_02_03_F2.png

Figure 2. MDI feature importance.

PDP 분석 결과

각 변수의 수치 변화에 따라 결과에 미치는 영향을 알아보기 위해 Partial Dependence Plot을 추출해보았다. Figure 3은 단원평가와 진단평가 점수에 따라 저성취 학생으로 분류될 가능성을 그래프로 나타낸 것이다. 가로축은 표준화된 점수를, 세로축은 저성취 학생으로 분류될 확률을 나타낸다. 단원평가 그래프를 보면 단원평가 점수가 높아질수록 저성취 학생으로 분류될 가능성이 낮아지는 것을 알 수 있다. 진단평가도 마찬가지이다.

http://dam.zipot.com:8080/sites/JKSMEA/images/JKSMEA_2022_05_03_image/Fig_JKSMEA_61_02_03_F3.png

Figure 3. PDP of unit test and pretest.

Figure 4의 5가지 수학 학습 성향의 그래프를 보면 수학학습 전략, 수학학습 자신감, 수학교과 흥미, 수학학습 자기관리는 모두 점수가 높아짐에 따라 저성취 학생으로 분류될 가능성이 낮아지는 경향을 보였다. 수학 학습 전략은 MDI에서와 마찬가지로 수학 학습 성향 중 점수 분포에 따라 저성취 분류 가능성의 폭 또한 크게 변하는 것을 확인할 수 있었다. 특히 수학 학습 전략 표준점수 –1.7에서 저성취로 분류될 확률이 급격히 증가하였다. 반면 수학 불안은 대체적으로 점수가 높을수록 학업성취도 점수가 낮게 나타났으며, 2점 이상일 때 저성취 가능성이 증가하는 경향을 보였다. Figure 5의 e학습터 데이터 그래프에서는 학습 횟수가 매우 낮은 경우에 저성취 가능성이 다소 높게 나타났고, 학습 시간 매우 높은 경우에 저성취 가능성이 낮아지는 것으로 나타났다. 진도율은 뚜렷한 경향성이 드러나지 않았다.

http://dam.zipot.com:8080/sites/JKSMEA/images/JKSMEA_2022_05_03_image/Fig_JKSMEA_61_02_03_F4.png

Figure 4. PDP of math learning propensity

http://dam.zipot.com:8080/sites/JKSMEA/images/JKSMEA_2022_05_03_image/Fig_JKSMEA_61_02_03_F5.png

Figure 5. PDP of LMS data.

학업성취도 예측 모델

MDI 상위 5개 요인이었던 단원평가, 진단평가, 수학 학습 전략, 수학 학습 자신감, 수학 교과 흥미로 수학 학업성취도 예측 모델을 만들었다. 랜덤 포레스트 분류 모델을 사용하였으며 분류 모델의 성능 지표인 정확도, 정밀도, 재현율, F1-score을 종합적으로 고려하여 개발하였다.

Table 2는 최종 예측 모델을 만들기 위해 투입할 요인을 결정하기 위해 투입된 요인의 수에 따른 모델의 성능 지표를 나타낸 것이다. 요인 수 별 100개의 랜덤 시드에서 정확도를 기준으로 최빈값을 나타내는 모델 중 정밀도와 재현율이 모두과적합 되지 않은 모델을 선정하였다. 모든 요인을 투입하였을 때보다 상위 5개 요인만 투입하였을 때 모델의 성능이 정확도, 정밀도, 재현율에서 모두 좋아진 것을 확인할 수 있었다. 상위 2개 요인인 단원평가와 진단평가만으로 모델을 만들었을 때와 비교하여도 모든 성능 지표에서 더 우수했다.

Figure 6은 재현율을 높이기 위해 확률값 기준을 조정한 전과 후의 오차행렬을 나타낸 것이다. 왼쪽은 확률값 기준을 기본값인 0.5로 하였을 때의 분류 결과이다. 정확도와 정밀도는 오른쪽 모델보다 높지만, 실제 저성취 학생 중 모델이 저성취 학생으로 분류하는 비율이 절반 정도이다. 오른쪽 모델은 재현율을 높이기 위하여 확률값 기준을 0.2로 조정한 것이다. 정확도는 왼쪽 모델보다 낮지만, 재현율이 상승한 것을 볼 수 있다. 본 모델의 개발 목적을 저성취 학생을 조기에 발견하여 적절한 처방을 지원해 주는 것으로 보았을 때 정확도가 소폭 감소하더라도 재현율을 높이는 쪽을 택하여 모델을 개발하였다.

Table 2. Performance of models depending on number of factors .

http://dam.zipot.com:8080/sites/JKSMEA/images/JKSMEA_2022_05_03_image/Table_JKSMEA_61_02_03_T2.png
http://dam.zipot.com:8080/sites/JKSMEA/images/JKSMEA_2022_05_03_image/Fig_JKSMEA_61_02_03_F6.png

Figure 6. Confusion matrix before after corracting cut-off value.

Figure 7-9는 최종 개발한 예측 모델의 성능을 확인하기 위해 랜덤 시드 100개에 대하여 데스트 데이터에 대한 정확도와 정밀도, 재현율의 분포를 나타낸 것이다. 분류 모델과 같이 훈련 데이터와 테스트 데이터를 나누어 모델을 훈련하고 평가하는 경우 나누어진 데이터에 따라 성능에 차이가 크기 때문에 여러 번 시행하여 가장 일반화할 수 있다고 생각하는 모델로 성능 지표를 제시하고자 하였다.

Figure 7과 같이 정확도의 최빈값은 0.79로, 100개 중 17개 모델로 나타났다.

Figure 8과 같이 정밀도의 최빈값은 0.5였으며 정확도에서 최빈값을 나타낸 17개 모델과 동일한 17개 모델의 정밀도 값이었다. Figure 9에서처럼 재현율의 최빈값은 0.85로 나타났다. 세 값을 모두 최빈값으로 가지는 모델을 모두 4개로, 전체 모델의 4%였다.

본 연구에서는 이 모델이 성능을 대표하여 나타내기에 가장 적절하다고 판단하여 최종 학업성취도 예측 모델의 성능 지표를 Table 3과 같이 제시하였다.

http://dam.zipot.com:8080/sites/JKSMEA/images/JKSMEA_2022_05_03_image/Fig_JKSMEA_61_02_03_F7.png

Figure 7. Accuracy distribution of 100 random seeds.

http://dam.zipot.com:8080/sites/JKSMEA/images/JKSMEA_2022_05_03_image/Fig_JKSMEA_61_02_03_F8.png

Figure 8. Precision distribution of 100 random seeds.

http://dam.zipot.com:8080/sites/JKSMEA/images/JKSMEA_2022_05_03_image/Fig_JKSMEA_61_02_03_F9.png

Figure 9. Recall distribution of 100 random seeds.

Table 3. Performance of the predictive model.

http://dam.zipot.com:8080/sites/JKSMEA/images/JKSMEA_2022_05_03_image/Table_JKSMEA_61_02_03_T3.png

논의

연구 결과를 바탕으로 블렌디드 수학 수업에서 학업성취도 예측에 대한 시사점을 논의하고자 한다.

첫째, 단원평가 결과가 학업성취도 예측에 가장 큰 영향을 미치는 것으로 나타났다. 예측 중요도(MDI) 분석 결과 단원평가 38%로 가장 큰 영향을 미쳤으며 그 뒤를 잇는 진단평가(22%)와 상당한 차이가 났다. 이는 학업성취도 예측에 있어 연속적인 평가 데이터를 활용하면 저성취 학생을 예측하는 데 효과적이라는 Wolff 외 (2013)의 연구, 형성평가 데이터로 블렌디드 러닝에서 학생의 성과 예측이 가능하다는 Tempelaar 외 (2013)의 연구와도 일치하는 결과이다. Wolff 외 (2013)의 연구는 온라인 대학 수학 수업이었다는 점, Tempelaar 외 (2013)의 연구는 대학의 기초수학 과목과 통계 과목에서 이루어졌다는 점에서 초등학교 5~6학년을 대상으로 한 본 연구와 연구 대상에서 차이가 있다. 단원평가는 기존의 교육 방식에서도 학생의 활동을 점검하여 피드백을 제공하고, 학생의 눈높이에 맞게 수업을 수정해 나갈 수 있도록 도와주기 때문에 학생의 성취를 높일 수 있다는 점에서 그 중요성이 매우 컸다(McMillan, 2014). 본 연구에서는 단원평가가 블렌디드 수학 수업에서도 학업성취도와 밀접한 관련이 있음을 확인했으며, 저성취 학생을 예측하는 머신러닝 모델을 개발하는 데에도 매우 중요한 정보임을 알 수 있었다.

둘째, 수학 학습 성향은 학업성취도 예측에 도움을 준다. 수학 평가 결과와 세 가지(수학 학습 전략, 수학 학습 자신감, 수학 교과 흥미) 수학 학습 성향을 포함한 5가지 요인으로 학업성취도 예측 모델을 만들었을 때, 평가 결과만으로 학업성취도를 예측했을 때보다 성능이 좋은 것으로 나타났다(Table 2 참고). 이는 블렌디드 수업에서 평가 데이터와 수학 학습 성향을 함께 사용하면 학업성취도 예측에 효과적이라는 Tempelaar 외 (2014)의 연구 결과와 일치한다. Tempelaar 외 (2014)에 따르면 수학 평가들은 결과가 누적될수록 예측 가능성이 높아지지만, 누적되기까지 시간이 소요되므로 학업성취도 예측 시기가 이를수록 수학 학습 성향의 중요도가 커진다. 국내 연구에서는 블렌디드 러닝을 적용한 대학의 기초수학 수업에서 자기효능감과 자기조절학습이 학습성과에 영향을 미친다는 Hong (2017)의 연구가 있었다. 그는 자기조절학습이 자기효능감보다 학습성과에 더 큰 영향을 미친다고 밝혔다.

셋째, 온라인 학습 데이터는 학업성취도를 예측하는 데 큰 영향을 미치지 않았다. 세 가지 e학습터 데이터의 MDI 중요도 분석 결과 학습횟수 4.1%, 학습시간 3.7%, 진도율 2.6%로 전반적으로 낮은 예측 중요도를 보였으며, 온라인 학습 데이터를 제외하였을 때 학업성취도 예측 정확도를 비롯한 모델 성능 지표가 전반적으로 상승하는 것을 확인할 수 있었다(Table 2 참고). 이러한 결과는 LMS 데이터는 그 자체만으로는 실질적인 예측이 불가능하다는 Tempelaar 외 (2014)의 연구결과를 뒷받침하는 것으로 볼 수 있다. 그러나 블렌디드 수업에서 온라인 학습 데이터만으로도 학업성취도를 예측가능 하다(Jo et al., 2016)거나, LMS 데이터가 연속적인 평가 데이터와 함께 사용 시 학생의 성적저하를 예측에 효과적(Wolff et al., 2013)이라는 선행연구와는 다소 차이가 있었다. 앞서 언급한 선행연구 모두 연구 대상이 대학생인 점, LMS 사용환경 및 블렌디드 수업의 구성 방식 등에서 본 연구와 차이가 있기 때문에, 연구 결과가 상이한 원인에 대해서는 추후 연구가 필요할 것이다.

넷째, 수학 평가 결과와 수학 학습 성향 데이터로 인공지능 학업성취도 예측 모델을 만들었다. 최종 학업성취도 예측 모델은 MDI를 기준으로 상위 5개 요인인 단원평가, 진단평가, 수학 학습 전략, 수학 학습 자신감, 수학 교과 흥미를 투입하여 생성하였다. 최종 모델은 정확도 0.79, 재현율 0.85의 성능을 보였다. 학습분석학을 활용하여 수학 학업성취도에 영향을 미치는 요인에 대한 분석 연구(Hong, 2017; Dani, 2016; Oviatt, 2013), 예측 모형(Jo et al., 2016; Tempelaar et al., 2014; Wolff et al., 2013)에 대한 선행연구들이 상당히 많았다. 그러나 이 연구 중 초등학생을 대상으로 한 연구는 없었다는 점에서 본 연구의 결과가 그동안의 연구에 대한 확장 가능성을 제시할 수 있을 것이라고 기대한다. 분석 방법에서도 차이가 있었다. 대부분의 선행연구가 분석 및 예측을 위해 회귀분석 방법을 사용하였는데 회귀분석의 장점은 각 예측 변인과 종속 변인의 관계를 통계적으로 확인할 수 있다는 점이다. 본 연구에서는 이를 보완하기 위해 MDI 변수 중요도를 추출하여 각 요인별 예측 중요도를 확인하였고, 요인별 PDP를 통해 수치 변화에 따른 양상도 살펴보았다. 본 연구의 예측 모델이 가지는 장점은 랜덤 포레스트 분류모델을 사용하여 비교적 우수한 성능으로 새로운 데이터도 분류가 가능하다는 점이다. 또한, Python이라는 확장성이 무한한 프로그래밍 언어를 사용하여 사용자 인터페이스를 추가하는 등의 지속적인 개발이 가능하다.

결론 및 제언

연구 결과를 바탕으로 도출한 결론은 다음과 같다.

첫째, 학업성취도 예측 모델을 사용하면 교사가 학생들의 수학 학습 성취도를 관리하는 데 도움이 될 것이다. 본 모델은 재현율을 높혀 저성취 가능성이 있는 학생들을 최대한 놓치지 않고 분류하도록 개발되었다. 교사가 이를 활용하는 함으로써 저성취 가능성이 있는 학생을 면밀히 살펴보고 조기에 처방을 제공하는 데 도움을 줄 것으로 기대한다.

둘째, 단원평가와 같은 형성평가를 통해 학생의 성취 정도를 꾸준히 점검하는 것이 중요하다. 기존의 학습 형태에서도 형성평가는 학생들의 이해 정도를 점검하고 피드백해 준다는 점에서 중요하게 여겨졌다(McMillan, 2014). 본 연구에서는 블렌디드 수업에서도 형성평가의 중요성을 확인하였으며, 학업성취도 예측 모델 개발에 중요한 데이터가 된다는 것 또한 알 수 있었다.

셋째, 저성취 학생들의 수학 학습 전략을 기를 수 있도록 피드백을 제공해야한다. 연구 결과, 5가지 수학 학습 성향 중 학업성취도와 가장 관련이 높은 요인은 수학 학습 전략으로 나타났다. 특히 예측 모델에서 저성취로 분류된 학생은 오답노트, 교사 모델링 등 문제 이해를 높일 수 있는 처방을 제공해 줄 필요가 있다(Ko et al., 2015).

넷째, 학습의 목적에 맞는 LMS를 선택할 필요가 있다. 연구 결과 e학습터 데이터는 학생들의 학업성취와는 거의 무관한 것으로 나타났다. 이는 교사가 e학습터의 학습기록으로 학생들을 관리하더라도 학업성취도에 좋은 영향을 미치기 어렵다는 것을 의미한다. LMS 사용 목적이 학습 성취 향상이라면 더 적절한 다른 LMS를 사용하는 것이 바람직할 것이다.

이 연구에 이어 후속되어야 할 연구의 방향을 제언하고자 한다. 첫째, 더 많은 데이터를 가지면 더 정확도가 높은 모델을 만들 수 있을 것이다. 둘째, e학습터보다 유효한 온라인 학습 데이터를 사용해야 한다. 셋째, 온라인 평가를 활용하면 교사가 채점하고 점수를 입력하는 과정을 생략하고 예측 모델에 바로 적용할 수 있을 것이다.

References

1 Ahn, M. L., Choi, Y. Y., Bae, Y. H., & Kim, M. H. (2016). A Literature Review on Learning Analytics: Exploratory study of empirical researches utilizing log data in Korea. Journal of Educational Technology, 32(2), 253-291. https://doi.org/10.17232/KSET.32.2.253  

2 Alharbi, S., & Drew, S. (2014). Using the technology acceptance model in understanding academics’ behavioural intention to use learning management systems. International Journal of Advanced Computer Science and Applications, 5(1), 143-155. https://doi.org/10.14569/IJACSA.2014.050120  

3 Biau, G., & Scornet, E. (2016). A random forest guided tour. Test, 25(2), 197-227. https://doi.org/10.1007/s11749-016-0488-0  

4 Breiman, L., Friedman, J., Stone, C. J., & Olshen, R. A. (1984). Classification and regression trees. CRC press.  

5 Breiman, L. (1996). Bagging predictors. Machine Learning. 24(2), 123-140. https://doi.org/10.1007/BF00058655  

6 Breiman, L. (2001). Random Forests. Machine Learning. 45(1), 5-32. https://doi.org/10.1023/A:1010933404324  

7 Bureau, A., Dupuis, J., Falls, K., Lunetta, K. L., Hayward, B., Keith, T. P., & Van, E. P. (2005). Identifying SNPs predictive of phenotype using random forests. Genetic Epidemiology: The Official Publication of the International Genetic Epidemiology Society, 28(2), 171-182. https://doi.org/10.1002/gepi.20041    

8 Charles, R. I., & Lester, F. K. (1984). An evaluation of a process-oriented instructional program in mathematical problem solving in grades 5 and 7. Journal for Research in Mathematics Education, 15(1), 15-34. https://doi.org/10.5951/jresematheduc.15.1.0015  

9 Dani, A. (2016). Students' patterns of interaction with a mathematics intelligent tutor: Learning analytics application. arXiv preprint arXiv:1607.07284. https://doi.org/10.5121/ijite.2016.5201  

10 Elias, T. (2011). Learning analytics: Definitions, process and potential. Learning, 23.  

11 Friedman, J. H. (2001). Greedy Function Approximation: A Gradient Boosting Machine. Annals of Statistics, 1189-1232. https://doi.org/10.1214/aos/1013203451  

12 Hong, H. J. (2017). The Effect of Self Efficacy and Self-Regulated Learning on Learning Persistence in Blended Learning Based Basic Mathematics Class. Journal of Educational Technology, 20(6), 3-11. https://doi.org/10.18108/jeer.2017.20.6.3  

13 Jo, I. H. (2012). Proposal of LAPA (Learning Analytics for Prediction & Action) model. Review of Korean Society of Management Information System Research Seminar 2012, Seoul.  

14 Jo, I. H. (2015). Learning analysis department, learning design, and development of its convergence topography. Review of Conference of Korean Society of Educational Technology, 2015(2), 422-434.  

15 Jo, I. H., Park, Y. J., & KIM, J. H. (2019). Understanding Learning Analytics. Park Young Story  

16 Jo, I., Park, Y., Yoon, M., & Sung, H. (2016). Evaluation of Online log variables that estimate learner’s time management in a Korean online learning context. The International Review of Research in Open and Distributed Learning, 17(1), 195-213. https://doi.org/10.19173/irrodl.v17i1.2176  

17 Jo, Y. S. (2014). Potential and Prospects of Learning Analytics Technology Utilization. Information and Communications Magazine, 31(12), 73-80.  

18 Jordan, M. M., & Duckett, N. D. (2018). Universities Confront ‘Tech Disruption’: Perceptions of Student Engagement Online Using Two Learning Management Systems. The Journal of Public and Professional Sociology, 10(1), 4.  

19 Kakasevski, G., Mihajlov, M., Arsenovski, S., & Chungurski, S. (2008, June). Evaluating usability in learning management system Moodle. In Iti 2008-30th international conference on information technology interfaces(pp.613-618). IEEE. https://doi.org/10.1109/ITI.2008.4588480  

20 Ko, H. K., Yang, K. S., & Lee, H. Y. (2015). Development of the Diagnostic Worksheet for Mathematics Academic Counseling. Communications of Mathematical Education, 29(4), 723-743. https://doi.org/10.7468/jksmee.2015.29.4.723  

21 Kim, A. N. (2021). Analysis of Learner Behavior and Learning Performance using LMS Big Data in the COVID-19: Focused on J-University. Korean Association For Learner-Centered Curriculum And Instruction, 21(6), 565-579. https://doi.org/10.22251/jlcci.2021.21.8.565  

22 Kim, H. K. (2020). Meta analysis on the improvement of academic performance by the teaching method for underachievers of learning mathematics. The Mathematical Education, 59(1), 31-45. https://doi.org/10.7468/mathedu.2020.59.1.31    

23 Lang, L., & Pirani. J, A. (2014). The Learning Management System Evolution. Research bulletin. Louisville, CO: ECAR, May 20, 2014.  

24 Lim, J. H. (2009). A Study on the Design Strategies of Teaching and Learning Model for Mobile Learning, The Journal of Korean Educational Practice, 8(1), 101-124.  

25 McMillan, J. H. (2014). Classroom Assessment: Principles and Practice for Effective Standards-Based Instruction, 6th Edition. Pearson.  

26 Ministry of Education (2020, May 26). Science, Mathematics, Information, Convergence Education Comprehensive Plan (’20~’24). Ministry of Education. https://www.moe.go.kr/boardCnts/viewRenew.do?boardID=294&lev=0&statusYN=W&s=moe&m=020402&opType=N&boardSeq=80718  

27 Montebello, M. (2021, August). Personalized Learning Environments. In 2021 International Symposium on Educational Technology (ISET) (pp. 134-138). IEEE. https://doi.org/10.1109/ISET52350.2021.00036  

28 Mullis, I. V., Martin, M. O., Foy, P., & Arora, A. (2012). TIMSS 2011 international results in mathematics. International Association for the Evaluation of Educational Achievement. Herengracht 487, Amsterdam, 1017 BT, The Netherlands.  

29 Murshitha, S. M. (2013). The effect of lecturers’ performance on students’ LMS adoption. In Proceedings of the Third International Symposium 2013, 19-24.  

30 Nagy, J. (2016). Using learning management systems in business and economics studies in Hungarian higher education. Education and Information Technologies, 21(4), 897-917.  

31 Nichols, M. (2003). A theory for eLearning. Journal of Educational Technology & Society, 6(2), 1-10.  

32 Oviatt, S. (2013, December). Problem solving, domain expertise and learning: Ground-truth performance results for math data corpus. In Proceedings of the 15th ACM on International conference on multimodal interaction (pp. 569-574). https://doi.org/10.1145/2522848.2533791  

33 Park, H. S. (2019). Do it! Introduction to deep learning that you can learn coding honestly. Easyspublishing.  

34 Park, M., Lim H., Kim, J. Y., Lee, K. H., & Kim, M. (2020). The effects on the personalized learning platform with machine learning recommendation modules: Focused on learning time, self-directed learning ability, attitudes toward mathematics, and mathematics achievement. The Mathematical Education, 59(4), 373-387. https://doi.org/10.7468/mathedu.2020.59.4.373  

35 Romero, C., & Ventura, S. (2006). Data mining in e-learning(Vol. 4). Wit Press. https://doi.org/10.2495/1-84564-152-3  

36 Schoenfeld, A. H. (1985). Making sense of “out loud” problem-solving protocols. The Journal of Mathematical Behavior, 4(2), 171-191.  

37 Shin, S. B., & Cho, H. J. (2021). Correlated variable importance for random forests. The Korean Journal of Applied Statistics, 34(2), 177-190.  

38 Siemens, G., & Long, P. (2011). Penetrating the fog: Analytics in learning and education. EDUCAUSE review, 46(5), 30.  

39 Tempelaar, D. T., Heck, A., Cuypers, H., Kooij H., & Vrie. E. (2013, April). Formative assessment and learning analytics. Proceedings of the Third International Conference on Learning Analytics and Knowledge. Association for Computing Machinery, USA, 205–209. https://doi.org/10.1145/2460296.2460337  

40 Tempelaar, D. T., Rienties, B., & Giesbers, B. (2014). Computer assisted, formative assessment and dispositional Learning Analytics in learning mathematics and statistics. Communications in Computer and Information Science, 439, 67-78. https://doi.org/10.1007/978-3-319-08657-6_7  

41 Wolff, A., Zdrahal, Z., Nikolov, A., & Pantucek, M. (2013, April). Improving retention: predicting at-risk students by analysing clicking behaviour in a virtual learning environment. In Proceedings of the third international conference on learning analytics and knowledge. Association for Computing Machinery, USA, 145–149. https://doi.org/10.1145/2460296.2460324  

42 Qi, Y. (2012). Random forest for bioinformatics. In Zhang, C., Ma, Y. (eds) Ensemble Machine Learning (pp. 307-323). Springer. https://doi.org/10.1007/978-1-4419-9326-7_11