Open Datasets in Learning Analytics: Trends, Challenges, and Best PRACTICE

저자: Valdemar Švábenský, Brendan Flanagan, Erwin Daniel López Zapata, Atsushi Shimada | 날짜: 2026-02-19 | DOI: 10.1145/3798096

Essence

Fig. 2. Distributions of dataset frequency across educational topics and levels of students.

본 논문은 학습분석(Learning Analytics), 교육데이터마이닝(Educational Data Mining), 교육용 AI의 세 분야에서 공개 데이터셋의 현황을 파악하고, 데이터 공유 모범 사례를 제시하는 체계적 조사 연구이다.

Motivation

Known: 개방과학(Open Science) 실천이 연구 재현성, 협력, 신뢰성을 향상시키며, 저자에게 가시성과 인용도 증가의 이점을 제공한다는 것이 알려져 있다.
Gap: 학습분석 커뮤니티에서 공개 데이터셋의 실제 가용성과 관련 실천 방식이 불명확하며, 특히 주요 학술 회의에서의 현황이 체계적으로 파악되지 않았다.
Why: 공개 데이터셋 공유는 연구 재현성을 지원하고 새로운 협력 기회를 창출하며 사회적 신뢰를 증진하므로, 학습분석 커뮤니티의 데이터 공유 현황 파악과 개선이 필수적이다.
Approach: 2020-2024년 LAK, EDM, AIED 세 학술 회의에서 발표된 1,125편의 논문을 수작업으로 검토하여 공개 데이터셋 172개를 발굴, 분류, 분석하고 PRACTICE라는 8개 항목의 지침을 개발했다.

Achievement

Fig. 2. Distributions of dataset frequency across educational topics and levels of students.

가장 포괄적인 공개 교육 데이터셋 수집 및 분석: 172개의 고유 데이터셋을 식별하였고, 이 중 143개는 이전 조사에서 포착되지 않은 신규 데이터셋이다.
상세한 데이터셋 분류 체계: 데이터셋의 맥락(Context), 분석 방법(Analytical Methods), 사용 현황(Use) 및 기타 속성에 대한 심층적 분류를 제공한다.
PRACTICE 지침 개발: 연구자들이 데이터를 발행할 때 참고할 수 있는 8개 항목의 실질적 권장사항 및 체크리스트를 제시한다.
주석 처리된 데이터셋 인벤토리 공개: 발굴된 데이터셋과 해당 논문을 상세히 기록한 원본 데이터셋을 커뮤니티에 공유한다.
연구 갭 및 현황 분석: 학습분석 분야에서 데이터가 부족한 맥락과 지역을 파악하여 향후 데이터 수집 방향을 제시한다.

How

Fig. 1. PRISMA flow diagram. Generated using the tool by Haddaway et al. [146].

LAK, EDM, AIED 세 학술 회의의 2020-2024년 발행 논문 1,125편을 수동으로 전수 검토
각 논문의 공개 데이터셋 가용성, 위치, 특성을 체계적으로 기록
발견된 172개 데이터셋을 교육 주제, 수준, 지리적 맥락, 학생 수, 데이터포인트 수 등으로 분류
FAIR(Findable, Accessible, Interoperable, Reusable) 원칙과 개방 데이터 정의를 참고하여 분석 기준 수립
선행 조사와 비교하여 신규 데이터셋을 식별
연구 커뮤니티의 데이터 공유 장애요인(시간 부족, 라이센싱, 저장소 선택 등)을 고려하여 실질적 가이드 개발

Originality

2020-2024년 최신 5년간 세 주요 학술 회의 전수 검토로 현재 상황의 가장 최신 스냅샷 제공
기존 조사에서 놓친 143개의 신규 데이터셋 발굴로 학습분석 분야의 데이터 현황에 대한 가장 포괄적인 이해 제공
PRACTICE라는 실행 가능한 8개 항목 지침 개발로 단순한 현황 분석을 넘어 실질적 개선 방안 제시
발굴된 데이터셋의 주석 처리된 인벤토리를 오픈 데이터로 공개하여 메타-과학적 기여

Limitation & Further Study

조사 범위를 세 학술 회의(LAK, EDM, AIED)로 제한하여 다른 학술 출판 채널(저널, 학위논문 등)의 데이터셋을 포함하지 못함
2020-2024년 5년 기간만 검토하여 더 오래된 데이터셋의 장기적 추세 파악이 제한됨
공개 데이터셋만 조사하여 비공개 데이터를 사용한 연구의 규모를 파악하지 못함
PRACTICE 지침의 채택도 및 실제 영향력에 대한 후속 평가 연구 필요
향후 연구에서는 데이터 공유 장애요인에 대한 심층 인터뷰 등 정성적 연구를 통합하여 더욱 깊이 있는 이해 추구 필요

Evaluation

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 학습분석 커뮤니티의 공개 데이터 현황에 대한 가장 포괄적이고 최신의 체계적 조사 연구이며, 실질적인 PRACTICE 지침 제공과 신규 데이터셋 인벤토리 공개를 통해 학습분석 분야의 개방 과학 실천을 촉진하는 중요한 기여를 한다.

같이 보면 좋은 논문

기반 연구

Open Catalyst 2020 (OC20) Dataset and Community Challenges

촉매 발견을 위한 공개 데이터셋과 도메인 챌린지 설계가 교육 분야 공개 데이터셋의 품질 기준과 활용 모범 사례 수립에 방법론적 기반을 제공한다.

기반 연구

OLMo: Accelerating the Science of Language Models

OLMo의 완전 공개 접근법이 학습분석 분야 공개 데이터셋의 투명성과 재현가능성 모범 사례 수립에 방법론적 기반을 제공한다.

기반 연구

Embracing Foundation Models for Advancing Scientific Discovery

과학 분야 LLM 벤치마크 체계가 교육 분야 공개 데이터셋의 품질 평가와 모범 사례 도출에 방법론적 기반을 제공한다.

다른 접근

Open Catalyst 2020 (OC20) Dataset and Community Challenges

교육 분야 공개 데이터셋의 모범 사례가 촉매 발견을 위한 OC20 데이터셋과 다른 분야에서 데이터 공유 전략을 제시한다.

후속 연구

OLMo: Accelerating the Science of Language Models

언어모델 과학 연구를 위한 완전 공개 접근법을 교육 분야 공개 데이터셋의 모범 사례와 품질 기준으로 확장한다.

후속 연구

Embracing Foundation Models for Advancing Scientific Discovery

과학 분야 LLM의 190개 벤치마크 체계를 교육 분야로 확장하여 학습분석과 교육용 AI의 데이터 품질 평가 기준을 제시한다.

응용 사례

Data, measurement and empirical methods in the science of science

메타데이터 통합 아이디어 생성 방법론을 교육 분야 공개 데이터셋 활용 연구에 적용할 수 있는 구체적 사례를 제공한다.

← 목록으로 돌아가기