저자: Jarosław Szumega, Lamine Bougueroua, Blerina Gkotse, Pierre Jouvelot, Federico Ravotti | 날짜: 2023 | DOI: 미명시
본 논문은 OpenReview.net과 SciPost.org에서 수집한 36,000개 이상의 과학논문과 89,000개 이상의 피어리뷰로 구성된 공개 피어리뷰 데이터셋(ORB: Open Review-Based dataset)을 소개한다. NLP 기반 자동 논문 평가 및 고에너지물리 실험 제안의 자동 심사를 지원하기 위한 포괄적인 데이터 인프라를 제공한다.
ETL 프로세스 및 연속적인 단계별 데이터 표현
OrbRaw 인터페이스와 구현을 나타내는 UML 다이어그램*
ORB 프레임워크의 대상 Orb 데이터클래스. OrbPapers의 모든 OrbSubmissions*
한계:
후속 연구:
총평: ORB 데이터셋은 오픈 피어리뷰 분야의 데이터 부족 문제를 크게 완화할 수 있는 중요한 자원이며, 특히 고에너지물리 실험 제안 자동 평가라는 구체적 응용을 지원한다는 점에서 가치가 있다. 다만 데이터 통합의 복잡성, NLP 실험의 기초적 수준, 플랫폼 의존성 등으로 인해 기술적 견고성에서 개선 여지가 있고, 대규모 실제 응용까지는 추가 연구가 필요하다. 오픈 사이언스 커뮤니티에 긍정적 기여를 할 수 있는 리소스이나, 개별 논문으로서의 기술적 혁신성은 제한적이다.