Semantic Scholar

저자: Kyle Lo, Lucy Lu Wang, Mark E Neumann, Rodney Kinney, Daniel S. Weld | 날짜: | DOI: N/A


Essence

Figure 1

Figure 1: Inline citations and references to figures and

S2ORC는 81.1M개의 영문 학술논문을 수집하고 8.1M개 오픈액세스 논문의 구조화된 전문(full text)을 제공하는 대규모 공개 코퍼스로, 인용(citation), 도표(figure), 표(table) 등이 자동으로 주석 처리되어 있다.

Motivation

Achievement

Figure 1

Figure 1: Inline citations and references to figures and

How

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: S2ORC는 학술 NLP 연구를 위한 기초 자원으로서 기존 대비 3배 이상의 구조화 전문을 제공하고, 풍부한 주석 정보와 학제간 광범위성으로 획기적인 공개 코퍼스이다. 실제 적용 가능성이 매우 높으며, 후속 학술 텍스트 마이닝 연구의 토대가 될 것으로 예상된다.

같이 보면 좋은 논문

기반 연구
구조화된 학술논문 데이터를 기반으로 한 지식 그래프 구축과 질의응답 시스템 개발의 필수 데이터 소스로 활용된다.
기반 연구
학술 지식 그래프 구축과 질의응답에 필요한 대규모 구조화된 학술논문 데이터의 기본 소스로 S2ORC를 활용한다.
기반 연구
의료 과학 분야 지식 추출과 증거 합성을 위해 S2ORC의 대규모 구조화된 의료 문헌 데이터를 핵심 자원으로 활용할 수 있다.
기반 연구
다중문서 요약에 최적화된 문맥 길이 추정을 위해 S2ORC의 대규모 학술논문 데이터를 실험 데이터셋으로 활용할 수 있다.
후속 연구
학술 검색 엔진 비교 연구가 Semantic Scholar와 같은 AI 기반 검색 시스템 발전으로 이어진다
후속 연구
의료 및 생물학 분야 QA 모델 훈련에 필요한 대규모 학술 문헌 데이터를 S2ORC를 통해 확보하고 성능을 개선할 수 있다.
응용 사례
과학적 팩트체킹에 필요한 동료 심사 학술논문 검색을 위해 S2ORC의 대규모 구조화된 논문 데이터를 활용할 수 있다.
응용 사례
대규모 학술논문 코퍼스를 활용한 의료 분야 지식 추출 연구의 데이터 기반으로 S2ORC의 활용 가능성을 확인할 수 있다.
응용 사례
그래프 링크 예측 기반 인용 추천 방법론을 S2ORC 데이터에 적용하여 학술논문 간 인용 관계 예측의 정확도를 향상시킬 수 있다.
응용 사례
다중문서 요약을 위한 최적 문맥 길이 추정 연구에서 S2ORC의 대규모 학술논문 데이터를 검증 데이터셋으로 활용할 수 있다.
← 목록으로 돌아가기