SciSpace (1) overview

  • SciSpace는 연구에 활용하기 좋은 AI 도구입니다.
  • 기능이 많아 짧은 글에 모든 기능을 담기 어려워, 몇 편으로 나누어 소개합니다.
  • 오늘은 첫 번째 글로, 개괄적인 내용을 다룹니다.

1. scispace

SciSpace

SciSpace 한국어 접속화면

1.1. overview

SciSpace: about scispace
SciSpace: journal gallery
SciSpace: introducing SciSpace-Revolutionizing research workflows end-to-end

[www.scispace.com 접속시 안내 화면](https://scispace.com/)

  • scispace의 웹사이트는 https://typeset.io/입니다.
  • 이름과 사이트 이름이 달라 왜지?라는 궁금증을 불러일으키기 마련입니다만,
  • 2015년 서비스를 처음 개시했을 때는 특정 학술지에 맞춰 서식을 조정하는 도구(typesetting tool)였습니다.

“It is funny to look back and think that it all began with rejection. My university rejected my thesis in the final year of graduation because of inappropriate formatting.

“모든 것이 거부에서 시작되었다는 사실을 돌이켜보면 웃음이 나옵니다. 제 학위논문은 서식을 맞추지 못했다는 이유로 대학 당국에 의해 졸업이 거부되었습니다.”

  • SciSpace의 설립자인 Saikiran Chandhark가 학위논문 서식을 맞추지 못해 졸업이 거절당한 것이 시작이라고 합니다.
  • 학술지 typesetting tool의 흔적은 journal gallery에서 찾아볼 수 있습니다.
  • 저널 이름을 검색하여 선택하면 출판 형식을 보여주고,
  • MS template를 올리거나 사이트에서 자체 제공하는 빈 문서를 사용해 논문을 작성할 수 있습니다.

SciSpace journal gallery: "Artificial Intelligence" 검색 화면
SciSpace journal gallery: "Artificial Intelligence" 선택 화면
SciSpace journal gallery: "A blank document" 선택 화면

  • typesetting tool로 시작한 서비스는 무료 full-text PDF 검색 도구로 발전했습니다.
  • 2022년 5월 11일, scienceworkspace를 결합한 의미의 SciSpace로 브랜드를 전환했습니다.
  • 당시만 해도 지금과 같은 문서 요약이나 글쓰기 도구는 담기지 않았던 것으로 보입니다.

“Two significant questions stood before us: how to build a world where breakthrough scientific research happens at pace, and how do we evolve our brand messaging to convey the same.”

“중요한 질문 두 개가 우리 앞에 놓여 있었습니다. 획기적인 과학 연구가 빠른 속도로 이루어지는 세상을 어떻게 만들 것인가, 그리고 이 방법을 전달하는 우리 브랜드를 어떻게 성장시킬 것인가 하는 점입니다.”

  • SciSpace 창립자가 사명을 변경하면서 발행한 글에는 42%의 학술논문이 유료화 장벽(paywall) 너머에 있다고 기술되어 있습니다.
  • 학제와 지역의 벽을 넘어 연구자들간의 협업 커뮤니티를 만들어 보겠다는 포부가 PDF 공유와는 무관해보이기도 합니다만
  • 일종의 논문 검색 엔진을 매개로 연구를 가속화하겠다는 포부는 전달됩니다.

2022년 무료 full-text PDF 검색 도구를 표방하던 당시의 자료

SciSpace 로고 디자인 과정

  • 당시 mission에서 문헌 검색과 연구 논문 작성부터 연구의 가시성 향상 모두를 현대화한다는 목표를 읽을 수 있습니다.

“SciSpace on a mission is to become the most comprehensive end-to-end platform for researchers, modernizing everything from the literature search and research writing to improving research visibility.”

  • 그리고 2023년, SciSpace는 현재의 논문 탐색 & 작성 도구로 발전했습니다.

1.2. 문헌 Database

GPTs: SciSpace
The Semantic Scholar Open Data Platform
Allen Institute: Open Data
SciSpace Resources: Open Access
Pega Devlog: 생성AI 연구 활용 한계와 제언

  • SciSpace는 270 million+, 즉 2.7억편 이상의 논문에 접근할 수 있다고 합니다.
  • SciSpace GPTs에는 287 million으로 표시되어 있습니다.
  • 그러나 참조 데이터베이스 명을 명시하지 않고 있습니다.
  • 이 중 2.2억편은 Allen Institute에서 운영하는 S2AG에서 제공하는 데이터입니다.
  • S2AG는 Microsoft에서 운영하던 Microsoft Academic Graph(MAG)의 데이터를 계승한 것입니다.

Allen Institute: S2AG

  • 좋은 데이터이지만 근본적인 한계가 있습니다.

  • Open Access 논문에 의존한다는 점인데, 분야에 따라서는 쓸만한 정보를 얻을 수 없기 때문입니다.

  • SciSpace에서 논문들을 대상으로 질의를 하고 답변을 받을 수 있으나

  • 본인의 분야 및 목적이 open access로 충분한지 검토가 선행되어야 합니다.

  • SciSpace에서 논문을 찾아보면 Google Scholar를 비롯해 arXiv, PubMed, Semantic Scholar, IEEE 등에서 검색을 합니다.

  • 그러나 본문까지 검색이 되는 것은 open access 논문으로 한정되고,

  • 본문이 공개되지 않은 Google Scholar 검색 논문과 IEEE Xplore 논문 등은 초록만 활용할 수 있습니다.

  • 사용자의 목적에 따라 초록만으로도 충분한 경우가 있고, open access로도 충분할 때가 있습니다.

  • 중요한 것은 한계를 알고 사용하는 것입니다.

  • 다행히 ResearchGate같은 원문 공유 사이트에서 일부 유료 논문을 볼 수 있습니다.
  • 저자들의 너그러움에 기대는 방식인데,
  • 최근 SciSpace에 저자에게 원문을 요청하는 메일을 보내는 기능이 추가되었습니다.

Request PDF 버튼을 누르면 나오는 원문 요청 화면

  • 이래도 되나 싶은, 다소 당혹스러운 느낌이 들기도 합니다.
  • 일단, 가급적 PDF 파일을 직접 업로드하여 사용하시기를 권장합니다.

1.3. 언어 모델

SciSpace Resources: Introducing ChatPDF: Your AI assistant that helps explain papers
SciSpace Resources: AI Summary Generator in Academic – A Quick Guide (2024)
SciSpace Resources: Adobe PDF Reader vs. SciSpace ChatPDF — Best Chat PDF Tools
SciSpace Resources: Research paper summarizer | An overview of the best AI summarizers
EMNLP 2020: SciTLDR
github: SciTLDR
arXiv: SciBERT
github: SciBERT
spacy: scispacy
github: scispacy
github: NotebookLlama

  • 현재의 SciSpace는 언어모델을 이용해 요약, 질의, 번역 등의 기능을 제공합니다.
  • 하지만 SciSpace에서 사용하는 언어모델에 대해 명확하게 공개된 바가 없습니다.
  • Copilot이라는 이름의 첫 버전이 등장한 것은 22년 12월*이고,
    (원글이 업데이트됨. 아카이빙된 원글 링크)
  • ChatGPT 3.5 API가 2023년 3월 1일에 공개된 점에 미루어 볼 때,
  • 이전에 공개된GPT3 API를 활용하다 GPT 버전 업데이트에 발맞추어 개선한 것으로 여겨집니다.
  • 그러나 한편으로 다른 모델을 (함께) 사용할 가능성을 배제할 수 없습니다.
  • Semantic Scholar는 일부 논문들에 대해 초록을 세 줄 가량으로 요약한 TLDR 기능을 제공합니다.
  • Allen Institute에서 개발한 SciTLDR을 사용한 것입니다.
  • 2020년 EMNLP에서 발표된 논문으로, 3,935개의 요약문 데이터셋을 사용해 개발되었습니다.

SciTLDR 논문 (2020): https://aclanthology.org/2020.findings-emnlp.428/)

  • BERT 모델을 과학 논문들로 미세조정한 SciBERT도 있습니다.
  • 2019년에 나온 논문으로, BERT 모델을 과학 논문들로 미세조정한 것입니다.
  • SciBERT는 자연어 처리 라이브러리 Spacy를 과학 문헌에 맞게 조정한 SciSpacy에 기반을 두고 있습니다.
  • GPT를 비롯한 거대 언어 모델을 사용하려면 API 비용이 소요되고 응답시간이 길어지기 때문에 이런 작은 모델들을 운영할 여지가 충분합니다.

SciSpacy: https://allenai.github.io/scispacy/

  • 최근에는 Google NotebookLM을 필두로 PDF 문서를 podcast로 만들어주기도 합니다.
  • 오픈소스로 공개된 NotebookLlama를 이용하면 누구나 podcast를 만들 수 있습니다.
  • 최근 SciSpace에는 논문을 podcast로 만들어주는 기능이 추가된 데서 알 수 있듯, 여러 모델들을 조합하여 활용하는 것으로 보입니다.

NotebookLlama 개념도

1.4. 맺음말

  • 지금의 SciSpace는 연구의 시작과 끝을 담당하는 종합 AI 도구입니다.
  • 유사한 기능을 제공하는 여러 도구들과 함께 경쟁하면서 공진화를 하고 있습니다.
  • 전에 없던 기능이 갑자기 생기기도 하고, 그 과정에서 일부 기능이 불안정하기도 하지만 전반적인 쓰임은 매우 편리하고 안정적입니다.

SciSpace

  • SciSpace 외의 다른 도구들도 비슷한 양상으로 함께 진화할 것으로 예상됩니다.
  • 이 글은 SciSpace에 대한 소개글이지만, AI 도구의 발전 과정을 보여주는 좋은 예시가 되기를 바랍니다.


도움이 되셨나요? 카페인을 투입하시면 다음 포스팅으로 변환됩니다

Share