Citation Network on Scopus Data

Contributor

김승욱님, Bert님

References

VOSviewer
Scopus
Web of Science

논문 여러편을 읽고 행간을 파악해서 연구의 흐름을 인지하는 일은 쉽지 않습니다.
- 익숙한 분야가 아니라면 일단 단어조차 낯선데,
- 뭐가 중요하고 중요하지 않은지 알기 힘든데다
- 이 연구와 다른 연구가 어떻게 연결돼있는지 알기 어렵죠.
- 어설픈 구글링으로 찾아 한참 읽고보니 시간낭비인 경우도 많습니다.
VOSviewer는 Citation network Visualizer입니다.
- 논문간의 인용관계를 보여줄 뿐 아니라
- 논문의 키워드 빈도에 기반해서 어떤 키워드끼리 연결돼있는지 알려줍니다.

아름다움은 덤입니다.

Web of Science, Scopus를 비롯한 논문 DB포털과 더불어 EndNote, RefWorks, RIS파일과 같은 Reference manager file들을 읽어오기 때문에 논문을 읽으시는 분이라면 별다른 심리적 장벽이 없을 것입니다.
- VOSviewer 사용법에 대해서는 참고할 거리가 많으니 생략합니다.
- 공식 매뉴얼이 있고,
- Tutorial도 있습니다.
본 글에선 Scopus에서 citation 정보를 출력해주지 않아 해결한 과정에 집중합니다.

pybliometrics: Python-based API-Wrapper to access Scopus
Elsevier Developers
What are Scopus APIs and how are these used?

최근 10년간 논문은 11,079개

이 많은 논문을 일일이 볼 생각은 애초부터 없었습니다.
- VOSviewer의 힘을 빌려 맥락을 파악합시다.
- VOSviewer 매뉴얼에서는 Download를 하지 말고 CSV export를 하랍니다.
- Scopus에서는 한번에 200개까지만 받으면 초록도 포함해준다고 합니다.

그런데 레퍼런스와 인용정보가 없습니다.

알고보니 인용정보는 맨 우측, EID를 통해 각 논문의 세부 정보에 액세스해야 합니다.
- Python에서는 Scopus API wrapper인 pybliometrics사용을 권장한답니다.
- 설치는 pip install pybliometrics로 간단히 되는데, 계정을 만들 차례입니다.

API Key를 만듭니다.

Elsevier Developers에 가서 Create API Key를 합니다.
- 제 개인 scopus 계정이지만, Website URL은 회사 홈페이지를 적었습니다.
- Label에는 제 이름을 적었고 (혹 문제가 되면 교체할겁니다)
- 생성된 API Key를 모처에 잘 저장해 두었습니다.

논문 1만여편 데이터를 받읍시다.

아까의 검색창에서 검색결과 전체를 다운로드 받습니다.
- 준비가 되면 메일로 보내준다고 메일 주소를 적으라고 합니다.
- 제 경우는 20분여만에 메일로 링크를 받았습니다.
- 그러나 작업별로 제한이 걸려 있습니다. 공식문서에 따르면 초록 가져오기는 주당 1만건으로 제한된다고 하니 참고합시다.

자료를 계획적으로 받아야 합니다.

Web of Science Core Collection Field Tags

애초의 목적인 Citation Network를 만들려면 파일 형식을 맞춰야 합니다.
- 30여분간의 구글링으로는 Scopus 출력 .csv의 Network 형식을 찾지 못했습니다.
- 김승욱님의 도움으로 Web of Science 형식을 입수했습니다.
Scopus에서 도출한 .csv파일 정보를 이용해 Web of Science 형식의 .txt파일을 만듭시다.
- 여기에 맞춰 변환되도록 컨버터를 만들었습니다.
- 2022.03.15 추가: 예제 코드를 3단계로 구성했습니다
  - step 1. scopus 검색
  - step 2. 서지정보 다운로드
  - step 3. WOS 변환
  - 모두 Jupyter Notebook 형식입니다.
- 제한된 환경의 테스트로 인해 범용성은 충분히 확보하지 못했을 수 있습니다.
- 특히 주요 서지정보와 인용정보 외에는 None 처리한 것들이 있으므로 사용시 주의해야 합니다.
데이터 다운로드와 변환 속도는 분당 40편 정도가 되는 것 같습니다.
- 1만편 변환에 4시간 정도가 걸리는 것 같네요.
- 글을 쓰는 이 시점에서 2시간 정도가 걸렸는데, 5600편이 변환됐습니다.