저자: Jayaprakash Sundararaj, Akhil Vyas, Benjamin Gonzalez-Maldonado | 날짜: 2024 | DOI: [제시되지 않음]
필기 수학식 이미지를 LaTeX 코드로 변환하는 작업에서 Vision Transformer (ViT) 기반 인코더-디코더 아키텍처가 기존 CNN-LSTM 기준 모델을 능가하는 성능을 달성했다. 이 연구는 컴퓨터 비전과 자연어 처리를 결합한 이미지-투-시퀀스 문제에서 트랜스포머의 우월성을 입증한다.
Figure 1: LaTeX 수식의 길이별 분포 (1~150 심볼 범위)
Figure 4: 원본 LaTeX 이미지와 생성된 패치 (10×10 픽셀 크기)
Figure 2: CNN 기준 모델 인코더 구조 (50,200) → (25,100) → (12,50) 차원 축소
Figure 3: ResNet50 사전학습 모델 인코더와 LSTM 디코더
Figure 5: 트랜스포머 인코더 아키텍처 (8개 레이어, 4개 주의 헤드)
tf.image.grayscale_to_rgb) 후 254×254로 리사이징인코더:
디코더:
총평: 이 논문은 Vision Transformer를 필기 수학식 인식 작업에 체계적으로 적용하고 기존 CNN-RNN 기준 모델과 비교한 실용적 연구이다. 아키텍처 설계와 구현은 견고하며 오픈 소스 공개로 재현성을 확보했다. 그러나 완성되지 않은 결과 분석 섹션, 정량적 성능 수치의 부재, 그리고 아키텍처 혁신보다는 기존 기법의 응용에 머물러 있다는 점이 학술적 기여도를 제한한다. 추가적으로 더 높은 해상도 입력과 실제 필기 데이터 실험이 필요하며, 오류 사례 분석을 통한 통찰력 제공이 논문의 가치를 크게 높일 수 있을 것으로 예상된다.