저자: S. Bochem, E. Gonzalez-Sanchez, Y. Bicker, G. Fadini (ETH Zürich) | 날짜: 2024 | DOI: arXiv:2411.19732
미분 가능 시뮬레이터 기반의 1차 정책 최적화(first-order policy gradient) 방법은 샘플 효율성은 우수하나 일반화 성능이 떨어진다는 문제를 해결하기 위해, Sharpness-Aware Minimization (SAM) 기법을 로봇 강화학습에 처음 도입한 연구이다. SHAC-ASAM 알고리즘을 통해 손실 함수의 평평한 극소점(flat minima)을 찾음으로써 접촉 기반 로봇 제어 환경에서 견고성과 효율성을 동시에 달성한다.
액션 노이즈 강도에 따른 평균 에피소드 보상 비교
접촉 마찰 계수 변화에 따른 성능 비교
다양한 노이즈 조건에서의 정책 성능 히트맵
총평: SHAC과 ASAM의 결합을 통해 미분 가능 시뮬레이터 기반 정책 학습에서 샘플 효율성과 강건성 사이의 균형을 효과적으로 달성한 실용적 접근이나, 실제 로봇 검증과 이론적 분석 강화가 필요하다.