Improving generalization of robot locomotion policies via sharpness-aware reinforcement learning

저자: S. Bochem, E. Gonzalez-Sanchez, Y. Bicker, G. Fadini (ETH Zürich) | 날짜: 2024 | DOI: arXiv:2411.19732


Essence

미분 가능 시뮬레이터 기반의 1차 정책 최적화(first-order policy gradient) 방법은 샘플 효율성은 우수하나 일반화 성능이 떨어진다는 문제를 해결하기 위해, Sharpness-Aware Minimization (SAM) 기법을 로봇 강화학습에 처음 도입한 연구이다. SHAC-ASAM 알고리즘을 통해 손실 함수의 평평한 극소점(flat minima)을 찾음으로써 접촉 기반 로봇 제어 환경에서 견고성과 효율성을 동시에 달성한다.

Motivation

Achievement

Figure 2: Average episode reward as function of the noise strength for SHAC, SHAC-ASAM, and PPO

액션 노이즈 강도에 따른 평균 에피소드 보상 비교

  1. 강건성 향상: SHAC-ASAM이 표준 SHAC 대비 액션 노이즈(action noise)에 대해 유의미하게 높은 허용 범위 달성. 특히 Ant와 Humanoid 환경에서 노이즈가 증가해도 성능 저하가 적음
  2. 일반화 성능: 0차 방법(PPO)과 유사한 수준의 일반화 성능을 달성하면서도 1차 방법의 샘플 효율성 유지
Figure 3: Average episode reward as a function of the contact Coulomb friction for SHAC, SHAC-ASAM, and PPO

접촉 마찰 계수 변화에 따른 성능 비교

  1. 환경 변동성 대응: 쿨롱 마찰(Coulomb friction) 등 환경 파라미터 변화에 대한 적응 능력 향상

How

Figure 1: Average episode reward heatmaps for SHAC (left) and PPO (right) policies under varying noise conditions

다양한 노이즈 조건에서의 정책 성능 히트맵

Originality

Limitation & Further Study

Evaluation

총평: SHAC과 ASAM의 결합을 통해 미분 가능 시뮬레이터 기반 정책 학습에서 샘플 효율성과 강건성 사이의 균형을 효과적으로 달성한 실용적 접근이나, 실제 로봇 검증과 이론적 분석 강화가 필요하다.

같이 보면 좋은 논문

기반 연구
오프라인 RL의 견고성 문제를 해결하기 위한 최적화 이론적 기초를 제공한다.
기반 연구
로봇 운동 정책의 일반화 개선이 크로스 도메인 전이의 핵심 기술 기반을 제공함
기반 연구
로봇 제어 견고성의 이론적 기초가 되는 일반화 성능 개선 방법론을 제공한다.
다른 접근
로봇 학습 견고성에서 샤프니스 인식 최적화 vs 행동 공간 섭동 평가의 다른 접근법을 비교한다.
다른 접근
로봇 학습에서 심-투-리얼 전이 vs 일반화 성능 개선의 서로 다른 견고성 확보 방법을 제시한다.
후속 연구
일반화 성능 개선 방법을 실제 하드웨어 배포에서의 제로샷 전이 성공으로 확장하여 검증한다.
응용 사례
로봇 학습의 일반화 성능 향상 방법을 다중 태스크 독립성 학습의 구체적 사례로 적용한다.
반론/비판
오프라인 RL의 견고성 문제를 지적하면서 샤프니스 인식 최적화의 효과에 의문을 제기한다.
← 목록으로 돌아가기