Robustness evaluation of offline reinforcement learning for robot control against action perturbations

저자: Shingo Ayabe, Takuto Otomo, Hiroshi Kera, Kazuhiko Kawamoto (Chiba University) | 날짜: 2024 | DOI: arXiv:2412.18781


Essence

Figure 1

오프라인 RL의 견고성 평가 개요: 다양한 품질의 오프라인 데이터셋에서 학습한 모델을 정상, 랜덤, 적대적 행동 섭동 조건에서 평가

본 논문은 오프라인 강화학습(Offline RL)이 로봇 제어에서 행동 공간의 섭동(action perturbations)에 대해 얼마나 취약한지를 체계적으로 평가하고, 기존의 온라인 RL 방법보다 더 큰 약점을 가짐을 실증적으로 증명한다.

Motivation

Achievement

Figure 3

세 가지 다리 로봇에서 적대적 섭동 강도 변화에 따른 테스트 시간 견고성 평가 결과

  1. 오프라인 RL의 심각한 취약성: 기존 오프라인 RL 방법들은 행동 공간 섭동에 매우 취약하며, 온라인 RL 방법들보다 훨씬 큰 성능 저하를 보인다. 예를 들어 적대적 섭동 하에서 보상이 30-70% 감소한다.
  2. 데이터셋 커버리지의 중요성: 테스트 시간 견고성은 훈련 데이터셋의 상태-행동 커버리지에 크게 의존한다. Expert 데이터셋이 Medium 데이터셋보다 일관되게 더 높은 견고성을 나타낸다.
Figure 4, 5

훈련 데이터셋의 행동 분포 및 상태-행동 커버리지: 더 나은 커버리지를 가진 데이터셋이 더 견고한 정책을 생성

  1. 데이터셋 증강의 한계: 섭동이 적용된 행동으로 훈련 데이터셋을 증강해도 견고성이 유의미하게 개선되지 않는다. 이는 단순한 데이터 증강만으로는 충분하지 않음을 시사한다.

How

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 오프라인 RL의 행동 공간 섭동에 대한 취약성을 처음으로 체계적으로 드러냄으로써 중요한 안전성 문제를 제기한다. 다만 문제 제시에 머물고 해결책이 부족하며, 실제 로봇 환경에서의 검증이 필요하다는 점이 제약이다.

같이 보면 좋은 논문

기반 연구
오프라인 RL의 견고성 문제를 해결하기 위한 최적화 이론적 기초를 제공한다.
기반 연구
오프라인 RL의 안전성 평가에 필요한 제어 이론적 기초를 제공한다.
다른 접근
오프라인 RL 견고성 평가의 영어 vs 한국어 버전으로 동일한 연구 주제의 다른 언어 표현이다.
다른 접근
오프라인 RL 견고성 평가에서 행동 공간 섭동에 대한 한국어 vs 영어 연구의 동일한 문제 다른 접근이다.
후속 연구
오프라인 RL의 취약성을 제어 장벽 함수를 통한 안전성 보장 방법으로 해결하려는 접근이다.
반론/비판
오프라인 RL의 견고성 문제를 지적하면서 샤프니스 인식 최적화의 효과에 의문을 제기한다.
← 목록으로 돌아가기