저자: Maeva Guerrier, Karthik Soma, Hassan Fouad, Giovanni Beltrame | 날짜: 2025 | DOI: arXiv:2505.18858
강화학습(RL)의 안전성 문제를 제어 장벽 함수(Control Barrier Functions, CBFs)를 활용하여 해결하는 혁신적 접근법을 제시한다. 세 가지 CBF 통합 방식을 통해 로봇이 안전한 행동을 학습하면서도 목표 달성 성능을 유지하도록 한다.
그림 1: 세 가지 안전 가드레일 변형 - 필터(초록색), 보상 기반(주황색), 감쇠(파란색)
그림 2: 유니사이클 모델의 장애물 회피 CBF 구성 - 로봇 축을 따라 ε만큼 이동한 점 x'를 사용
기술적 구현:
한계점:
후속 연구 방향:
총평: 이 논문은 강화학습의 안전성 문제를 CBF라는 이론적으로 견고한 도구를 통해 해결하는 실질적이고 창의적인 접근을 제시하며, 세 가지 통합 방식의 비교와 sim2real 검증을 통해 실무적 가치를 입증한다. 다만 더 복잡한 환경과 동적 장애물에 대한 성능 평가가 후속 과제이다.