저자: Sheikh A. Tahmid, Gennaro Notomista | 날짜: 2025 | DOI: 정보 없음
중복도(redundancy)를 가진 로봇 시스템이 여러 제어 태스크를 동시에 실행할 수 있도록 강화학습(RL)으로 학습된 가치 함수들 간의 독립성(independence)을 정의하고, 이를 만족하도록 학습하는 새로운 방법을 제안한다. 제안된 비용 함수(cost functional)를 통해 훈련된 태스크들을 우선순위 기반 스택으로 시간-변동 방식으로 조합 및 실행할 수 있다.
로봇 팀이 장애 영역을 회피하면서 삼각형을 형성하는 장면
$$J_i^*(x(t)) = \min_{u(\cdot)} \int_t^\infty e^{-\beta\tau}(q_i(x) + u^T R_i(x)u)d\tau$$
$$\min_{u,\delta} \|u\|^2 + \kappa\|\delta\|^2$$
$$\text{s.t. } L_f\tilde{J}_i(x) + L_g\tilde{J}_i(x)u \leq -\sigma_i(x) + \delta_i$$
총평: 제어-관계 동역학을 고려한 새로운 태스크 독립성 개념과 이를 학습하는 프레임워크는 강점이나, 순차 학습 및 정확한 동역학 가정 등 실용성 제약이 있으며, 이론적 수렴성 분석과 실제 로봇 실험 검증이 필요한 상태이다.