안전하고 신뢰할 수 있는 비행용 자동 조종 장치를 향한 한 걸음
MIT 뉴스 오피스 웹사이트에서 다운로드할 수 있는 이미지는 Creative Commons Attribution Non-Commercial No Derivatives 라이센스에 따라 비영리 단체, 언론 및 일반 대중에게 제공됩니다. 제공된 이미지를 크기에 맞게 자르는 것 외에는 변경할 수 없습니다. 이미지를 복제할 때는 크레디트 라인을 사용해야 합니다. 아래에 제공되지 않은 경우 이미지를 "MIT"로 표시하십시오.
이전 이미지 다음 이미지
영화 '탑건: 매버릭'에서 톰 크루즈가 연기한 매버릭은 불가능해 보이는 임무를 완수하기 위해 젊은 조종사들을 훈련시키는 임무를 맡았습니다. 즉, 제트기를 바위 협곡 깊숙이 날아가서 감지할 수 없을 만큼 낮게 유지하는 것입니다. 레이더를 통해 암벽을 피하면서 극단적인 각도로 협곡 밖으로 빠르게 올라갑니다. 스포일러 경고: Maverick의 도움으로 이 인간 조종사들은 임무를 완수합니다.
반면에 기계는 똑같은 심장이 뛰는 작업을 완료하는 데 어려움을 겪습니다. 예를 들어, 자율 항공기의 경우 목표를 향한 가장 직접적인 경로는 협곡 벽과의 충돌을 피하거나 감지되지 않는 것을 피하기 위해 기계가 수행해야 하는 작업과 충돌합니다. 기존의 많은 AI 방법은 안정화-회피 문제로 알려진 이러한 갈등을 극복할 수 없으며 목표를 안전하게 달성할 수 없습니다.
MIT 연구진은 복잡한 안정화-회피 문제를 다른 방법보다 더 잘 해결할 수 있는 새로운 기술을 개발했습니다. 이들의 머신러닝 접근 방식은 기존 방법의 안전성과 일치하거나 이를 능가하는 동시에 안정성이 10배 증가합니다. 즉, 에이전트가 목표 영역에 도달하고 안정적으로 유지된다는 의미입니다.
Maverick을 자랑스럽게 만드는 실험에서 그들의 기술은 지상에 충돌하지 않고 좁은 복도를 통해 시뮬레이션된 제트기를 효과적으로 조종했습니다.
“이것은 오랫동안 지속되어 온 어려운 문제였습니다. 많은 사람들이 그것을 보았지만 그러한 고차원적이고 복잡한 역학을 처리하는 방법을 몰랐습니다.”라고 정보 및 결정 시스템 연구소(LIDS)의 회원이자 Wilson 항공 및 우주학 조교수인 Chuchu Fan은 말합니다. )이자 이 기술에 대한 새로운 논문의 수석 저자입니다.
Fan에는 대학원생인 수석 저자 Oswin So가 합류했습니다. 이 논문은 Robotics: Science and Systems 컨퍼런스에서 발표될 예정입니다.
안정화-회피 과제
많은 접근 방식은 시스템을 단순화하여 간단한 수학으로 문제를 해결할 수 있도록 하여 복잡한 안정화 문제를 해결하지만 단순화된 결과는 실제 역학을 유지하지 못하는 경우가 많습니다.
보다 효과적인 기술은 에이전트가 목표에 더 가까워지는 행동에 대한 보상과 함께 시행착오를 통해 학습하는 기계 학습 방법인 강화 학습을 사용합니다. 그러나 여기에는 안정성을 유지하고 장애물을 피하는 두 가지 목표가 있으며 올바른 균형을 찾는 것은 지루한 작업입니다.
MIT 연구원들은 문제를 두 단계로 나누었습니다. 첫째, 그들은 안정화-회피 문제를 제한된 최적화 문제로 재구성합니다. 이 설정에서 최적화를 해결하면 에이전트가 목표에 도달하고 안정화될 수 있습니다. 즉, 에이전트가 특정 지역 내에 머물게 됩니다. 제약 조건을 적용함으로써 에이전트가 장애물을 피할 수 있도록 보장한다고 설명합니다.
그런 다음 두 번째 단계에서는 제한된 최적화 문제를 Epigraph 형식으로 알려진 수학적 표현으로 재구성하고 심층 강화 학습 알고리즘을 사용하여 이를 해결합니다. 비문 형식을 사용하면 강화 학습을 사용할 때 다른 방법이 직면하는 어려움을 우회할 수 있습니다.
“그러나 심층 강화 학습은 최적화 문제의 비문 형식을 해결하도록 설계되지 않았기 때문에 이를 문제에 연결할 수는 없었습니다. 우리는 우리 시스템에 적합한 수학적 표현을 도출해야 했습니다. 새로운 파생물을 얻은 후에는 이를 다른 방법에서 사용하는 기존 엔지니어링 기법과 결합했습니다.”라고 So는 말합니다.