- 보스턴 다이내믹스 4족 로봇에 적용, 인간 명령 성공적으로 수행
- 기계학습 적용, 보이는 장면 세분화 후 명령에 일치하는 대상 식별
로봇개는 인공지능(AI) 및 컴퓨터 비전과의 조합으로 특정 물체에 집중할 수 있게 되면서 '가져오기 놀이'까지 가능한 수준으로 진화하고 있다.
최근 국제전기전자공학자협회(IEEE)의 로보틱스 및 자동화 저널(Robotics and Automation Letters)에 발표된 새로운 연구에 따르면, MIT 연구진은 로봇에 카메라를 부착해 전방 사물을 빠르게 파악하고, 3D로 매핑하며, 음성 명령을 통해 주어진 작업과 가장 관련성이 높은 대상을 식별할 수 있는 클리오(Clio)라는 방법을 개발했다고 라이브사이언스가 전했다.
클리오는 '정보 병목현상' 이론을 활용하는데, 이는 인간의 두뇌가 정보를 처리하는 방식을 모방한 것이다. 기계학습(머신러닝) 알고리즘 모음인 신경망(뉴럴 네트워크)은 목표 대상을 골라 저장하도록 정보를 압축한다. 이 시스템을 갖춘 로봇은 '구급상자 가져오기'와 같은 명령을 처리할 수 있다. 기계학습에 의해 구급상자를 스스로 식별하는 것이다.
연구진은 전방의 책 더미에서 특정한 책을 가져오는 과제를 예로 들었다. 시야에 보이는 쌓여 있는 책 가운데 특정한 녹색 책을 가져오는 것이 임무일 경우, 클리오는 병목현상을 활용해 전방에 대한 모든 시각 정보를 넣고 녹색 책을 나타내는 영역을 특정한다. 관련이 없는 다른 영역은 간단히 제거할 수 있는 그룹으로 세분화된다. 그러면 임무를 지원하는 데 필요한 적절한 객체가 남고, 주어진 명령을 수행한다.
클리오가 실제로 작동하는 것을 시연하기 위해 연구진은 클리오를 장착해 실행하는 보스턴 다이내믹스(Boston Dynamics)의 4족 로봇개 스팟(Spot)을 사용해 사무실 건물을 탐색하고 일련의 임무를 수행했다. 클리오는 실시간으로 작업하면서 임무와 관련된 대상 객체만 보여주는 가상 지도를 만들어 냈고, 이를 통해 로봇개 스팟은 목표를 완수했다.
연구진은 모든 종류의 객체를 식별하도록 훈련된 인공지능 도구, 시스템 및 서비스를 뒷받침하는 가상 신경망인 대규모언어모델(LLM)과 컴퓨터 비전을 결합, 클리오를 통해 이러한 수준의 세분화를 달성했다. 클리오의 획기적인 기능은 할당된 특정 작업과 관련, 실시간으로 보는 것을 세분화할 수 있는 능력이다.
기술의 핵심은 눈으로 보이는 장면을 여러 개의 작은 영역으로 분할할 수 있는 매핑 도구를 클리오에 통합한 것이다. 세분화된 영역에 대해 신경망은 내려진 명령과 유사한 영역을 선택한다. 즉 명령과 유사한 객체를 형성하는 것이다.
연구진은 앞으로 클리오를 더 높은 수준의 작업을 처리할 수 있도록 개선한다는 계획이다. 실종자 수색이나 재해 현장에서의 인명 구조의 경우 '생존자 찾기'나 '전원 다시 켜기'와 같이 더 높은 수준의 작업을 수행해야 한다. 연구진은 인간과 가깝게 복잡한 작업을 수행하는 방법을 찾을 방침이다.
일단 클리오는 사용자가 실제로 물건을 던지고 이를 가져오는 놀이를 할 수 있는 로봇개를 탄생시킬 수 있다. 클리오를 적용함으로써 로봇개가 공원에서 사람과 놀 수 있는 동료가 되는 셈이다.