- 알고리즘 자동 생성으로 로봇 손 등 훈련
- 로봇, 서랍 열고 공 던지는 등 30개 작업 수행
인공지능(AI) 칩 개발 전문기업인 엔비디아가 로봇에게 복잡한 기술을 가르칠 수 있는 새로운 AI 에이전트인 '유레카(Eureka)'를 개발했다고 발표했다.
엔비디아 공식 블로그 게시물에 따르면 AI 에이전트 유레카를 개발한 엔비디아 리서치는 로봇 손이 인간처럼 빠르게 펜을 돌리는 기술을 수행할 수 있도록 처음으로 훈련시켰다. 또한 서랍과 캐비닛을 여는 법, 공을 던지고 받는 법, 가위를 다루는 법 등을 비롯해 약 30개의 작업을 로봇에게 가르쳤다.
이 AI 에이전트는 대형 언어모델(LLM, large language models)을 사용하여 보상 알고리즘을 자동으로 생성해 로봇이 복잡한 작업을 수행하도록 훈련시킨다.
엔비디아 리서치는 전 세계적으로 수백 명의 과학자와 엔지니어로 구성되어 있으며, AI, 컴퓨터 그래픽, 컴퓨터 비전, 자율주행차, 로봇공학 등의 주제에 초점을 맞춘 다양한 팀이 있다.
이번 연구는 논문과 프로젝트의 AI 알고리즘을 포함하고 있으며, 개발자는 엔비디아의 '아이작 짐(Isaac Gym)'을 사용하여 실험할 수 있다. 아이작 짐은 강화 학습 연구를 위한 물리 시뮬레이션 레퍼런스 애플리케이션으로, 오픈USD(OpenUSD) 프레임워크 기반의 3D 도구와 애플리케이션을 만드는 개발 플랫폼인 엔비디아 옴니버스를 기반으로 구축됐다. 유레카 자체는 GPT-4 대규모 언어 모델로 구동된다.
엔비디아의 AI 머신러닝 수석 디렉터 겸 유레카 논문의 저자인 아니마 아난드쿠르마(Anima Anandkumar)는 "강화 학습은 지난 10년 동안 인상적인 성과를 거뒀지만 시행착오를 거쳐야 하는 보상 설계와 같은 여전히 어려운 과제가 많다"며 "유레카는 어려운 과제를 해결하기 위해 생성과 강화 학습 방법을 통합하는 새로운 알고리즘을 개발하기 위한 첫 걸음"이라고 말했다.
유레카, 로봇 훈련시키는 AI
이 논문에 따르면 로봇의 시행착오 학습을 가능하게 하는 유레카 생성 보상 프로그램은 80% 이상의 작업에서 사람이 작성한 전문 보상 프로그램보다 성능이 뛰어나다. 이로 인해 로봇의 평균 성능이 50% 이상 향상된다.
이 AI 에이전트는 GPT-4 LLM과 생성형 AI를 활용, 강화 학습을 위해 로봇에 보상을 제공하는 소프트웨어 코드를 작성한다. 작업별 프롬프트나 사전 정의된 보상 템플릿이 필요하지 않으며, 사람의 피드백을 쉽게 통합하여 개발자의 비전에 더 정확하게 부합하는 결과를 위해 보상을 수정할 수 있다.
유레카는 아이작 짐의 GPU 가속 시뮬레이션을 사용해 보다 효율적인 훈련을 위해 대량의 보상 후보 품질을 빠르게 평가할 수 있다.
그런 다음 유레카는 훈련 결과에서 주요 통계의 요약을 구성하고 LLM에 보상 함수 생성을 개선하도록 지시한다. 이런 식으로 AI는 스스로 개선된다. 네 발 달린 로봇, 이족 보행, 손재주가 좋은 로봇 손, 협동 로봇 팔 등 다양한 종류의 로봇이 여러 가지 작업을 수행하도록 가르친다.
로봇 적용 범위 확장 기대
이 연구 논문은 로봇 손이 복잡한 조작 기술의 다양한 범위를 보여주는 오픈 소스 민첩성 벤치마크를 기반으로 한 20가지 유레카 훈련 작업의 심층적인 평가를 제공한다.
이처럼 유레카는 로봇 학습에 획기적인 발전을 가져올 것으로 기대된다. 로봇이 스스로 학습할 수 있게 되면 개발자가 로봇에게 특정 작업을 수행하는 방법을 알려주기 위해 많은 시간을 할애할 필요가 없어진다. 또한 유레카는 다양한 종류의 로봇을 훈련함으로써 로봇의 적용 범위를 확장할 수 있다.
엔비디아의 선임 연구 과학자 린지 '짐' 판(Linxi 'Jim' Fan)은 "유레카는 대규모 언어 모델과 엔비디아 GPU 가속 시뮬레이션 기술의 독특한 조합"이라고 말했다. 그는 "우리는 유레카가 손재주 있는 로봇 제어를 가능하게 하고 아티스트를 위해 사실적인 애니메이션을 제작할 수 있는 새로운 방법을 제공할 것이라고 본다"고 덧붙였다.
유레카는 로봇 기술의 미래에 대한 가능성을 제시하는 획기적인 연구이다. 유레카의 발전이 가속화되면 로봇이 우리 생활에서 더 널리 사용될 것으로 기대된다.