- 소라(Sora), 텍스트 투 비디오(Text to Video) 모델
인공지능(AI) 챗GPT를 개발한 오픈AI가 15일(현지시간) 텍스트를 입력하면 동영상을 만들어주는 AI '소라(Sora)'를 공개했다.
이날 로이터통신 등 외신들에 따르면 오픈AI는 "사람들이 실제 상호작용이 필요한 문제를 해결하는 데 도움이 되도록 움직이는 물리적 세계를 이해하고 시뮬레이션할 수 있도록 AI를 교육하고 있다"고 밝히면서 '텍스트 투 비디오(Text to Video)' 모델인 소라를 공개했다.
오픈AI는 이날 블로그에 소라에 대해 "복수의 인물과 특정의 동작, 피사체와 배경의 정확한 디테일을 포함한 복잡한 장면을 표현하는 최장 1분간의 동영상을 빠르게 만들수 있다"고 설명했다.
소라는 최대 1분 길이의 동영상을 생성할 수 있고, 기존의 텍스트 투 비디오에 비해 시각적 품질이 뛰어나며, 프롬프트의 내용에 충실한 그림을 그려준다.
오픈AI는 '세련된 여성이 따뜻하게 빛나는 네온사인과 움직이는 도시 간판으로 가득한 도쿄 거리를 걷고 있습니다. 그녀는 검은색 가죽 재킷, 긴 빨간색 드레스, 검은색 부츠를 착용하고 검은색 지갑을 들고 있습니다. 선글라스와 빨간 립스틱을 착용하고 있습니다. 그녀는 자신감 있고 자연스럽게 걷습니다. 길은 축축하고 반사되어 화려한 조명이 거울 효과를 만들어 냅니다. 많은 보행자가 걸어갑니다'라고 상세한 프롬프트에 맞춰 만들어진 영상을 공개했다.
오픈AI에 따르면 전체 동영상을 한 번에 생성하거나 생성된 동영상을 확장하여 더 길게 만들 수 있다. 모델에 한 번에 여러 프레임을 예측할 수 있는 기능을 제공해 피사체가 일시적으로 시야에서 사라져도 동일하게 유지되도록 하는 까다로운 문제를 해결했다.
GPT 모델과 마찬가지로 소라는 트랜스포머 아키텍처를 사용하여 뛰어난 확장 성능을 갖고 있다.
오픈AI에 따르면 동영상과 이미지를 패치라고 하는 작은 데이터 단위의 모음으로 표현했고, 데이터를 표현하는 방식을 통합해 이전보다 더 디퓨전모델을 잘 훈련시킬 수 있었다.
소라는 텍스트 설명만으로 동영상을 생성할 수 있을 뿐만 아니라 기존의 정지 이미지를 가져와서 동영상을 생성할 수도 있다. 또한 기존 동영상을 가져와서 확장하거나 누락된 프레임을 채울 수도 있다.
샘 올트먼 오픈AI 최고경영자(CEO)는 소셜미디아 X(옛 '트위트') 투고에서 "당초 제한된 수의 크리에이터에 제공된다"고 지적했다. 오픈AI는 또한 소라를 자사제품에 포함시키기 전에 안전성을 평가하는 전문가팀에 대한 접근을 허용했다.