검색
-
-
구글 새 AI 도구 Whisk, 텍스트 대신 이미지 프롬프트로 이미지 생성
- 구글(Google)이 텍스트 대신 이미지를 프롬프트로 사용해 이미지를 생성할 수 있는 새로운 AI 도구 위스크(Whisk)를 발표했다고 CNN 등 외신이 전했다. 위스크를 사용하면 사용자가 원하는 내용을 설명하는 텍스트를 입력하지 않고 사진을 올림으로써 AI가 생성하는 이미지를 얻을 수 있다. 사용자가 위스크에 주제, 배경 및 스타일을 묘사하는 이미지를 입력하면, 위스크는 모든 것을 하나의 이미지로 결합하거나 각각에 대해 여러 이미지를 표시할 수 있다. 사용자가 원하는 경우 텍스트 프롬프트를 채울 수도 있다. 사진이 없는 경우, 주사위 아이콘을 클릭해 일부 이미지를 스스로 채우도록 할 수도 있다. 구글은 블로그 게시물에서 위스크가 "전통적인 이미지 편집기가 아니라 창의적인 도구"라고 설명했다. 그리고 세련되고 전문적인 작업이 아닌 재미 있는 AI 기능이라고 덧붙였다. 구글이나 오픈AI 등 빅테크들은 생성형 AI가 창출하는 신기술을 과시할 수 있는 소비자용 애플리케이션을 출시하기 위해 치열하게 경쟁하고 있다. AI 개발을 둘러싸고 청소년 등에 대한 보호 장치가 부족하며, 인류에게 위험을 초래할 것이라는 비판이 일고 있지만 개발 및 상품 출시의 붐을 막기는 역부족이다. 오픈AI가 2021년 텍스트-이미지 생성 도구인 Dall-E를 처음 출시한 이후, AI가 만드는 아트워크(일종의 예술작품)라는 개념이 소셜미디어를 도배하고 소비자 제품 출시의 초점이 되었다. 그런 배경에서 나온 구글 위스크는 텍스트-이미지 생성기의 개념을 기반으로 진보한 이미지-이미지 생성기라고 할 수 있다. 위스크 사용자는 입력 내용을 편집하고 혼합해 봉제인형, 에나멜 핀 또는 스티커와 같은 다양한 이미지를 만들고 최종 이미지를 ‘리믹스(재편집)’할 수 있다. 사용자는 특정 세부 정보를 지시하기 위해 텍스트를 추가할 수 있지만 이미지를 만드는 데 반드시 필요한 것은 아니다. 구글 랩은 "위스크는 사용자가 픽셀 단위로 완벽에 가깝게 편집하는 대신, 주제, 장면 및 스타일을 새롭고 창의적인 방식으로 리믹스해 시각적으로 빠르게 탐색할 수 있도록 설계되었다"라고 말했다. 위스크는 구글 AI 연구소인 딥마인드(DeepMind)의 생성형 AI를 기반으로 한다. 위스크는 2023년 12월에 발표한 구글의 핵심 AI 제품인 제미나이(Gemini)를 사용하고, 딥마인드가 출시한 최신 텍스트-이미지 생성기 이마젠 3(Imagen 3)과 연동해 작동한다. 사용자가 이미지를 업로드하면 제미나이는 아마젠 3에 입력되는 캡션을 생성한다. 이 프로세스는 주제의 본질을 파악해 최종 이미지를 리믹스한다. 그러나 최종 제품의 이미지는 프롬프트와 다를 수 있다. 예를 들어, 생성된 이미지는 프롬프트 이미지와 키, 헤어스타일 또는 피부 톤이 다를 수 있다. 구글이 지난 2월 제미나이의 텍스트-이미지 생성기를 처음 출시했을 때는 부정확한 이미지를 생성해 반발을 산 바 있다. 이번에 발표한 위스크가 어떤 반응을 불러올지 관심을 모은다. 위스크는 미국 사용자를 대상으로 구글 랩에서 웹사이트로 처음 출시됐으며, 회사는 이것이 개발 초기 단계에 있다고 밝혔다. 한편 오픈AI는 최근 소라(Sora)라는 텍스트-비디오 생성기를 출시하면서 제품 포트폴리오를 강화하고 있다. 웨드부시 증권의 수석 주식 분석가인 댄 아이브스는 위스크가 AI 및 기술 경쟁에서 구글의 경쟁력을 강화시킬 것이라고 진단했다. 아이브스는 "딥마인드는 구글의 핵심 자산"이라며 위스크는 2025년을 목표로 한 구글의 'AI 제품 상자' 속 신제품의 일부라고 언급했다. 여기에는 삼성 및 퀄컴과 협력해 만든 새로운 안드로이드 운영 체제도 포함된다.
-
- IT/바이오
-
구글 새 AI 도구 Whisk, 텍스트 대신 이미지 프롬프트로 이미지 생성