- 대규모언어모델(LLM) 이용해 만든 텍스트 쉽게 식별하고 알려줘
- 구글 생성형 AI 모델 제미나이(Gemini) 챗봇에 통합
구글(Google)은 자사의 씬스ID(SynthID) 텍스트 워터마킹 기술이 AI 생성 텍스트를 더 쉽게 식별할 수 있도록 만든 도구로, 이제 구글의 생성형 AI 도구인 'Google Responsible Generative AI Toolkit' 통해 오픈소스로 제공된다고 X(옛 트위터)를 통해 발표했다.
구글 딥마인드(DeepMind)의 연구개발 담당 부사장 푸시밋 콜리(Pushmeet Kohli)는 MIT 테크놀로지 리뷰에서 "이제 다른 생성형 AI 개발자들도 이 기술을 사용함으로써 출력되는 텍스트들이 대규모언어모델(LLM)에서 나왔는지의 여부를 감지할 수 있게 될 것"이라며 "더 많은 개발자들이 책임 있는 AI를 구축하기 쉬워졌다"고 밝혔다.
LLM이 정치적 허위 정보를 퍼뜨리고, 동의받지 않은 성적 콘텐츠를 생성하며, 기타 악의적인 목적으로 사용됨에 따라, 워터마크는 점점 더 중요한 도구가 되고 있다. 캘리포니아주 정부는 이미 AI 워터마킹을 의무화하는 법안을 검토하고 있으며, 중국 정부는 지난해부터 이를 의무화하기 시작했다. 그러나 이 도구는 여전히 개발 또는 적용이 진행 중이다.
지난 8월에 발표된 씬스ID는 이미지, 오디오, 동영상, 텍스트가 생성될 때, 보이지 않는 워터마크를 추가함으로써 AI가 생성한 출력임을 감지할 수 있도록 지원한다. 구글은 씬스ID의 텍스트 버전이 인간은 감지할 수 없지만 소프트웨어는 감지할 수 있는 방식으로 작동한다고 말했다. 생성형 AI로 인한 텍스트 출력의 개연성을 약간 낮출 것으로 예상된다.
구글은 이미 자사의 생성형 AI 모델인 제미나이(Gemini) 챗봇에 이 시스템이 통합됐다고 밝혔다. 또 통합된 시스템이 워터마킹 시스템의 오랜 문제였던 생성 텍스트의 품질, 정확성, 창의성 또는 속도를 손상시키지 않는다고 주장했다. 구글은 세 문장 정도의 짧은 텍스트뿐만 아니라 잘라내거나 의역되거나 수정된 텍스트에서도 작동할 수 있다고 설명했다.
그러나 짧은 텍스트, 다시 작성되거나 번역된 콘텐츠, 심지어 사실에 입각한 질문에 대한 답변에는 판별에 다소의 어려움을 겪는다고 부연했다.
구글은 지난 5월 블로그 게시물에서 "씬스ID는 AI가 생성한 콘텐츠를 식별하기 위한 만병통치약은 아니다"라고 적었다. "그러나 이는 보다 신뢰할 수 있는 AI 식별 도구를 개발하기 위한 중요한 구성 요소이며, 수백만 명의 이용자들이 AI가 생성한 콘텐츠와 상호 작용하는 방식에 대해 정보에 입각한 결정을 내리는 데 도움이 될 수 있다"고 덧붙였다.