- 사용자의 악의적인 입력으로부터 AI 챗봇 보호
- 정보 탈취 등 '간접적인 프롬프트 인젝션'도 대응
마이크로소프트(MS)가 사용자가 인공지능(AI) 챗봇을 속이는 것을 방지하는 도구를 개발한다.
28일 야후 파이낸스에 따르면 마이크로소프트는 이날 블로그 게시물을 통해 개발자가 자신의 데이터를 사용해 맞춤형 AI 도우미를 구축할 수 있도록 새로운 보안 기능이 애저 AI 스튜디오(Azure AI Studio)에 탑재될 예정이라고 밝혔다.
이 도구에는 악의적인 조작 시도, 즉 프롬프트 인젝션 공격 또는 제일브레이크라고도 알려진 시도를 탐지하고 차단하도록 설계된 '프롬프트 보호 기능'이 포함된다. 이러한 공격은 AI 모델이 의도하지 않은 방식으로 작동하도록 한다.
마이크로소프트는 또한 해커가 모델이 학습하는 데이터에 악성 명령을 삽입해 사용자 정보를 탈취하거나 시스템을 공격하는 등 부적합한 작업을 수행하도록 속이는 '간접적인 프롬프트 인젝션' 문제에도 대응하고 있다.
마이크로소프트는 대화형 AI 챗봇인 챗GPT를 개발한 오픈AI의 최대 투자자이다.
사라 버드(Sarah Bird) 마이크로소프트의 책임 AI 최고 제품 책임자는 "이러한 공격은 독특한 과제이자 위협"이라고 말했다.
새로운 방어 기능은 의심스러운 입력을 실시간으로 감지하고 차단하도록 설계됐다.
또한 모델이 허위 정보를 만들거나 잘못된 응답을 생성할 때 사용자에게 경고하는 기능도 출시된다.
마이크로소프트는 현재 개인과 기업 고객 모두가 사용하고 있는 생성형 AI 도구에 대한 신뢰를 높이기 위해 노력하고 있다. 지난 2월에는 회사가 해로운 범위의 응답을 생성하는 코파일럿 챗봇과 관련된 사건을 조사했다. 검토 결과, 마이크로소프트는 사용자가 의도적으로 코파일럿을 속여 응답을 생성하려고 했다고 설명했다.
코파일럿 공격은 AI 모델, 특히 대규모 언어 모델을 악의적으로 조작하여 의도하지 않은 작업을 수행하도록 만드는 공격을 의미한다. 공격자는 모델에 잘못된 정보를 주입하거나 모델 학습 데이터를 조작하여 모델이 원하는 대로 작동하도록 속일 수 있다.
버드는 "도구 사용이 증가함에 따라 이러한 기술에 대한 인식이 늘어나면서 확실히 증가하고 있다"고 말했다. 이러한 공격의 징후는 챗봇에게 질문을 여러 번 반복하거나 롤 플레잉을 설명하는 프롬프트를 포함한다.