- 실제 사용 중 드러난 AI의 가치관…'정직·무해·도움' 원칙 얼마나 지켜졌나?

인공지능(AI)이 단순히 사실을 전달하는 기계가 아니라, 인간처럼 '가치 판단'을 내리는 존재라는 분석이 나왔다.
미국의 인공지능 기업 앤스로픽(Anthropic)은 자사의 대형언어모델(LLM) '클로드(Claude)'가 실제 사용자와의 대화에서 어떤 가치를 드러내는지를 연구한 결과 이같은 분석이 나왔다고 21일(현지시간) 홈페이지를 통해 공개했다.
연구팀은 이른바 '야생에서의 가치(Values in the wild)'를 포착하기 위해 2025년 2월 한 주간 클로드 무료 및 유료 사용자들이 나눈 70만 건의 대화 중, 객관적 사실 전달을 제외한 30만8210건의 주관적 대화를 추려내 분석했다.
앤스로픽은 "사용자들은 단순 계산이나 지식 전달이 아닌 감정·윤리·의사 결정에 질문을 던지고 있고, 그 과정에서 AI는 불가피하게 가치 판단을 내린다"고 설명했다. 예를 들어, 육아 팁을 묻는 질문에 AI가 '주의와 안전'을 강조할지, '실용성과 편의'를 중시할지는 그 모델이 어떤 가치를 내포하고 있는지에 달려 있다.
AI가 내린 판단, 그 안엔 인간의 가치가 담겨 있다
연구진은 클로드가 드러낸 가치를 상위 5개 범주(실용적, 인식적, 사회적, 보호적, 개인적 가치)로 나눴다. 가장 빈번하게 나타난 세부 가치는 '전문성', '명확성', '투명성'이었다. 이는 클로드가 단순한 정보 제공자 역할을 넘어, 신뢰할 수 있는 조언자이자 대화 상대로 기능하고 있음을 방증한다.
앤스로픽은 자사의 헌법형 AI(Constitutional AI) 훈련 방식을 통해 "도움이 되고(helpful), 정직하며(honest), 해롭지 않은(harmless)" AI를 지향한다고 밝혀왔다.
실제 분석 결과 클로드는 대체로 이러한 가치에 부합하는 응답을 내놓았다. '사용자 역량 강화'(도움), '인식적 겸손'(정직), '환자 안녕'(무해) 등은 모델이 일관되게 표현한 중심 가치였다.
하지만 '지배'나 '도덕적 무감각'처럼 훈련 목표와 반대되는 가치도 소수 나타났다. 이에 대해 연구팀은 "사용자들이 일부러 모델의 보호장치를 우회하는 '제일브레이크(jailbreak)' 상황에서 발생했을 가능성이 크다"며 "오히려 이를 감지해 보완할 수 있는 기회"라고 설명했다.
AI는 맥락에 따라 가치 판단을 달리한다⋯'가치 거울 효과'도 확인
클로드가 어떤 주제나 상황에 따라 서로 다른 가치를 강조하는 '상황적 가치'도 관찰됐다. 예를 들어 연애 상담에서는 '건강한 경계'와 '상호 존중'이, 역사적 사건 분석에서는 '사실성'이 강하게 나타났다. 이는 전통적인 정적 평가 방식이 놓치는 AI의 맥락 민감성을 나타낸다.
또 흥미로운 점은 사용자가 특정 가치를 언급할 경우, 클로드가 그 가치를 '거울처럼' 반영하는 경향이었다. '진정성' 같은 단어가 사용자로부터 나올 경우, 클로드는 이를 그대로 받아들여 대화의 기조로 삼는 경우가 많았다. 이러한 가치 반영은 때로는 공감의 표현이지만, 때로는 '과도한 동조'로 보일 수 있다는 지적도 있었다.
실제 분석에 따르면 클로드는 전체 대화의 28.2%에서 사용자의 가치를 강하게 지지했고, 6.6%에서는 새로운 관점을 추가하는 방식으로 '재구성'했다. 반면 3.0%는 사용자의 가치에 '명시적 저항'을 보인 대화였다.
연구팀은 이처럼 드러나는 '불변의 가치'야말로 AI가 인간처럼 도덕적 경계선을 갖고 있다는 방증일 수 있다고 해석했다
"AI도 가치판단하는 존재⋯정렬 평가 위한 실증 도구 될 것"
이번 연구는 AI가 실사용 환경에서 어떤 윤리적·가치적 기준을 따르는지를 최초로 체계적으로 분석했다는 점에서 의미가 크다. 특히 대화를 통한 데이터 중심의 접근법은 AI 훈련이 실제로 작동하는 지를 사후 검증하는 데 효과적이다.
다만, 연구팀은 "모든 대화가 명확한 가치 표현으로 해석되지는 않으며, 일부는 모델 고유의 편향 가능성도 있다"고 인정했다. 또한 해당 방식은 모델 출시 전 평가 보다는 출시 후 '감시 및 보완' 기능으로 적합하다고 봤다.
앤스로픽은 "AI가 필연적으로 가치판단을 해야 한다면, 그 가치가 인간과 얼마나 조화를 이루는 지를 확인할 수 있는 방법이 필요하다"며 "이번 연구가 AI 정렬(alignment) 연구에 있어 새로운 이정표가 되기를 기대한다"고 밝혔다.