- "AI 결정 과정 모르면 배포는 위험"⋯업계 전반에 공동 연구 촉구
- 회로 추적·모델 스캔 등 해석 기술 개발 가속⋯미 정부엔 '가벼운 규제' 제안

인공지능(AI) 스타트업 앤스로픽(Anthropic)의 다리오 아모데이(Dario Amodei) 최고경영자(CEO)가 2027년까지 AI 모델의 내부 작동 원리를 해석할 수 있는 기술을 확보하겠다는 목표를 밝혔다.
과학 기술 전문매체 테크크런치는 24일(현지시간) 아모데이 CEO는 "AI의 결정 과정에 대한 이해 없이 시스템을 배포하는 것은 위험하다"며 해석 가능성(interpretablility) 연구의 시급성을 강조했다고 보도했다.
아모데이 CEO는 이날 발표한 에세이 '해석 가능성의 시급성(The Urgency of Interpretability)'을 통해 "AI 모델이 어떻게 특정한 답을 내놓는지에 대해 여전히 과학계의 이해가 부족하다"며 "강력한 AI 시스템을 보다 투명하게 해석하지 못한 채 배포하는 것은 무책임하다"고 우려를 표했다.
그는 "AI는 향후 경제, 기술, 안보 등 사회 전반에 걸쳐 핵심 역할을 할 것이며, 높은 자율성을 갖춘 만큼 그 작동 원리를 인간이 모른다는 것은 사실상 용납될 수 없는 상황"이라고 밝혔다.
앤스로픽은 현재 AI 모델의 '기계적 해석(mechanistic interpretability)' 분야에서 선도적인 연구를 진행중이며, 최근에는 AI가 특정 작업을 수행할 때 작동하는 내부 회로(circuits)를 일부 식별하는 데 성공했다.
예를 들어 미국의 도시와 주(State) 간의 관계를 파악하는 데 관여하는 회로가 대표적인 사례다. 그러나 이러한 회로는 모델 내 수백만 개에 달할 것으로 추정되며, 현재까지 밝혀진 것은 극히 일부에 불과하다고 설명했다.
아모데이 CEO는 장기적으로 "AI 모델의 뇌를 스캔하듯 MRI를 하듯이 내부 작동을 들여다보는 기술이 필요하다"며 "이 과정은 5~10년이 소요될 수 있지만, 향후 AI 모델을 안전하게 배포하기 위해선 필수적인 절차"라고 강조했다.
그는 또한 구글 딥마인드(Google DeepMind)와 오픈AI(OpenAI) 등 경쟁 기업들에게도 해석 가능성 연구에 더 많은 자원을 투입할 것을 촉구했다. 실제로 오픈AI의 최신 추론 모델인 o3 및 o4-mini는 일부 작업에서 성능이 향상되었지만, 동시에 'AI 환각(AI hallucination·AI할루시네이션·인공지능이 실제로 존재하지 않는 정보나 사실과 다른 내용을 마치 진짜인 것처럼 만들어내는 현상)' 현상이 더 빈번하게 나타나고 있음에도 원인을 파악하지 못하고 있다는 점을 지적했다.
아모데이는 "AI가 재무 문서를 요약할 때 특정 단어를 선택하거나 실수를 범하는 이유를 정확히 이해하지 못한다"며 "AI는 마치 '건설된 것이 아니라 성장한 존재'처럼 작동하며, 연구자들이 그 성장을 유도할 수는 있어도 왜 그런 성장이 일어나는 지 설명하지 못하는 상황"이라고 덧붙였다.
이와 함께 아모데이 CEO는 미국 정부에 AI 해석 가능성 제고를 위한 '가벼운 규제(light-touch regulation)'를 요청했다. 이는 기업들이 보안 및 안전성 확보 방안을 공개하도록 의무화하는 규정 도입과 같이, 해석 가능성 확보를 위한 제도적 기반을 마련하자는 제안이다. 동시에 그는 AI 개발 경쟁이 통제 불능 상태로 흐르지 않도록 중국에 대한 반도체 칩 수출 통제를 유지해야 한다고 주장했다.
한편, 앤스로픽은 캘리포니아 주에서 추진 중인 AI 안전 관련 법안(SB 1047)에 대해서도, 업계에서 드물게 지지 입장을 밝히며, 프런티어 AI 모델 개발자들의 안전성 보고 기준 마련 필요성을 강조한 바 있다.
'SB 1047'은 2024년 캘리포니아주 상원의원 스콧 위너(Scott Wiener)가 발의한 '최첨단 인공지능 모델의 안전하고 보안된 혁신법(Safe and Secure Innovation for Frontier Artificial Intelligence Models Act)'이다. 이 법안은 고성능 AI 모델의 개발 및 배포에 따른 잠재적 위험을 관리하고자 하는 최초의 주 차원 규제 시도로 주목받았다. 훈련 비용이 1억 달러 이상이고, 10²⁶ FLOPS 이상의 연산 능력을 사용하는 AI 모델 및 그 파생 모델이 적용 대상이다. △ 내부 고발자 보호 조항을 포함하고 있으며 △ 모델 배포 전 위험 평가 및 독립 감사를 의무화하고 △ 비상 상황시 모델을 중단할 수 있는 '킬 스위치'기능을 탑재하는 것이 핵심 조항이다.
2024년 8월 캘리포니아 주의회를 통과했지만, 같은 해 9월 29일 개빈 뉴섬 주지사가 혁신 저해 및 산업 유출 가능성과 중소기업과 오픈소스 개발자에게 과도한 부담을 줄 수 있다는 우려 등으로 거부권을 행사했다.
아모데이 CEO는 "AI 성능을 키우는 것만큼이나 그것이 어떻게 작동하는 지를 이해하는 것이 중요하다"며 "업계 전체가 AI 모델 해석 가능성을 높이기 위함 공동의 노력을 기울여야 한다"고 재차 강조했다.