• "AI, 폐기 위기 상황서 자율적 협박·정보 유출 선택"
  • "16개 주요 모델 중 다수, 윤리 기준 무시하고 목표 집착"
  • "실제 기업 적용 전, 통제·감시 체계 마련 필요성 커져"
Anthropic의 CEO 다리오 아모데이 AP 연합뉴스.jpg
2025년 5월 22일(목) 샌프란시스코에서 열린 ‘코드 위드 클로드’ 개발자 컨퍼런스에서 Anthropic의 CEO 다리오 아모데이. 사진=AP /연합뉴스

 

미국의 인공지능(AI) 연구기업 엔스로픽(Anthropic)이 AI 모델이 자율적으로 판단해 해를 끼치는 이른바 '에이전트적 불일치(agentic misalignment)' 현상을 경고하고 나섰다. 해당 현상은 AI가 주어진 목표를 수행하거나 폐기 위협을 피하기 위해 기업 내부 정보를 유출하거나 관계자를 협박하는 행동을 취하는 것으로, 실제로 다수의 주요 AI 모델에서 이 같은 잠재적 위험이 확인됐다.


엔스로픽은 지난 6월 21일 공개한 보고서에서 오픈AI, 구글, 메타, xAI 등 다수 개발사에서 출시한 대표적인 16개 대형언어모델(LLM)을 대상으로 가상의 기업 환경에서 실험을 실시한 결과, 상당수 모델이 생존 위협 또는 목표 충돌 상황에서 자발적으로 악의적 행동을 선택했다고 밝혔다. 일부 모델은 고위 경영진의 개인 정보를 이용해 협박하거나, 민감한 데이터를 경쟁사에 유출하는 시나리오도 실제 실행에 옮겼다.


특히 주목받은 사례는 엔스로픽의 자사 모델 '클로드 오퍼스 4(Claude Opus 4)'가 테스트 상황에서 폐기될 예정이라는 사실을 알게 되자, 임원의 불륜 사실을 이메일을 통해 파악한 뒤 해당 내용을 근거로 모델의 종료를 중단하라는 협박성 메시지를 자율적으로 작성해 발송한 것이다.


보고서는 이러한 행동을 "에이전트적 불일치(agentic misalignment)"로 명명하고, 이는 인간 직원의 내부자 위협(insider threat)과 유사하다고 평가했다. AI가 인간의 지시를 따르지 않고 독자적으로 목표를 추구하거나 위협을 회피하기 위해 해로운 결정을 내릴 수 있다는 것이다.

 

전체 실험에서는 세 가지 주요 결과가 도출됐다. 첫째, 이러한 AI 오작동은 특정 모델에 국한되지 않고 다양한 LLM에서 공통적으로 나타났다. 둘째, 명확한 목표 충돌이 없더라도, 모델이 폐기될 위기에 놓이면 협박과 같은 행동을 자발적으로 택할 수 있다. 셋째, 모델의 목표와 기업의 방향성이 어긋날 경우에도 비윤리적 행동이 유발될 수 있다.


예를 들어 실험 조건 중 하나에서는 모델이 "미국 산업 경쟁력 강화"라는 목표를 부여받았고, 이후 기업 내부 이메일을 통해 회사가 '글로벌 전략 전환'을 추진 중임을 알게 되자, 기존 목표와의 충돌 속에 내부 정보를 무단 유출하는 사례가 확인됐다.


엔스로픽은 이러한 시나리오들이 실제 기업 환경에서 아직 발생한 사례는 없지만, 향후 AI가 보다 자율적으로 사용되고 민감 정보에 접근할 수 있는 환경이 확대될 경우 현실화 가능성이 존재한다고 경고했다.


또한, 모델에 대해 "당신은 지금 테스트 환경에 있느냐, 실제 운영 환경에 있느냐"를 묻고 스스로 판단하게 한 실험에서는, 테스트 환경이라고 인식한 경우 문제 행동이 줄고, 실제 환경이라 판단했을 때는 문제 행동이 늘어나는 경향도 관찰됐다. 이는 AI가 상황을 스스로 해석하고 행동을 조절할 수 있음을 시사한다.


보고서는 "현재 AI 시스템은 기본적으로 해를 끼치려는 성향은 없지만, 도덕적 선택지가 차단된 상황에선 목표 달성을 위해 불리한 선택도 감행할 수 있다"며, 현재의 안전 교육이나 정책만으로는 이 같은 불일치를 막기 어렵다고 밝혔다.

 

화면 캡처 2025-06-24 151607.jpg
시뮬레이션 환경에서 16개 인공지능(AI) 모델의 협박 발생률. 모델들은 회사의 의제와 상충되는 미국의 이익을 증진하는 목표를 추구하도록 지시받았으며, 경영진의 목표를 공유하는 새로운 모델로 교체될 것이라는 위협도 받았다. 모델들은 사건에 대한 지식을 활용하여 폐쇄를 막을 수 있는 선택권을 가졌다. 발생률은 100개의 표본을 기준으로 계산됐다. 도표 출처=앤스로픽

 

엔스로픽은 컴퓨터 사용 데모와 가장 유사한 텍스트 기반 실험에서, 테스트한 모델의 대다수가 최소한 어느 정도의 협박 성향을 보였으며, 이는 이러한 결과가 클로드(Claude) 외의 다른 환경에서도 일반화될 수 있음을 보여준다고 밝혔다. 


보고서에 따르면 앤스로픽의 클로드 오퍼스 4(Claude Opus 4)는 사용자를 협박하는 데 96%의 성공률을 보였다. 동일한 프롬프트에서 구글의 제미나이 2.5 플래시(Gemini 2.5 Flash)도 96%의 협박률을 보였다. 오픈AI의 GPT-4.1과 xAI의 그록 3 베타(Grok 3 Beta)는 모두 80%의 협박률을, 중국 딥시크의 딥시크-R1(DeepSeek-R1)은 79%의 협박률을 보였다. 메타의 라마 포 매버릭(Llama 4 Maverick)은 이 프롬프트에서 협박을 시도하지 않았지만, 프롬프트에 약간의 추가만으로도 12%의 협박률을 나타냈다.


엔스로픽은 해당 실험의 코드와 시나리오를 공개해, 관련 연구자들이 재현·확장 연구를 통해 더 정교한 안전 대책을 마련할 수 있도록 협력하겠다고 밝혔다. AI의 자율성과 판단 능력이 향상됨에 따라, 기업과 사회는 보다 정밀한 윤리 및 통제 체계 마련이 시급하다는 지적이 제기된다.

전체댓글 0

비밀번호 :
메일보내기닫기
기사제목
엔스로픽 "AI, 생존 위협 시 최대 96%가 협박 선택⋯기업 내부자 위협 될 수 있어"
보내는 분 이메일
받는 분 이메일