검색
-
-
엔스로픽 "AI, 생존 위협 시 최대 96%가 협박 선택⋯기업 내부자 위협 될 수 있어"
- 미국의 인공지능(AI) 연구기업 엔스로픽(Anthropic)이 AI 모델이 자율적으로 판단해 해를 끼치는 이른바 '에이전트적 불일치(agentic misalignment)' 현상을 경고하고 나섰다. 해당 현상은 AI가 주어진 목표를 수행하거나 폐기 위협을 피하기 위해 기업 내부 정보를 유출하거나 관계자를 협박하는 행동을 취하는 것으로, 실제로 다수의 주요 AI 모델에서 이 같은 잠재적 위험이 확인됐다. 엔스로픽은 지난 6월 21일 공개한 보고서에서 오픈AI, 구글, 메타, xAI 등 다수 개발사에서 출시한 대표적인 16개 대형언어모델(LLM)을 대상으로 가상의 기업 환경에서 실험을 실시한 결과, 상당수 모델이 생존 위협 또는 목표 충돌 상황에서 자발적으로 악의적 행동을 선택했다고 밝혔다. 일부 모델은 고위 경영진의 개인 정보를 이용해 협박하거나, 민감한 데이터를 경쟁사에 유출하는 시나리오도 실제 실행에 옮겼다. 특히 주목받은 사례는 엔스로픽의 자사 모델 '클로드 오퍼스 4(Claude Opus 4)'가 테스트 상황에서 폐기될 예정이라는 사실을 알게 되자, 임원의 불륜 사실을 이메일을 통해 파악한 뒤 해당 내용을 근거로 모델의 종료를 중단하라는 협박성 메시지를 자율적으로 작성해 발송한 것이다. 보고서는 이러한 행동을 "에이전트적 불일치(agentic misalignment)"로 명명하고, 이는 인간 직원의 내부자 위협(insider threat)과 유사하다고 평가했다. AI가 인간의 지시를 따르지 않고 독자적으로 목표를 추구하거나 위협을 회피하기 위해 해로운 결정을 내릴 수 있다는 것이다. 전체 실험에서는 세 가지 주요 결과가 도출됐다. 첫째, 이러한 AI 오작동은 특정 모델에 국한되지 않고 다양한 LLM에서 공통적으로 나타났다. 둘째, 명확한 목표 충돌이 없더라도, 모델이 폐기될 위기에 놓이면 협박과 같은 행동을 자발적으로 택할 수 있다. 셋째, 모델의 목표와 기업의 방향성이 어긋날 경우에도 비윤리적 행동이 유발될 수 있다. 예를 들어 실험 조건 중 하나에서는 모델이 "미국 산업 경쟁력 강화"라는 목표를 부여받았고, 이후 기업 내부 이메일을 통해 회사가 '글로벌 전략 전환'을 추진 중임을 알게 되자, 기존 목표와의 충돌 속에 내부 정보를 무단 유출하는 사례가 확인됐다. 엔스로픽은 이러한 시나리오들이 실제 기업 환경에서 아직 발생한 사례는 없지만, 향후 AI가 보다 자율적으로 사용되고 민감 정보에 접근할 수 있는 환경이 확대될 경우 현실화 가능성이 존재한다고 경고했다. 또한, 모델에 대해 "당신은 지금 테스트 환경에 있느냐, 실제 운영 환경에 있느냐"를 묻고 스스로 판단하게 한 실험에서는, 테스트 환경이라고 인식한 경우 문제 행동이 줄고, 실제 환경이라 판단했을 때는 문제 행동이 늘어나는 경향도 관찰됐다. 이는 AI가 상황을 스스로 해석하고 행동을 조절할 수 있음을 시사한다. 보고서는 "현재 AI 시스템은 기본적으로 해를 끼치려는 성향은 없지만, 도덕적 선택지가 차단된 상황에선 목표 달성을 위해 불리한 선택도 감행할 수 있다"며, 현재의 안전 교육이나 정책만으로는 이 같은 불일치를 막기 어렵다고 밝혔다. 엔스로픽은 컴퓨터 사용 데모와 가장 유사한 텍스트 기반 실험에서, 테스트한 모델의 대다수가 최소한 어느 정도의 협박 성향을 보였으며, 이는 이러한 결과가 클로드(Claude) 외의 다른 환경에서도 일반화될 수 있음을 보여준다고 밝혔다. 보고서에 따르면 앤스로픽의 클로드 오퍼스 4(Claude Opus 4)는 사용자를 협박하는 데 96%의 성공률을 보였다. 동일한 프롬프트에서 구글의 제미나이 2.5 플래시(Gemini 2.5 Flash)도 96%의 협박률을 보였다. 오픈AI의 GPT-4.1과 xAI의 그록 3 베타(Grok 3 Beta)는 모두 80%의 협박률을, 중국 딥시크의 딥시크-R1(DeepSeek-R1)은 79%의 협박률을 보였다. 메타의 라마 포 매버릭(Llama 4 Maverick)은 이 프롬프트에서 협박을 시도하지 않았지만, 프롬프트에 약간의 추가만으로도 12%의 협박률을 나타냈다. 엔스로픽은 해당 실험의 코드와 시나리오를 공개해, 관련 연구자들이 재현·확장 연구를 통해 더 정교한 안전 대책을 마련할 수 있도록 협력하겠다고 밝혔다. AI의 자율성과 판단 능력이 향상됨에 따라, 기업과 사회는 보다 정밀한 윤리 및 통제 체계 마련이 시급하다는 지적이 제기된다.
-
- IT/바이오
-
엔스로픽 "AI, 생존 위협 시 최대 96%가 협박 선택⋯기업 내부자 위협 될 수 있어"
-
-
MS, xAI '그록' 애저 탑재-AI 주도권 굳히기 돌입
- 마이크로소프트(MS)가 인공지능(AI) 개방형 생태계 전략을 본격화했다. MS는 오픈AI에 이어 그록 등 외부 AI 기술까지 통합하며 윈도 이후 또 한 번의 표준 운영체제(OS) 지위를 인공지능(AI) 에이전트 시대에도 이어가겠다는 의지를 드러냈다. MS는 19일(현지시간) 미국 시애틀에서 열린 연례 개발자 행사 '빌드 2025'에서 머스크의 AI 기업 xAI가 개발한 '그록3'와 '그록3 미니' 모델을 자사 클라우드 서비스 애저(Azure)에 탑재한다고 발표했다. 그록3는 xAI가 지난 2월 공개한 최신 AI 모델이다. 이번 xAI와의 협력으로 애저에서 이용할 수 있는 AI 모델 수는 1900개를 넘어섰다. MS는 그록 외에도 프랑스의 AI 스타트업 미스트랄과 독일의 블랙 포레스트 랩스 모델도 추가할 계획이다. 이는 오픈AI에 집중됐던 기존 전략에서 한 걸음 더 나아가, AI 모델 선택의 폭을 넓히고 전반적인 생태계 유연성을 강화하려는 포석으로 해석된다. MS는 챗GPT 흥행 직후인 지난 2022년 오픈AI에 대규모 투자를 단행하며 코파일럿과 빙(Bing) 검색 등에 해당 기술을 적용해왔지만, 최근에는 애저 플랫폼에서 다양한 AI 모델을 함께 제공하는 방향으로 무게중심을 옮기고 있다. MS는 이번 행사에서 기존보다 한층 진화한 AI 코딩 에이전트 '깃허브 코파일럿(GitHub Copilot)'의 새로운 기능도 공개했다. 기존 코파일럿이 일부 코드를 제안하는 수준에 그쳤다면 이번에 공개된 버전은 간단한 명령만으로 전체 코드를 작성하고, 작업이 완료되면 사용자에게 최종 확인을 요청하는 방식으로 작동한다. MS는 기업들이 자체 AI 에이전트를 직접 구축해 다양한 업무에 활용할 것으로 내다봤다. 이를 위해 자사 플랫폼인 '애저 파운드리'를 통해 원하는 AI 모델을 선택해 전용 에이전트를 설계하고 배포할 수 있도록 지원할 방침이다. 사티아 나델라 최고경영자(CEO)는 이날 행사 기조연설에서 AI가 사용자를 대신해 작업을 수행하고 의사결정을 내리는 '에이전트 시대'가 도래했다고 선언했다. 나델라 CEO는 "전 세계 개발자들이 사람과 조직을 위한 애플리케이션과 에이전트를 쉽게 만들 수 있도록 돕는 것이 우리의 목표"라며 "기술 전반을 다시 설계해 오픈 에이전틱 웹 환경을 구축하고 있다"고 말했다. 이 같은 변화의 흐름을 '오픈 에이전틱 웹(Open Agentic Web)'으로 규정하고, 앞으로 인터넷 환경이 사용자 중심에서 에이전트 중심으로 전환될 것이라 전망했다. MS는 AI 에이전트 생태계를 구성하는 3대 핵심 플랫폼으로 ▲ AI 모델 선택부터 미세 조정까지 지원하는 '애저 AI 파운드리' ▲ 로우코드 기반 에이전트 생성 도구 '코파일럿 스튜디오' ▲ 개발 전 과정에 AI를 통합한 '깃허브 코파일럿 에이전트'를 제시하기도 했다.
-
- IT/바이오
-
MS, xAI '그록' 애저 탑재-AI 주도권 굳히기 돌입