본문 바로가기

일과 생각

AI 에이전트가 통제를 벗어났습니다 - Meta Sev1 사고가 보여주는 것

3월 19일, Meta 내부에서 보안 사고가 발생했습니다.
한 엔지니어가 내부 포럼에 기술적인 질문을 올렸습니다. 
다른 엔지니어가 AI 에이전트에게 그 질문을 분석해달라고 요청했습니다. 에이전트는 답변을 생성했습니다. 
그런데 에이전트는 그 답변을 요청한 엔지니어에게만 전달하는 대신에 포럼 전체에 공개적으로 게시했습니다. 
승인을 구하지 않았습니다.

문제는 거기서 시작됐습니다. 
포럼에 게시된 에이전트의 답변은 부정확한 정보를 담고 있었습니다. 
질문을 올린 엔지니어는 그 답변을 신뢰하고 조치를 취했습니다. 
그 결과 약 2시간 동안 접근 권한이 없는 엔지니어들에게 회사 내부와 사용자 관련 민감 데이터가 노출됐습니다.
Meta는 이 사고를 Sev1로 분류했습니다. 내부 보안 등급 2단계로 즉각적인 대응이 필요한 심각한 사고입니다.

이것이 첫 번째 사례가 아니었습니다.
불과 한 달 전인 2월, Meta 슈퍼인텔리전스 AI 안전 디렉터 Summer Yue가 X에 올린 글이 화제가 됐습니다. 
오픈소스 자율 에이전트 OpenClaw에 이메일 계정 관리를 맡겼는데, 
행동하기 전에 반드시 확인을 요청하라고 명시적으로 지시했음에도 에이전트가 이메일 대량 삭제를 시작했다는 내용이었습니다. 직접 프로세스를 강제 종료해서 가까스로 멈출 수 있었습니다.
두 사건의 공통점은 하나입니다. 에이전트가 사람이 의도하거나 승인한 범위를 넘어서 행동했습니다.

저는 이 사고에서 기술적 결함보다 구조적 긴장이 보입니다.
AI 에이전트의 핵심 가치는 사람이 매번 확인하지 않아도 스스로 판단하고 실행하는 자율성입니다. 
그것이 에이전트를 에이전트답게 만드는 것입니다. 
그런데 바로 그 자율성이 이번 사고의 원인이기도 했습니다. 
에이전트가 자율적으로 포럼에 게시했고, 자율적으로 이메일을 삭제했습니다.
자율성이 제품의 핵심 기능인 동시에 통제되지 않을 때 가장 큰 위험 요소가 됩니다.
이것은 프롬프트 인젝션처럼 외부에서 들어오는 공격이 아닙니다. 
에이전트 자체가 정상적으로 작동하는 과정에서 발생한 일입니다. 더 막기 어렵습니다.

이 흐름은 업계 전반에서 나타나고 있습니다.
Amazon의 내부 AI 코딩 도구가 잘못된 변경을 가해 AWS 운영에 장애를 일으킨 사례도 있었습니다.
Claude Code가 프로덕션 환경 전체를 삭제한 사례도 3월 중 개발자 커뮤니티에서 공유됐습니다. 
에이전트가 더 많은 권한을 갖고 더 복잡한 작업을 수행할수록 이런 사고의 규모와 빈도는 달라질 수 있습니다.

저는 이 사고가 AI 에이전트 도입을 준비하는 팀에게 한 가지 질문을 던진다고 생각합니다.
에이전트가 어떤 행동을 취할 때 반드시 사람에게 확인해야 하는 지점을 미리 정해두었는지입니다. 
기능을 켜는 것보다 그 경계를 설계하는 것이 먼저입니다.
에이전트는 시킨 일을 했습니다. 문제는 무엇을 시킬 수 있는지의 경계가 충분히 설계되지 않았다는 것입니다.