Anthropic이 스스로 "전례 없는 위험"이라고 쓴 모델 Mythos

3월 26일, Fortune이 Anthropic의 내부 문서를 보도했습니다.
Anthropic의 콘텐츠 관리 시스템(CMS) 설정 오류로 약 3,000개의 미공개 내부 자료가 공개 데이터 저장소에 노출됐습니다.
그 안에는 아직 발표되지 않은 신규 모델의 드래프트 블로그 포스트가 포함되어 있었습니다.
케임브리지 대학교 보안 연구자와 LayerX Security의 AI 보안 연구자가 이것을 발견했고,
Fortune이 내용을 검토해 보도했습니다.
모델의 이름은 Claude Mythos으로 Anthropic은 이것을 "지금까지 우리가 만든 가장 강력한 모델"이라고 표현했습니다.

유출된 문서에 담긴 내용은 이렇습니다.
Anthropic은 기존 Opus, Sonnet, Haiku 세 단계 위에 'Capybara'라는 새로운 모델 티어를 만들고 있습니다.
Claude Mythos는 그 티어의 첫 번째 모델입니다.
유출된 초안에 따르면 Claude Opus 4.6 대비 소프트웨어 코딩, 학술 추론, 사이버보안 테스트에서
"극적으로 높은 점수"를 기록했습니다.

그런데 문서에서 가장 눈에 띄는 문장은 성능 수치가 아니었습니다.
"이 모델은 전례 없는 사이버보안 위험(Unprecedented Cybersecurity Risks)을 초래합니다."
Anthropic이 직접 쓴 표현입니다.
모델이 소프트웨어 취약점을 탐지하고 익스플로잇하는 능력이
"방어자의 대응 속도를 훨씬 앞서는 공격의 파도를 예고한다"고 했습니다.
회사가 자사 제품의 위험성을 이렇게 명시적으로 표현한 것은 이례적입니다.

Anthropic은 Fortune의 문의를 받은 뒤 해당 데이터 저장소에 대한 공개 접근을 차단했습니다.
그리고 모델의 존재를 공식 확인하며 이렇게 밝혔습니다.
"역량의 강도를 고려해 출시 방식을 신중하게 결정하고 있습니다."

이 사건에는 두 가지 이야기가 겹쳐 있습니다.
1) 유출 자체입니다.
Anthropic은 CMS 기본 설정이 업로드된 파일을 자동으로 공개 저장소에 올리도록 되어 있었다고 밝혔습니다.
사람의 실수였다고 했습니다. Claude Code나 AI 에이전트와는 무관하다고도 했습니다.
하지만 아이러니는 분명합니다. 전례 없는 사이버보안 역량을 갖췄다고 스스로 기술한 모델의 정보가
기본적인 CMS 설정 오류로 세상에 공개됐습니다.

2) 모델 자체가 던지는 질문입니다.
AI가 취약점을 찾고 익스플로잇하는 능력이 방어 속도를 앞지른다면 그것은 방어자에게도 공격자에게도 같은 도구입니다. Anthropic은 이미 중국 국가 지원 해킹 그룹이 Claude Code를 활용해 약 30개 조직을 침투하려 했던 사례를 공개한 바 있습니다.
Claude Mythos는 그보다 훨씬 강력한 사이버보안 역량을 가졌다고 합니다.
Anthropic이 출시를 신중하게 결정하고 있다고 말하는 이유가 여기에 있습니다.

저는 이 사건이 AI 개발의 구조적 딜레마를 가장 선명하게 보여주는 사례 중 하나라고 생각합니다.
더 강력한 모델은 방어자에게 더 강한 도구가 됩니다.
동시에 공격자에게도 그렇습니다. 이 두 가지는 같은 역량에서 나옵니다.
어느 쪽이 먼저 더 많이 활용하는가의 문제가 됩니다.

Anthropic은 Firefox 취약점 발견, Claude Code Security 출시, 이번 Mythos 개발까지 사이버보안을 중심 역량으로 쌓아왔습니다.
그 역량이 강해질수록, 그것이 만들어내는 딜레마도 함께 커집니다.

저작자표시 비영리 (새창열림)

'일과 생각' 카테고리의 다른 글

더플레이코리아 CTO 역할을 이어가며, 사운드엣과도 함께하게 되었습니다. (0)	2026.04.02
5일 만에 두 번째 Anthropic 유출입니다 - Claude Code 소스코드 유출 (0)	2026.03.31
AI가 생성한 코드를 AI가 검토합니다 - Claude Code Review의 등장 (0)	2026.03.28
너무 많은 것을 동시에 하면 어떻게 되는가 - OpenAI의 선택 (0)	2026.03.24
AI 에이전트가 통제를 벗어났습니다 - Meta Sev1 사고가 보여주는 것 (0)	2026.03.23

Sengwoo-Lee’s Dev-log

Anthropic이 스스로 "전례 없는 위험"이라고 쓴 모델 Mythos

'일과 생각' 카테고리의 다른 글

티스토리툴바

Anthropic이 스스로 "전례 없는 위험"이라고 쓴 모델 Mythos

'일과 생각' 카테고리의 다른 글

'일과 생각' Related Articles

티스토리툴바