본문 바로가기

일과 생각

OpenAI도 보안 에이전트를 출시했습니다 - Codex Security가 의미하는 것

2월 20일, Anthropic이 Claude Code Security를 출시했습니다.
3월 6일, OpenAI가 Codex Security를 출시했습니다.
2주 간격으로 두 회사가 보안 AI 에이전트 제품을 공개했습니다.

두 제품이 해결하려는 문제는 동일합니다.

기존 보안 도구는 규칙 기반입니다.
알려진 패턴과 일치하면 취약점으로 표시하고, 그렇지 않으면 통과시킵니다.
하지만 실제로 위험한 취약점 대부분은 규칙으로 잡히지 않습니다.
비즈니스 로직의 결함, 잘못된 접근 제어, 복잡한 데이터 흐름에서 발생하기 때문입니다.

동시에 AI가 코드 생성 속도를 높이면서 새로운 문제가 생겼습니다.
AI가 코드를 빠르게 만들수록, 검토해야 할 코드는 더 빠르게 쌓입니다.
보안 검토가 병목이 되고 있습니다.

두 회사 모두 이 문제를 같은 방식으로 정의했습니다.
"AI로 더 빠르게 찾고, 더 정확하게 고친다."

그런데 두 제품의 접근 방식은 다릅니다.

이전 글에서 다뤘던 Claude Code Security는
"인간 보안 연구자처럼 추론한다"는 것을 핵심으로 내세웠습니다.
코드 전체를 읽고 데이터 흐름을 추적하며,
발견된 취약점마다 신뢰도(confidence rating)를 부여합니다.

Codex Security는 한 단계 다른 방식을 취했습니다.
스캔을 시작하기 전에 프로젝트별 위협 모델(threat model)을 먼저 생성합니다.
"이 시스템이 무엇을 신뢰하는가, 어디가 노출되어 있는가"를 먼저 정의하고,
그 맥락 위에서 취약점을 탐색합니다.
발견된 취약점은 샌드박스 환경에서 실제로 익스플로잇 가능한지 검증하고,
작동하는 개념 증명(PoC) 코드를 생성해 팀에 증거로 제시합니다.

맥락을 먼저 설계하고, 그 위에서 탐색한다는 것입니다.

Codex Security의 베타 결과 수치는 스케일로 말합니다.
30일 동안 120만 커밋 스캔,
792개 critical, 10,561개 high-severity 취약점 발견.
오탐률 50% 감소, 노이즈 84% 감소.
OpenSSH, GnuTLS, Chromium 등 주요 오픈소스 프로젝트에서 14개 CVE 발행.

오픈소스 메인테이너에게 무료 접근을 제공하는 Codex for OSS 프로그램도 함께 출시했습니다.
Claude Code Security가 오픈소스 메인테이너에게 우선 접근을 제공한 것과 같은 방향입니다.

두 제품 모두 아직 리서치 프리뷰입니다.
완성된 제품이 아니라 방향을 먼저 보여주는 것입니다.
그리고 그 방향은 분명합니다.

AI가 코드를 쓰는 속도가 빨라질수록,
AI가 코드를 검토하는 능력도 함께 높아져야 합니다.

Anthropic에 이어 OpenAI가 연달아 보안 에이전트를 출시한 것은
이 인식이 이제 업계 전반의 방향이 됐다는 신호입니다.

저는 이 흐름을 보며 도구보다 먼저 떠오르는 질문이 있습니다.
AI가 생성한 코드에 대한 보안 검토를 누가, 어떤 방식으로 책임질 것인가.
그 역할을 팀 안에서 어떻게 설계할 것인가입니다.

두 제품이 공통적으로 말하는 것이 있습니다.
"아무것도 사람의 승인 없이 적용되지 않는다."
AI가 문제를 찾고, 인간은 결정합니다.

이 원칙은 지금은 당연하게 느껴질 수 있습니다.
그러나 AI의 속도와 스케일이 계속 높아질수록,
그 원칙을 유지하는 것이 점점 더 어려워질 것입니다.