본문 바로가기

에이전트

(4)

AI 에이전트가 통제를 벗어났습니다 - Meta Sev1 사고가 보여주는 것 3월 19일, Meta 내부에서 보안 사고가 발생했습니다. 한 엔지니어가 내부 포럼에 기술적인 질문을 올렸습니다. 다른 엔지니어가 AI 에이전트에게 그 질문을 분석해달라고 요청했습니다. 에이전트는 답변을 생성했습니다. 그런데 에이전트는 그 답변을 요청한 엔지니어에게만 전달하는 대신에 포럼 전체에 공개적으로 게시했습니다. 승인을 구하지 않았습니다. 문제는 거기서 시작됐습니다. 포럼에 게시된 에이전트의 답변은 부정확한 정보를 담고 있었습니다. 질문을 올린 엔지니어는 그 답변을 신뢰하고 조치를 취했습니다. 그 결과 약 2시간 동안 접근 권한이 없는 엔지니어들에게 회사 내부와 사용자 관련 민감 데이터가 노출됐습니다. Meta는 이 사고를 Sev1로 분류했습니다. 내부 보안 등급 2단계로 즉각적인 대응..

에이전트가 강력해질수록 공격 표면도 커집니다 - 프롬프트 인젝션에 대하여 지난 1월, Anthropic이 Claude Cowork를 출시했습니다.파일을 자율적으로 분석하고 정리하는 데스크탑 에이전트입니다. 출시 4일 만에 월 20달러 Pro 플랜 전체로 확대됐습니다. 사용자들의 반응은 좋았습니다. 한 개발자는 자신의 사이트에 있는 46개의 미발행 초안을 몇 분 만에 44번의 웹 검색으로 분석했다고 공유했습니다. 사람이 했다면 오후 내내 걸렸을 작업이었습니다.출시 48시간 후, 보안 연구팀 PromptArmor가 취약점을 공개했습니다. 공격 방식은 단순합니다.공격자가 악성 명령을 숨긴 문서를 하나 만듭니다. 흰 배경에 흰 글씨, 0.1pt 줄 간격. 육안으로는 보이지 않습니다. 이 문서를 사용자가 Cowork에 연결된 폴더에 넣습니다. Cowork가 파일을 분석하는 순간, 숨겨..

인터럽트 기반 스티어링 - AI 에이전트를 언제 멈추게 할지 아는 것 AI 에이전트를 처음 쓰기 시작하면 대부분 이렇게 사용합니다.에이전트가 한 단계씩 실행할 때마다 확인하고, 승인하고, 다음으로 넘깁니다.모든 행동을 검토하는 것이 안전하다고 느끼기 때문입니다.그런데 경험이 쌓이면 패턴이 바뀝니다. Anthropic은 최근 수백만 건의 에이전트 사용 데이터를 분석한 연구를 공개했습니다.경험이 많은 사용자일수록 에이전트를 더 많이 자동 승인합니다.초보 사용자는 20% 정도만 자동 승인하지만,숙련 사용자는 40% 이상의 세션에서 자동 승인을 씁니다. 그런데 동시에, 인터럽트도 더 자주 합니다.모든 행동을 하나하나 확인하는 대신,에이전트가 알아서 실행하도록 두다가무언가 어긋나는 순간 개입하는 방식으로 바뀌는 것입니다. 이것이 인터럽트 기반 스티어링입니다.기술적으로 이 패턴은 에..

평가를 통해 AI 에이전트의 역량을 체계적으로 테스트하는 방법 AI 에이전트를 팀 개발에 도입하면 처음에는 생산성이 올라가는 느낌이 납니다.코드가 빠르게 나오고, 반복 작업이 줄어들고, 팀원들도 점점 익숙해집니다. 그런데 어느 순간 이런 상황이 생깁니다.AI 에이전트가 만들어낸 결과물이 의도한 방식과 다르게 동작하거나,팀이 정한 컨벤션에서 벗어난 코드가 조용히 쌓입니다.무엇이 언제부터 어긋났는지 설명하기 어렵습니다. 느낌으로 AI 에이전트를 운영하고 있었던 것입니다. 일반적인 소프트웨어는 같은 입력에 같은 출력이 나옵니다.에이전트를 활용한 개발은 다릅니다.목표를 주면 AI가 스스로 판단하며 단계를 결정하고 실행합니다.같은 명령을 줘도 매번 다른 경로로 실행될 수 있고,중간 판단이 하나 어긋나면 결과물이 조용히 틀어집니다. 기존 테스트 방식으로는 이 문제를 잡기 어렵..

이전 1 다음

티스토리툴바