중국 AI 기업의 Claude 증류 공격 사건 (2026년 2월)
사건 개요
Anthropic은 2026년 2월, DeepSeek, Moonshot AI, MiniMax 세 개의 인공지능 기업이 Claude의 능력을 불법적으로 추출하기 위해 "산업적 규모의 캠페인"을 벌인 것을 확인했다고 밝혔다. 이들은 약 24,000개의 부정 계정을 통해 1,600만 건이 넘는 대화를 생성했으며, 이는 서비스 약관과 지역별 접근 제한을 위반한 것이다. 세 회사 모두 중국에 기반을 두고 있으며, 중국에서는 법적·규제적·보안상 위험으로 인해 Claude 사용이 금지되어 있다.
여기서 핵심 개념인 '증류(distillation)'는 강력한 '교사(teacher)' 모델이 더 작은 '학생(student)' 모델에게 자신의 출력을 모방하도록 안내하는 정당한 기계학습 기법이다. 문제는 이것이 경쟁사의 API를 향할 때다. 공격자는 대량의 다양한 프롬프트를 보내고 응답을 관찰한 뒤, 그 응답을 학습 데이터로 삼아 대상 시스템의 동작을 재현하는 자기 모델을 훈련시킨다. 즉, 막대한 시간과 비용이 드는 독자적 개발 과정을 우회하는 셈이다.
회사별 규모와 목표
각 캠페인이 노린 능력은 조금씩 달랐다.
- MiniMax: 세 회사 중 가장 많은 트래픽을 발생시켜 1,300만 건 이상의 대화를 생성했다. 주로 에이전트형 코딩과 도구 활용(tool orchestration)을 겨냥했다.
- Moonshot AI (Kimi 모델 제작사): 약 340만 건으로, 에이전트형 추론, 도구 사용, 코딩, 컴퓨터 비전을 노렸다.
- DeepSeek: 15만 건 이상으로, 추론 능력, 보상 모델링(reward modeling), 그리고 검열에 안전한 쿼리 생성을 대상으로 했다.
특히 주목할 만한 디테일은 MiniMax 사례다. Anthropic이 활성 캠페인 도중 새로운 Claude 모델을 출시하자, MiniMax는 24시간 내에 트래픽의 거의 절반을 최신 시스템에서 능력을 추출하는 쪽으로 전환했다. 이는 자동 스크립트가 아니라 실시간으로 캠페인을 모니터링하는 엔지니어링 팀이 있었음을 시사한다.
탐지를 어렵게 만든 방식
중국에서는 Claude 상업적 접근이 막혀 있었기 때문에, 세 회사는 상업용 프록시 서비스를 동원해 제한을 우회했고, 동시에 수만 개의 Claude 계정을 운영하는 네트워크에 접근했다. 탐지를 회피하기 위해 이들은 '히드라 클러스터(hydra cluster)' 구조를 사용했는데, 이는 요청을 수천 개의 계정에 동시에 분산시키는 광범위한 프록시 네트워크다.
이 사건이 특이한 점은 취약점 공격이 아니었다는 것이다. 잘못 구성된 데이터베이스도, 노출된 API 키도, 패치되지 않은 취약점도 없었다. 공격자들은 Claude를 설계된 방식 그대로 사용했지만, 의도된 방식대로는 사용하지 않았다. 개별 프롬프트는 무해해 보였다. 하지만 그 변형들이 수백 개의 조율된 계정에서 수만 번씩, 모두 동일한 좁은 능력을 겨냥해 도착할 때 패턴이 드러났다.
Anthropic의 대응
Anthropic은 2026년 2월 23일 공식 블로그(Detecting and preventing distillation attacks)에서 다층적 방어 전략을 설명했다.
-
탐지(Detection): 행동 지문(behavioral fingerprinting)과 분류기를 사용해 증류 스타일의 프롬프트 분포, 조율된 다중 계정 활동, 사고 사슬(chain of thought)을 끌어내려는 요청을 식별한다.
-
접근 통제(Access controls): 부정 계정 생성에 가장 많이 악용된 경로인 교육용 계정, 보안 연구 프로그램, 스타트업 조직에 대한 인증을 강화했다.
-
정보 공유(Intelligence sharing): 다른 AI 연구소, 클라우드 제공업체, 관련 당국과 기술적 지표를 공유해 증류 환경에 대한 더 포괄적인 그림을 확보하고 있다.
-
대응책(Countermeasures): 정당한 고객 경험을 저하시키지 않으면서, 모델 출력이 불법 증류에 쓰이는 효용을 줄이도록 설계된 제품·API·모델 수준의 안전장치를 개발 중이다.
더 큰 맥락: 안보와 수출 통제
Anthropic은 이 문제를 단순한 영업 비밀 침해를 넘어 국가 안보 사안으로 규정했다. "미국 모델을 증류하는 외국 연구소가 이렇게 보호받지 못한 능력을 군사·정보·감시 시스템에 투입하면, 권위주의 정부가 공격적 사이버 작전, 허위정보 캠페인, 대규모 감시에 프런티어 AI를 배치할 수 있게 된다"고 경고했다. 또한 증류를 수행하는 연구소들은 안전 가드레일은 물려받지 않고 능력만 가져간다는 점에서, 안전성 연구가 체계적으로 제거될 위험을 지적했다.
수출 통제와 관련해서는 흥미로운 논리를 폈다. 중국 연구소들의 겉보기 급속한 발전이 수출 통제가 무력하다는 증거로 잘못 받아들여지지만, 실제로 그 발전은 상당 부분 미국 모델에서 추출한 능력에 의존하며, 이런 대규모 추출 자체가 첨단 칩 접근을 필요로 하므로 오히려 수출 통제의 정당성을 강화한다는 주장이다.
업계 전반의 맥락
Anthropic만의 일이 아니었다. OpenAI는 2026년 2월 초 미국 입법자들에게 보낸 공개 서한에서 DeepSeek의 프런티어 모델 증류 시도를 시사하는 활동을 관찰했다고 밝혔고, Google도 2026년 2월 10만 건 이상의 프롬프트를 통한 Gemini 추론 능력 대상 증류 공격을 식별·차단했다고 공개했다.
한 가지 균형 잡힌 시각도 덧붙이면, 일부 분석가들은 이 데이터 규모(특히 DeepSeek의 15만 건)가 모델 훈련 전체 규모에서는 미미하며, 증류가 중국 모델 발전의 결정적 요인이라고 보기는 어렵다고 평가하기도 했다. 또한 DeepSeek 자신이 R1 출시 당시 "증류를 포함한 모든 수정 및 파생 작업"을 명시적으로 허용하는 라이선스로 증류 버전들을 배포했다는 점에서, 업계가 이 관행을 '공격'이라 부르는 것에 모순이 있다는 비판적 시각도 존재한다.
주요 출처
- Anthropic 공식 블로그: "Detecting and preventing distillation attacks" (2026.02.23) https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks
- CNBC, The Hacker News, Infosecurity Magazine, InfoWorld 등 보도 (2026.02)