AX 도입을 논의하는 자리에서 가장 먼저 나오는 질문은 늘 "어떤 모델을 쓰느냐"다. 벤치마크 점수표를 펴고 1위를 고른 뒤, 그 위에 프롬프트와 파이프라인을 쌓는다. 6월에 일어난 일은 이 절차의 전제를 무너뜨렸다.
6월 9일 Anthropic은 Fable 5를 공개했다. 1M 토큰 컨텍스트와, 대부분의 벤치마크에서 최상위 성능을 내세웠다. 사흘 뒤인 6월 12일 오후 5시 21분(미 동부시간), 미국 정부는 국가안보를 근거로 "모든 외국인의 Fable 5·Mythos 5 접근을 중단하라"는 수출통제 지시를 Anthropic에 보냈다. 실시간으로 국적을 가려 차단할 방법이 없었던 Anthropic은 두 모델을 전 고객 대상으로 내렸다. Opus 4.8, Sonnet 4.6, Haiku 4.5 등 나머지 모델은 영향을 받지 않았다.
한국 기업은 정의상 '외국인'이다. 가장 성능이 좋다고 발표된 모델이, 출시 사흘 만에, 우리 쪽 잘못과 무관하게 사라졌다는 뜻이다. 이것은 성능의 문제가 아니라 공급의 문제다.
벤치마크 점수는 가용성을 보장하지 않는다
Fable 5는 Terminal-Bench 2.1에서 Claude Code와 묶여 83.1%를 기록했다. Codex와 GPT-5.5 조합(83.4%) 바로 뒤, 사실상 최상위권이다. 그러나 같은 기간 외국인 개발자는 그 모델을 켤 수 없었다. 점수표는 "이 모델이 강하다"를 말할 뿐, "당신이 내일도 쓸 수 있다"를 말하지 않는다. 두 문장을 같은 것으로 취급하는 순간 리스크가 점수 뒤에 숨는다.
모델 접근권은 지정학·규제 변수가 됐다
복구 시점은 공식적으로 제시되지 않았다. 미국 정부는 Fable 5의 jailbreak 정황을 근거로 들었고, Anthropic은 이미 알려진 경미한 취약점일 뿐이라며 반박했다. 누가 옳은지는 도입을 결정하는 실무자에게 부차적이다. 핵심은, 프런티어 모델의 가용성이 정부 서한 한 통으로 하루 만에 바뀔 수 있다는 사실이다. 특정 모델 하나에 프롬프트·평가셋·운영 코드를 결합해 둔 조직은 그런 날 그대로 멈춘다.
전략의 단위는 모델이 아니라 교체 속도다
같은 6월 중순, Z.ai는 GLM-5.2를 내놨다. 1M 컨텍스트에 더해 Anthropic 호환 엔드포인트를 제공해, base URL과 모델명만 바꾸면 Claude Code·Cline·OpenCode 같은 도구에 그대로 붙는다. 모델은 점점 갈아끼우는 부품에 가까워지고 있다. 이 환경에서 조직이 지켜야 할 것은 특정 모델이 아니라 교체 가능성이다.
- 운영 코드를 단일 벤더 API가 아니라 호환 엔드포인트·추상화 계층 뒤에 둔다.
- 자체 평가셋을 보유해, 모델을 바꿔도 품질 회귀를 즉시 측정한다.
- 1순위·2순위 모델을 정해 두고 장애 시 전환 절차를 문서로 만든다.
- 국적·수출통제·약관 변경을 기술 리스크와 동급으로 점검한다.
이번 사건은 AX의 병목이 모델 성능이 아니라 모델 의존성에 있음을 보여준다. 조녁컴퍼니가 교육과 도입 설계에서 먼저 다루는 것도 "어떤 모델이 최고인가"가 아니라 "모델이 바뀌어도 멈추지 않는 구조"다. 사업영역 →