10P by princox 8일전 | ★ favorite | 댓글 5개

Claude Code 장애, Boris Cherny의 사후 회고: “개인의 실수가 아닌, 프로세스의 문제”

Claude Code 창시자 Boris Cherny(@bcherny)가 3월 31일 발생한 Claude 서비스 장애에 대해 짧지만 인상적인 코멘트를 남겼다.
“실수는 생깁니다. 팀으로서 중요한 건 이게 특정 개인의 잘못이 아니라는 점을 인식하는 것입니다 — 프로세스, 문화, 또는 인프라의 문제입니다. 이번 경우엔 자동화됐어야 할 수동 배포 단계가 있었습니다. 팀이 자동화 개선을 몇 가지 적용했고, 몇 가지는 진행 중입니다.”

무슨 일이 있었나?

3월 31일 17:45 UTC부터 4월 1일 05:52 UTC까지 Claude Opus 4.6, Sonnet 4.6에 타임아웃이 급증하는 장애가 발생했다.  Downdetector 기준으로 오전 8시 30분(PT)에 2,400명 이상의 사용자가 문제를 보고했으며, 대부분은 Claude Chat 관련 이슈였다. 
원인은 배포 자동화가 미흡했던 수동 배포 단계였다고 Cherny가 직접 밝혔다.

눈에 띄는 것은 장애 자체보다 반응 방식

Cherny의 코멘트는 엔지니어링 문화에서 말하는 블레임리스 포스트모템(blameless postmortem) 철학을 그대로 담고 있다. 구글, 넷플릭스 같은 SRE(사이트 신뢰성 엔지니어링) 문화에서 오랫동안 강조해온 원칙 — “개인을 처벌하면 문제가 숨어버린다, 시스템을 고쳐야 한다” — 을 Claude Code 팀이 실천하고 있음을 보여준다.

빠르게 성장하는 AI 서비스에서 수동 배포 단계 하나가 대규모 장애로 이어질 수 있다는 것, 그리고 그것을 공개적으로 인정하고 자동화로 응답한다는 것은 소규모 팀이든 대형 서비스든 되새길 만한 포인트다.
참고
∙ Claude 공식 상태 페이지(status.claude.com)에 따르면 장애는 완전히 해소됐다.
∙ 원문 트윗: https://x.com/bcherny/status/2039210700657307889​​​​​​​​​​​​​​​​

해커뉴스 요약본중 제일 이상함. 제목만 맞고, 첫 내용은 번역내용으로 맞지만 나머지 내용은 x에서 다른 사람들이 이야기한 내용이고, 배경으로 설명한 내용도 다른 내용임. 원문이 짧은 트윗이라서, 내용을 잘못 가져다 붙인 것 같음.

긱뉴스에서 요약은 LLM을 사용해서 그런것이겠죠?

그리고 x.com은 이제 대부분의 사람들이 다 파란색딱지가 있군요. 예전에는 "공인" 정도나 붙이는 정도였다고 기억합니다만, 다들 요금제를 받아들였나 봅니다.

긴 글을 쓰려면 딱지를 달아야해서 블로그 용도나 공지를 하는 용도로 사용하는 경우 다 달더라고요
트위터 시절에는 트위터측에서 공인에게 달아주는 무료 인증 배지고 별다른 기능은 없었던거로 기억합니다.

그렇군요. 답변 감사합니다.

유출 경로라기보다는, 유출 경위...라고 써야할 듯 한데 글 수정이 안되네요.