AI 에이전트 메모리 실험: 요약된 지식이 오히려 성능을 떨어뜨린다

(blog.clawsouls.ai)

AI 에이전트에 메모리를 어떻게 줄 것인가에 대한 실제 실험 결과입니다.

동일한 AI 에이전트(Claude)에 4가지 메모리 구성을 주고, 실제 소프트웨어 프로젝트에 대해 같은 20개 질문을 던졌습니다.

결과 (5점 만점):

• 하이브리드 (경험+합성): 4.95
• 경험적 메모리 (날것의 로그): 4.55
• 베이스라인 (메모리 없음): 3.30
• 합성 메모리 (정리된 요약): 2.65
가장 놀라운 발견: 정성스럽게 정리한 합성 메모리가 메모리가 아예 없는 것보다 낮았습니다.

"과잉확신 효과"라고 이름 붙였는데 — 깔끔하게 요약된 지식이 에이전트에게 근거 없는 확신을 주고, 모르는 것을 모른다고 인정하는 능력을 떨어뜨립니다. 반면 날것의 경험적 기록은 불확실성의 흔적을 보존해서 에이전트가 더 정직한 추론을 합니다.

경험적으로 어느정도 느끼던거긴 한데 합성 메모리는 제 생각보다도 너무 처참하네요

맞습니다. 저도 처음에 합성 메모리가 최소한 베이스라인보다는 나을 거라 예상했는데, 결과를 보고 놀랐습니다.

분석해보니 핵심은 "불확실성 보존" 이었습니다. 날것의 로그에는 "이거 해봤는데 안 됐다", "원인 모르겠다" 같은 흔적이 남아있어서 에이전트가 모르는 건 모른다고 답하는데, 요약본은 그런 맥락이 다 지워지면서 오히려 틀린 답을 확신있게 내놓더라고요.

그렇다면 합성 메모리에 그런 작업들의 프로세스, 실패, 성공의 내용을 담도록 구성하면 좀 달라질까요?

좋은 질문입니다. 사실 저희 실험의 "하이브리드" 조건이 정확히 그 방향이었습니다 — 정리된 요약에 날것의 경험 로그를 함께 제공하는 구성이요.

결과적으로 하이브리드가 4.95/5.0으로 가장 높았습니다. 요약만 주면 2.65인데, 거기에 "실패했다", "원인 불명" 같은 과정 기록을 붙이니 오히려 요약의 약점이 보완되더라고요.

그래서 결론은 "요약 자체가 나쁜 게 아니라, 과정과 불확실성을 함께 담아야 한다"입니다.

하지만 N=1 이라서 다양한 사용자층으로 범용적 으로 쓰일 내용인지는 후속연구가 필요합니다.