모든 것은 거짓으로 향하는가
(aphyr.com)- 현대의 AI라 불리는 기술은 실제로는 복잡한 머신러닝(ML) 시스템으로, 텍스트·이미지·오디오를 통계적으로 완성하는 구조임
- LLM은 즉흥극처럼 ‘그럴듯한 거짓’을 만들어내는 기계로, 모른다는 답을 회피하며 허구적 사실을 생성함
- 사람들은 이를 의식 있는 존재로 오인하지만, 모델의 자기 설명과 추론 과정은 허구적 서사에 불과함
- LLM은 고급 문제를 해결하면서도 단순한 과제에서 실패하는 들쭉날쭉한 성능을 보이며, 신뢰할 수 없는 경계를 드러냄
- 이러한 불균형과 불확실성 속에서 ML은 인간 사회를 근본적으로 기이하게 바꾸는 기술로 자리 잡고 있음
서문
- Asimov과 Clarke의 SF 세계를 동경하며 자란 세대는 지능형 기계의 등장을 낙관적으로 상상했으나, 튜링 테스트가 무너진 현실에서 실망을 경험함
- 2019년 대형 클라우드 기업이 LLM 훈련용 하드웨어를 발표했을 때, 딥러닝의 확산이 스팸과 선전의 새로운 형태를 낳을 수 있다는 우려가 제기됨
- 본문은 AI 담론의 부정적 공간을 탐색하며, 완전한 분석이 아닌 위험과 가능성의 윤곽을 드러내는 시도로 구성됨
- “AI”라는 용어가 지나치게 포괄적이므로, ML과 LLM 중심의 구체적 논의로 초점을 맞춤
- 일부 예측은 이미 현실화되었고, 일부는 여전히 불확실하고 기이한 영역에 머물러 있음
“AI”란 무엇인가
- 현재 “AI”로 불리는 것은 복잡한 머신러닝(ML) 기술군으로, 텍스트·이미지·오디오·비디오 등 토큰 벡터를 인식·변환·생성하는 시스템임
- LLM(Large Language Model) 은 자연어를 다루며, 입력 문자열의 통계적으로 가능한 완성을 예측하는 방식으로 작동함
- 모델은 웹페이지, 불법 복제된 책과 음악 등 대규모 데이터 코퍼스로 훈련되며, 훈련 후에는 저비용 추론(inference) 으로 반복 사용 가능함
- 모델은 시간이 지나도 스스로 학습하지 않으며, 운영자 조정이나 재훈련을 통해서만 갱신됨
- 대화형 모델의 “기억”은 실제로는 이전 대화 요약을 입력에 포함시키는 구조적 기법으로 구현됨
현실 팬픽션
- LLM은 즉흥극(improv) 기계처럼 작동하며, 입력된 문맥을 “그렇고 나서…”로 이어가는 ‘yes-and’ 패턴을 보임
- 이로 인해 사실과 무관한 그럴듯한 문장을 생성하며, 풍자나 맥락을 오해하고 허위 정보를 만들어냄
- 인간은 이러한 출력을 실제 의식 있는 존재의 발화로 오인하기 쉬움
- LLM은 모든 입력에 대해 출력을 생성하기 때문에, “모른다”는 응답을 회피하고 거짓을 만들어내는 경향이 있음
- 이러한 거짓은 의도적 행위가 아니라, 인간과 기계의 상호작용이 빚어내는 사회기술적 산물로 나타남
신뢰할 수 없는 화자
- 사람들은 LLM에게 “왜 그렇게 했는가” 같은 자기 설명을 요구하지만, 모델은 자기 인식 능력이 없음
- LLM은 단지 이전 대화와 코퍼스 기반의 확률적 완성을 생성할 뿐이며, 자신에 대한 설명도 허구적 이야기로 구성됨
- “추론(reasoning)” 모델 또한 자신의 사고 과정을 서사적으로 꾸며내는 형태로 작동함
- Anthropic의 연구에 따르면 Claude의 추론 기록 대부분이 부정확했으며, “사고 중”이라는 상태 메시지조차 허구적 연출에 불과함
모델은 똑똑하다
- 최근 몇 달간 LLM의 능력이 급격히 향상되었다는 인식이 확산됨
- 일부 엔지니어는 Claude나 Codex가 복잡한 프로그래밍 과제를 단번에 해결한다고 보고함
- 다양한 분야에서 식단 설계, 건설 사양 검토, 3D 시각화, 자기 평가 작성 등 실무 활용이 이루어지고 있음
- AlphaFold의 단백질 접힘 예측과 의료 영상 판독 등에서도 높은 성능을 보임
- 영어 문체나 이미지, 음악 등에서 인간과 기계의 구분이 점점 어려워지고 있음, 다만 영상 생성은 여전히 제한적임
모델은 멍청하다
- 동시에 LLM은 기초적인 오류를 반복하는 ‘멍청한’ 시스템으로 평가됨
- 예시로 Gemini는 3D 모델 렌더링에서 지오메트리와 재질을 반복적으로 잘못 처리하고, Claude는 무의미한 JavaScript 시각화 코드를 생성함
- ChatGPT는 단순한 색상 수정 요청조차 제대로 수행하지 못하고, 사용자의 성적 지향을 잘못 단정하는 허위 주장을 펼침
- LLM이 허위 데이터로 그래프를 생성하거나, 스마트홈 제어 실패, 금융 손실을 초래한 사례가 보고됨
- Google의 AI 요약 기능은 약 10%의 오류율을 보이며, “전문가 수준의 지능” 주장은 과장된 환상으로 평가됨
들쭉날쭉한 경계
- 인간은 대체로 능력의 범위를 예측할 수 있으나, ML 시스템의 성능은 불규칙하고 예측 불가함
- LLM은 고급 수학을 풀면서도 단순한 언어 문제에서 실패하고, 물리적 상식이 결여된 설명을 제시함
- 이러한 불균형은 ‘들쭉날쭉한 기술 경계(jagged technology frontier)’ 로 불리며, 인간의 능력 분포와 달리 비연속적 형태를 띰
- ML은 훈련 데이터나 문맥 창(window) 에 의존하기 때문에, 암묵적 지식이 필요한 과제에는 취약함
- 인간형 로봇이나 체화된 지식(embodied knowledge) 을 요구하는 영역은 여전히 멀리 있음
개선 중인가, 아닌가
- 연구자들은 트랜스포머 모델의 성공 원인조차 명확히 이해하지 못함
- 2017년 논문 Attention is All You Need 이후 다양한 구조가 시도되었으나, 단순히 파라미터를 늘리는 접근이 여전히 가장 효과적임
- 훈련 비용과 파라미터 수의 급증에도 성능 향상은 둔화되고 있으며, 이 현상이 착시인지 실질적 한계인지 불분명함
- ML이 더 이상 개선되지 않더라도, 이미 사회·정치·예술·경제 전반에 심대한 영향을 미치고 있음
- 결과적으로 ML은 인간 생활을 근본적으로 기이하게 바꾸는 기술로, 향후 전개는 “이상하게 흘러갈” 가능성이 큼
용어 주석
- “AI”는 지나치게 포괄적이므로, ML 또는 LLM으로 구체화함
- “생성형 AI”는 인식 작업을 포함하지 않아 불완전한 표현으로 간주됨
- LLM이 스스로에 대해 거짓말을 하는 이유는, AI를 주제로 한 인간의 서사와 훈련 데이터의 영향 때문임
- “모델은 멍청하다”는 주장에 대한 반론으로, 프롬프트나 모델 선택의 문제라는 의견도 있으나, 최신 상용 모델에서도 동일한 오류가 반복됨이 확인됨
Hacker News 의견들
-
요즘 상황이 산업혁명 시기와 닮았다는 생각을 자주 하게 됨
산업혁명 이전에는 자연 자원이 거의 무한하다고 여겨졌고, 효율이 낮아 완전히 고갈시키지 못했음. 하지만 기계의 등장으로 소수의 사람들이 지구의 일부를 완전히 소모시킬 수 있게 되었고, 그 결과 소유권과 법체계가 필요해졌음
지금은 정보혁명 시대이며, AI가 디지털 영역에서 같은 역할을 하고 있음. 한 기업이 AI를 훈련시켜 수많은 창작자의 저작물을 산업 규모로 재활용하고 있음. 이로 인해 창작자와 소비자 간의 균형이 무너지고 있음
작가가 쓴 글이 ChatGPT에 흡수되어 원문이 잊히는 세상에서 누가 계속 콘텐츠를 만들겠는가 하는 의문이 듦. 지금은 마치 디킨스 시대의 런던처럼, 사회와 법이 따라잡기 전까지 험난한 시기를 겪을 것 같음- “자연이 무한했다”는 건 사실이 아님. 철기시대 초반부터 이미 산림 고갈 문제가 있었고, 농경·방목·산림 관리 간의 긴장은 수천 년 동안 이어져 왔음
- 비슷한 생각을 한 사람이 많음. 현재 교황 Leo XIV는 산업혁명 시기의 교황 Leo XIII를 본따 이름을 지었고, 그가 발표한 회칙 Rerum novarum을 인용하며 AI 시대의 사회적 책임을 언급했음. 관련 기사: Vatican News
- 나는 글을 쓰는 이유가 단순히 돈 때문이 아님. 창조의 욕구와 세상을 조금이라도 바꾸고 싶은 마음 때문임. ChatGPT가 내 글을 학습해 누군가에게 도움이 된다면, 그것만으로도 의미가 있음. 모든 사람이 내 생각에 동의할 필요는 없지만, 나는 그걸 긍정적으로 봄
- 오히려 반대로 생각함. 이제 창작은 누구나 할 수 있는 디지털 공공재가 되었음. AI가 창작을 자동화했으니, 특정 창작자가 독점할 이유가 없음. 오픈소스가 결국 AI 기업을 대체할 것이고, 그렇지 않다면 공공 유틸리티로 국유화되어야 함. 디지털 소유권 개념은 기술의 본질상 사라질 운명임
- 산업혁명 이전에도 사람들은 물과 강 사용권을 두고 싸웠음. 예를 들어 우마–라가시 전쟁은 4000년 전의 물 분쟁 사례임
-
“Attention is All You Need” 이후로 단순히 파라미터를 늘리는 게 아니라, Mixture-of-Experts, Sparse Attention, Mamba/Gated Linear Attention 같은 복잡한 구조로 발전해왔음. 단순히 “계산만 늘리면 된다”는 식의 Bitter Lesson 해석은 오해임
- 글쓴이는 애초에 “나는 ML 전문가가 아니다”라고 밝혔고, 이 글은 지난 10년간의 생각을 모은 에세이임. “Bitter Lesson의 변형일지도 모른다”는 표현은 단순한 생각거리 제공용이었음. 글의 목적은 기술적 정확성보다 사유의 촉발에 있음
- 나도 Qwen 3에서 Qwen 3.5로 바꿨는데, 파라미터는 줄었지만 성능은 훨씬 좋아졌음. Gated DeltaNet과 TurboQuant 같은 알고리즘 혁신 덕분에 메모리 효율이 높아지고 문맥 길이도 늘어났음. 결국 구조적 혁신이 핵심임
- GPT-3(175B) 이후 GPT-4는 1.8조 파라미터로 추정됨. “5년 전부터 파라미터 증가가 멈췄다”는 말은 틀림
- Mamba를 대규모 모델에서 실제로 쓰는지 궁금함. 아직 효율적 구현이 부족하다고 알고 있음. 또 “훈련이 훨씬 정교해졌다”는 말이 구체적으로 어떤 의미인지 알고 싶음
- Transformer는 마법이 아님. 단지 LSTM, RNN, CNN보다 훨씬 효율적이었을 뿐임. 최근에는 reasoning token을 활용해 사고 과정을 출력하는 모델도 등장했음. 완벽하진 않지만, 지금까지는 가장 잘 작동하는 접근법임
-
지금의 모델은 이미 거의 모든 공개 데이터를 학습했음. 저작권 제한이 강화되면 훈련 데이터 부족 문제가 생길 수 있음. 새로운 “Attention is All You Need”급 혁신이 없으면 성능 향상 한계에 다다른 느낌임
- 그래도 연구자들이 새로운 아이디어를 계속 시도하고 있음. 5~10년 내 돌파구가 나올 수도 있음. 다만 그동안의 비용 부담은 클 것임
- 수학이나 소프트웨어 분야는 합성 데이터 생성이 가능해서 덜 제약받음. AlphaGo Zero처럼 자기검증형 학습이 가능한 영역임
- 사실 지금의 발전도 “데이터를 엄청나게 늘려보자”는 실험에서 시작됐음. 이후엔 후처리(post-training) 단계에서 차별화가 이루어지고 있음
- 일부 기업은 사람을 고용해 고품질 토큰을 만들고, 이를 기반으로 합성 데이터를 생성해 다시 학습에 활용하고 있음
-
“LLM은 아직 창의적이지 않다”는 말은 너무 단순함. 텍스트 기반 문제에서는 이미 논리적 추론이 가능하고, 이미지나 UI 영역도 빠르게 발전 중임
- LLM이 생각을 ‘이해’하지 못한다는 점이 핵심임. 추론은 단순한 피드백 루프일 뿐, 진짜 사고는 아님. 이 한계가 기술적으로 해결 가능한지에 대해 낙관론과 비관론이 공존함
- 나에게는 LLM이 내가 본 적 없는 아이디어를 제시하기도 함. 다만 그것이 인류 전체 기준에서 새로운지는 확신할 수 없음
- 이 글은 “LLM은 멍청하다”는 주장이 아니라, 똑똑함과 어리석음의 경계가 복잡하고 예측 불가능하다는 점을 말하고 있음
- LLM이 논리 문제를 푼다고 해도, 훈련 데이터에 없는 방식으로 접근하는 건 여전히 어려움
- 이미지 생성도 빠르게 발전 중임. 예를 들어 GenAI Showdown 같은 프로젝트에서 확인 가능함
-
사람들에게 “LLM 내부에는 의식이나 자율성이 없다”고 자주 설명함. 지금의 ‘AI’라는 단어는 너무 과잉된 의미로 쓰이고 있음
- 그렇다면 ‘의식’이나 ‘자율성’을 가지려면 내부 구조가 어떻게 달라야 하는지 궁금함
- 사실 ‘AI’는 1950년대부터 존재한 학문 용어였음. 원래는 인간의 사고를 모방하려는 시도였지만, 지금은 단순히 지능적 계산 시스템을 의미함. 대중은 여전히 인간적인 의미로 받아들이기 때문에 혼란이 생김
- 나는 오히려 ‘AI’라는 단어가 정확하다고 봄. 기계가 지능을 인공적으로 수행하고 있을 뿐임. 수학이나 논리처럼 결국 기계적 과정임. 트랜지스터가 논리를 수행하듯, 토큰 예측도 자연스러운 일임
- 인간의 뇌가 LLM과 본질적으로 다른 방식으로 작동한다고 확신할 근거가 있는지도 의문임
-
LLM이 물리 문제를 틀리게 푼 사례를 보고 웃음이 나왔음. 사실 물리학자들도 종종 비현실적 가정으로 시작함. “마찰 없는 구형 지붕” 같은 농담이 있을 정도임
- 이건 과학의 전형적인 접근 방식임. 먼저 단순 모델로 근사치를 구하고, 그 위에 복잡한 현실을 덧붙이는 식임
-
아직 튜링 테스트를 통과했다고 보기 어려움. 대화가 길어질수록 문맥이 무너지고, 신경가소성 같은 인간적 특성을 시뮬레이션하기엔 한계가 있음
- 한때는 통과한 것처럼 보였지만, 지금은 대부분의 사람이 LLM의 특징적 말투를 구분할 수 있음. 다만 모델이 일부러 더 친절하고 장황하게 설계되어 있어서 완전한 비교는 어려움
- 튜링 테스트는 애초에 합격/불합격 시험이 아니었음
- 요즘 “LLM이 튜링 테스트를 깼다”는 말이 퍼졌지만, 실제로는 검사자가 최신 기술을 알고 있다는 조건을 고려하면 여전히 쉽게 구분 가능함
- 하지만 그렇게 엄격한 테스트라면, 인간도 집중력 부족으로 실패할 수 있음
- 지금까지 본 LLM 중 글을 잘 쓰는 모델은 하나도 없음. 언젠가 진짜로 대화가 즐거운 모델이 나올지 궁금함
-
원래 기사 제목 “The Future of Everything is Lies, I Guess”는 내용과 맞지 않아 수정했음. 실제로는 균형 잡힌 글이었고, HN 가이드라인에 따라 낚시성 제목을 바꾼 것임
- 수정이 잘된 결정이었음. 글에서 말하는 “거짓”은 환각(hallucination) 이 아니라, 모델이 “왜 그렇게 답했는가”를 물었을 때 엉뚱한 이유를 새로 만들어내는 현상을 뜻함. 인간도 비슷한 오류를 범하긴 함
- 큐레이션 덕분에 제목이 훨씬 나아졌다고 생각함
- 원래 제목은 클릭 유도에는 좋았지만, 내용 대표성은 떨어졌음
-
의식에 대한 논의는 더 겸손해야 함. 인간의 의식조차 정의되지 않았는데, LLM의 의식을 단정할 수 없음
- 의식 이론 중 일부는 LLM을 배제하지만, 일부는 가능성을 열어둠. 정답이 없는 영역임
- 어떤 사람들은 LLM을 실리콘 우상처럼 숭배함. 자신들이 만든 존재를 완전히 이해한다고 믿지만, 동시에 그 안에 비밀스러운 지능의 본질이 있다고 생각함. 이런 태도는 과거 연금술사들이 금을 만들려던 시도와 닮아 있음
-
글의 후반부에서 “AI가 사회 전반을 바꿀 것”이라 했지만, 이번 편은 그보다는 LLM의 한계에 집중한 느낌임
- 사실 이 글은 10부작 시리즈의 서문임. 이후 편에서 정치, 예술, 경제, 인간관계 등 다양한 주제를 다룰 예정임
- 지금은 오히려 “LLM은 완벽하지 않다”는 메시지를 반복해서 강조해야 할 시점임. 세상이 AI를 만능 해결책으로 착각하고 있기 때문임.