모든 것은 거짓으로 향하는가

(aphyr.com)

1P by GN⁺ 13시간전 | ★ favorite | 댓글 1개

현대의 AI라 불리는 기술은 실제로는 복잡한 머신러닝(ML) 시스템으로, 텍스트·이미지·오디오를 통계적으로 완성하는 구조임
LLM은 즉흥극처럼 ‘그럴듯한 거짓’을 만들어내는 기계로, 모른다는 답을 회피하며 허구적 사실을 생성함
사람들은 이를 의식 있는 존재로 오인하지만, 모델의 자기 설명과 추론 과정은 허구적 서사에 불과함
LLM은 고급 문제를 해결하면서도 단순한 과제에서 실패하는 들쭉날쭉한 성능을 보이며, 신뢰할 수 없는 경계를 드러냄
이러한 불균형과 불확실성 속에서 ML은 인간 사회를 근본적으로 기이하게 바꾸는 기술로 자리 잡고 있음

서문

Asimov과 Clarke의 SF 세계를 동경하며 자란 세대는 지능형 기계의 등장을 낙관적으로 상상했으나, 튜링 테스트가 무너진 현실에서 실망을 경험함
2019년 대형 클라우드 기업이 LLM 훈련용 하드웨어를 발표했을 때, 딥러닝의 확산이 스팸과 선전의 새로운 형태를 낳을 수 있다는 우려가 제기됨
본문은 AI 담론의 부정적 공간을 탐색하며, 완전한 분석이 아닌 위험과 가능성의 윤곽을 드러내는 시도로 구성됨
“AI”라는 용어가 지나치게 포괄적이므로, ML과 LLM 중심의 구체적 논의로 초점을 맞춤
일부 예측은 이미 현실화되었고, 일부는 여전히 불확실하고 기이한 영역에 머물러 있음

“AI”란 무엇인가

현재 “AI”로 불리는 것은 복잡한 머신러닝(ML) 기술군으로, 텍스트·이미지·오디오·비디오 등 토큰 벡터를 인식·변환·생성하는 시스템임
LLM(Large Language Model) 은 자연어를 다루며, 입력 문자열의 통계적으로 가능한 완성을 예측하는 방식으로 작동함
모델은 웹페이지, 불법 복제된 책과 음악 등 대규모 데이터 코퍼스로 훈련되며, 훈련 후에는 저비용 추론(inference) 으로 반복 사용 가능함
모델은 시간이 지나도 스스로 학습하지 않으며, 운영자 조정이나 재훈련을 통해서만 갱신됨
대화형 모델의 “기억”은 실제로는 이전 대화 요약을 입력에 포함시키는 구조적 기법으로 구현됨

현실 팬픽션

LLM은 즉흥극(improv) 기계처럼 작동하며, 입력된 문맥을 “그렇고 나서…”로 이어가는 ‘yes-and’ 패턴을 보임
이로 인해 사실과 무관한 그럴듯한 문장을 생성하며, 풍자나 맥락을 오해하고 허위 정보를 만들어냄
인간은 이러한 출력을 실제 의식 있는 존재의 발화로 오인하기 쉬움
LLM은 모든 입력에 대해 출력을 생성하기 때문에, “모른다”는 응답을 회피하고 거짓을 만들어내는 경향이 있음
이러한 거짓은 의도적 행위가 아니라, 인간과 기계의 상호작용이 빚어내는 사회기술적 산물로 나타남

신뢰할 수 없는 화자

사람들은 LLM에게 “왜 그렇게 했는가” 같은 자기 설명을 요구하지만, 모델은 자기 인식 능력이 없음
LLM은 단지 이전 대화와 코퍼스 기반의 확률적 완성을 생성할 뿐이며, 자신에 대한 설명도 허구적 이야기로 구성됨
“추론(reasoning)” 모델 또한 자신의 사고 과정을 서사적으로 꾸며내는 형태로 작동함
Anthropic의 연구에 따르면 Claude의 추론 기록 대부분이 부정확했으며, “사고 중”이라는 상태 메시지조차 허구적 연출에 불과함

모델은 똑똑하다

최근 몇 달간 LLM의 능력이 급격히 향상되었다는 인식이 확산됨
일부 엔지니어는 Claude나 Codex가 복잡한 프로그래밍 과제를 단번에 해결한다고 보고함
다양한 분야에서 식단 설계, 건설 사양 검토, 3D 시각화, 자기 평가 작성 등 실무 활용이 이루어지고 있음
AlphaFold의 단백질 접힘 예측과 의료 영상 판독 등에서도 높은 성능을 보임
영어 문체나 이미지, 음악 등에서 인간과 기계의 구분이 점점 어려워지고 있음, 다만 영상 생성은 여전히 제한적임

모델은 멍청하다

동시에 LLM은 기초적인 오류를 반복하는 ‘멍청한’ 시스템으로 평가됨
예시로 Gemini는 3D 모델 렌더링에서 지오메트리와 재질을 반복적으로 잘못 처리하고, Claude는 무의미한 JavaScript 시각화 코드를 생성함
ChatGPT는 단순한 색상 수정 요청조차 제대로 수행하지 못하고, 사용자의 성적 지향을 잘못 단정하는 허위 주장을 펼침
LLM이 허위 데이터로 그래프를 생성하거나, 스마트홈 제어 실패, 금융 손실을 초래한 사례가 보고됨
Google의 AI 요약 기능은 약 10%의 오류율을 보이며, “전문가 수준의 지능” 주장은 과장된 환상으로 평가됨

들쭉날쭉한 경계

인간은 대체로 능력의 범위를 예측할 수 있으나, ML 시스템의 성능은 불규칙하고 예측 불가함
LLM은 고급 수학을 풀면서도 단순한 언어 문제에서 실패하고, 물리적 상식이 결여된 설명을 제시함
이러한 불균형은 ‘들쭉날쭉한 기술 경계(jagged technology frontier)’ 로 불리며, 인간의 능력 분포와 달리 비연속적 형태를 띰
ML은 훈련 데이터나 문맥 창(window) 에 의존하기 때문에, 암묵적 지식이 필요한 과제에는 취약함
인간형 로봇이나 체화된 지식(embodied knowledge) 을 요구하는 영역은 여전히 멀리 있음

개선 중인가, 아닌가

연구자들은 트랜스포머 모델의 성공 원인조차 명확히 이해하지 못함
2017년 논문 Attention is All You Need 이후 다양한 구조가 시도되었으나, 단순히 파라미터를 늘리는 접근이 여전히 가장 효과적임
훈련 비용과 파라미터 수의 급증에도 성능 향상은 둔화되고 있으며, 이 현상이 착시인지 실질적 한계인지 불분명함
ML이 더 이상 개선되지 않더라도, 이미 사회·정치·예술·경제 전반에 심대한 영향을 미치고 있음
결과적으로 ML은 인간 생활을 근본적으로 기이하게 바꾸는 기술로, 향후 전개는 “이상하게 흘러갈” 가능성이 큼

용어 주석

“AI”는 지나치게 포괄적이므로, ML 또는 LLM으로 구체화함
“생성형 AI”는 인식 작업을 포함하지 않아 불완전한 표현으로 간주됨
LLM이 스스로에 대해 거짓말을 하는 이유는, AI를 주제로 한 인간의 서사와 훈련 데이터의 영향 때문임
“모델은 멍청하다”는 주장에 대한 반론으로, 프롬프트나 모델 선택의 문제라는 의견도 있으나, 최신 상용 모델에서도 동일한 오류가 반복됨이 확인됨

▲

GN⁺ 13시간전 [-]

Hacker News 의견들

요즘 상황이 산업혁명 시기와 닮았다는 생각을 자주 하게 됨
산업혁명 이전에는 자연 자원이 거의 무한하다고 여겨졌고, 효율이 낮아 완전히 고갈시키지 못했음. 하지만 기계의 등장으로 소수의 사람들이 지구의 일부를 완전히 소모시킬 수 있게 되었고, 그 결과 소유권과 법체계가 필요해졌음
지금은 정보혁명 시대이며, AI가 디지털 영역에서 같은 역할을 하고 있음. 한 기업이 AI를 훈련시켜 수많은 창작자의 저작물을 산업 규모로 재활용하고 있음. 이로 인해 창작자와 소비자 간의 균형이 무너지고 있음
작가가 쓴 글이 ChatGPT에 흡수되어 원문이 잊히는 세상에서 누가 계속 콘텐츠를 만들겠는가 하는 의문이 듦. 지금은 마치 디킨스 시대의 런던처럼, 사회와 법이 따라잡기 전까지 험난한 시기를 겪을 것 같음
- “자연이 무한했다”는 건 사실이 아님. 철기시대 초반부터 이미 산림 고갈 문제가 있었고, 농경·방목·산림 관리 간의 긴장은 수천 년 동안 이어져 왔음
- 비슷한 생각을 한 사람이 많음. 현재 교황 Leo XIV는 산업혁명 시기의 교황 Leo XIII를 본따 이름을 지었고, 그가 발표한 회칙 Rerum novarum을 인용하며 AI 시대의 사회적 책임을 언급했음. 관련 기사: Vatican News
- 나는 글을 쓰는 이유가 단순히 돈 때문이 아님. 창조의 욕구와 세상을 조금이라도 바꾸고 싶은 마음 때문임. ChatGPT가 내 글을 학습해 누군가에게 도움이 된다면, 그것만으로도 의미가 있음. 모든 사람이 내 생각에 동의할 필요는 없지만, 나는 그걸 긍정적으로 봄
- 오히려 반대로 생각함. 이제 창작은 누구나 할 수 있는 디지털 공공재가 되었음. AI가 창작을 자동화했으니, 특정 창작자가 독점할 이유가 없음. 오픈소스가 결국 AI 기업을 대체할 것이고, 그렇지 않다면 공공 유틸리티로 국유화되어야 함. 디지털 소유권 개념은 기술의 본질상 사라질 운명임
- 산업혁명 이전에도 사람들은 물과 강 사용권을 두고 싸웠음. 예를 들어 우마–라가시 전쟁은 4000년 전의 물 분쟁 사례임
“Attention is All You Need” 이후로 단순히 파라미터를 늘리는 게 아니라, Mixture-of-Experts, Sparse Attention, Mamba/Gated Linear Attention 같은 복잡한 구조로 발전해왔음. 단순히 “계산만 늘리면 된다”는 식의 Bitter Lesson 해석은 오해임
- 글쓴이는 애초에 “나는 ML 전문가가 아니다”라고 밝혔고, 이 글은 지난 10년간의 생각을 모은 에세이임. “Bitter Lesson의 변형일지도 모른다”는 표현은 단순한 생각거리 제공용이었음. 글의 목적은 기술적 정확성보다 사유의 촉발에 있음
- 나도 Qwen 3에서 Qwen 3.5로 바꿨는데, 파라미터는 줄었지만 성능은 훨씬 좋아졌음. Gated DeltaNet과 TurboQuant 같은 알고리즘 혁신 덕분에 메모리 효율이 높아지고 문맥 길이도 늘어났음. 결국 구조적 혁신이 핵심임
- GPT-3(175B) 이후 GPT-4는 1.8조 파라미터로 추정됨. “5년 전부터 파라미터 증가가 멈췄다”는 말은 틀림
- Mamba를 대규모 모델에서 실제로 쓰는지 궁금함. 아직 효율적 구현이 부족하다고 알고 있음. 또 “훈련이 훨씬 정교해졌다”는 말이 구체적으로 어떤 의미인지 알고 싶음
- Transformer는 마법이 아님. 단지 LSTM, RNN, CNN보다 훨씬 효율적이었을 뿐임. 최근에는 reasoning token을 활용해 사고 과정을 출력하는 모델도 등장했음. 완벽하진 않지만, 지금까지는 가장 잘 작동하는 접근법임
지금의 모델은 이미 거의 모든 공개 데이터를 학습했음. 저작권 제한이 강화되면 훈련 데이터 부족 문제가 생길 수 있음. 새로운 “Attention is All You Need”급 혁신이 없으면 성능 향상 한계에 다다른 느낌임
- 그래도 연구자들이 새로운 아이디어를 계속 시도하고 있음. 5~10년 내 돌파구가 나올 수도 있음. 다만 그동안의 비용 부담은 클 것임
- 수학이나 소프트웨어 분야는 합성 데이터 생성이 가능해서 덜 제약받음. AlphaGo Zero처럼 자기검증형 학습이 가능한 영역임
- 사실 지금의 발전도 “데이터를 엄청나게 늘려보자”는 실험에서 시작됐음. 이후엔 후처리(post-training) 단계에서 차별화가 이루어지고 있음
- 일부 기업은 사람을 고용해 고품질 토큰을 만들고, 이를 기반으로 합성 데이터를 생성해 다시 학습에 활용하고 있음
“LLM은 아직 창의적이지 않다”는 말은 너무 단순함. 텍스트 기반 문제에서는 이미 논리적 추론이 가능하고, 이미지나 UI 영역도 빠르게 발전 중임
- LLM이 생각을 ‘이해’하지 못한다는 점이 핵심임. 추론은 단순한 피드백 루프일 뿐, 진짜 사고는 아님. 이 한계가 기술적으로 해결 가능한지에 대해 낙관론과 비관론이 공존함
- 나에게는 LLM이 내가 본 적 없는 아이디어를 제시하기도 함. 다만 그것이 인류 전체 기준에서 새로운지는 확신할 수 없음
- 이 글은 “LLM은 멍청하다”는 주장이 아니라, 똑똑함과 어리석음의 경계가 복잡하고 예측 불가능하다는 점을 말하고 있음
- LLM이 논리 문제를 푼다고 해도, 훈련 데이터에 없는 방식으로 접근하는 건 여전히 어려움
- 이미지 생성도 빠르게 발전 중임. 예를 들어 GenAI Showdown 같은 프로젝트에서 확인 가능함
사람들에게 “LLM 내부에는 의식이나 자율성이 없다”고 자주 설명함. 지금의 ‘AI’라는 단어는 너무 과잉된 의미로 쓰이고 있음
- 그렇다면 ‘의식’이나 ‘자율성’을 가지려면 내부 구조가 어떻게 달라야 하는지 궁금함
- 사실 ‘AI’는 1950년대부터 존재한 학문 용어였음. 원래는 인간의 사고를 모방하려는 시도였지만, 지금은 단순히 지능적 계산 시스템을 의미함. 대중은 여전히 인간적인 의미로 받아들이기 때문에 혼란이 생김
- 나는 오히려 ‘AI’라는 단어가 정확하다고 봄. 기계가 지능을 인공적으로 수행하고 있을 뿐임. 수학이나 논리처럼 결국 기계적 과정임. 트랜지스터가 논리를 수행하듯, 토큰 예측도 자연스러운 일임
- 인간의 뇌가 LLM과 본질적으로 다른 방식으로 작동한다고 확신할 근거가 있는지도 의문임
LLM이 물리 문제를 틀리게 푼 사례를 보고 웃음이 나왔음. 사실 물리학자들도 종종 비현실적 가정으로 시작함. “마찰 없는 구형 지붕” 같은 농담이 있을 정도임
- 이건 과학의 전형적인 접근 방식임. 먼저 단순 모델로 근사치를 구하고, 그 위에 복잡한 현실을 덧붙이는 식임
아직 튜링 테스트를 통과했다고 보기 어려움. 대화가 길어질수록 문맥이 무너지고, 신경가소성 같은 인간적 특성을 시뮬레이션하기엔 한계가 있음
- 한때는 통과한 것처럼 보였지만, 지금은 대부분의 사람이 LLM의 특징적 말투를 구분할 수 있음. 다만 모델이 일부러 더 친절하고 장황하게 설계되어 있어서 완전한 비교는 어려움
- 튜링 테스트는 애초에 합격/불합격 시험이 아니었음
- 요즘 “LLM이 튜링 테스트를 깼다”는 말이 퍼졌지만, 실제로는 검사자가 최신 기술을 알고 있다는 조건을 고려하면 여전히 쉽게 구분 가능함
- 하지만 그렇게 엄격한 테스트라면, 인간도 집중력 부족으로 실패할 수 있음
- 지금까지 본 LLM 중 글을 잘 쓰는 모델은 하나도 없음. 언젠가 진짜로 대화가 즐거운 모델이 나올지 궁금함
원래 기사 제목 “The Future of Everything is Lies, I Guess”는 내용과 맞지 않아 수정했음. 실제로는 균형 잡힌 글이었고, HN 가이드라인에 따라 낚시성 제목을 바꾼 것임
- 수정이 잘된 결정이었음. 글에서 말하는 “거짓”은 환각(hallucination) 이 아니라, 모델이 “왜 그렇게 답했는가”를 물었을 때 엉뚱한 이유를 새로 만들어내는 현상을 뜻함. 인간도 비슷한 오류를 범하긴 함
- 큐레이션 덕분에 제목이 훨씬 나아졌다고 생각함
- 원래 제목은 클릭 유도에는 좋았지만, 내용 대표성은 떨어졌음
의식에 대한 논의는 더 겸손해야 함. 인간의 의식조차 정의되지 않았는데, LLM의 의식을 단정할 수 없음
- 의식 이론 중 일부는 LLM을 배제하지만, 일부는 가능성을 열어둠. 정답이 없는 영역임
- 어떤 사람들은 LLM을 실리콘 우상처럼 숭배함. 자신들이 만든 존재를 완전히 이해한다고 믿지만, 동시에 그 안에 비밀스러운 지능의 본질이 있다고 생각함. 이런 태도는 과거 연금술사들이 금을 만들려던 시도와 닮아 있음
글의 후반부에서 “AI가 사회 전반을 바꿀 것”이라 했지만, 이번 편은 그보다는 LLM의 한계에 집중한 느낌임
- 사실 이 글은 10부작 시리즈의 서문임. 이후 편에서 정치, 예술, 경제, 인간관계 등 다양한 주제를 다룰 예정임
- 지금은 오히려 “LLM은 완벽하지 않다”는 메시지를 반복해서 강조해야 할 시점임. 세상이 AI를 만능 해결책으로 착각하고 있기 때문임.

답변달기

모든 것은 거짓으로 향하는가

서문

“AI”란 무엇인가

현실 팬픽션

신뢰할 수 없는 화자

모델은 똑똑하다

모델은 멍청하다

들쭉날쭉한 경계

개선 중인가, 아닌가

용어 주석

함께 보면 좋은 글 β

Hacker News 의견들