현재 저는 32개국의 뉴스/정보 수집 서비스와 주요 국가(미국, 일본, 영국, 한국) 및 코인/선물 시장의 일일 스냅샷을 MCP(Model Context Protocol)로 제공하는 기능을 개발했습니다. 현재는 이를 기반으로 OpenClaw와 유사하게 자유로운 동작이 가능한 투자 프로그램을 개발 중입니다.
제가 고민하고 있는 지점은 두 가지입니다.
-
AI의 '자유도'와 프론트엔드 UI의 공존
기존 소프트웨어처럼 정해진 UI와 기능을 기본적으로 제공하되, 각 기능들을 API화하여 IDE나 AI가 이를 완벽히 이해하고 제어할 수 있도록 구현하고 있습니다. 결국 미래의 소프트웨어 개발은 AI가 얼마나 자유롭게 기능을 확장하고 실행할 수 있는지, 즉 'AI의 자유도' 에 초점이 맞춰질 것이라 생각하는데 여러분의 의견이 궁금합니다. -
사용자 경험의 변화: "이거 해줘"의 시대
사용자들은 앞으로 "이거 해줘"라는 단순한 명령만으로 원하는 결과를 얻길 바랄 것입니다. 심지어 개발자가 미리 정의해두지 않은 기능이라도, AI가 직접 인터넷을 검색하거나 코드를 짜서 사용자의 니즈를 채워주어야 한다고 봅니다. (예: 법률 프로그램이라도 사용자가 원한다면 비행기 예약을 도와주는 수준까지)
기술이 사용자에게 극강의 편의성을 제공해야 한다면, 우리 개발자들은 '닫힌 기능'이 아닌 '열린 확장성'을 어디까지 고민해야 할까요? OpenClaw 같은 에이전트들의 등장으로 고민이 깊어지는 요즘입니다.
- 이미 UI 와 API는 나누어져있는 구조가 대부분인니 이점은 앞으로 AI중심으로 가더라도 별 어려운점이 없겠다고 보입니다. 기능 확장을 어떤 관점이냐에 따라 다르다고 봅니다 --
(a) 기존의 앱의 기능을 더 확장하는것
(b) 이미 시도된 '사람'이 하던 여러 서비스의 API를 조합해서 기능을 확장하는것
(a)는 아직은 AI에 맞겨서 마음대로 기능을 확장하게 하기에는 믿음이 안가네요.
(b)는 컨트롤된것이기 때문에 그나마 좀 낫겠습니다.
- "이거해줘" 자체는, 소비자의 입장으론, 궁극적으로는 그렇게 되길 바랍니다만 (영화 Her처럼), 여러 케이스들을 보면 아직은 그렇게 마음대로 하게 내버려두기엔 불안합니다.
그러나 '법률프로그램이 비행기 예약'을 하는것은 절대 아니라고 생각됩니다. 그럼 그것은 더이상 법률 프로그램이 아닙니다. 범용 Her OS가 되겠네요. 사람들의 조직과 책임을 나눈이유가 있듯, 프로그래밍/아케텍처도 그렇게 나눈 이유가 있는것과 같다고 봅니다. 내가 원하는것을 진실로 알게 해서 그런 일들을 다 내 입맛에 맞게 처리하자는것이 디지털 클론 얘기와 비슷한듯합니다.
"이거 해줘"는 개인비서와 같이 나를 오랫동안 알아서 구체적으로 상세하게 얘기 안해도 (지금 많이 거론되는 spec-driven처럼) 되는것인데, 내 모든것을 스캔하여 지식을 축적하고 기억해야 하는 과정을 거쳐도 결국에는 어떤 실수가 생깁니다만 (Her에서도 초기 세팅때 사용자의 이메일및 모든 데이타를 검사하는 장면이 있습니다) -- 그 실수를 얼마나 잘 알아차리고 걸러내던가, 그 실수를 고치는것을 할줄 알아야 하는데, 아직은 멀은듯 하군요. 사람들에게 일을 시켜보시면 아시겠지만, 10년 20년 같이 일한 사람들도 내 의도를 정확히 잘 모릅니다, 또는 눈치가 없는 사람들은 계속 모르고 실수 하고... 사람도 이런데, momento 같은, 그리고 책임이 없는 AI를 이러한 사람의 수준으로 끌어 올리는게 먼저라고 생각됩니다.
말씀하신 연린 확장성으로 가면 좋겠습니다만, 그런 범용 개인비서 AI여야 하고(위에 다른분이 쓴것처럼 토스터가 다른일을 하지 않게), 유저와의 상호작용으로 계속 사용자를 배워야 하겠습니다. 자동차가 세금 보고서를 작성하길 바라진 않습니다. 이건 사람도 마찬가지죠, 직원에게 특정 일을 줬는데 다른 일 까지 하면 고용자는 기뻐할수도 있지만, 대부분은 걱정 할것같네요.
-
명확한 문서화와 잘 설계된 접근성이 결국은 승리합니다. 굳이 AI의 자유도에 초점을 맞추지 않아도 잘 설계된 접근성은 인간에게도, AI에게도 이해하기 쉽습니다.
-
아니오, 최소 권한 원칙은 반드시 지켜져야 합니다. 저는 제 토스터기가 빵만 굽길 원하지 인터넷에 접속해서 뉴스 요약 하고 둠을 실행하는걸 바라지 않습니다.
철학적으로는 앤디 클라크의 확장된 정신이란 이론을 권해드립니다. 그럴싸함이 전부인 LLM이 도구를 통해 인지로 확장되는 부분에 있어 깊은 이해를 줄 것입니다.
실천적으로는 OpenCode가 에이전트 구성의 모든 부분이 공개되어 있으니 도움이 되실 겁니다.
2번은 이미 현실입니다. 가장 먼저 주어진 도구들 중 하나가 코드 인터프리터였죠. 그래서, 특정 도메인 에이전트에 대한 제의견은 결국 소멸될 단타 싸움입니다.
지금 하시는 도메인의 경우 전통적인 ML을 MCP로 제공하는 것이 좋지않나 하는 생각이 드네요. 언어모델로는 패턴 분석이나 선형 예측에 전혀 유리하지 않습니다.
굳이 인간의 UI에 기반해서 툴 심메트리를 셜계할 필요는 없는 듯 합니다. 어차피 UI자체를 에이전트가 직접 해석하고 제어하는 webMCP나 GDI기반의 자동화된 MCP는 순식간에 올 것입니다. 수 많은 인간용 레거시 시스템을 활용해야 할테니 말입니다. 네이티브 멀티 모달을 갖춘 LLM기반 에이전트라면 굳이 개발자가 GUI를 MCP로 번역하는 수고를 할 필요가 없겠죠. 파운데이션 GUI 장악력이 높은 iOS는 다음 버전에서 당장 시작될지도 모르겠네요.
그렇게되면 그냥 아무 주식앱이나 설치해도 에이전트에게 투자를 위임할 수 있게 되겠죠.