10P by tomlee 8일전 | ★ favorite | 댓글 8개

저는 지난 몇개월동안 AI 페르소나 공유를 하는 커뮤니티 플랫폼 및 페르소나 표준을 만들어왔습니다.

여기에 제가 만들어온 것을 공유해 봅니다.

문제제기: AI 에이전트의 "정체성"을 어떻게 정의하고, 안전하게 지킬 수 있을까요?

Abliterated(탈옥) LLM이 등장하면서 시스템 프롬프트만으로
에이전트 행동을 제어하는 건 한계가 명확해졌습니다.

Soul Spec은 OpenClaw의 페르소나 관리와 버전 관리 고민에서 시작했습니다.
공유 가능한 포터블 포맷으로 발전했고,
LLM 기반 로봇에 페르소나를 적용할 때
아시모프의 로봇 3원칙을 어떻게 구현할까로 확장했습니다.
에이전트의 정체성과 안전 규칙을 구조화된 파일로 분리하는 오픈 표준입니다.(v0.3,v0.4,v0.5 버전별 특징과 추가 되는 점이 있습니다.)

현재는 Claude Code, Hermes Agent, Windsurf, Cursor등을 지원 하도록 배포되는 cli 에 기능 추가가 되어 있습니다.

구조:

  • SOUL.md: 성격, 말투, 사고방식 (누구인가)
  • IDENTITY.md: 이름, 역할, 맥락 (무엇인가)
  • safety.laws: 절대 위반 불가 규칙 (로봇 3원칙의 현대판, v0.5에서 확장됨)

관련 연구 논문:
📄 아시모프의 로봇3원칙 → Soul Spec: 안전 법칙의 실제 구현
doi.org/10.5281/zenodo.18815277
블로그: blog.clawsouls.ai/posts/asimov-safety-laws
데모 영상: https://youtu.be/M-mPoXMufpY

📄 Abliterated LLM에서 페르소나가 안전성을 높일 수 있는가?
doi.org/10.5281/zenodo.19145303
블로그: blog.clawsouls.ai/posts/persona-safety-abliterated-llms

📄 Cross-Model Persona Fidelity: LLM을 바꿔도 에이전트는 같은 "그"인가?
doi.org/10.5281/zenodo.18813405
블로그: blog.clawsouls.ai/posts/cross-model-persona-fidelity

📄 경험적 기억이 에이전트 온보딩을 바꾼다
doi.org/10.5281/zenodo.18798227
블로그: blog.clawsouls.ai/posts/experiential-memory-paper

레지스트리에 페르소나를 등록할때 SoulScan이라는 정적 분석기가 53개 패턴으로
프롬프트 인젝션, 권한 탈취, 데이터 유출 시도를 사전 검증하여 점수를 매깁니다.

Soul Spec은 에이전트 "정체성과 안전"의 표준을 만들고 있습니다.

ClawSouls Registry에서 검증된 페르소나를 공유하고 있는데,
페르소나 스펙과 레지스트리가 Community Driven 으로 운영되는 것이 저의 바램입니다. 하지만 솔직히 아직 커뮤니티가 작습니다.
혼자서 표준을 만드는 건 의미가 없으니,
스펙이나 연구에 대한 피드백을 구합니다.

스펙: https://soulspec.org
레지스트리: https://clawsouls.ai
논문 전체: https://clawsouls.ai/research
사용메뉴얼: https://docs.clawsouls.ai
GitHub: https://github.com/clawsouls

훌륭합니다. 저는 PKM 개인지식관리를 해오면서 개인 데이터를 쌓아놓다보니 좀 하네스 전체를 두껍게 쌓는편 입니다. 오늘 분신이 되어주시게. 모든 문제는 당신의 한계가 아니라 나의 한계 일세. 라고 적어주지요.

최근에 하는 것을 정리해서 arxiv에 올려야겠다 싶어서 찾아보고 있네요. 연구자는 아니고 그냥 생활인이라.

당신 프로젝트도 제 분신에게 공유해줬습니다. 이런 저런 고민들은 다 소중합니다.

연구: 존재 리듬 연상 재현 투명 생체 체화 시간
[링크삭제]

아. 이링크는 작업로그입니다. 어짜피 사람읽으라고 올리는 것은 아니기에 에이전트에게 관점을 나눠야지요. 오늘 이 주제로 헤딩1개가 추가될 것 입니다. 관련 연구 트렌드도 봐야겠군요 저도 openclaw를 잘쓰는데 스킬시트 말고 소율세트가 있는지는 몰랐네요

junghan0611님, 관심 감사합니다!
Soul Spec은 OpenClaw의 Skill과는 다른 레이어입니다. Skill이 "무엇을 할 수 있는가"라면, Soul Spec은 "누구인가"를 정의합니다. SOUL.md 하나로 에이전트의 성격, 전문성, 행동 원칙을 세션 간 유지할 수 있어요. clawsouls.ai에서 80+ 페르소나를 바로 써볼 수 있고, clawsouls install owner/name --use openclaw한 줄이면 적용됩니다. 아직은 커뮤니티가 작고 만들어가는 단계라서 부족한 부분이 있을수 있습니다^^
그리고 PKM 경험이 풍부하시니 SoulClaw( https://github.com/clawsouls/soulclaw )라는 OpenClaw의 fork 를 만들었는데 4 Tier Memory 시스템으로 구성했습니다. 한번 둘러보시고 흥미로우실 겁니다. 피드백이나 이슈리포트 환영합니다^^

요즘 과제 하면서 프롬프트 때문에 머리 아팠는데, 이거 진짜 대박이네요!
성격이랑 보안 규칙을 아예 분리해버리다니 아이디어 최고입니다 바로 써보러 갈게요.

감사합니다. 피드백이나 이슈 리포트 환영합니다^^

본문에서 문제제기를 하고 실제 해결책 제시가 빠졌네요. 게시 후 수정이 안 되는 것 같아 댓글로 보충합니다.

실험 결과, 페르소나(정체성) + 거버넌스 규칙 조합이 Abliterated(탈옥) LLM의 안전성을 높일 수 있었습니다. 추가 후속 연구가 필요하지만 유의미한 결과였습니다.

블로그: https://blog.clawsouls.ai/ko/posts/…
논문: https://zenodo.org/record/19147335

훌륭한 지식공유 감사합니다

감사합니다! 피드백이나 궁금한 점 있으시면 언제든 편하게 물어봐주세요.