▲LLaMA-CPU - CPU에서 LLaMA를 실행하는 포크 (github.com/markasoftware)4P by xguru 2023-03-09 | ★ favorite | 댓글과 토론 메타의 LLaMA모델을 CPU에서 실행 설정은 거의 비슷 7B 모델로 테스트 했을때, 로딩하기 위해서는 32GiB램에서도 스왑/zram 을 필요로 함 실제로 추론할 때는 약 20GiB 이하의 램만 사용 Ryzen 7900X 에서 7B모델은 초당 몇 개의 단어 추론 가능 함께 보면 좋은 글 β Hypura – 애플 실리콘용 저장 계층 인식 LLM 추론 스케줄러 Z80-μLM, 40KB 안에 담긴 ‘대화형 AI’ ntransformer - 싱글 RTX 3090에서 Llama 3.1 70B를 실행하는 NVMe-to-GPU 추론 엔진 알리바바의 오픈소스 Qwen3.5-Medium 모델, 로컬에서 Sonnet 4.5 수준 성능 제공 iPhone 17 Pro에서 400B LLM 실행하기 인증 이메일 클릭후 다시 체크박스를 눌러주세요