▲Llama.cpp 의 모델 가중치 로딩 속도를 10~100배 개선 (github.com/ggerganov)13P by xguru 2023-04-03 | ★ favorite | 댓글 1개 파일 포맷 변경으로 read() 없이 mmap() 가능해져서 가중치 로딩 속도가 10~100배 빨라짐 싱글 파일인 7B 및 멀티 파일인 13B 등도 지원해졌고, 로딩 코드가 훨씬 심플해짐 또한, 이 변경으로 인해 텐서들이 32바이트 경계에서 정렬이 되어, 특정 프로세서에서 추가적인 성능향상을 기대해 볼수 있게 됨 함께 보면 좋은 글 β Hypura – 애플 실리콘용 저장 계층 인식 LLM 추론 스케줄러 Llama.cpp 이제 비전 기능 지원 (멀티모달 입력) GGML·llama.cpp, Hugging Face 합류 ntransformer - 싱글 RTX 3090에서 Llama 3.1 70B를 실행하는 NVMe-to-GPU 추론 엔진 Automerge 3.0 릴리즈 인증 이메일 클릭후 다시 체크박스를 눌러주세요 ▲xguru 2023-04-03 [-]LLaMA - Meta가 공개한 65b 파라미터 LLM llama.cpp - 페이스북의 LLaMA 모델을 순수 C/C++로 추론하기 답변달기