▲LLaVA: Visual Instruction Tuning (llava-vl.github.io)6P by xguru 2023-04-22 | ★ favorite | 댓글과 토론 "LLaVA : Large Language and Vision Assistant" 범용적인 시각 및 언어 이해를 위해 비전 인코더와 Vicuna를 결합한 대규모 멀티 모달 모델 멀티모달 GPT-4 수준의 능력 및 과학 질문/답변에 있어서 SOTA 정확도를 추구 논문과 코드, 데모 공개 함께 보면 좋은 글 β Qwen3-VL 모델 공개 - 더 날카로운 시각, 더 깊은 사고, 더 넓은 실행 Llama.cpp 이제 비전 기능 지원 (멀티모달 입력) Ollama, 멀티모달 모델을 위한 새로운 엔진 발표 GLM-5 공개 : 복잡한 시스템 엔지니어링과 장기 에이전트 작업을 목표로 하는 모델 Qwen VLo - 세상을 '이해'하는 것에서 '묘사'하는 것으로 인증 이메일 클릭후 다시 체크박스를 눌러주세요