LLaVA: Visual Instruction Tuning

xguru · 2023-04-22T10:32:01+09:00

"LLaVA : Large Language and Vision Assistant" 범용적인 시각 및 언어 이해를 위해 비전 인코더와 Vicuna를 결합한 대규모 멀티 모달 모델 멀티모달 GPT-4 수준의 능력 및 과학 질문/답변에 있어서 SOTA 정확도를 추구 논문과 코드, 데모 공개

(llava-vl.github.io)

6P by xguru 2023-04-22 | ★ favorite | 댓글과 토론

"LLaVA : Large Language and Vision Assistant"
범용적인 시각 및 언어 이해를 위해 비전 인코더와 Vicuna를 결합한 대규모 멀티 모달 모델
멀티모달 GPT-4 수준의 능력 및 과학 질문/답변에 있어서 SOTA 정확도를 추구
논문과 코드, 데모 공개

LLaVA: Visual Instruction Tuning

함께 보면 좋은 글 β