▲FlexGen - ChatGPT 같은 LLM을 싱글 GPU에서 운영하기 (github.com/FMInference)14P by xguru 2023-02-22 | ★ favorite | 댓글과 토론 16GB T4 / 24GB RTX3090 같은 제한된 GPU 환경에서 LLM을 운영하는 고성능 생성 엔진 약 100배까지 엄청 빠른 오프로딩으로 175B 모델을 싱글 GPU에서 운영 가능 파라미터와 어텐션 캐쉬를 최대한 압축(정확도 손실이 거의 없는 4비트까지 낮춤) 분산 병렬 런타임으로 GPU 추가시에 쉽게 확장 가능 함께 보면 좋은 글 β OpenUI - 생성형 UI를 위한 오픈 표준 프레임워크 ntransformer - 싱글 RTX 3090에서 Llama 3.1 70B를 실행하는 NVMe-to-GPU 추론 엔진 ChatGPT Pro에서 GPT-5.4 컨텍스트 1M을 제대로 쓰려면 설정이 필요 Walmart: ChatGPT 결제 전환율, 웹사이트의 1/3 수준 Ask HN: 소비자용 하드웨어에서 사용할 수 있는 최고의 LLM은 뭔가요? 인증 이메일 클릭후 다시 체크박스를 눌러주세요