GeekNews 최신글 댓글 예전글 Ask Show GN⁺ Weekly | 글등록

로그인

CUDA ~100줄로 Flash Attention 구현하기

(github.com/tspeterkim)

2P by tspeterkim 2024-04-12 | ★ favorite | 댓글과 토론

함께 보면 좋은 글 β

Fp8 커널 이름에 "cutlass"를 넣으면 약 100TFLOPS 빨라짐
AutoKernel: GPU 커널 자동 연구 시스템
Stanford CRFM: AI로 생성된 CUDA 커널, PyTorch 최적화 코드 성능을 넘다
BarraCUDA - AMD GPU용 오픈소스 CUDA 컴파일러
NVIDIA, CUDA에 드디어 네이티브 Python 지원 추가

인증 이메일 클릭후 다시 체크박스를 눌러주세요

처음 오셨나요 사이트 이용법 FAQ About 이용약관 개인정보 처리방침 | Blog Lists RSS | Bookmarklet

X (Twitter) Facebook | 긱뉴스봇 : Slack 잔디 Discord Teams Dooray! Google Chat Swit

시작하기 이용법 FAQ About 약관 개인정보

Lists Blog RSS X 긱뉴스봇

검색