▲CUDA ~100줄로 Flash Attention 구현하기 (github.com/tspeterkim)2P by tspeterkim 2024-04-12 | ★ favorite | 댓글과 토론 함께 보면 좋은 글 β Fp8 커널 이름에 "cutlass"를 넣으면 약 100TFLOPS 빨라짐 AutoKernel: GPU 커널 자동 연구 시스템 Stanford CRFM: AI로 생성된 CUDA 커널, PyTorch 최적화 코드 성능을 넘다 BarraCUDA - AMD GPU용 오픈소스 CUDA 컴파일러 NVIDIA, CUDA에 드디어 네이티브 Python 지원 추가 인증 이메일 클릭후 다시 체크박스를 눌러주세요