
Python
多数得手写CUDA Kernel的情况,都能先利用triton搞出一个版本来当作保底成绩。虽然triton编写的版本和CUDA编写的极致优化版本通常存在差距,不过triton的人力成本更低,维护起来也更轻松些。建议通过lightllm这个项目来学习LLM相关的Triton知识,lightllm是一个纯
Python的LLM推理服务框架,它运用Triton实现了各类LLM所需的layer。
AIn/lightllm/models/llama/triton_kernel/__init__.py">https://github.com/ModelTC/lightllm/blob/m
AIn/lightllm/models/llama/triton_kernel/__init__.py