職位描述

職位描述:參與內部異構大模型推理引擎優化,支持大模型推理各種優化技術在異構硬件上的落地。包括但不限于:
1、參與日常推理引擎的優化開發,不斷優化大模型業務在對應硬件上的TTFT、TPOT等指標;關注業界最佳實踐,能將業界最佳實踐落地到內部的引擎優化中;
2、完成各種大模型推理所需的功能性開發任務;
3、參與支持日常的大模型推理服務部署,參與內部日常提效工具的研發。
任職要求:1、有扎實的C 工程基礎;
2、有大模型相關訓練或推理優化經驗;有vLLM、TensorRT-LLM、MLC-LLM 等框架之一的實踐經驗;熟悉LLM infer 相關技術棧,熟悉TP/PP/DP等分布式通信原理等;
3、熟悉CUDA 或 ROCM,熟悉Nsight System/ Nsight Compute 工具的使用,有 GPU 或 ASIC 高性能算子開發經驗;
4、了解AI infra 整體技術棧需求,有訓練框架或推理框架實戰經驗、熟悉TensorRT、TVM 等框架的使用、有二次開發能力或開源社區貢獻經歷更佳。
工作地點
地址:北京海淀區北京-海淀區上地西路6號快手總部


職位發布者
HR
北京快手科技有限公司


-
計算機軟件
-
1000人以上
-
私營·民營企業
-
北京市海淀區上地西路6號1幢1層101 D1-10