1.算子计算优化:聚焦模型核心计算算子的性能攻坚,通过算子逻辑重构、计算图融合、数值精度调优(FP16/BF16/INT8 等量化策略)、稀疏计算加速等技术,降低计算复杂度、提升硬件算力利用率,解决计算瓶颈。
2.CUDA 到国产芯片迁移适配:主导CUDA计算逻辑向国产算力芯片(如华为昇腾Ascend、瑞芯微等)的迁移,基于国产芯片架构(如达芬奇架构)与编程接口(如Ascend CL)重构算子实现,解决内存模型、同步机制等兼容性问题,确保功能一致与性能领先。
3.推理引擎优化与应用:深入优化开源或国产推理引擎性能,探索内存访问优化、Kernel融合、并行调度等加速技术,建立典型模型(如LLaMA、ViT系列)在目标硬件上的性能基准(Benchmark),推动优化方案在业务中落地。
4.跨团队技术协同:与算法团队紧密合作,解析模型计算特性,针对性设计优化方案;协同硬件团队理解芯片底层架构,推动算子与硬件特性的深度匹配,加速技术方案工程化。




取消收藏
收藏
举报
分享

