1.负责大模型评测工具链与中台系统的整体架构与研发,覆盖大语言模型、多模态模型及智能体等;
2.主导评测体系的工程技术演进,持续集成前沿评测方法与社区最新成果,构建高效、可扩展、自动化的评测基础设施;
3.针对内部研发需求持续支持各类评测基准,保障评测能力上线的质量与时效性;
4.深度参与内部大模型研发流程,通过量化分析诊断模型短板,与算法团队紧密协作推动模型能力持续提升;
5.计算机、人工智能、数学或相关专业硕士及以上学历,扎实的算法基础与工程实现能力,熟悉 Python,具备大规模系统开发经验。




取消收藏
收藏
举报
分享

