1、硕士及以上学历,计算机/人工智能/视觉相关专业,博士优先;
2、3年以上多模态大模型(VLLM)研发经验,有视频+音频多模态建模落地案例;
3、熟悉Transformer架构、多模态对齐、稀疏检索等技术,掌握PyTorch/TensorFlow;
4、有音频信号处理经验(如声学建模、噪声抑制),能设计视频-音频联合特征提取与融合策略
5、有模型压缩(量化/剪枝/蒸馏)及分布式训练实战经验;
6、跟踪CVPR/ICLR/NeurIPS等顶会进展,能独立开展多模态大模型创新研究;
7、具备视频行为识别、时空特征建模等算法设计能力,有顶会论文或开源贡献者优先;
8、能跨团队推动多模态技术在视频行为分析、真实场景理解等业务场景的落地
加分项:
1、有视频生成/编辑、具身智能或多语言多模态建模经验者优先;
2、具备将学术成果转化为工业级应用的能力,熟悉模型轻量化与嵌入式部署;
1、跟进VLLM预训练、SFT、RLHF等技术,探索视频行为理解、真实场景解析及音频-视频协同建模的应用;
2、研究多模态稀疏检索、稠密表征技术,解决视频中物体行为建模、场景语义关联及环境声音识别问题;
3、研发行为识别、动作预测算法,结合视频、音频等多源数据实现施工场景的精细化建模(如机械操作、人员活动);
4、设计跨模态特征融合策略(视频+音频),提升目标追踪、意图推断与上下文关联能力(如通过声音定位施工设备状态);
5、建立工地场景的环境声音建模能力,识别机械施工声(如打桩、切割)、异常噪声等,与视频中设备行为进行关联验证;
6、研究多模态时序对齐技术,解决视频帧与音频信号的同步问题,提升施工状态判定的准确性;
7、推动多模态模型压缩(量化、剪枝、蒸馏),优化视频+音频数据的联合特征编码与推理调度策略;
8、开发高效推理框架,提升高分辨率视频任务的实时性与吞吐量;
9、构建视频-音频-文本相关性标注与评测系统,支持行为描述生成与场景匹配评估;
10、研究多模态幻觉缓解技术(如跨模态一致性校验),提升模型输出的可信度与鲁棒性;
Copyright C 2020-2021 All Rights Reserved 版权所有 重庆两江新区人才发展集团有限公司
渝ICP备2021001278号-3
渝公网安备 50011202503459号
地址:重庆市渝北区龙兴镇田家湾(北京理工大学重庆创新中心22号楼) EMAIL:cqljhrzp@163.com
人力资源证: (渝)人服证字〔2017〕第3900000212号
Powered by 两江新区人才网