新闻动态 > 公司新闻
远鉴斩获FG2025普通话视听语音识别挑战赛赛道冠军
2025/06/18
2025年5月,IEEE(电气和电子工程师协会)自动人脸和手势识别国际会议(IEEE International Conference on Automatic Face and Gesture Recognition 2025,FG2025)在美国佛罗里达州成功举办。远鉴在普通话视听语音识别挑战赛(Mandarin Audio-Visual Speech Recognition Challenge,MAVSR2025)赛道二中表现优异,提交的论文《Visual Keyword Spotting with Multi-Encoder for MAVSR 2025》获得第一名。
普通话视听语音识别挑战赛(MAVSR)赛道二第一名获奖证书
FG2025是人脸识别及手势识别领域极具权威性的旗舰会议,由IEEE主办,致力于为全球人脸识别与手势识别的研究人员提供一个高规格的交流平台。该会议议题广泛,包括基础计算机视觉、模式识别、计算机图形学的进展;与面部、手势和身体运动相关的机器学习技术;行为科学和情感计算中的新算法和应用。
推动VSR技术创新,应对复杂环境需求
近年来,计算机视觉领域的快速发展极大地推动了视觉语音识别技术(Visual Speech Recognition, VSR)的进步。视觉语音识别是一种通过分析说话者的面部动作、唇部运动、舌部姿态等视觉信息,实现语音内容理解的跨学科技术,不依赖于任何音频。VSR技术在公共安全、国家安全、辅助言语失能人士、活体检测等多领域具有广泛应用前景,当前许多研究主要集中在高质量数据集上,往往忽略了现实世界场景中诸多影响识别效果的关键因素,如低分辨率、大角度姿态、光线不足和图像模糊等实际挑战。
在此背景下,MAVSR2025通过设置低质量条件下的视觉语音识别(赛道一)和视觉关键词检测(赛道二)两个赛道,鼓励研究者探索在复杂、挑战性条件下拓展VSR技术的边界,促进更强大、更实用的解决方案。
聚焦实际场景,创新方案提升关键词检测准确率
远鉴参与赛道二提供的数据集包含多种分辨率、光照条件和姿势变化,包含不同的性别、年龄分布的说话人,全面模拟了实际环境中视觉语音数据在质量和清晰度上的显著差异。
针对实际应用场景中复杂多变的干扰因素,远鉴研究团队提出了创新解决方案。通过引入高效的视频增强方法,充分利用视觉关键词识别中稀缺的视频数据。同时,研究团队还尝试了三种不同的视觉编码器架构来探索最优的特征提取方法。采用模型融合策略进一步增强了模型性能。实验结果表明,所提解决方案的改进策略对视觉关键字检索效果有不同程度的提升。
MAVSR2025挑战赛的视频样例
远鉴在MAVSR2025挑战赛中提出的技术解决方案,以论文形式在FG2025 Competition进行了宣讲和分享。在视觉语音识别技术地深度应用上,远鉴已经落地多个创新性产品。以远鉴打造的多维智能锁为例,该门锁融合“声纹+人脸+动态密码”复合识别技术,通过分析用户面部特征、声纹、唇动等多维度信息来进行精确的身份识别,实现精准高效的身份认证。该门锁能够在300ms内完成1:10000人脸认证和1:1声纹核验,显著提高了门锁认证的准确性和使用体验。
未来,远鉴将持续拓展视觉语音识别技术的边界,不断优化算法鲁棒性与适用性,依托在人工智能技术领域的丰富实践能力,打造更有效、更实用的解决方案,赋能行业应用。
热门新闻
远鉴斩获IEEE SLT 2024三项竞赛冠亚军
喜报!远鉴信息斩获IEEE SLT 2024三个主题挑战赛竞赛荣誉:口吃事件检测和语音识别挑战赛第一名、歌声深度伪造检测挑战赛第一名,源说话人溯源挑战赛第二名。SLT 2024SLT(Spoken Language Technology)是由IEEE信号处理学会(IEEE Signal Processing Society)语音与语言处理…
远鉴斩获首届“金灵光杯”人工智能赛道一等奖
金灵光杯人工智能赛道一等奖!7月11日,首届“金灵光杯”中国互联网创新大赛颁奖典礼在京圆满收官。经过申报、初赛、决赛的激烈角逐和专家评委公正评审,远鉴信息《深度合成音视频生成与对抗鉴别应用研究》项目脱颖而出,斩获人工智能赛道一等奖。《深度合成音视频生成与…
储能安全新纪元丨全球首款储能多维生物识别安全解决方案上线!
前言据中电联数据显示,截至2023年6月底,全国电力安委会19家企业成员单位总计报送500kW/500kWh以上的各类电化学储能电站1024座、总功率27.22GW、总能量59.26GWh。储能作为促进新能源消纳的重要技术手段,是实现碳达峰、碳中和目标的关键。远鉴信息作为国内领先的人工智能…
远鉴信息2024开工动员大会召开!
一元复始,山河展新颜;蓄意待发,开启新征程。2月18日,远鉴信息2024开工动员大会在北京总部召开!远鉴信息董事长、执行总裁及部门以上负责人和全体员工齐聚一堂,共襄盛举。
新增专利授权13项!加速推动科技创新成果转化
2023年,远鉴成功共获得13项发明专利授权,涵盖语音、语言和图像处理等技术领域,涉及声纹识别、语音生成、音频鉴伪、语音评价、语音控制、自然语言处理、图像检测等智能处理技术。这彰显了公司在人工智能领域的持续创新,更凸显了公司对知识产权保护的重视。
国际竞赛 | 远鉴信息荣获ICASSP2024车载多通道语音识别挑战赛亚军
近日,ICASSP公布了车载多通道语音识别挑战赛(ICMC-ASR)排名结果。远鉴信息荣获亚军。
科研新高度!远鉴信息获准设立博士后科研工作站
近日,远鉴信息获准设为北京市博士后科研工作站园区分站。11月21日,北京市人力资源与社会保障局举办“新设站培训暨凝聚中国式现代化进程中的博士后力量推进会”,为远鉴信息等88家博士后科研工作站单位颁发牌匾。远鉴信息首席科学家郑榕博士出席并接受授牌。远鉴信息博士…
喜讯!远鉴信息荣获国家级专精特新“小巨人”企业称号
7月14日,北京市经济和信息化局发布了第五批专精特新“小巨人”企业公示名单,远鉴信息通过国家级“专精特新”小巨人企业认定,标志着公司在人工智能和信息安全领域创新技术实力和市场应用得到国家级认可。“专精特新”是指具有“专业化、精细化、特色化、新颖化”的“四…
语音生态多点布局!远鉴“谛听鉴音”系统与华为昇腾、昇思完成适配
导语:国家互联网信息办公室、工业和信息化部、公安部联合发布《互联网信息服务深度合成管理规定》,自2023年1月10日起施行。远鉴此次推出的语音深度鉴伪产品可满足伪造语音检测的安全需求。多年来,远鉴依托人工智能构建可信网络生态,在国家及社会需求的牵引下,在声纹…