新闻动态 > 公司新闻
双赛道第一,远鉴在Interspeech 2025上获多项荣誉
2025/08/27
2025年8月17-21日,国际语音领域顶级盛会Interspeech 2025在荷兰鹿特丹隆重举行。Interspeech是由国际语音通讯协会(ISCA)组织的语音研究领域顶级国际会议,也是全球规模最大、涵盖范围最全面的口语语言处理科学与技术会议。本届会议以“公平与包容的语音科学与技术”为主题,内容涵盖语音识别、语音合成、语音编码、语音增强、自然语言处理等多个领域。
Interspeech 2025在荷兰鹿特丹召开
远鉴三篇论文被大会录用发表,特别在Multimodal Information Based Speech Processing (MISP) 2025 Challenge中脱颖而出,荣获赛道2(AVSR:音视频语音识别)和赛道3(AVDR:音视频分离与识别)双冠佳绩,并在会议期间完成口头报告。
Interspeech2025 MISP挑战赛Track2和Track3第一名证书
远鉴研究人员进行技术分享
MISP 2025挑战赛作为Interspeech的重要赛事,聚焦多模态会议转录,旨在通过引入额外的模态信息(如视觉),推动语音处理技术的前沿发展。远鉴团队在音频及多模态领域持续深耕,入选论文围绕重叠语音自适应混合分离、语音情感识别、口吃语音识别与事件检测等关键技术展开创新研究。相关成果已深度集成于远鉴核心产品中。
针对MISP 2025挑战赛,远鉴提出了一整套高效且创新的解决方案。在语音分离方面,采用结合WavLM端到端分割与传统多模块聚类的混合方法,能够自适应处理不同程度的语音重叠;在自动语音识别(ASR)方面,创新性地提出基于ASR感知的观察添加方法,有效弥补了低信噪比下引导源分离(GSS)的性能局限。通过以上提出的创新性方法,远鉴在赛道2和赛道3中均排名第一,充分彰显了该方案在真实会议场景下的卓越性能与技术领先优势。
提出的重叠自适应混合说话人分离与ASR感知观测添加系统流程
提出的基于ASR感知的观察添加系统流程
在处理语音情感识别任务时,远鉴针对自然场景语音情感识别场景提出了一种创新性解决方案。传统单任务模型在复杂环境下性能受限,而融合多任务学习与协同注意力机制的技术路径,展现出巨大的潜力。
远鉴所提出的多任务学习(MTL)方案结合了情感识别、性别分类、说话人验证和语音识别任务。该方案通过一种协作注意力机制,动态建模情感任务与辅助任务特征之间的交互,实现上下文感知的特征动态融合。此外,为应对少数类别样本识别困难以及语义相似样本难以区分的挑战,引入了一种加权焦点-对比学习损失函数,有效缓解了类别不平衡和语义混淆问题。
实验结果表明,远鉴所提出的方案显著提升了情感识别性能。
提出的多任务学习(MTL)方法的网络结构
口吃是一种影响全球超8000万人的复杂神经发育障碍,其特有的言语重复、语音阻塞(阻塞音)和音节拖长(拖音)等症状,使得传统自动语音识别(ASR)技术在处理口吃语音时性能显著下降,严重制约了其在言语康复评估、辅助沟通等关键场景的应用。
针对这一长期存在的技术难题,我们提出了一种由大语言模型(LLM)驱动的ASR-SED多任务学习框架。该框架通过动态交互机制,利用ASR分支生成的CTC软提示来辅助LLM的上下文建模,同时通过SED分支输出口吃嵌入来增强LLM对口吃语音的理解。结合对比学习和Focal Loss的混合优化策略,该技术在普通话口吃语音场景下,成功实现了ASR与SED性能的双重突破,为言语康复等应用提供了坚实的技术支撑。
在权威的AS-70普通话口吃语音数据集上,本框架取得了业界领先的性能表现。
大语言模型驱动的ASR-SED多任务学习框架(左);SED分支架构(右)
远鉴在Interspeech 2025发表多篇论文,并在MISP 2025挑战赛上斩获双赛道第一,不仅是对公司科研实力的国际认可,更彰显了远鉴在语音技术前沿探索中的领先实力。未来,远鉴将持续深耕多模态语音处理技术,以创新为驱动,不断突破复杂场景下的语音理解与交互瓶颈,推动语音人工智能向更精准、更智能的方向发展。
热门新闻
远鉴在BME2025分享声学AI在医疗健康领域的新洞察
6月20-23日,2025中国生物医学工程大会暨创新医疗峰会(BME2025)在苏州金鸡湖国际会展中心盛大召开。远鉴总裁伭剑辉博士受邀出席大会,并在“心血管创新医疗器械转化论坛”发表了《声学AI诊断在医疗健康领域的潜力与实践》主题演讲,分享了远鉴在医疗健康领域的最新研究…
远鉴斩获IEEE SLT 2024三项竞赛冠亚军
喜报!远鉴信息斩获IEEE SLT 2024三个主题挑战赛竞赛荣誉:口吃事件检测和语音识别挑战赛第一名、歌声深度伪造检测挑战赛第一名,源说话人溯源挑战赛第二名。SLT 2024SLT(Spoken Language Technology)是由IEEE信号处理学会(IEEE Signal Processing Society)语音与语言处理…
远鉴斩获首届“金灵光杯”人工智能赛道一等奖
金灵光杯人工智能赛道一等奖!7月11日,首届“金灵光杯”中国互联网创新大赛颁奖典礼在京圆满收官。经过申报、初赛、决赛的激烈角逐和专家评委公正评审,远鉴信息《深度合成音视频生成与对抗鉴别应用研究》项目脱颖而出,斩获人工智能赛道一等奖。《深度合成音视频生成与…
储能安全新纪元丨全球首款储能多维生物识别安全解决方案上线!
前言据中电联数据显示,截至2023年6月底,全国电力安委会19家企业成员单位总计报送500kW/500kWh以上的各类电化学储能电站1024座、总功率27.22GW、总能量59.26GWh。储能作为促进新能源消纳的重要技术手段,是实现碳达峰、碳中和目标的关键。远鉴信息作为国内领先的人工智能…
远鉴信息2024开工动员大会召开!
一元复始,山河展新颜;蓄意待发,开启新征程。2月18日,远鉴信息2024开工动员大会在北京总部召开!远鉴信息董事长、执行总裁及部门以上负责人和全体员工齐聚一堂,共襄盛举。
新增专利授权13项!加速推动科技创新成果转化
2023年,远鉴成功共获得13项发明专利授权,涵盖语音、语言和图像处理等技术领域,涉及声纹识别、语音生成、音频鉴伪、语音评价、语音控制、自然语言处理、图像检测等智能处理技术。这彰显了公司在人工智能领域的持续创新,更凸显了公司对知识产权保护的重视。
国际竞赛 | 远鉴信息荣获ICASSP2024车载多通道语音识别挑战赛亚军
近日,ICASSP公布了车载多通道语音识别挑战赛(ICMC-ASR)排名结果。远鉴信息荣获亚军。
科研新高度!远鉴信息获准设立博士后科研工作站
近日,远鉴信息获准设为北京市博士后科研工作站园区分站。11月21日,北京市人力资源与社会保障局举办“新设站培训暨凝聚中国式现代化进程中的博士后力量推进会”,为远鉴信息等88家博士后科研工作站单位颁发牌匾。远鉴信息首席科学家郑榕博士出席并接受授牌。远鉴信息博士…
喜讯!远鉴信息荣获国家级专精特新“小巨人”企业称号
7月14日,北京市经济和信息化局发布了第五批专精特新“小巨人”企业公示名单,远鉴信息通过国家级“专精特新”小巨人企业认定,标志着公司在人工智能和信息安全领域创新技术实力和市场应用得到国家级认可。“专精特新”是指具有“专业化、精细化、特色化、新颖化”的“四…
语音生态多点布局!远鉴“谛听鉴音”系统与华为昇腾、昇思完成适配
导语:国家互联网信息办公室、工业和信息化部、公安部联合发布《互联网信息服务深度合成管理规定》,自2023年1月10日起施行。远鉴此次推出的语音深度鉴伪产品可满足伪造语音检测的安全需求。多年来,远鉴依托人工智能构建可信网络生态,在国家及社会需求的牵引下,在声纹…