语音识别,助力会议语音转写
2023-10-23 

通常会议记录的速度是慢于说话速度的,而对于大部分会议而言,会议记录内容是参与人员复盘和会议重点提炼的一手材料,尤其是对于大型讨论决策型会议,会议记录的内容准确性不言而喻。

在语音转写技术出现以前,会议记录高度依赖会议记录人员或书记员的精确录入,后期还需要进行大量词汇填充工作,繁琐且出错率高。

声菲特语音转写

科技是第一生产力,大数据应用的延伸和硬件系统的成本降低、性能的提升,反哺了人工智能所需要的原始训练资料,根据相关机构预测,中国语音识别的商用市场在2024年会达到接近300亿的收入规模,而GPU的使用量与训练速度也在成倍增长。随着越来越多的头部互联网厂商的布局和许多新兴玩家的加入,使得相应的应用产品愈发趋于成熟,开始走向大规模的商业化,而类似于会议记录困难这样的问题,自动实时语音转写录入技术的到来将会得到完美解决。

声菲特语音转写

Q1:语音识别技术是如何发展的?

主要有四个阶段。第一个阶段(模板匹配阶段)是上个世纪50到60年代,语音识别尚处在萌芽阶段,通过模板匹配的方式实现,这个阶段的特点是只能理解有限的词汇和内存中的数字,并不能将语音信号转化为完整的语句或者词汇,且对于不同的声音模型,机器的识别也极为有限。

第二个阶段(模式和特征分析阶段)是智能语音识别的起步阶段,时间点是上世纪70、80年代,这一阶段可以通过对声音进行设置特定的模式和参数,并基于大量词汇可以进行连续的语音识别。仍然处于研究和探索的阶段,这一阶段的成果主要出自于各高校和研究所。

第三个阶段(概率统计建模阶段)为成长阶段,此阶段研究算法主流为概率统计算法建模,主要模型为HHM隐马尔科夫模型和DMM高斯混合模型,这一阶段开始有了面向商用市场的初期产品。而神经网络模型也在这一时期稳定发展,DBN深度置信网络由HINTON在2006年提出,并频繁出现在语音识别领域,开始挑战主流的算法模型。

第四个阶段(深度神经网络阶段)也就是2010年至今,消费级产品越来越常见并且更加专业化,而主流算法模型开始转向为神经网络模型,语音识别作为AI交互的接口,应用的场景也更加多样巧妙。

声菲特语音转写

Q2:语音识别和语音转写有什么区别?

实际上这两种技术是包含关系,即语音转写技术是AI语音识别技术的一个分支。语音识别的研究对象是指以语音为研究对象,通过语言处理和模式识别让机器自动识别理解人类口述语言,进而转化成文本或者命令的技术。从中可以看出,语音识别是一门涉及广泛的技术,与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。而语音转写则是其中一种输出方式,最直接的就是转换成为可视化文本样式输出,即为语音转写技术,它包含了识别与转写两个流程。          

声菲特语音转写

Q3:语音识别目前存在的难点或者发展趋势是什么?

都可分为三点阐述,难点可归结为三个问题:1.更有效的序列到序列直接转换的模型。2.鸡尾酒会问题也就是远讲拾音识别。3.持续预测和自适应模型。这三个难点解决了,将会进一步提升语音识别的准确率和适用性与易用性。

发展的趋势,目前来看主要分为:强降噪发展、语音链路整合、多模态结合,这也是头部相关研究机构和企业的发展的大趋势所在。

Q4.市面上已有不少语音转写产品,主要以软件或者在线识别为主,离线和在线有何区别差异?

我们生活中其实已经在不知觉中接触了不少的语音转写产品,例如一些手机的输入法或者游戏中的语音翻译。但是可以看到,基于单个APP类的产品虽然适用终端非常广泛,但是识别率和适应性是不具备专业化要求的。更加严谨的场合需要更精确、鲁棒性更好的系统提供转写服务,如正式的新闻发布会,高频、长时间的转写出别字错字将会极大降低观感和体验。

以上是软件端的局限性,由于设备和适用环境的不同,对本身的产品性能要求并不高。而要求更严格的会议场景通常会适用专业会议设备配套语音转写系统去完成转写记录任务,这也有区别,目前主流的方式是私有云和公有云识别服务。这两者的异同也较大,在线(公有云)优势在于:消费者使用方便,不限制命令词,厂商开发方便,市场方案很多选择,BAT巨头都有参与布局,提供接口可任意定制。但是它的劣势也比较明显:需要联网,对接云端,这对信息保密要求高的企业或者单位个人都是不便的。响应速度慢,成本高。一般都是以并发时长或者引擎能力(中英文、角色区分)或者调用次数收费,虽然初期成本投入较低,长期使用则不然。

离线(私有云)的优势在于:响应速度快,一般在几百毫秒内,可快速响应对应命令词指令。即是识别系统故障也不会影响其他系统的使用,由于使用的私有服务器也不用担心数据外泄,且对工程师而言,小模块画板更便捷。当然这种形式的产品也有一定局限,如词条限制,这和服务器容量与模型训练能力有关。

声菲特语音转写

Q5:目前语音转写技术主要运用在哪些场合?

语音转写其实从字面上也很好理解其应用场景和范围,常见的需要做会议记录的会议室或者演讲报告厅、新闻发布需要实时转写字幕投屏的场景,都能用上语音转写技术,比如声菲特智能语音转写系统,配合声菲特手拉手系统或及数字音频处理器系统,可实现各类型会议室的智能化会议记录和会议纪要输出,各类型保密单位,即听即所见,可广泛运用于报告演讲、活动交流、新闻发布中的字幕投屏。更加专业化的场景还包括了医疗方面的识别,如病历录入和特殊诊断病情沟通(如双耳失聪患者),公检法机构相关的有庭审记录,目前国内在此方面案例已经较为成熟。监狱系统里的审讯室等等。民用方面还有不少新兴场景和系统也正在整合语音转写技术,它真正的潜力还未完全展露出来。

Q6:声菲特语音转写系统的特点和构成是怎样的?

声菲特智能语音转写系统Cuckcoo使用场景是培训会议、重要会议投屏和庭审会议记录、判决记录等需要实时转写或者语音识别投屏的场合,但是由于它还具备特殊的离线转写并发流,因此也支持上传录音生成文本并导出的使用方法。这对于安装了该系统的单位和企业来说,无疑是拓展了一项使用方式,即是是来不及搭建系统的环境,只要录音保存而后通过声菲特转写系统的处理也能生成对应的会议记录文件,极大方便了相关人员的整理工作。

主要特点是:1.安全:本地离线引擎,保证数据安全。2.精准:转写在标准普通话语音识别和转写准确率平均可达 98%以上,识别速度<200ms,大大缩短人工记录时间,支持语气词过滤,提高转写结果可读性。3.网线连接,易于部署,接口齐全,功能丰富,交互友好,支持音频播放音字对照,方便用户快速校正,提取会议纪要,实现便捷会议录音管理。4.灵活:支持热词优化、敏感词约定,提升特定行业词汇识别率。

声菲特语音转写

系统构成拓扑图:

声菲特语音转写

Copyright © 深圳市声菲特科技技术有限公司    粤ICP备15014534号

粤公网安备 44030602004268号