趋势网 > 资讯 > 正文
版权归原作者所有 侵权敬请通知移除
摘要:语音识别就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
7岁女童3个月猛蹿4cm确诊性早熟
网友:发育了就直接描述特征,干嘛强调身高,3个月长4厘米不要太正常。
包头厂区爆 炸消防仍在现场持续救援
网友:避重就轻,救出5人,工厂有多少人啊?
印度疫情感染者死亡率超7成
网友:守好国门,不要重蹈覆辙啊,求求了。
男子一生病就吃抗生素生出超级细菌
网友:用药无度,短期见效,长期考虑伤害的还是自己。
男子1650元买羽绒服全是飞丝报警
网友:感谢这些较真的人。
盒马误送有毒水仙球致老人孩子中毒
网友:这俩的价格不一样,订单价格对不上怎么出库的?

趋势网(微博)讯:语音识别就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

以下为趋势网小编为网友整理的实现语音识别系统的各个方面的技术:

声学特征

声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。

由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析。这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响。

常用的一些声学特征包括:线性预测系数LPC、倒谱系数CEP、Mel倒谱系数MFCC和感知线性预测PLP。

声学模型

语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。声学模型技术包括:HMM声学建模和上下文相关建模。

语言模型

语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。

搜索

连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。

系统实现

语音识别系统选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。

自适应与鲁棒性

语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性,是要提高系统克服这些因素影响的能力,使系统在不同的应用环境、条件下性能稳定;自适应的目的,是根据不同的影响来源,自动地、有针对性地对系统进行调整,在使用中逐步提高性能。

解决办法按针对语音特征的方法(以下称特征方法)和模型调整的方法(以下称模型方法)分为两类。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上,加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关(SI)模型,从而使其成为说话人自适应(SA)模型。

趋势网记者编后语:读图时代已经要进化到语音时代,触屏应用也即将升级为穿戴应用。这些技术在实际使用中达到了较好的效果,但如何克服影响语音的各种因素还需要更深入地分析。

12306回应高铁车厢二氧化碳浓度超标
网友:我以为是因为我太懒了,上车就睡的可香了。
二楼直排粪水扬言弄死报警的一楼
网友:你只有比他更巅才治得了他。
夫妻俩吃网购娃娃菜中毒全身出血
网友:以后网购菜我再也不偷懒了要认真洗。
12306取消订单3次当日无法购票
网友:超过付款时间未付款算是取消了一次吗?
HR讽刺求职者本科学历不配双休
网友:双休不是福利,是职场应有的尊严。
多品牌紧急删除张雨绮相关代言内容
网友:你猜为什么品牌要紧急解约。
  感谢各大网址导航推荐本站: