趋势网 > 资讯 > 正文
版权归原作者所有 侵权敬请通知移除
摘要:语音识别就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
伊朗警告日本
网友:那你可得瞄准了,离那么远,它又那么小。
贵州赫章交通事故致学生2死11伤
网友:今天是周一,是这周上学的第一天,学生本来开开心心出门去学校,却发生交通事故,有两个学生再也回不了家了,他们的父母真的天塌了。
胡塞伊朗黎巴嫩同步袭击以色列
网友:中东局势又添变数,希望和平的曙光能早日到来。
伊朗伊斯兰革命卫队发言人身亡
网友:记得前几天还说过,每一个伊朗人愿意献出自己的生命,不怕死,还没说几天呢这就…
伊朗新最高领袖妻儿在空袭中丧生
网友:被灭门了,这得不死不休吧...国仇家恨...
健身房倒闭教练自费上完877节课
网友:这样的教练,将来他自己开健身房,会有大量老顾客来光顾。

趋势网(微博)讯:语音识别就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

以下为趋势网小编为网友整理的实现语音识别系统的各个方面的技术:

声学特征

声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。

由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析。这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响。

常用的一些声学特征包括:线性预测系数LPC、倒谱系数CEP、Mel倒谱系数MFCC和感知线性预测PLP。

声学模型

语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。声学模型技术包括:HMM声学建模和上下文相关建模。

语言模型

语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。

搜索

连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。

系统实现

语音识别系统选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。

自适应与鲁棒性

语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性,是要提高系统克服这些因素影响的能力,使系统在不同的应用环境、条件下性能稳定;自适应的目的,是根据不同的影响来源,自动地、有针对性地对系统进行调整,在使用中逐步提高性能。

解决办法按针对语音特征的方法(以下称特征方法)和模型调整的方法(以下称模型方法)分为两类。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上,加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关(SI)模型,从而使其成为说话人自适应(SA)模型。

趋势网记者编后语:读图时代已经要进化到语音时代,触屏应用也即将升级为穿戴应用。这些技术在实际使用中达到了较好的效果,但如何克服影响语音的各种因素还需要更深入地分析。

猥亵女孩民警曾被吸毒者刺伤耽误婚期
网友:功是功,过是过,功过不能相抵,付出的牺牲不是后来犯事的理由。
伊朗革命卫队称霍尔木兹海峡关闭
网友:多头空头谁厉害都无所谓了,你们打架我买单。
强闯我驻日使馆不法之徒长相公开
网友:非法入侵建筑物那么轻飘飘的罪名?
一家四口感染HIV妻子小儿子去世
网友:没有买卖就没有伤害的另类案例。
给准儿媳18万8创业分手索要被拒
网友:合伙创业不给 10 万不给 20 万,给你十八万八。
梅姨被逮捕
网友:大快人心,童年阴影的终结。
  感谢各大网址导航推荐本站: