趋势网(微博|微信)讯: 想象一下如果你的房子周围的事情可以根据你的声音做出反应:对着烟雾报警器怒吼、跟踪每个人穿过房子的痕迹、大门通过识别你的声音自动开启、甚至识别自己的情绪。这些能力都是微软正准备在“Oxford”项目中添加的,去年5月在微软的建设会议上公司介绍了一些具有云计算学习能力的全新机器。
南昌通报李宜雪已被送诊 突发:美军战斗机被击落 小米SU7坠崖一家四口安然无恙
去年媒体曾深入研究了在“Oxford”项目中第一次提出的云计算学习能力业务。这些业务完成了一系列的图像处理和识别任务并且具备语音合成和语音识别的能力,甚至可以将人类的自然语言转换成机器可以执行的应用程序。这一技术和微软在个人智能助理Cortana以及语音翻译软件Skype Translator中使用的技术是一样的,它可以识别六种语音的通话(以及50种语言的文字信息)。前天,微软介绍了专门为5月举办的Movember基金会设计的人脸识别软件API的一个更新:面部毛发识别API。更新后,软件可以识别胡子的生长速度并以百分比的形式记录下来(就像在胡子上添加了一个“小胡子”标签一样)。
这项全新的业务和RESTful接口额外添加声音、文本信息以及图片一样,包含了一系列用于处理视频内容的人工智能服务。今天介绍的新接口是微软在伦敦举办的未来解码会议上提出的,介绍人是微软剑桥研究院的负责人Chris Bishop。技术和研究部门的高级项目经理Ryan Galgon昨天介绍了该产品所具有的一些功能:
1、情感识别:这一基于Azure服务可以看做是一套新的公共测试服务的一部分,能够像“Oxford”项目中其他的人脸识别软件一样处理图片。测试中的面部图像描绘了各种各样的人类情感,它可以将面部图像分类。这一服务既可以使用图像的源数据识别测试者是否十分快乐或十分悲伤,也可以从人们对特定事件的反应、表现中收集数据。
2、拼写检查:基于网络API的拼写检查器可以应用到任何移动应用或者云应用中,它不仅可以识别拼写错误但还可以识别大小写、语境和其他的拼写错误。Ryan Galgon说由于处在云端的关系,拼写检查器从来不会被更新,但还是可以根据拼写中出现的错误提出建议。例如拼写检查器会把“lyft”识别为是“lift”的错误拼写,它还可以根据语境判断单词是否使用正确以及自动大小写。
3、视频处理:基于技术开发的微软的Hyperlapse视频处理工具,“Oxford”项目的测试工作将会在今年年底之前结束。它可以在处理大量的视频的同时识别每张独特的脸并记录下来,它还可以检测视频中人或对象本身的移动。拥有了这些能力,机器不仅可以运用算法得出参数并退出程序,还可以在摄像机移动的过程中保存图像的稳定。
4、说话人识别:“Oxford”项目已经可以相当熟练地把视屏转换成文本信息,但是全新的产品(也将在今年年底前测试完毕)可以识别说话人的身份。Ryan Galgon指出说话人识别不是为了替代身份验证工具,而是识别说话人的变化从而避免了多余的验证程序。对于不需要十分安全的应用程序,它可以用来进行身份验证。例如,验证说话人是在一次电话会议上还是在演讲中或是处于视频中。
5、自定义智能识别服务(CRIS):一个已经开始测试的工具,CRIS允许开发人员设计具有对话识别的应用程序,不论他们想知道对话的地点还是对话的双方。Ryan Galgon说一个基于CRIS的应用程序可以用来识别对话地点是否在体育馆的书报亭中,一个巨大的混凝土空间和欢呼球迷的背景噪音使得普通的语音识别程序很难操作。它还可以将一个五岁孩子的演讲正确地转换为文本信息即使在教师的环境内。
除了面部毛发特征,微软还打算调整“Oxford”项目中的人脸识别API。性别以及年龄的识别技术需要得到改善,此外微软还打算增加“微笑预测”功能。
这事应该躺在床上的时候就报警,过后再报,就会让人想多了。