“我要买一张去人民广场吃炸鸡的票。”
今日云栖大会上海峰会,现场大屏幕上,一位身着阿里云T恤的美女正在上海地铁站购票,话音刚落,自动售票机屏幕上就跳出了支付二维码,从开口、扫码到取票,整个过程仅耗时十几秒。
现场观众情绪稳定。去年底,上海申通地铁与阿里巴巴合作时,就曾演示过这项语音购票技术,不久前的云栖大会武汉峰会上,在AI收银员与真人店员的PK中,机器更是在嘈杂环境下准确识别了用户的语音点单,在短短49秒内点了34杯咖啡,大家见怪不怪了。
可是演示仍在继续,这次工作人员没有报具体站名,而是说“我要去一大会址参观”,售票机自动匹配了距离最近的黄陂南路站,其余购票步骤一致。现场一片哗然,上海朋友比较激动,上海是全球首家将人工智能引入城市轨道交通的城市。
无需唤醒词,在嘈杂环境中也能实现精准交互,还能识别语义。自动售票机和AI收银员的背后,都有一项叫做语音识别的核心技术,来自阿里巴巴达摩院机器智能实验室语音识别团队。他们推出的新一代语音识别模型——DFSMN,不仅被谷歌等国外巨头在论文中重点引用,更将全球语音识别准确率纪录提高至96.04%(基于世界最大的免费语音识别数据库LibriSpeech),刚刚宣布开源。
对比目前业界使用最为广泛的LSTM模型,DFSMN模型训练速度更快、识别准确率更高。采用全新DFSMN模型的智能音响或智能家居设备,相比前代技术深度学习训练速度提到了3倍,语音识别速度提高了2倍。
著名语音识别专家,西北工业大学教授谢磊表示:“阿里此次开源的DFSMN模型,在语音识别准确率上的稳定提升是突破性的。是近年来深度学习在语音识别领域最具代表性的成果之一。对全球学术界和AI技术应用都有巨大影响。”
语音识别是人机交互中的核心技术,在智能音响、智能家居、机器人及自动驾驶等领域都有广泛应用。
阿里云总裁胡晓明宣布,在上海的创新和尝试将在全世界推开,“我们希望未来不只是可以买票,还可以通过人脸直接进出地铁站。”