王海 来莎莎
北京时间5月7日上午,谷歌在第11届GoogleI/O大会上发布了10英寸带屏音箱NestHubMax,售价229美元,这也是自Nest并入谷歌后双方共同打造的第一款产品。
虽然还有不少人质疑带屏智能音箱是鸡肋产品,不过与纯语音交互相比,带屏幕的互动更直观。目前,互联网巨头包括亚马逊、谷歌、Facebook和百度等都推出了带屏智能音箱,将智能音箱作为入口,提供自己原有的服务。
市场调研机构StrategyAnalytics的最新研究显示,智能音箱是2018年最热门的消费电子产品。2018年第四季度的出货量增长了95%,达到3850万台,超过了2017年的总量。其中,带屏智能音箱占智能音箱的总出货量需求的10%以上。
StrategyAnalytics总监华特金斯(DavidWatkins)评论道:“谷歌的HomeHub、亚马逊的EchoShow和百度的小度在家等带屏智能音箱受到消费者的欢迎,他们被音视频结合吸引。与仅有语音交互而言,带屏智能音箱使用场景更多。预计到2019年,带屏智能音箱将成为市场增长的重要推动力。”
创新落地的载体
“天猫精灵,今天北京天气如何?”“今天北京天气晴,12℃~28℃,空气指数30。”
拥有天猫精灵音箱的小伙伴对于上述对话一定不会陌生。天猫精灵体现的是对话式人工智能,整个人机交互过程可分为唤醒、识别、理解、反馈四个环节。
“今天北京天气如何?”这段语音能够通过语音识别转换成文字,提取“今天”、“北京”、“天气”等关键词,通过背后的天气预报网站将数据调取出来;从天气预报网站调取出来的数据组装成自然语音,就是语音合成,即“今天北京天气晴,12℃~28℃,空气指数30。”
“之所以加入阿里巴巴,主要是自己更偏向于技术落地的工作。”天猫精灵语音技术负责人聂再清在接受第一财经记者采访时表示,此前在微软亚洲研究院工作时带领的研究项目(人立方、微软学术搜索、LUIS)就比较偏创新和实际技术落地的结合。
加入阿里巴巴人工智能实验后,让他感受最强烈的是这里创新落地的速度,以及前沿技术与产品配合的紧密程度。自2017年10月9日加入阿里巴巴以来,聂再清就一直负责天猫精灵语音助手算法的研发工作。
阿里巴巴人工智能实验室并不是一个纯研究部门,它与业务和商业是紧密相关的,即使是前沿技术研发也是为未来的业务与商业研发。这意味着,实验室除了学术以外,还有自己的产品以及商业逻辑。
以连续对话能力为例,很多用户都表示过每次和天猫精灵说话前都要叫一次“天猫精灵”有点累,能不能实现一个功能使得用户在短时间内和天猫精灵的多次交互只需唤醒天猫精灵一次?要实现这个连续对话能力的最大的技术挑战是能够区分用户的哪些话是对天猫精灵说的,哪些话不是。为了识别用户对天猫精灵说的话这里有两类信息可用:用户说的语义内容和用户声音的强弱、停顿、方向等声学特征。
天猫精灵的语音语义科学家们经过多次脑暴,一起独创了融合语音和语义特征的混合神经网络,融入了长短期记忆网络(LSTM),卷积网络(CNN)和注意力机制(Attention),并结合预训练的语言模型,通过海量数据的训练,深度网络自主学习到人机对话提取的能力。最终,在让用户能够享受到便捷的连续交互的同时,实现了业界最低的误打扰率。聂再清透露,目前已经有超过一百万用户主动打开这个功能,成为语音交互一种新的对话模式。
不过,每个人的兴趣爱好不同,一个家庭中多个成员共用一个天猫精灵,此前就存在天猫精灵将父母喜欢的歌曲推荐给女儿的情形。
聂再清表示,声纹算法科学家和个性化推荐科学家一起提出了一种不依赖于声纹注册的开创性的解决方案:把语音指令的声学特征在我们的个性化推荐深度学习模型(Transformer)中直接使用,创造性地解决了声纹注册率低和声纹聚类不准导致的语音助手多人混用的个性化推荐技术难题。大众盲评的用户调研数据显示,加入声纹后大大降低了歌曲推荐的兴趣混乱程度,有效地解决了多人混用的推荐难题,用户的人均时长提升10%。
不再是单纯的硬件战争
智能音箱的战争不再是单纯的硬件战争,更多场景的升级和创新功能的加入或许是更加重要的一环。数字中国峰会现场,百度CEO李彦宏称,以智能音箱为代表的智能家居,可以说是AI时代搜索的新入口,它让人们用更自然的方式和机器进行交互,也是家庭里面的信息服务的入口。
从某个角度上来说,智能音箱甚至强调的功能也不仅仅是音箱的基础功能了。比如,相较于普通智能音箱,带屏音箱一般增加了屏幕和摄像头。因此,不仅可以实现智能音箱原有的播放音乐、查看天气和新闻、控制智能家居产品等功能,还可以进行视频观看、视频通话功能,甚至集成安防功能。
与谷歌上款带屏音箱HomeHub相比,NestHubMax还增加了广角的智能摄像头,并且增大了屏幕尺寸。NestHubMax能实现在线观看视频、家居控制、拍照、安全监控和视频通话等功能。谷歌称,NestHubMax特别为家庭和朋友聚会中的共享场所而设计。
此次发布的NestHubMax还增加了脸部匹配(FaceMatch)功能。此项在手机上已经较为常见的人脸解锁功能落地智能音箱以后,可以将每个家庭成员需要的特定服务实时呈现或者推送。
谷歌举例称,“早上当你走进厨房时,智能助手知道你的日程安排、通勤细节、天气以及其他当天所需的信息来问候你。当你下班回家时,HubMax欢迎你回家,并提供要处理的提醒和消息。智能助理为音乐和电视节目提供个性化推荐,你甚至可以看到谁给你留下了视频消息。”
李彦宏提到,两年前,百度推出全球第一款带屏智能音箱小鱼在家,又进一步激活了百度此前在视频方面的布局。小鱼在家与百度的合作始于2015年,2017年合作推出带屏智能音箱,2017年4月推出搭载百度DuerOS的新款视频通话机器人“分身鱼”,2018年3月,百度宣布战略投资小鱼在家,从资源、资金、平台等各方面予以支持。2019年2月,小度在家带屏智能音箱出货量首次超过无屏的小度智能音箱。
“如同下棋讲究占据先机,坚持技术创新,就会让我们下出‘先手棋’,而不是再做跟随者。”
就本质而言,李彦宏多次多场合对百度智能音箱的推广,意在争夺智能家居入口话语权。
不过,不管是智能音箱硬件技术,还是远场识别、语音识别和语义识别等语音交互技术,都存在不少问题,例如出现误唤醒率高、连续对话不稳定、语义理解能力差等情况。有用户表示,希望能提高识别率,“现在买智能音箱只用来听歌、当闹钟等,而这些手机语音助手就能完成,真正接入并控制家电的太少了”。
即使在美国,智能音箱最大的用处也是听音乐。尼尔森此前一份报告指出,几乎所有消费者(90%)都用智能音箱听音乐,而68%的人会听新闻;大约81%的用户会使用语音交互来获取实时信息,例如天气和交通状况。
StrategyAnalytics副总裁墨瑟(DavidMercer)表示:“现在问题是,如何通过用户群获利,看看每个玩家如何应对这一挑战将会很有趣。第一步是通过智能音箱鼓励消费者更广泛和更频繁地使用应用和服务,这将为设备OEM或平台提供商带来创收机会。语音购物和广告插入是非常明显的方式。”