高智商音箱就是最好的AI场景入口了吗?

前言

不知从何时起,“人工智能”这个词在个人生活场景中出现的频率越来越高,可能是从苹果发布Siri那一刻起,人工智能开始渗透的人们生活的方方面面。

虽然我一直觉得人工智能应该是一个科技名词,好像与个人应用场景关联度并不算高。但是与我预期的相反,无论是“人工智能”亦或是“AI”都在人们的视野中不断增加曝光率,并且这个势头还有愈演愈烈之势。

近期,各大互联网巨头、科技公司、硬件制造商、家电品牌更甚至是一些不知名的山寨厂商都推出了自己所谓的“智能音箱”类产品。苹果的HomePod,亚马逊的ECHO、阿里的天猫精灵、百度的小度、京东和科大讯飞合作的叮咚等等。看似“智能音箱”的风头正越来越劲。

场景之前是基础 —— Ai

通常我们在说人工智能的时候,我们会用大写的AI(即Artificial Intelligence)来表示,而为何这里用了Ai呢?

就目前情况看来,人工智能还依然以人为主,智能为辅的弱人工智能时代。这其中有两层含义:

  • 其一,一部分所谓人工智能只是将程序员的人工算法加以编码,由人工计算过程改为了通过计算机进行计算。与传统的程序比较起来,区别是其中运用了大量的数学公式进行计算,并伴随了自动或半自动化的数据提取。不过无论数学公式有多复杂,多高级,多科学,这些依然是由人类研究、发明或发现的,计算机仅仅是进行了快速的执行动作而已。对于这些公式的组合、引用甚至合理性的判断,也是人类所为或者人类要求极其所为,并非是机器主动为之。
  • 其二,另一些所谓人工智能是指计算机或者设备能够理解人类意图,并执行人类的指令。其主要人机交互则是介于语音及语义理解(NLP)的过程。这种在大量的科幻类电影中比较常见,但其实这种系统早就存在了,与大家接触比较多的可以追溯到微软推出的Windows Vista操作系统中的语音控制程序。NLP也需要大量算法还需要处理发杂的音频信号,本身就是一种顶尖的技术,如果你对于英语语义以及中文语义之间的差别还有些许了解的话,你会知道这是一道非常困难的工序。可以说是人工智能的出入口,但是,也仅仅是出入口。

一定要来比较的话,我会觉得第二种更贴近人工智能,至少NLP解决了人机交互的一些问题。但无论是上述哪一种,都没有解决人工智能中最重要的 Intelligence 部分。何谓 Intelligence ?我认为应当是机器学会自己思考,或者自我学习,不是由程序员将知识(代码)灌输(Coding)进AI中,而是AI有目的地自我学习。

现在我们面临的难题不仅是机器应当如何学习,而是人们并不知道机器学习的成果是否是正确的,从而产生了进一步的问题,机器学习的成果能否应用到商业场景中去?如果不进入到商业场景中,那么谁又能来验证学习成果呢?

结合近期沃森的败退可以看到,在严肃的医学领域,所谓人工智能还是太稚嫩了。那么再来看看不那么严肃的普通民用领域,AI的表现又如何呢?

首先说明一下,这两种场景的区别是什么?前者即严肃场景,要求结果的可靠,后者,只要结果不出人命就可以。前者,适用环境相对受限,后者,适用环境几乎完全开放。

我们以图像识别来举个例子。在医学AI领域,想要用算法识别医学影像中的病灶或者疑似病灶。数据源是高清的灰度图像,根据某些逻辑能找出与“正常影像”不同的细微之处,系统应当通过多重算法识别出大量图片中的细微差别,可能仅仅是几个像素而已;但同时要求系统输出的结果必须是正确的,否则将导致严重的后续治疗方案偏差,或者遗漏了关键线索未能及时给到治疗建议。这种场景下,系统的结果必须是可靠的。

个人场景下,你可能会要求计算机识别一张你登上了山顶同时手中高举五星红旗;也有可能上传了一张在优雅西餐厅一位绅士单膝跪地向对面的女士出示手中的钻石戒指;第一张图片被识别为“胜利”或者“人生巅峰”你都会会心一笑,而后者被识别为“浪漫”亦或是“爱情的坟墓”你也会觉得这是生活中的一段小小插曲一笑而过。在这种场景下,只要不出现致命的错误,没有人会在意系统输出的结果是否是“那么的”正确。

智能音箱的组成

如果谈及民用领域智能语音工具,大多数人会首先想到的是跟随iPhone 4S 于2011年10月一同发布的Siri语音助手,下面是对当时Siri的介绍:

Siri是苹果公司在其产品iPhone4S,iPad 3及以上版本手机和Mac上应用的一项智能语音控制功能。Siri可以令iPhone4S及以上手机(iPad 3以上平板)变身为一台智能化机器人,利用Siri用户可以通过手机读短信、介绍餐厅、询问天气、语音设置闹钟等。Siri可以支持自然语言输入,并且可以调用系统自带的天气预报、日程安排、搜索资料等应用,还能够不断学习新的声音和语调,提供对话式的应答。

那么,在发布之后,Siri是否如同在发布会上那样,改变了人们使用智能手机的习惯了呢?至少从本文编写日期(2018年8月20日)来看,并非如此。

再来看看现在市面上的所谓智能音箱到底是由哪些部分组成的呢?首先是传统音箱组件,这些组件影响到音响本身的效果,随后是关键的智能组件部分:

  • 无线组模,姑且理解为Wifi网卡吧
  • 阵列式麦克风,对于智能音箱语音输入识别起到了关键作用
  • 语音处理芯片

我们继续对语音处理芯片部分进行一下分析,本身对于语音处理、语义分析是需要大量消耗系统资源的工作,并不是光靠一颗集成在这么小音箱里的芯片可以应付的工作。而这里的芯片仅是用于对语音进行预处理,判断语言的连贯性、停顿等与语义无关的信息,随后将预处理后的数据返回到服务器端,由服务器进行语义分析并给出响应指令;

但如果是这样区分的话,那么单以百度来看,其智能音箱产品线覆盖了89元、599元以及1699元三档价位的产品。如果再横向比较各主流品牌的同类产品,那么整体价格大概可以从百元以下一直覆盖至近3000元价位。

89元覆盖了基础音箱和交互功能,向上升级可能是至600元价位附近主要体现在音箱组件以及麦克风阵列等听觉能够直观感受的地方;此时音质随着价格的提升而不断提升。600以上通常分化为两种方案,一种是继续提升音质的方向,引入了例如哈曼卡顿等知名声学系统;而另一个方向则是引入了屏幕,一旦引入了屏幕,那么所谓“智能音箱”的定位其实已经发生了些许变化,不过我们依然视“主要以语音进行交互的产品”为智能音箱,这有别于平板电脑。再进一步向上提升则可能像“渡鸦”一样,开发出了自己的套件,当然,我并不是说这就是一种正确或成功的做法。

这一系列说明,背后有一个隐含着的问题 —— 随着价格的提升,设备的升级主要体现在视觉和听觉上,唯独对于“智能”部分,在不断升级过程中好像被遗忘了。除了屏幕引入之后智能音箱能做出类似视频通话这样的“新功能”以外,再没有出彩的地方了。基础版的“智能音箱”与高阶版的功能相差无几,还是那些个问问天气,问问路况,语音控制亦或是智能家电控制这些。至此,大家是否看明白了所谓“智能音箱”的“智能”部分的本质呢?是的,它的大脑压根不在本地,而在云端

然后是场景

微信做过一个有趣的统计,学历越高的人,使用语音消息的频次越低,而学历越低的人,使用语音消息的频次则越高。虽然针对这个统计的说明是因为不同学历差异的人的个人素质的差异从而导致的使用频率的差异。但考虑到用户场景中各种复杂要素的综合判断,此数据也不失为一个有意义的指标。

其实即便没有这个统计指标,我相信每个人都会深有体会这几点:

  • 你很少看到有人当着你的面对着Siri下达指令
  • 你看到最多的是人们在“调戏”Siri
  • 其次是使用Siri拨打电话
  • 当你独自在家时,从不使用Siri

像下面这样子的场景,除了广告宣传以外,你应该都会使用遥控器完成吧。

结束语

本文原计划在今年3月份就写完的,至少应该写完了初稿,不过无奈懒癌发作,一直拖延到了8月下旬,接着一次出差的机会,一口气把这篇文章给写完了。但是在7月中旬的时候,智能音箱的风向突然开始向智能耳机突变,一方面考虑到现代年轻人使用耳机的频率和时长会远高于音箱,另一方面自从耳机和麦克风整合到一根3.5mm线上之后,人们已经习惯对着耳机说话,而非对着音箱乱吼了,至少这看上去并没那么奇怪。

跟共享单车一样,我同样不看好智能音箱(或者耳机)这一系列产品,对于音质来说,此类产品不可能超越传统品牌。关键的“智能”部分事实上也不那么智能,可以说是一种食之无味,弃之,好像也并不那么可惜的产品。AI音箱尚未有强大的内功,亦没有杀手级的使用场景。反观前几年小米出品的“小米互联网音箱”因其可加入无线网络,并提供DLNA播放功能,10单元输出音质也非常棒,不贵的销售价格和简单易用的使用场景,在我家依然是一个使用频率较高的音箱产品。

不得不承认,时代在变化,虽然我知道“流行只是一种盲从”,不过在现代微创新阶段又必须冠以一种新颖的概念来迎合时代的口味,虽然过不了多久,聪明的消费者们会认清自己所花费的费用到底购买了什么。

原文地址:https://www.bananahouse.cn/index.php/2018/08/31/32728/

欢迎关注公众号

发表评论

电子邮件地址不会被公开。

18 + 11 =