Top
首页 > 互联网 > TMT圈 > 正文

搜狗王小川CNCC解读:为什么搜索的未来是人工智能时代的明珠?

10月20日,中国计算机大会(CNCC2016)在太原召开。作为我国计算机领域规模最大、级别最高的学术会议,大会邀请了逾200位国内外计算机领域顶尖专家、企业家等参加。
发布时间:2016-10-23 20:35        来源:赛迪网        作者:赛迪网

10月20日,中国计算机大会(CNCC2016)在太原召开。作为我国计算机领域规模最大、级别最高的学术会议,大会邀请了逾200位国内外计算机领域顶尖专家、企业家等参加。上午压轴出场的搜狗CEO王小川作为特邀嘉宾,发表了主题为《搜狗的人工智能之路》的演讲,他指出“搜索的未来是人工智能时代的明珠;搜索未来将走向问答机器人,而输入法也将向自动问答和智能回复发展。”

人工智能时代,搜索向问答机器人发展

王小川认为,人工智能划分为识别、生成和决策三大领域:“在学术领域中,识别与生成是同等重要的;而要让人工智能产生市场价值,决策才是让人工智能变成商业智能的核心。”在他看来,让机器参与帮助人做决策提高效率,由此产生的商业价值才是最大的。

而搜索作为一种人工智能,其未来又在哪里呢?王小川说,“目前我们已经很好地解决了机器识别中语音和图像的问题,但是在自然语言的处理中,我们目前还进展缓慢。今天机器仍不具有跟人交流的能力,因为它没有概念。但是在未来,搜索将走向问答机器人。”

他举例说:“正如触摸屏正在逐渐代替鼠标键盘成为主要的机器操作方式,更自然的交互方式不仅更方便人们使用,也能为机器提供更多信息。随着机器越来越聪明,搜索也会从简单的依靠一个关键词返回十条链接,转向直接提供问题的答案。这种情况下真正有效的方式是通过自然语言问问题,形成更自然的人机交互。”他例举了包括《星球大战》、《星际穿越》《超能陆战队》等科幻电影中问答机器人的形象。对于一问一答自然交互方式的研究,王小川表示,这不仅是搜狗的研究方向,谷歌、苹果、亚马逊等多家大公司也在做同样的事情。

输入法的未来:自动问答和智能回复

搜狗输入法诞生于十年前,大数据、云输入曾为之带来快速发展,如今人工智能又为搜狗输入法带来了怎样的变化?王小川以搜狗输入法的语音识别技术举例,“用户可以直接使用语音输入或者修改,这种更加自然的交互方式也推动语音技术高速发展。”据了解,目前搜狗输入法日均语音请求接近1.8亿次,用户每天产生的语料规模超过13万小时,远超国内任何语音公司使用的语料规模。

“最终,输入法的未来将会走向自动问答和智能回复。”王小川表示,输入法未来不再局限于简单工具,借助于人工智能技术的发展与海量数据积累,除了可以与用户做更加自然的交互,甚至还能帮助用户做决策。他现场演示了搜狗输入法的自动问答和智能回复功能:当用户想要约朋友吃饭时,直接在输入框输入餐厅名称,输入法就能自主找到餐厅的相关信息,并能够快速分享到对话中;如“你回公司了吗”“文件什么时候发我”此类问题,输入法甚至能够直接提供备选答案,用户直接点选就能快速回复,极大地提升了用户表达和获取信息的效率。

最后王小川总结道:“搜狗做的工作本身是让表达和获取信息更简单,未来时代里,为了让人机交互和自动问答做得更好,我认为有两个核心:一是自然交互,让人与机器可以进行完整的对话。二是知识计算,为了实现自然交互,背后核心的是要在自然语言里对知识能够建模,对知识能够计算。”据悉,今年搜狗捐赠1.8亿给清华,联合成立天工研究院,将通过公开更多的数据,与高校间进行联合研究,使搜狗搜索、搜狗输入法在人机交互方面做出更大突破。

以下为演讲全文:

今年大家提人工智能,搜狗公司也在做人工智能。有些媒体朋友说,“你们是要转型做人工智能吗?”我听完觉得需要做一点解释。因为作为一个做搜索的公司,本身对于技术的使用是蛮多的,不管是从大数据、云计算还是到今天的深度学习,武装到牙齿的使用,本身我们的技术走多远我们的业务就能走多远。不同人对人工智能有不同的定义方法,我更多希望在技术之外从产品的角度理解人工智能有什么样的价值,我把人工智能分为三个应用领域,这和广泛的分类方法不一样:一是识别,二是生成,三是决策。

这样一个分法描述了今天主流发展中的突破点。比如从2012年ImageNet的发展上看,图片的识别开始有了很大的提升。从这两天微软重磅的讲语音识别已经真正超过了人,这是一个识别领域的进展。因此在学术领域,我觉得做决策、做识别和做生成都是同等重要的,我想给大家一个判断,在这三个领域里,如果作为一个企业,把它变成市场价值,识别和生成本身很难背后有一个强的商业模式,而只有做决策才能变成商业智能里一个核心的过程,这是我想给大家分享的。

投资界有的时候说,谁做的图片识别特别好,做个语音识别特别好,就畅想在未来有什么样的价值,这是很危险的事情。所以我们看到很多做图像和做语音识别的公司拿了很好的技术或成果推向市场后,并没有找到很好的应用场景,或者做一个安防,并不能创造一些直接的价值,就把它给卖掉了,或者做一些简单的to  B的 License fee,所以,这里面最重要的一点,是机器能够帮助我们做决策,这个事情是三个里面的商业价值是最大的。

刚才我们提到有几个明显的概念,大家已经听到烂熟。像大数据、云计算和人工智能。其实,我们做搜索、做输入法都会用到这里面的核心技术,只是很难总结说这个事。简单讲搜狗这样的状态,我会进入下面对未来的思考。从搜狗现在而言,我们已经有巨大的用户规模,我们的用户规模在PC里是在中国排第一名的。在无线领域里,大家可能想不到搜狗输入法APP这一款产品是在整个APP用户规模里排第三,排第一第二的是微信和QQ。

为什么提这样一些概念呢?是因为我们的用户规模虽然大,但是输入法本身不是一个做决策的机器。因为当用户想输入什么东西的时候它就会给你精确的结果。如果你输入腾讯,它一定不会给你出阿里。你输入淘宝不会给你出京东。对于输入法而言,它是精确的把用户的需求做一个翻译的过程,所以它不是决策的机器,所以商业价值低。但搜索引擎不是,它本身是根据你的关键词或概念后帮你做分析判断。所以,PC上我们排第三名的位置,在无线里顺利达到了第二,现在有36%的市场份额。

现在大家数互联网上盈利的公司有多少呢?如果我们把游戏公司剖掉就知道有BAT、360、搜狗,再数出几家盈利的公司都会很困难。我们在去年靠搜索引擎创造了1亿多美金的利润。因此,在今天的前提条件讲完后,我想说明什么事?搜索本身是商业模式极好的互联网应用,最近5月份出了百度这个事以后,一提搜索广告大家就有负面的想法,其实广告本身没有错误,Google也在广告上用得很好。所以,既要商业模式好又要快速盈利,这件事情是搜索重要的意义。

今天我想和大家分享的第一个观点:搜索的未来就会成为人工智能未来的明珠,这是我的核心论点。所以,今天的搜索已经用了人工智能,未来也是核心,怎么理解这件事情?大家会问,搜索的未来是什么,人工智能的未来是什么,怎么就明珠了?我们以前讲到AlphaGo是有一些智能,但它是偏专项的,而且是和自然语言没有关系的。另外我们看到的图灵测试是对智能方面的理解,今天我不给大家展开这样一个概念,我更多想说,从难度上人工智能要解决三个事情:一是语音,二是图像,三是自然语言的处理。哪个最难?我们以前发现发展的最早的是自然语言的处理,语音和图像很长时间本身的处理很差,所以我们觉得自然语言简单一些,特别是符号主义的情况下,觉得语音图像更难。但最近几年人工智能发展,我们很好的解决了语音和图像的问题,它的识别率和生成能力得到了提高,但自然语言的处理发展的反而更慢。是因为我们看到,深度学习带来的对一种感性的理解已经到了一个高度,但反过来由于自然语言本身中间对人的概念符号怎样和深度学习结合是更难的事情。因此,这件事情的突破会比语音和图像更难。

简单讲搜索的未来是什么?我先做一个简单的回答,就是问答机器人。搜索未来是做问答的。怎么看这件事情?今天我们的搜索是从关键词到10条的搜索结果。我曾经观察过,在1999年到2000年的时候,搜索刚刚诞生,这个时候大家用搜索的用法不是输入关键词的,我当时在chinaRen曾经做了一个孙悟空搜索之后,我找了第一个用户来用,我说这是一个搜索引擎,你试着在这上面提问。他问的第一个问题,“我今天美吗?”我立刻就觉得很崩溃。在我心中已经觉得它是一个检索的系统。所以,经过好多年的教育后,今天的用户已经懂得了用关键词来寻找他需要的答案。有一个数据统计,关键词之外大家会加空格把它变成一个符合的搜索,单关键词的搜索量占整个搜索的97%,只有3%的搜索是在关键词间加了空格,所以在座的各位可能更多是这种高知群体,我们不管对搜索技术有多么理解,但是我们自己已经懂得怎样去描述自己的这样一个表达,用关键词+空格的形式来翻译自己的想法获得答案。

但这个系统在今天够好吗?还有什么改进空间吗?我和一些朋友聊的时候,他们也提到说,我们能不能把它做得更个性化,通过个性化能够使搜索品质获得提升?我说这个答案其实是不对的。第一,搜索引擎本身通过关键词输入就隐含了个性化的因素。以前个性化是首先分男女,但你看关键词在很大层面上就能看出男女来,当你查一个包包品牌的时候更有可能是女性,当你查一个足球运动的时候更有可能是男性。所以,用搜索引擎的时候个性化对它的帮助是有限的。更重要的一件事情是,即便有了个性化,我并不认为我们就能够知道用户在表达什么。

如果今天大家好奇,你问一个词,问搜索引擎王小川?那搜索引擎能够给你什么答案呢?或者你问我本人“王小川”这三个字,其实我不知道你要什么,即便我和你再熟悉,我也不知道你的判断,我只能告诉你,把我的百科给你,把我的新闻给你,把我最新的一些活动的事情给到你,因为我不知道你想要什么。或者你问搜狗,我最多再把官网给你。这是因为通过一个关键词的检索,里面的信息量损失是非常大的。我只能通过给你更多的结果试图来测测你想要什么,因此整个系统的改进空间不是在个性化或者是在精准算法上就能得到的,这件事也是因为我们的输入就是一个具体的词不够。

也有说我们改进的时候是不是通过语音搜索能够更好?最近语音发展得很快,在资本市场开始提语音,这其实也是一个错误的理解。如果用文字输入王小川三个字或者用语音输入王小川三个字本质上差不多,最多语音输入带一个口音,一听你是四川人,能够知道是我的老乡,给你的结果能够不一样一点,但其实本质上是没有一个明显的进步的。

真正的进步在哪里?我给大家举个例子。这个例子我们是在向乔布斯致敬,以前我们懂得用鼠标和机器做交互,觉得很方便。但做手机的时候,当乔布斯拿出第一款iPhone的时候,也不需要鼠标,也不需要笔,他强调的就是用你的几个手指来和机器进行互动。所以,走向了一个更自然的交互的方式。iPhone这样一种交互已经形成了行业中一种风潮,包括iPad,大家都懂得用手做交互,甚至一个三岁的小孩都能学会。我曾经见一个案例,一个三岁的小孩子走到电视机面前,就像用iPad一样用手划电视机的屏幕想去换台,大家知道会失败,所以他说,“妈妈,我们的电视机坏了”。这时候大家就知道自然交互能够带来多大的魔力,使得三岁的小孩子都能够学会,这就是和物理世界和自然世界更相关的模式。在这种情况下,我们认为搜索未来的方向会走向提问,它的核心问题不是语音,也许语音提问是最方便的,而是让人用最自然的方式能够和机器做交互。所以两层含义达到了:第一件事情是我们的人更加自然,第二件事是机器也获得更多的信息,帮助它做判断。你可以问,王小川你今年多大了,你这个问题提出后,机器就会有一个明确的答案,否则要我猜你,即便我是你肚子里的蛔虫,我也不知道你要什么。

因此今天搜索的趋势就从问题走向更精确的回答。这里是怎样的思考?在很多年来,如果你不用问题,只用词我没有办法给你好的答案,因为我不知道你要什么。但即便你提问题,对不起,以今天的人类技术依然没法给你好的答案,因为机器听不懂,不知道你在说什么。这件事情使得机器本身的这样一个技术的瓶颈把我们推向了左面的关键词到十个结果这样一个路径。我们已经看到了一个苗头,随着对自然语言处理开始加强,我们从NLP走向NLU,我们开始有机会做问答。所以google也在讲,未来的搜索引擎70%的搜索是会直接给答案,其实它潜藏了一个概念,70%的搜索用户是在提问题。因此在这个领域里,我们可以看到各家公司已经扎进去了,最早进去的是Siri,之后是微软的Cortana,然后是亚马逊的Echo,最后还有google推的Assistant这样的系统。所以,我们好奇一件事,为什么不是Google第一个推这个系统,因为我们刚才的理解力,Google离这件事情是最近的,而变成了苹果在做。我在里面的思考是两种可能性:一种原因是因为苹果公司的技术基因不够,所以它以为这件事情是更快达到效果所以抢这样一个产品的发布,在发布后其实蛮被动的。苹果在发布后,不断的收购自然语音特别是做问答、做对话的这些公司,比如像英国剑桥的公司,一个叫做VoiceIQ的东西苹果就收了,收了以后发现这些人迅速的离职,离职后再创一个公司,又做自然语言处理,苹果又收进来,不断的迭代的过程,因为它今天的技术还没有解决好。第二种原因,我理解是苹果知道自己的技术不够,但乔布斯有他的这样一个愿望,是在他的有生之年能够把这种终极的人机交互模式给推出来。我们大家记得Siri是什么时候发布的吗?是在苹果的iPhone  4S发布的,乔布斯是躺在病床上看现场的直播,他已经没有能力发布这款产品,这个产品发布后的几天他就过世了。所以在我内心的另外一个感受这是他的遗愿,他知道我们发明了手机,我们开始懂得了用手指交互后,下一个人类最重大的事情是用语言的方式去提问,去命令这样一台机器。所以,由于自己的时间已经不长了,提前早产把这样一个产品发布向市面,所以我想这是对问答机器背后重要性的理解。

事实上我们在若干的科幻作品里都会看到我们在科幻里面最极致的对技术理解,就是在做问答的机器。从《星球大战》里的机器人,再到《超能陆战队》里的大白,再到《星际穿越》里的机器,里面都强调一个很聪明的机器,人类幻想中无外乎是这样的智慧。还有一本书我很喜欢,是阿西莫夫写的,他写了很多经典的小说,包括《基地三部曲》。他有一篇超短篇的小说《最后的问题》,这个问题描述的是人类竭尽所有的技术潜力去制造一台能回答问题的机器,当我们是一个国家的时候我们集国家的力量造这台机器,当人类已经把地球统一了之后,集地球的力量造这台机器,通过光纤做连接,给它输入大量的能源,把人类全部的知识给输入进去,当我们控制了银河系之后,我们把银河系的能力用来造这台问答机,当人类控制整个宇宙的时候造一台宇宙的机器,甚至人类已经把宇宙机器送到异次元的空间里,让它不断的做回答。

这个故事的精妙之处是这台机器一直有一个问题它回答不了,那就是宇宙会怎么毁灭和重新起源。因为大家知道,如果宇宙能量会守恒,熵值会单增,最多会陷入宇宙的无序,无序后宇宙怎样重新诞生。这个机器一直回答不了这个问题,不管是地球的机器还是银河系的机器,还是宇宙的机器都回答不了这个问题。这个机器都一直说,对不起,这个问题我不知道答案。到最后整个人类把整个宇宙的资源都消耗掉后灭亡了,这个机器还在宇宙的异次元空间中运转,有一天这个机器突然说,我找到答案了,我知道宇宙是怎么毁灭和怎么诞生的,然后他说了三个字,“要有光”,就讲到《圣经》的起源,怎么创造宇宙。所以,这个故事,我想强调的一个核心要点,就是人类对于未来幻想里面最重大的一件事情就是制造一个能回答问题的机器。今天在这个领域里,我依然坚信,以Google为代表的搜索引擎会走在最前面。因为从创新者窘境的角度谈,搜索引擎本质工作就是在解决用户提问题,它能够给你提供信息和答案的这样一个商业模式。所以,我不能指望苹果和其他公司在这里面有一个超越,因为只要技术走多远,搜索引擎就会发展到多高,这是我想给大家讲到人工智能未来的发展和搜索未来的发展之间,是在问答领域里会有重新的合体,这也是我们努力的一个方向。

搜狗本身在做这个使命的时候,一直以来,就定义的是让表达和获取信息更简单。获取信息是我们讲的搜索引擎,表达是我们提到的这样一个输入法。输入法未来有什么样的发展空间呢?其实输入法本身也同样是大数据、云计算、人工智能的产物。搜狗输入法是2006年诞生的,我们先做搜索后做输入法。输入法一面市的时候就比同时代的输入法有巨大的跨越,本质原因就是我们利用输入法,把整个互联网上的中文网页都做了检索,在里面把词的词频和词的句法关系做了统计分析。所以,当时问我们这个原理的时候,我们说把整个互联网作为我们的数据库来做输入法。到后来我们提到了一个更简单的词,今天这个词可能已经过时——就是大数据。其实输入法本身是一个大数据的产物,用搜狗输入法的人在PC、手机里都会看到一个特点,有的时候如果输词,结果结果执行度不高,会突然出现一个新的结果,上面画了一个小云的标记,这就是用的云计算。因为输入法本身在本地我们只用了80兆的存储量,大概装了40万个词,这是经过计算后,在词库大小和性能中做的平衡。如果本机解决不好的时候,我们有执行度,如果本机的词频不够满意,这时候就会把输入的拼音串提交到服务器上,服务器的存储量和计算能力是单个PC的几十倍上百倍,在这个平台里面能够用更复杂的语言模型给你提供更好的结果,这是云计算的产物。

今天我们讲到人工智能也是给搜狗这样的机会。但用输入法的时候,我们提供两个能力,也是最近三年来有高速的发展。一是语音识别。所以用我们输入法的时候,前两天在锤子的发布会上(锤子)和讯飞有一个合作,谈到用语音,现在是一个主流的输入方法。我们在这里面从2011年到现在也做了五年的时间,也很简单,我们在这里面有几个得天独厚的条件:有最大的数据资源和最多用户的使用,再加上把领先的算法移植到这个程序里去。今天搜狗输入法的语音识别量能够到一天是1.8亿次语音识别,还在慢慢的上升。一天语音识别用户输入的小时数,是在57到58万个小时之间,一天用户的输入这样一个数据量就比我们现在全中国所有公司用来做语音识别标注的这样一个数据的时长都还要长。所以,搜狗在这个过程中攒了最多的用户需求和最好的这样一个数据的资源,理所当然,我们就能把这样一个服务推到一个高处去。

另外一个功能大家用的比较少的是OCR,我们讲的是图像处理。你拍一段文字,不管中文还是英文的,一扫描就能作为一个输入的源头。所以当我们问搜狗输入法未来的发展方向,大家容易去想,往下怎么走,语音输入和图像输入,包括我们内部也有系统拍一张照片就能做caption把它的标题取出来,我们在行业里做研究的时候看到了这样一些生成文字的方法,但是我想告诉大家,语音输入和图像输入都不是我心中认为输入法最核心的发展方向。

这个是视频里的一张图片,如果当你看一个图片,你的女朋友发一个图片给你,问,好看吗?你怎么回复,你会回复说,这个飞鸟还有夕阳真是太好看了,这个在撩妹上效果就不太好。所以你如果能够发给她一段诗词,大家会觉得你特别有文采。所以,在输入法里面,我们真正让它对语言有更多的了解,而不是在拼音或者走语音的方法在做输入,这是我们在理念上的进展。

我们做的工作本身是让表达和获取信息更简单,未来时代里,为了实现让人机交互和自动问答做得更好,我们认为有两件核心的事:一件事情是自然交互,刚才我们提到了,完整的对话的语言沟通,这是我们和机器打交道终极的理想,乔布斯有他的遗愿在,我们一起去实现这件事情。另外为了实现自然交互,背后核心的是要在自然语言里对知识能够建模,对知识能够计算,这是我想提到我们在做搜索和做输入法里面,给研究界提供的数据和研究的一个课题。因此,今年我们和清华成立的天工研究院,核心是要公开更多的数据,今年内我们要开始开放一些语音、图像和文字的数据,能够和高校形成更好的联合研究,使得我们从搜索、输入法走向一个人机互动的未来,也特别希望未来跟各位学术界的同仁们有更好的合作,互相的支持。

专题访谈

合作站点
stat