黑科技百度等巨头频频“吞食”小玩家,我有实力,但也要远走他乡

2017年7月8日

打击,自然语言处理,语音识别,SaaS,人机交互

【编者按】姚旭晨博士和陈果果博士,在自然语言处理和语音识别领域研究多年,本文基于他们的最新研究成果,介绍了自然语言处理当今的应用现状,同时,以小见大,从他们的创业之路中,揭示了科技公司的生存困境。

本文作者Xtecher,经编辑,供行业人士参考。

在各大机构的排名上,JHU总是因为生物医学闻名。然而很多人所不知的是,在JHU的计算机系下,还藏着一个世界领先的实验室。约翰霍普金斯语言与语音处理中心--CLSP(The Johns Hopkins Center for Language and Speech Processing),致力于计算机语言处理方向的教育与研究。读过吴军博士所著的数学之光的读者应该听说过贾利尼克(Frederick Jelinek)的名字。作为计算机语言处理技术的创始人,贾利尼克曾担任CLSP的主任,对和计算机语言处理技术做出了巨大的贡献。

值得一提的是,CLSP培养了多位优秀的华人校友,包括前腾讯副总裁吴军博士,出门问问创始人李志飞博士等。今天要介绍的是两位和领域的新星,姚旭晨博士,陈果果博士。

Q:什么是自然语言处理?

自然语言处理和语音识别简单来说就是让计算机能够理解人的语言,以便进行。这个听起来非常高大上的技术词汇其实早已经在不知不觉中渗透到了我们的生活中。比方说,每天晚上我们都会习惯和Siri说“Hey Siri,wake me up at 6am tomorrow。(Siri,明天早上六点叫醒我)”这个看起来非常简单的命令其实会经过一系列的处理。

首先,当你在说“Hey Siri”的时候,Siri意识到了你要和她进行对话,就会把她的工作重心转移到对话上。其次,当你说“wake me up at 6am tomorrow”的时候,Siri需要把她听到的语音转换成文字,以方便后续的语义理解。接下去,Siri需要通过转换的文字去理解原来用户想要Siri在明天早上6点叫醒的服务,最后相应地设定第二天早上6点的闹钟。

类似的服务其实在生活中已经举不胜举了。比方说,你可以能对着你的安卓手机说“Okay Google,when is my flight,(谷娘,我的航班是几点)”你的手机就会回复你相应的飞机行程。或者”Okay Google,directions home(谷娘,带我回家),”手机就会启动谷歌地图进行相应的导航。这些应用都已经相对比较成熟,但大多都局限在一问一答的范畴。也就是说,用户提出一个问题或者命令,计算机做出一个相应回答或者执行。

但其实更加自然的人机交互形式是基于对话的。很多看过《钢铁侠》的读者可能都对它的Jarvis系统印象很深,在《钢铁侠》里面,托尼·斯塔克是可以和Jarvis进行自由对话的,而不仅仅是局限于简单的一问一答。这种和计算机的交互方式在现实生活中也有很多应用。

比方说,当我们想要通过计算机订一张电影票的时候,我们很多情况下需要通过对话来实现。我们不太可能和计算机说“请帮我订一张周六上午十点在约翰霍普金斯大学主校区附近现在在映的IMDB评分不低于9的动作电影;如果没有的话请定一个爱情电影。”更可能的情况是,我们一开始和计算机说“我想看个电影,”然后计算机可能会问“你想看什么电影,具体地点在哪里,”通过对话完成定电影票的这个过程。用对话进行人机交互的方式今年刚刚兴起,人们叫2016年“the Year of Conversational Commerce。”

对旭晨和果果来说,他们想做的事情就是做一套与自然语言处理和语音识别相关的工具。这样对一般的手机app开发者或者网站开发者来说,哪怕他们不理解自然语言处理和语音识别底层的技术,他们也可以把自然语言处理和语音识别的相关技术应用到他们的app或者网站上,使他们的产品更加智能化。

Q:可以简单介绍一下你们的产品吗?

旭晨,果果:我们现在的产品主要有三个。

第一个产品叫做Snowboy,是一个热词检测系统。回到“Hey Siri,wake me up at 6am tomorrow”这个例子,我们首先用一个词“Hey Siri”来唤醒Siri,然后我们可以和Siri进行进一步的互动。“Hey Siri”这个词一般叫做热词或者唤醒词。相应的,Google有“Ok-ay Google”,Amazon有“Alexa”。热词检测系统一般不需要网络连接。

只有当相应的词被说出来以后,计算机才会被唤醒进行接下来有可能需要在服务器端完成的操作(语音识别,语义理解,信息搜索等等),所以热词检测系统保证了用户的隐私。同时,热词检测系统需要足够准确。Snowboy是一个可以让用户自定义的热词检测系统,用户可以定义除了“Hey Siri”,“Okay Google”,“Alexa”以外的词汇。

我们的第二个产品叫做NLU,是自然语言理解(Natural Language Understanding)的缩写。顾名思义,这个产品就是让计算机理解用户说的话是什么意思。比如说,在“wake me up at 6am tomorrow”这个例子里面,计算机就需要理解到用户的意图是使用闹钟(因为用户需要被叫醒)。计算机需要进一步理解到闹钟的时间是“6am tomorrow”而不是其他时间。总体上来说我们的NLU和wit.ai或者api.ai两个初创公司的技术是比较像的,都是让计算机理解单个句子。

我们的第三个产品叫做ChatFlow。ChatFlow是一款给开发者用来开发对话系统的工具,实现人机对话。ChatFlow有非常简洁的图形界面,开发者的编程造诣哪怕不是特别深,也可以用ChatFlow来开发和计算机的对话系统。比如我们曾经听到过一个开发者的反馈:他的八岁的儿子,按照我们的教程,用ChatFlow在两个半小时内就做了一个可以在Amazon Echo上跑的Knock-knock Joke (敲门笑话)的程序。这对一个八岁的孩子来说,用传统的编程基本上是不太可能实现的。

Q:你们的技术专攻各在什么方向?

果果:我博士阶段主要做关键字检索这一块。比如说用户在Youtube搜索视频,我的工作就是在视频里的音频中找到相对应的搜索词。“Ok, Google”这个技术就是我当时在谷歌实习时研发的。

旭晨:我博士阶段做的是问答系统。比如说2011年时IBM的Waston智能系统在Jeopard-y(危险边缘,美国电视智力问答比赛)中击败了两位之前的冠军。计算机需要理解人类编写的问题,然后再在知识库中寻找相应的字条,最后回答问题。还有当时我和果果都在谷歌实习。我做了谷歌搜索I’m Feeling Lucky的技术,用户输入关键词,系统会猜出用户最想看到的网页。

果果:现在创业阶段我们俩就每个产品都得做,比较杂。

Q:聊聊创业吧,为什么当时选择了在美国创业而不是回国?

旭晨,果果:主要是因为在美国科技公司的竞争比较良性。国内一个小公司做出一个东西,很快大公司就会做出一个类似的东西把你竞争掉,所以小公司想存活下来挺困难的。

我们不是没有考虑过国内的市场。但目前只是想在美国市场做好,成熟之后再去考虑国内。

Q:自然语言处理与人机交互这个领域,现在竞争怎么样?

旭晨,果果:人工智能确实是越来越火,尤其今年我们这个领域的参与者越来越多。不过我们还是很有信心的。这个领域主要有三大块,NLU(理解),Dialogue(对话)和Usability(可用性)。你可以看到苹果的Siri更多地局限在NLU这一块,亚马逊的Echo偏向NLU和Dialogue。三大块能做到两块的公司很多,但是我们在有NLU和Dialogue的同时,也有Usability这个非常吸引开发者的地方。

我们开始得比较早,另外我们俩在这个方向上做了这么多年也是很有经验了。wit.ai,在去年年初被Facebook收购了。还有另外一个公司,api.ai,最近也刚刚被Google收购。我们现在完全可以实现他们做的功能。当然我们不想被很快收购,我们有着更大的目标。我们希望未来能成为一家成功的(Software as a Service,软件即服务,如iCloud,Office365)公司,做好自己的品牌。

本文作者Xtecher,专栏作者;微信:Xtecher(添加时请注明“姓名-公司-职务”方便备注);转载请注明作者姓名和“来源:”;文章内容系作者个人观点,不代表对观点赞同或支持。

This entry was posted in 自然语言处理, 语音识别 and tagged , , , . Bookmark the permalink.

发表评论

电子邮件地址不会被公开。 必填项已用*标注