趣味测试分类

注册

 

发新话题 回复该主题

沸腾新十年中国语音产业江湖和科大讯飞的前 [复制链接]

1#
北京哪里看白癜风好 https://yyk.39.net/hospital/89ac7_comments.html

写在前面:

这是《沸腾新十年》的第十一篇剧透文,也是年的第一篇剧透文,从确认选题到采编到反复修改,这篇稿子操作时间前后历经近半年。究其原因,主要是这个江湖历史更久远,中国科技日新月异,这也是左林右狸将这次写科技史的时间拉在近10年内的原因,而语音的产业化历经了20年的沉淀,在这20年中有太多的风流人物和精彩故事我们想要讲述,这样的野心以至于让文章的框架拉得越来越大。

从年8月份开始,左林右狸拜访和研究了近百家语音企业和学术机构,我们发现语音在产业化时历经了三个时代,PC时代、移动互联网时代和AIoT时代,在每个时代语音都出现过高潮,也出现了新的机会和新一批的创业者。最终我们还是以产业化最久也是语音第一股的科大讯飞为主线,描述了在这三个时代中它得到了怎样的机会和面临的挑战。

本文作者金红是沸腾新十年里新智造和AI+多个赛道的主笔,也是《无人机江湖和汪滔的前半生》一文作者。金红也在操刀《大国智造》一书,欢迎各界人士和她聊天。

巢湖半汤温泉,中国四大名泉之一,位于安徽巢湖市东北部的汤山脚下,因一热一冷两大温泉汇聚而成冷热各半的自然景观而得名为半汤。

年的秋冬之际,CEO刘庆峰带着科大讯飞最开始的近20名干将从科大讯飞所在城市合肥驱车一小时抵达半汤,召开为期两天的年度会议,这被称为科大讯飞公司历史上著名的半汤会议。

半汤会议持续了两天,因为公司财务情况已经见衰,有人提出把公司解散了,有人说用科大的招牌和政府的支持炒房地产赚钱,十几个人各抒己见,各方意见始终未能统一,最后刘庆峰直接拍板:继续做语音,谁不乐意,直接走人。

这不是刘庆峰关于科大讯飞做出的第一个重要决定,之前的年6月,他也在众多选择中选择了坚持向前走的决定。

时间回溯到年6月,对于刘庆峰来说,当时摆在他面前的有三个选择:一是走学术路线出国读博,已经有学校愿意提供几万美元的奖学金;二是接受刚刚组建微软亚洲研究院的李开复提供的微软奖学金,到微软实习一个月,作为日后投身产业界、进入微软这样的大公司的跳板;三是带领实验室的师兄弟们,一起做一番事业。

在这三条路中,刘庆峰选择的是看起来难度最大的一条,他放弃了出国读博的打算,婉拒了李开复的邀请,提出了一边攻读博士、一边创业的想法,在得到导师的首肯之后,刘庆峰以实验室为班底,成立了安徽硅谷天音信息科技有限公司,半年后,公司改名为科大讯飞。

科大讯飞早期创业团队

回顾这一足以改写今日中国语音产业江湖市场格局的选择,我们便会发现刘庆峰在当时做出的决定并非偶然。当时刘庆峰担任福建中银集团与中科大建立的联合实验室、中文语音合成第一个产业化的实体中银天鹰智能多媒体实验室的总工程师,和师兄弟一起开始为中银集团提供技术支持。在摸着石头过河,将语音合成产业化的过程中,刘庆峰发现做产品与做技术有很大不同,做产品是需要迎合市场需求,但当时市场上并不确定需要语音做什么。中银集团有很多想法,今天想搞个语音PDA,明天又想做个语音听写软件,后天又搞工商查询系统,搞得团队疲惫不堪。兄弟们受不了,便找到刘庆峰说,要么你出来当CEO,要么我们就解散。

刘庆峰的博士生导师也对他说,这个事情可以成,这么多优秀的年轻人能团结在一起,在科大的历史上还从来没有过,要是解散就太可惜了。

刘庆峰的导师王仁华是国内语音合成领域研究的泰斗,在当时的语音界有南北“二王”之称,其中南王指的就是中科大王仁华,王仁华最开始也担任科大讯飞的董事长,但并非大股东,他的股份远比刘庆峰少,甚至一半都没有,这在当时蛮匪夷所思的,今天也不少人难以理解,但正是王仁华的高风亮节成就了科大讯飞今天的辉煌,王仁华与刘庆峰模式也成为中国高校企业科技创新的重要模式创新,之后李泽湘与汪滔、王田苗与高禄峰都遵循这个模式。

王仁华从年开始任教于中国科学技术大学电子工程与信息科学系,长期从事人机语音通信,数字信号处理,多媒体通信方面的科研和教学工作,其研究的LPC语音合成技术在年获中国科学院科技进步三等奖,在语音合成方向多次获国家科技奖。科大讯飞的前十年,其业务也是基于语音合成技术。

王仁华(中)和科大讯飞团队

语音合成,又称文语转换(TTS,TexttoSpeech)技术,是用人工的方式模拟人声,从而将任意文字信息转化为语音。年,贝尔实验室H·杜德利(H.Dudley)利用共振峰原理制作的语音合成器是历史上第一台电子合成器;年,瑞典语言学家G.Fant提出用线性预测编码(LPC)作为语音合成分析技术,推动了语音合成的发展;年,D·克拉特(D.Klatt)设计出串/并联混合型共振峰合成器,已经可以模拟不同的嗓音;20世纪90年代,随着计算和存储能力大幅度提升,基于大语料库的单元挑选与波形拼接合成方法出现,可以合成出高质量的自然人语音。王仁华正是这个时间开始深耕语音合成领域。

年,在中科大召开的全国语音识别与合成研讨会上,王仁华教授提出了试用播音员录音的基因片段加处理的方法获得了当时专家组负责智能接口的专家高文的首肯,并拨给20万元进行研究,在此之后,王仁华教授的课题获得了计划的滚动支持。

多说一句,王仁华教授在年访问美国麻省理工学院(MIT)时,当时在MIT任职的也是中科大校友的邓力招待过他的访问并交流了不少语音技术问题。而高文也在年在MIT计算机系做过访问学者,这个世界不大。

而年考入中科大的刘庆峰因为成绩优异,在大一就被王仁华看中吸收入人机语音通信实验室参与了相关项目,年也就是刘庆峰大三那年起担任语音合成项目的负责人。年和年,中科大在专家组主持的文语转换系统评测和中期检查中获得多项第一,刘庆峰均参与其中;年,刘庆峰带队参加了在北京的语音合成评测,这一次中科大在评测中获得了3分(5分是播音员水准,4分是普通人发音表现,而3分则是勉强可以接受的),这是当时语音合成获得最高的分数,“唯一达到了可实用阶段”。

随后在年8月的“国家火炬计划十周年成就暨高新技术产品博览会”中,中科大的语音合成系统被选为唯一的软件标志性产品而列在特展位上;年12月,在新加坡举行的国际汉语口语处理研讨会(ISCSL)上,中科大的KD语音合成系统被与会各国专家高度评价,刘庆峰介绍KD系统的论文也获得了大会的最佳学生论文奖(有意思的是,邓力当时是ISCSL的创始人之一,他向刘庆峰发了最佳学生论文奖)。不难想象,年的刘庆峰正是春风得意时,这时候的他更希望做的是能改变世界的大事。

一方面是国外的博士和微软奖学金,另一方面是7年顺风顺水的研究和导师的勉励、师兄弟们的期盼,选择创业也就顺理成章了。就这样,中科大、安徽省经贸委出资,刘庆峰也出了十万元,再和17个兄弟们一人凑了点钱,以万元将原来卖给中银集团的技术买回,成立了科大讯飞的前身硅谷天音。虽然此前实验室已经拿到了不少的荣誉,但毕竟没有市场化的产品,因此初创之时的硅谷天音仍然将主要精力放在语音合成引擎的开发上,有了这款引擎,才好去谈投资和商务合作。

在研发过程中,科大讯飞遭遇了第一次资金短缺问题,每个月花的钱比挣的钱多,账面上的资金越来越少。刘庆峰的压力很大,刘庆峰他开始找投资方,但并不顺利。

此时,另一家语音企业金耳麦被当时与Nuance齐名的Infotalk(以语音识别和语音搜索技术见长,年被卖给了新加坡的Creative公司)高价收购。金耳麦由沈康麒于年创立,由于研发出中文语音识别算法,在成立8个月即被Infotalk收购,沈康麒本人也进入新公司担任高管。沈康麒兜兜转转一圈后重新回到语音产业江湖,他现在是车载语音服务平台公司车音网的CEO。语音识别当时在中国还比较少应用在产业中,而科大讯飞当时也只是有语音合成技术,语音识别技术是从国外语音技术提供商Nuance采购的。看到金耳麦被收购,刘庆峰几次北上北京与沈康麒商议Infotalk收购科大讯飞的可能性。沈康麒非常看好两家公司的互补性,遂向公司建议收购科大讯飞。可惜的是,Infotalk最后并没有选择科大讯飞,而是收购了另外一家境外公司。

被Infotalk放弃后,刘庆峰不气馁的继续寻求融资机会。好不容易有人有投资意向,不过他们却都不希望科大讯飞继续待在偏远的合肥,而应该去北京或上海。

合肥市时任市长车俊听到这一消息,吓了一跳。虽然合肥有中科大,但当时正是中国通信行业发展高峰期,培养的人才被华为、中兴都包揽去了,留在合肥的少得可怜。如果科大讯飞这时候再转移阵地,那就真的留不住人了。

要想把科大讯飞留在合肥,只有解决了他们的资金问题。于是在年底,车俊将合肥美菱股份有限公司、合肥永信信息产业有限公司以及安徽省信托投资公司的负责人带到科大讯飞的办公室,为其展示了语音合成技术。会后,三家企业分别出资万投资科大讯飞,各占17%。科大讯飞的资金危机暂时解除了,也如车俊所愿留在了合肥,自此也开启了科大讯飞与合肥政府之间20年紧密的联系。

0万资金到位后,刘庆峰和兄弟们准备大干一场。当时电脑刚开始进入许多中国家庭,很多用户根本不会操作,科大讯飞看准了这个“痛点”,推出了第一款产品“畅言”。这是一款基于IBM研发的语音识别系统ViaVoice研发的中文语音系统,用上了科大讯飞多年来语音合成领域的技术积累,定价一千多元,功能上相当于电脑上的Siri,借助语音方便电脑操作,还打出了“会说话就会用电脑”的广告。刘庆峰将销售渠道铺到了全国10多个省,他们甚至预想了产品热销的丰满梦想,但由于语音输入和控制并非硬需求,大多数人还是更习惯于使用键盘和鼠标,加之价格太高,畅言几乎无人问津,科大讯飞也由此亏掉两千多万。

由于畅言的失利,科大讯飞再次陷入了资金缺失的困境,也让团队开始怀疑语音产业的未来。痛定思痛,刘庆峰把队伍拉到了巢湖半汤温泉,希望在这样一个放松的环境下,想清楚自己能够做什么。

今天复盘,刘庆峰当时之所以如此坚持,是他知道还未到穷途末路的时候,虽然ToC市场出师不利,但在ToB市场,基于语音合成技术,公司还有数十家企业的订单,他觉得重整山河发力ToB市场,胜负依然为未可知。

年10月在中国国际高新技术成果交易会上,华为的一名员工对科大讯飞的语音合成技术很感兴趣,并邀请其团队到华为在蛇口的办公室做深入交谈。科大讯飞总工程师陈涛带领团队在华为住了一个多月,最终通过了华为的测试。

年初华为与科大讯飞签订了供货商协议,购买语音合成技术。此时,中国电信的电话信息平台开始铺向全国,涉及到大量的客服工作,语音合成技术有望能解决这个问题,继华为之后,在当年年底中兴、鑫泰、神州数码等50多家企业都与科大讯飞签订了合同。

当然,客服语音技术还是很复杂的,不是把语音转化成文本就可以了。当时,科大讯飞做的只是语音转接,即直接对着电话说找某个人,通过识别出人名而在事先获取的通讯录信息中进行搜索匹配从而将电话转接到该人的电话线。这涉及到信息数据问题。因为早期数据还比较少,因此客服语音技术也只是在少范围内使用。

在半汤会议明确了发展方向后,刘庆峰编写了一份“未来发展规划”,继续寻找投资,他们很快遇到了联想创投。

这份规划书在联想创投眼中“还有些稚嫩”,但在柳传志和刘庆峰谈了两个多小时后,柳传志就确定了“这家公司一定要投”,并将联想创投将第一个投资名额给了科大讯飞。

联想之后,复星集团和英特尔也选择投资了科大讯飞。不同的是,联想的万美元是以增资的方式真金白银的给到了科大讯飞,而复星集团和英特尔则是从安徽信托、美菱集团、合肥永信三家第一轮投资人手中买的老股。

虽然拿到了投资,但科大讯飞的经营状况并没有马上改善。直到年联想创投的一次投资项目总结会上,科大讯飞还被当作不赚钱的反面教材。

转机出现在年。科大讯飞的诞生是基于计划支持下的项目技术产业化,从一开始就得到了政府的资助与支持,科大讯飞也一直是安徽省政府和科技部等部委眼中的好学生:年6月,科大讯飞被科技部认定为国家计划成果产业化基地,年,以中科大为第一完成单位的“KD系列汉语文语转换系统”被评为国家科技进步二等奖,是政府和相关部门眼中的“好学生”,而在最后,仍然是政府拯救了它。

年,时任教育部副部长的袁贵仁到科大讯飞视察,提出将讯飞的语音识别技术应用于普通话考试,这对当时的科大讯飞可谓量身定做,天下掉馅饼样的好事。自此,讯飞以普通话测评切入智能教育。在这一年,科大讯飞终于扭亏为盈。

接下来的一年科大讯飞继续被幸运眷顾。年彩铃从韩国引进中国,受到消费者的热烈追捧。但令运营商困扰的是,电话只能通过按键选择1至9之间的9首彩铃。语音成为解决这个问题的最优选择之一。

不过,要做这个事情,得有比较成熟的语音识别技术,这个在当时并非科大讯飞的专长,语音识别当时国内的正规军和排头兵是中科信利。

有意思的是,在投资科大讯飞之前,联想还对比考察了中科信利。中科信利的强项在语音分类与检索技术和语音识别,是曾任英特尔中国研究中心主任、首席研究员的颜永红他麾下的英特尔中国研究中心语音部的几名研究员回到中科院声学所时在组建中科信利语音实验室的同时成立的企业,方便对实验室的研究成果进行商业运作。应该说中科信利与科大讯飞各有特色,在二选一中,柳传志因为刘庆峰描绘的场景而投资了科大讯飞,而中科信利也很快成为当时科大讯飞最大的竞争对手。

左林右狸团队拜访中科信利联合创始人赵庆卫

几乎在科大讯飞承接安徽联通彩铃业务的同时,中科信利也承接了中国移动的IVR(互动式语音应答)业务,并在-年成为中国移动的IVR业务合作伙伴。

于公于私,中科信利很难把语音识别技术给对手科大讯飞。

科大讯飞想到的办法是借鸡生蛋,他们找上了全球语音巨头Nuance,成为Nuance的代理,但为了更好的拓展市场,科大讯飞采取与Nuance建立联合实验室的方式曲线入局。

得到Nuance的助力,科大讯飞开发了一套可以让消费者使用语音选择彩铃的系统“声动炫铃”。这套系统被迅速从安徽联通推广到联通总部,中国电信、中国移动开通彩铃业务后也选择了这套系统。基于此,科大讯飞进一步探索了个性化彩铃、爱吼网等产品,当时联通的音乐、彩铃相关语音业务平台几乎都由其包揽。

凭借上述业务和收入,科大讯飞开始了连续3年净利润%的复合增长。年营收突破2亿元。年5月12日,科大讯飞成功登陆深交所,成为中国第一个由在校大学生创业的上市公司,也是中国语音产业至今唯一的上市公司。

科大讯飞在深交所敲钟

科大讯飞一上市受到诸多热捧,一是发行市盈率为29.98倍,接近当时证监会允许的30倍的最高上限;二是首次发行超额认购倍数却高达倍,中签率低至0.04%。

一片欢欣鼓舞之下,刘庆峰还是保持了冷静。当时的局面是,语音合成是科大讯飞的强项,占据了语音合成70%以上的市场份额;而语音识别相对较弱,在识别类电信级语音平台产品更是需要向Nuance公司购买语音识别授权,严重影响了该业务的毛利率进而影响整个公司的收益。很显然,刘庆峰得建立起属于科大讯飞自己的语音识别研发力量,而要单开语音识别这条线,刘庆峰得先找一个业务带头人,刘庆峰想到了胡郁。

刘庆峰和胡郁两个人都是宣城同乡,刘庆峰报考高考志愿是找胡郁父亲给的建议,两人是世交。刘庆峰是以高于清华录取线40多分的成绩考的中科大,也是那年年宣城理科状元,胡郁是年进中科大的,他是年宣城理科状元,科大讯飞还有一位宣城人,胡国平,科大讯飞研究院的副院长,他也是年进中科大的,他是那一年的宣城理科榜眼。宣城离合肥不远,当时没有高铁,但也是一天来回。

当时的一个契机是,胡郁老婆在香港大学霍强教授处读博士后,想让胡郁跟着去陪读两年,霍强教授也是王仁华的学生(年在日本京都ATR同当时在那做sabbatical语音研究的邓力教授共事过),当时在语音识别领域已经形成自己的江湖地位,刘庆峰去找老师王仁华商量,王仁华给了一个建议,胡郁在给老婆陪读的同时给霍强做研究助理,借此开始建立起科大讯飞在语音识别的班底。

年,霍强从香港大学转去微软亚洲研究院后,胡郁又去找王仁华的另一个学生江辉合作,江辉也是科大讯飞创业18罗汉之一,是当时中科大BBS上黑客版的版主,比刘庆峰高三届,因东京大学读博士离开。江辉在东京大学得到博士之后,被当时在加拿大滑铁卢大学任教的邓力教授招去做博士后。后来经邓力大力推荐江辉去了加拿大约克大学当教授,江辉今天是讯飞超脑计划的组长。

在语音识别领域,科大讯飞与清华王作英实验室也在合作,当时王作英实验室与科大讯飞对接的是一位叫吴军的人,对,就是写出《浪潮之巅》等畅销书的吴军,吴军今天是丰元资本的合伙人之一,也是著名的知识网红,当时他是王作英老师的硕士研究生。

就这样,胡郁三箭齐发,开始逐步组建起科大讯飞在语音识别领域的团队,但外界对科大讯飞的认知还是语音合成,胡郁和他的团队需要一次机会告知外界,科大讯飞不仅在语音合成上行,在语音识别上也行。

这个机会很快到来,就是由美国国家标准技术研究院举办的国际说话人识别评测大赛(NISTSpeakerRecognitionEvaluation,NISTSRE)。年的NISTSRE评测提供了包含麦克风语音、电话语音等在内的不同来源的数据,再加上训练集与数据集的排列组合,共计有13项评测,是历年来评测组数最多的一届。这也给了科大讯飞以突破的机会,所提交的USTC-iFly系统也获得识别等错误率(EER)、最小检测代价(minDCF)两项第一名和检测代价(DCF)第三名。为此,科大讯飞在年6月5日特地发表公告报喜,称“语音识别与语音合成核心技术的共同进步将对科大讯飞业务持续健康发展起到积极推动作用。”

但这只是科大讯飞语音识别业务的一小步——NISTSRE评测的内容是,给定目标说话人以及包含六个说话人的测试语音片段,识别目标说话人是否在测试语音片段中说话。这更多的反映的是代表说话人身份的相关特征(如反映声门开合频率的基频特征、反映口腔大小形状及声道长度的频谱特征等)的语音信号提取能力,而非具体内容的识别。

此外,科大讯飞在NISTSRE评测所采取的GMM-UBM与GMM-SVM整合的模型在本次大赛中也被多家参赛机构使用。如科大讯飞的友商、背靠清华大学语音和语言技术中心的得意音通,在NISTSRE评测中采取的也是同样的模型,科大讯飞虽然在模型构建、调参等细节上稍占上风,但大家基本在同一水平线上,并没有拉开距离。

更困难的是语音识别技术在商业级别上的进一步应用:语音识别的主流方式是使用高斯混合模型(GMM)来建模,尤其以高斯混合模型+隐马尔科夫模型(GMM-HMM)在很长时间内都是占据垄断地位的建模方式。李开复的成名作、基于统计学原理开发的第一个“非特定人连续语音识别系统”SPHINX,其核心框架就是GMM-HMM,其中GMM用来对语音的观察概率进行建模,HMM则对语音的时序进行建模。Sphinx的出现打破了当时主流的“计算机难以有效识别连续的、不同口音的口语”的观点,此后Sphinx开始显示出一定的实用价值,也使得GMM-HMM成为语音识别的主要方向。

GMM-HMM的优点是训练速度快,可有效降低语音识别的错误率;声学模型小,容易移植到嵌入式平台中,但由于GMM没有利用帧的上下文信息,不能学习深层非线性特征变换,在实际的有噪音的商业级别应用中依然表现不佳,无法达到可用的级别。要想实现语音识别更广泛的商用,必须采用与以往不同的技术。

邓力(左)和何晓冬

在大洋彼岸,华人语音的大神级人物邓力也在努力解决这一问题。在年,当邓力在加拿大滑铁卢大学任教时与其指导的一名博士在博士论文中提出了一种增强神经网络记忆的新模型,但在效果上仍然无法超越其他统计学习方法。就连这篇论文的外部评审、大名鼎鼎的神经网络之父GeoffreyHinton在看过这篇论文后都不得不承认,现阶段想要在神经网络方面有所突破实在太难。这使得邓力在随后的十余年中远离了神经网络研究,而把精力放在GMM-HMM,贝叶斯统计方法和生成模型研究上。

但现在GMM-HMM在商业应用上陷入瓶颈,邓力又想到了神经网络,他重新研究了GeoffreyHinton在年发表在《Science》的那篇划时代论文《ReducingtheDimensionalityofDatawithNeuralNetworks》,于是他和年两次邀请Hinton来到西雅图的微软雷德蒙研究院,看看如何将这篇文章提出的思路与其正在研究的深度Bayesian语音识别模型结合起来。

值得一提的是,这篇论文“降维分层训练”的观点虽然今天看起来是理所当然,但在当时这篇论文看起来还是晦涩的,而且只有短短3页纸,很多原理没有细讲,因而也存在着很多的争议。直到年AlexNet在ImageNet上以巨大优势夺冠,才兴起了深度学习的浪潮,这是后话。

回到年底,在这一年的NIPS大会上,Hinton和邓力、俞栋举办了一个Workshop,总结了深度学习各种不同的方法在语音识别上的应用。总体来说当时邓力的研究有了一个阶段性的结果,但所有的深度学习在语音识别的应用都是聚集在大概只有万帧左右的“小数据量”上,大规模的神经网络威力还没有显示出来。

大幕即将拉起,只是你我浑然不知。

在中国的语音产业江湖里,年是一个重要的年份。

在年2月和6月,邓力作为团队经理正式招聘了两位Hinton的研究生AbdoMohamed和GeorgeDahl分别加入微软西雅图研究院作为实习生,研究人员开始探讨如何利用深层神经网络改善大词汇量语音识别。Dahl在深层神经网络训练的丰富经验对研究产生了很大的推动,负责该项目的邓力和他手下的团队干将俞栋一道提出抛弃传统的用英语的40个左右的基本音素建模的方法,而使用深层神经网络,对一种比音素小很多、叫做senones的建模单元直接建模。senones的数量多达数千个,从音素到senones建模的要求自然高许多,如果做个类比,用senones建模大致相当于材料科学的纳米技术,使得语音识别模型能够更好地识别语音细节,从而提高了辨析的准确率。

随后邓力和俞栋将前馈神经网络(FeedForwardDeepNeuralNetwork,FFDNN)引入到声学模型建模中,将FFDNN的输出层概率用于替换之前GMM-HMM中使用GMM计算的输出概率,引领了DNN-HMM混合系统的风潮,并取得了很好的效果。这一系列研究结果的相关论文《Deepneuralnetworksforacousticmodelinginspeechrecognitionhesharedviewsoffourresearchgroups》于年发表,讲述了深度神经网络对语音识别产生的影响,怎么把不同的机器学习方法,包括深度神经网络的方法整合起来,使得大规模的语音识别得到进展,文章被引用约次,是语音识别领域中的经典论文之一。

对于这一改变语音识别业界格局的研究,科大讯飞成为了微软总部之外,第一批了解这一信息并着手这方面研究的团队,甚至早于微软亚洲研究院——年9月21日,邓力受邀回到母校中科大并与科大讯飞交流,他与俞栋分享了将神经网络应用于语音识别的最新成果。

而在这一年的10月,俞栋才在微软亚洲研究院声学组的一次内部讨论中提及使用深度神经网络和senones建模的相关研究。

正是在这次内部讨论中,微软亚洲研究院声学组的高级研究员FrankSeide意识到了这一研究的价值,他随即加入该项目,与俞栋一起,两支团队精诚合作,推进该项目的研究。

RichardRashid

在年微软大老板之一、负责全球技术的副总裁RichardRashid在天津举行的一次会议上当场演示用深度学习做语音识别,将英文识别后,用机器翻译成中文,再用语音合成的方法产生中文语音——也就是说,他在上面讲英文,观众可以直接听到和他音色很像的中文——整场演示非常成功,几乎没有错误,这也引起了产业界的轰动,揭开了语音识别产业应用的新一页。这也成为纽约时报年10月份头版头条的一大新闻。纽约时报这篇文章的作者JohnMarkoff亲自飞到西雅图的微软采访邓力,也采访了Hinton。

这时邓力正代表微软同谷歌(代表人是JeffDean)和百度(代表人是余凯)竟争,用高价全职招聘Hinton,最终败给谷歌(这其中故事多多,有兴趣的读者可以

分享 转发
TOP
发新话题 回复该主题