对话黄学东:我在微软 30 年的风风雨雨

发布时间:2023-06-26 14:57:26.0

6月9日,在微软工作了 30 年的华人科学家黄学东正式宣布离职,并加入 Zoom 公司担任 CTO。



640 (1)-ISm3Iin4rB.png


黄学东的离开,为微软华人的传奇画上了浓厚的一笔。他的离开是个人选择,也是时代的变化所驱。



1

中国大陆走出的第一个

美国双院院士


上世纪七十年代出生的黄学东是与变化共生、在变化中成长的一代人。


1962年,黄学东出生于「霸蛮之地」湖南,没有上过高中。1977年,中国恢复高考,次年9月,十五岁的黄学东凭借优异的成绩考上了湖南大学师资班,就读于电子工程专业,是班上最小的学生之一。


从湖南大学毕业后,1982年,黄学东考到清华大学计算机系读硕士,师从中国人工智能先驱常迥与方棣棠,首次接触人工智能研究。硕士毕业后,黄学东留校读博,1987年又通过清华与英国爱丁堡大学联合培养的博士项目赴英深造,是最早走出国门的人工智能学子之一。


在爱丁堡,黄学东开阔了国际研究视野。1989年博士毕业后,黄学东没有选择回国,而是去了美国卡内基梅隆大学(CMU)当博士后。彼时,CMU 的人工智能研究(尤其是语音与语言方向)在全球排名前三,但华人求学者寥寥无几,黄学东与他的博士后导师、后来同为计算机大牛的李开复是少数任职的华人之一。1990年,李开复选择去工业界,加入了苹果公司,黄学东便从博士后转为教职,留在了 CMU 任教。


彼时人工智能的研究方兴未艾。在 CMU 的短短三年内,黄学东就取得了人工智能语音研究方向的多项成果,如 DARPA 语音智能系统测试的冠军。DARPA测试一直以来被誉为「美军颠覆性技术研究的风向标」,黄学东也凭借这项成果在 AI 领域一炮而红,受到了诸如微软等大厂的密切关注。


1993年,黄学东的事业迎来了新的转折点:这一年,在微软乃至比尔盖茨的努力下,黄学东最终接受了微软研究院的offer,从学术界转到了工业界。彼时,微软研究院(MSR)刚成立不到两年,正筹备团队,其中语音被视为研究院的战略方向之一。黄学东加入 MSR 后,也成为了微软研究院体系的第一位负责重大项目方向和团队的华人研究管理人员。


黄学东开拓了微软语音小组。彼时研究院人工智能方向只有两个团队,一个是自然语言处理方向,另一个则是黄学东率领设立的语音识别与处理方向。也是当时微软研究院以统计方法为基础的语音技术团队和与规则方法的自然语言处理团队两个人工智能方向的不同代表。


但纵观黄学东在微软的30年,语音研究只是黄学东微软事业开始的主线。语音研究以外,黄学东先后横跨了研究、产品、孵化等多个业务线,精通语音与自然语言研究、工程、产品与团队管理,是一位「全能手」:


2000年到2004年,黄学东担任微软语音平台组的总经理,推出「Speech Serve」。这是微软首次将语音技术转化为企业及应用服务器的产品。随后,黄学东开始接手微软部分新产品研发项目直至2007年。


2008年金融风暴,美国经济衰退,微软为应对危机进行架构调整,黄学东所带领的新产品孵化团队全员解散,仅剩黄学东一人被调去必应(Bing)部门担任首席架构师。彼时,Bing 的负责人是萨提亚·纳德拉(现微软 CEO)。在 Bing 期间,黄学东曾探索性地研发出一个超级大模型 「XCode」,率先验证了大模型的潜力,为后续萨提亚与 OpenAI 的合作打下基础。


2015年,黄学东再次回到微软研究院,先后带领团队在转录会话语音、机器翻译会话和计算机视觉图像字幕等方面实现了多个「机器媲美人类水平」的行业里程碑。


2017年2月,微软授予黄学东微软全球技术院士(Technical Fellow)的称号。微软全球技术院士是微软技术人员的最高荣誉,目前为止,全球仅有约二十个人获得,其中包括图灵奖得主 Butler W Lampson、Charles P. Thacker等,黄学东是首位入选华人科学家。


2020年,黄学东的微软生涯迎来巅峰:微软开始重视云计算与人工智能的结合,成立了 Azure AI 事业部。黄学东是 Azure 人工智能孵化的核心成员,从2020年开始担任 Azure AI 的全球人工智能首席技术官。萨提亚上台后,将云计算、人工智能与量子计算作为微软科技未来的三个发展方向之一,Azure AI 就承担了云计算与人工智能两块。


Azure AI的主要任务是在微软的云计算平台Azure上为客户提供人工智能服务。人工智能服务的质量会直接影响到客户选择哪家云计算。因此Azure AI在Azure以及微软的地位极其重要。


Azure AI和产品结合紧密。黄学东带领团队使得整个Azure AI从研究成果到产品质量都得到了大幅提升:2021年黄学东团队实现了机器常识问答上第一次达到人类水平;同时在视觉智能方面推出佛罗伦萨项目,大力推动了计算机视觉的现代化;在语音方面,黄学东团队也持续维持了微软语音服务质量的业界领先地位等等。


值得注意的是,在微软与 OpenAI 合作推出 ChatGPT 中,微软 Azure 云平台扮演了重要角色。


除了对微软 AI 版图的贡献,黄学东也直接或间接地影响了中国的人工智能历史:在微软期间,黄学东帮助微软公司招入了许多青年华人科学家,如李开复、沈向洋、张亚勤、邓力、俞栋、张正友、何晓冬等等,他们在微软的平台上快速成长后,回到中国,为中国工业界的 AI 落地作出了重要贡献。


另一个少为人知的事实是,黄学东是有「中国 AI 黄埔军校」之称的微软亚洲研究院成立的推动与参与英雄:


黄学东在1993年加入微软研究院,经过几年的成长,微软研究院的规模进步肉眼可见,黄学东也是主要推手之一。大约在1997年前后,微软筹备在世界各地建立研究院,黄学东是中国研究院计划分部的策划者与负责人,作为项目核心参与了招人、选址的重要工作。


其中,黄学东面试了众多院长,最后在众多杰出人选中确定了微软中国研究院(微软亚洲研究院的前身)院长的最佳人选,即他在 CMU 的博士后导师、后来鼎鼎大名的李开复。也是在黄学东的参与下,研究院最终选址在北京。


后来事实证明,李开复是正确的院长人选,北京也是正确的院址。这两个明智的选择,使微软中国研究院不久后一跃而为微软研究院的「亚洲总部」。


黄学东是微软以及中国人工智能板块上一块不可或缺的拼图,而作为常年带领微软团队的管理者,黄学东更是微软众多员工心中的好上司,是团魂人物。


回忆起第一次见到黄学东的场景,黄学东前员工朱晨光(现微软CSR 首席研究经理)仍记忆犹新。


“黄学东非常博学,而且对人才非常尊重。我从斯坦福大学读博毕业后就面试进了微软,他当时主动和我进行了交流,听说我是安徽人时,他就说安徽出才子,还说出了很多历史上的安徽名人。他对于我当时从湾区(美国加州旧金山湾区)搬到西雅图的一些顾虑都给予了很好的解答,并鼓励我继续勇攀科技高峰,还为我之后的发展规划了蓝图。”


朱晨光坦言虽然当时已经收到了好几个湾区的offer,而且认识的斯坦福毕业生也大多数留在湾区,但是黄学东身上流露出来的那种值得敬重与信赖的感觉,让他最终做出决定加入黄学东的团队。


规模近1000人,在计算机科学以及人工智能领域变化翻天覆地的30年里,黄学东团队一直都走在最前沿,引领语音、视觉、文本方面最尖端的研究和产品落地。这一切都与黄学东对于团队管理的高标准严要求有关。


他会时时关心员工的业务进展,在汇报中询问非常底层的关键问题。据朱晨光回忆,他在做文本总结研究时,一直苦于缺乏标注数据。黄学东了解这一情况后,建议用新闻的前几句话作为总结,这样可以利用超大规模数据提高模型质量。在黄学东的鼓励下,朱晨光的研究最终获得了成功,发表在SIGIR 2021并应用在MSN News中。Google后来做的PEGASUS也采用了类似微软的思路。


还有一件事也让朱晨光记忆深刻。


朱晨光来到微软的第一个春节,美国西雅图,不停的雨雪天气让空气中透着丝丝寒意。因业务繁忙,整个微软春节都不放假,初到微软的朱晨光倍感思乡情切。


“新春快乐 !”


这时,一句响亮而亲切的新年祝福让朱晨光顿时暖意涌上心头。黄学东得知微软春节不放假,便挨个给办公室员工送上了祝福。


对于黄学东的离职,遗憾之情蔓延整个团队,但那个笑容可撼,锐意进取的身影却永远留在了微软。


在微软30年,黄学东于研究、产品、工程上均有不可替代的贡献,事业一路攀升。2023年实际是黄学东的事业巅峰期——就在黄学东思考离开微软时,两个院士的荣誉从天而降。2023年2月与4月,黄学东先后入选美国国家工程院以及美国艺术与科学院院士,成为计算机领域首位中国大陆大学培养出来的美国双院院士。


黄学东告诉雷峰网-AI科技评论,两院院士的荣誉,更加坚定了他离开微软、开始人生探索新篇章的决心。


今年5月,雷峰网-AI科技评论与黄学东在美国西雅图进行了一次深入交流。


2

对话黄学东


雷峰网:您的求学经历是什么样的?


黄学东:我是 1978 考上湖南大学,当时才十五岁,从湖南大学毕业后去清华读了硕士和博士。方棣棠先生和胡启秀先生是我的硕士导师,常迥先生是我的博士导师。


这些老师都给我留下了深刻印象:方先生身上有着清华老一辈科学家脚踏实地、淡泊名利的君子之风,也有解决中文计算机输入普及和全国信息化大格局的远见卓识。而常先生是那时清华计算机系为数不多的博士生导师之一,常先生精神开放、善纳新知,经常鼓励我不要囿于自我狭窄的思路,要有国际视野,要追求国际一流的学术,对此我深铭于心。


雷峰网:后来您去了卡内基梅隆大学(CMU)


黄学东:我在爱丁堡拿了博士之前就去了CMU当博士后 (这个大概也创下了爱丁堡大学的记录),期间李开复是我的老板,我在他手下做了半年研究然后才回到爱丁堡大学答辩博士毕业。后面(1990年)李开复去苹果任职,我接班转正。


我在CMU任教的时间不长,但指导过两个现在挺有名的学生,一个是现在卡内基梅隆大学机器学习系的系主任Roni Rosenfeld,另一个就是黄美玉。这中间挺有意思,我离开 CMU、去微软后,他们都还没毕业,我是通过电话来指导他们的博士论文。那时候没有类似 ZooM 之类的会议软件,只能打付费电话,花了我不少钱(笑)。


这么想,我跟 Geoffrey Hinton(图灵奖得主)的路径也有点像。我和他都是在爱丁堡大学获得博士学位,做了一年博士后,然后我们都去了卡内基梅隆大学当教职,最后我们也都选择了去工业界,只是他去了谷歌、我去了微软(笑)。


雷峰网:您在CMU做研究取得了很大的突破,后来去工业界也做得很好,背后的原因是什么?


黄学东:我是湖南人嘛(笑),湖南人霸蛮。历史上的一个典型名人是曾国藩,毛泽东曾有言“吾于近人,独服曾文正,观其收拾洪杨一役,完美无缺。”蒋介石也佩服他。我的母亲是湖南双峰人,和曾国藩来自一个地方。曾国藩是带领湖南出山的人,当时还将全国的资本带回湖南,包括教育、饮食等等,重新定义了很多东西,实现了湖南的现代化。我身上的霸蛮气质由此而来。湖南就是江河湖海都有,整个地方就是翻江倒海的地方。湖南人心气高,有韧性,霸蛮,格局大。


雷峰网:您1993年进入微软是基于什么样的机缘?


黄学东:微软在1992年就面试了我,但我一直没同意过来。当时我在CMU负责语音人工智能系统,获得了全美 DARPA 所有测试指标的各项第一名,而且是国防部测评历史上错误率最低的一次。微软就盯着我挖,挖了三个月,最后通知我说盖茨要见我。1993年1月,我正式开始加入微软。整整30年,微软依旧屹立不倒,这证明微软十分强大兴盛。我在微软30年也正好经历了微软 AI 的发展历程。


雷峰网:您加入微软雷德蒙研究院时,微软雷德蒙研究院有几个组?


黄学东:AI 方面只有两个组,一个是我带领的语音 AI 组,还有一个是基于规则系统设立的语言组。当时研究院的宗旨是让机器能听、能看、能学习,能像人一样工作,时至今日,微软的成果实际上已经实现了这一宗旨。


而我的老板们基本上都已经退休了,包括比尔·盖茨。我的第二个老板叫凌大任(前微软雷德蒙研究院院长),在 98 年建中国研究院之前,我和凌大任去中国拜访清华。当时微软还没有什么名气,为了招人,我去过中国很多趟,清华的每个校招日我都会去现场招人。


雷峰网:当时微软亚洲研究院的成立有什么故事吗?


黄学东:微软亚洲研究院的前身中国研究院最开始是我参与构建的。确定在北京落地前,我在微软内部准备了两年,面试了许多人,李开复、张亚勤、张宏江都是我面试的,洪小文、邓力也都是我团队的人。李开复是我博士后的老板,沈向洋是我在卡内基梅隆任教时上过我的课的的学生。所以按照资历来说,李开复最资深,沈向洋最不资深(笑)。


开复的语音研究做得很好,组织管理能力也很强,而且开复很喜欢中国,他是很很合适很恰当的人选。把开复招进来后,我就放手了。之前我算是「幕后英雄」,在背后负责推动与策划。后来开复在北京带领研究院的发展,有些事他要取得微软在美国的领导们同意,我就作为中间人起牵线搭桥的作用。


中国研究院刚成立时是一个很小的组织,回忆起来,这的确是一段很不容易的历史。当时我们规划了很多人和很多地方。上海、北京都考虑过,最后还是选择了北京。后面的事实证明北京是正确的决定,开复也是正确的人选。


雷峰网:有没有想过在其他地方建研究院?


黄学东:微软在中国建了研究院以后,在硅谷、印度和纽约也建了研究院。不过后来经济萧条,2015年就把硅谷研究院给裁了,硅谷研究院的负责人向沈向洋汇报,我跟 Harry(沈向洋)也有过深入共事。


我一直在微软管语音研究和产品组,然后也管一部分的产品孵化。2008年经济大萧条,微软把所有新产品都停掉,我的团队被迫全裁,我就变成了 Bing 的首席架构师,Harry 是 Bing 的 Engineer Manager(工程负责人),我和 Harry 都汇报给萨提亚,然后 Harry 与萨提亚又都汇报给陆奇。


萨提亚后面晋升到管 Server 和云部门,和陆奇是同级。晋升时萨提亚本来想带我走,但我没走,一直在 Harry 手下工作。后面(2015年)Harry 晋升,负责研究部门,我就被 Harry 带回了研究院。所以当时大家开玩笑,说我在谁手下做事,谁就会晋升(笑)。


雷峰网:微软研究院经历了哪些高峰和低谷?


黄学东:对于微软而言,裁员算是低谷,2008年微软裁员过一次。2015年硅谷研究被裁并没有触及根基,所以不算低谷。2008年我主管新产品创新,我手下的员工全被裁,因此我就被调去 Bing 那边做首席架构师。


所以在我看来,裁员有时候也不一定是祸,「祸兮福所倚」,不离开研究院我就看不到外面的世界,从某个方面来说,这算是裁员带来的好处。微软是一个很大的生态系统,我丰富的经验是得益于我在研究院和产品组都做过。


雷峰网:在Bing 的时候有没有发生什么有趣的事情?您从Bing 回研究院是发生在什么时候的事情?


黄学东:2015年左右,我还在Bing期间,做了一个名为 「Xcode」的超级大模型,但是当时没有GPU,深度学习也不够深度。这个模型占用了Bing 80%的计算资源,我被人骂得狗血淋头。这证明大模型没有GPU根本玩不转。


一个背景:2014年萨提亚成为新一任微软CEO后,立即提出了“移动为先,云为先”(Mobile First, Cloud First)的战略,微软将业务重心转向企业服务市场,清理了原来驳杂的业务线,集中所有力量向云端转型。其实这也为后续微软云接入 ChatGPT 打下了根基。


雷峰网:沈向洋在2020年离职,他离开后,您的工作有变化吗?


黄学东:那时候我一直在做产品。我在微软内部换了很多团队,我自己也有很大的转变,但语音一直是我的主线。语音研究的性价比在微软内外都没有其他产品能比。我们每天要处理的语音转写量高达好几百万个小时,从三年前一年处理长度不到一百多万小时到现在一天好几百万小时,处理量和速度肉眼可见地上升。


2015年Harry回研究院后,他负责整个技术和研究板块,我也接手了语音和翻译的事情。Azure AI 是 Harry 和我负责推动孵化与产品上市的,在那之后我就一直同时管语音和语言,后来微软也把计算机视觉及所有 Azure OpenAI的内容放到了我这块。


一直到今天,Azure OpenAI 是我的团队做出来的,我很自豪。更自豪的是,Azure 从今年开始赚钱了。直到去年,这个项目一直都是亏钱状态。


雷峰网:去年 Azure AI 靠什么挣钱?您为什么选择这个时间点退休?


黄学东:主要是因为成本降下来了,薄利多销、量大,市场表现好。做产品总要考虑赚钱的,研究院不做产品,所以肯定是亏钱的。


至于退休,是因为我在微软工作30年了,负责的整个业务开始赚钱了,Azure云平台是现在OpenAI的独家云供应,虽然最大的成就与荣誉应该给 OpenAI,但Azure AI认知服务整个产品是我输送出去的,然后我又拿了两个院士(美国国家工程院院士,美国艺术与科学院院士)。两院院士并不是微软评定的,而是美国学术圈的大佬评定的,其标准是对世界和行业都有贡献。(雷峰网按:黄学东是中国大陆是改革开放培养出来的第一人,姚期智是中国台湾出来的,李飞飞是在美国读的中学。)


在人工智能30年的发展过程,我真正将多个设想,或者说人们对美好社会的追求变成一个个实实在在的产品和服务,并且让它开始挣钱、进而发展壮大,所以才能获得两院院士的荣誉。湖南大学的校长听到这个消息,他说我替他扬眉吐气了。湖南大学培养了中国计算机领域第一个美国双院士,他觉得很自豪。


Azure赚钱加两个院士,这些事情合到一起,我就萌生了「动一动」的想法。我在微软已经到达职业高峰,再往下做,不可能还做同样的事情,需要换一换方式去做其他事情。


雷峰网:语音交互为什么是人类的未来?您怎样看待现在的大模型发展?


黄学东:在我看来,语音交互肯定会是人类的未来。GPT也是语音交互,我对Siri也有期待,还有亚马逊做的智能音箱其实也非常有远见,但是可惜亚马逊对AI的认识不够。微软小冰一开始也应该做成大模型,但是这个需要很多能力(算力、产品、工程化等等),成败都在细节。


如果从历史的维度来讲述 ,IBM是做语音最早的公司 。50 年代IBM 就开始做机器翻译。70 年代 IBM 开始用语言模型( language model)进行语音研究,只是这个模型不够大,识读能力有限。后来IBM内部将做语音的方法应用用到机器翻译,改写了机器翻译的历史。所以 IBM 的语音对大模型的研究实际做出了巨大的贡献。


所谓机器翻译其实就是把你的问题翻译成你的结果。这个解释很简单,人一听就明白,也就是将过去已有事实转变为对未来的预测(history to future)。机器翻译经历了几次升级。第一次升级是IBM所带来的,机器翻译从规则方法切换到统计方法。第二次升级是微软带来的,Geoffrey Hinton 将深度学习应用到语音识别,这两者基本上是同步进行的,但应用至语音识别基本还是采用的Hidden Markov Model加上深度学习的混合体,并没有像第三次的谷歌Transformer机器翻译一样有革命性的突破。


雷峰网:按照您的看法,OpenAI能够成功的原因是什么?与微软给了OpenAI一大笔投资有关吗?


黄学东:OpenAI 现如今最显著的特征就是「大」,太大便不好处理,一般人把握不住。这也是OpenAI和微软云能取得瞩目成功的原因。这背后的确与微软给予的巨额资金支持有关。OpenAI里面的人有理想,工程化能力十分强大,这也是非常重要的原因。


OpenAI 取得了历史性的突破,真正把 “Chat”这个东西做成了。当时陆奇在微软的时候就说过“Chat”很重要,当时他还提出过一个概念,叫「chat as service」,只是当时这项研究没有足够的突破性技术来支撑项目落地。不得不说,陆奇一直具备十分优越的技术敏感度和前瞻性。


雷峰网:您什么时候开始有离开微软的想法?


黄学东:其实去年我们团队推Azure OpenAI 服务之后,离职的念头已经萌生。这次我获得了美国的两院院士之后,更坚定了离开的决心。


微软很照顾我,建议我留下来。在我宣布离职之际,团队里的很多成员全部抱头痛哭,这个场景让我十分震动与感动。回顾我在微软的三十年,我对微软非常感激,它教会了我很多东西。


文章来源:https://www.aminer.cn/research_report/648864247cb68b460fe782ee?download=false

招商电话: 0755-28566888
园区地址: 广东省深圳市龙岗区横岗街道德泉路26号
备案序号: 粤ICP备2023056571号