分享好友 资讯首页 频道列表

微软雷德蒙研究院副总裁:从计算研究到惊人发明

2013-01-30 08:220

  

 

  Peter Lee博士在主题演讲的照片

  本文是微软雷德蒙研究院全球副总裁Peter Lee博士在“21世纪的计算大会”上发表的演讲,演讲展示了计算机科学最激动人心的一面,即基础研究成果往往会以人们意想不到的方式被运用。他在主题演讲中深入地介绍了音频处理、个人办公软件和云计算三个案例。计算机研究领域包含很多新的空间,可以持续地给予研究员机会,因此需要研究者们主动迎接多样性的挑战,共同推进新的创新。

  以下为演讲全文实录:

  我非常荣幸能够来到这里,我觉得能够在这里为大家做这一次演讲,是上天给我的非常好的机会。首先,我们来谈一下在计算机科学方面的基础性研究。但什么是基础性研究呢?其实有一点尴尬,因为我们很难回答这个问题,而这个问题长时间以来也很难被我们所回答。

  大概80年之前,有一个非常知名的火箭科学家,他在事业晚期的时候,说过“什么是研究?当我不知道自己在做什么的时候就是在研究”。有很多人也说过同样意思的话,如果我知道我在做什么,那我做的绝对不是研究。我对计算机科学研究兴奋的一点就是,我们经常想去解决一个具体的问题,也许我能解决,或者解决不了。但是,非常令人惊奇的一点,就是我们计算机研究的成果往往会给我们带来意想不到的效果。我们觉得这可以用“边际成本”这个词来形容,这个概念带来的效果确实非常有价值,而且对于计算机研究来说同样有价值。所以在这里里,我为大家举三个微软研究院的例子。我们是如何在进行基础性研究的时候,带来了那些非常好的创新,我很荣幸能够站在这么多优秀的学生前做这个演讲。

  

 

  我曾经也是一个老师,我先为大家出一个考题,这是一张图片,它上面有各种色彩的点,我给你们三秒钟完成这个问题的解答。大家看这张图告诉我,一共有多少个绿色的点,大家准备好了吗?好的,我们开始。有多少个蓝色的点?大家有谁能回答吗?如果大家觉得舒服的话,当我在美国或者欧洲教学的时候,他们也没有通过这个测试,当然,我是玩了一个小把戏了。

  其实,在微软研究院,我们经常和产品组一起合作,他们有非常严格的纪律。他们会根据客户的需求,来定义产品和用户体验,写一个非常审慎的计划,并且执行这个计划。所以,当我告诉你们看一下有多少个绿色的点,因为你们是非常好的学生,所以你们就习惯于听我说,然后去数绿色的点。在研究方面有一点,研究是一种探索,是追求真理的探索,这就是研究的美丽之处。确实在做研究的时候,我们想知道有多少个绿色的点,但同时我们还有其他的好奇点,比如我们想知道,是否有别的颜色,是否有别的形状,有多少其他的形状和颜色,比如说蓝色的点有多少个。通过这些问题,我们经常发现一些令人惊讶的创新,这些令人惊讶的创新具有更多的研究价值。下面正式的进入到案例里。

  案例1:音频处理

  

 

  第一个案例跟你们分享的是涉及到音频的处理,这是来自纽约股票交易市场的图片,从这个图片里面看到是非常疯狂的人,很多人大叫,然后招手,交易员在记录这些交易,看他们自己的场面,然后听每一个人的声音,记录下重要的交易信息,他有一个笔记本,或者一个平板电脑来进行记录。令人惊讶的是什么呢?他说,我们作为人类,我们要这样的两个耳朵收听音频的信息,我们能够专注于我们听的东西,只能是听到其中一个声音上,基本上非常嘈杂的,可以通过专注的听的能力,对于我们的计算系统来说,就有类似的能力,这是很多人目前在解决这些问题。

  所以,现在难题是这样的。有人跟我们在讲话,然后我们要有一个麦克风,需要听到那个人的声音,使用这个麦克风可以听见。当然,更复杂一些,就是这个人可能在一个拥挤的人群中,很多人同时在讲话,我们只专注那一个人讲话,还有一些噪音,比如说音乐的声音存在。问题就是我们有没有这样的系统,戴一个麦克风,就可以听到你想听见的那个人的声音。你们都知道,我们人类有两个耳朵,这是可以能够接收音频的信息,可以在我们机器上这样做,能够建立一个音频的管道,可以把人的声音收集起来,这是一个指向性的声音,能够知道声音在什么地方。这是一个经典的难题,也希望我们计算机科学借助简单的流程来处理。

  

 

  在微软研究院里,我们差不多十年前就参与了这样的研究,我们感到自豪的就是开发这些技术。比如说MVDR这样一个自适应的音频波速,这是一个例子,我们叫做最基本的蓝色天空的研究。我们想解决一些根本性的东西,了解这个声音的属性,以及自适应的音频波速,了解其中的定理属性。在某一点上,我们想去通过这样的一种理论实现我们真正能工作的系统。

  

 

  在微软研究院,我们一直在做这样的研究,你们看到这样的图片,是我们的样机。这个样机是由9个麦克风音频阵列系统,我们做了一些实验,能够实施,把它变成现实的MVDR的Beamformer,这个阵列可以连接到计算机上,这个计算机有一个管道,可以让你了解它的工作有多有效。我们来播放两个音频的文件,你们现在可以听到这个声音是在噪音很大的环境下说话,我们一个麦克风就能捕捉这样的声音。所以,我不知道你们是否听清楚里面的声音,其中有一个男人在讲话,在这个噪音中,你可以听到的问题是这个计算机面对的,在这么拥挤的状态中,在我们家庭的起居室里面有一些人开Party,这个计算机很难听到就是想给计算机发送指令的声音。同样一个音频源有这样一个声音,所以现在可以看到这样的能力,就是专注你的听力根据计算机连接的音频流上,就像人坐在房间里面一样,这是非常重要的,比如说音视频的会议系统都可以使用。我把它叫做一种研究,就是颠覆性的技术,颠覆性的创新,把一些最基本的理论拿过来,然后努力地用在我们现实当中,能够开发这样一种设备,能够实现我们理论原理,我们可以设想它成为现实的东西。

  所以,从基本的研究到具体的技术,这是一个非常重要的步骤,是我们整体创新当中很重要的一步。有一点需要说一下的,我们有微软研究院,我们公布和对外发布我们所做的所有事情。这里的一张图片是我们的研究论文,我们有两个研究者,加上他自己的实习生,他们写了这本书,就是在这样的样机系统上写的,这是非常重要的。我们与大学协作,我们可以发掘世界上最好的人才,以及最好的理念,也能够影响我们发展的前景。我们希望可以对我们微软的长期发展有帮助。

  

 

  有一个原因,就是为什么展示这篇文章,我想很快地提一下,作者就坐在你们的中间,这篇论文是要发表的,但是当时被拒绝了。我是花了一些时间阅读这篇论文。有些人认为这个解决方案并不能解决问题,没有一个真实的回声抑制系统,没有什么性能改进。最后一篇评论文章,他们认为有三个弊病,这都是来自评论员的文章。当我们朝着颠覆性的方向发展,朝着真正迈步前进的发展中,有些时候真的很难,对于我们科学界,要了解其中一些全新的理念。

  

 

  当然了,这种技术已经被涵盖到我们Xbox Kinect的音频部分。另外,这个渠道来自于基础性的研究,像颠覆性的创新,他们达到了这一点然后这些研究者,他们把一些叫做关键使命,重视使命的研究,这个情况主要是跟微软产品团队密切的协作,以便于能够把一个全新的、颠覆性的技术推向市场。这种专注于使命的研究,我们涉及到很多方面。我们微软有成百上千万的客户,能够在我们微软研究院当中提出,我们可以充分地利用,最大的挖掘我们研究的成果。

  尽管有这样的情况,论文被拒绝了,但实际上我们看到的是什么呢?是我们理想的产品概念和科学的幻想小说之间,并不只是事实科学的幻想,这些研究者经常是按照比较保险的方式去评论。所以,我们从基本的研究进入到颠覆性的研究,以及专注的使命性的研究当中有魔力,带着产品的概念,还有理想的产品,可以手拉手的来发展,能够让我们开发出非常好的东西。我想,这也是我们从开发Xbox和Kinect当中吸取的教训。

  总结一下,我们看到创新的管道,我们从基本的创新开始,进入到颠覆性,这是首次专注于使命的研究,跟我们产品团队真正合作,推向市场。在此期间,我们继续加以不断的改进,不断的添加和构建我们以往成功的地方。这样一个顺序,就是所谓这样创新的管道。我们不断地努力保证所有的四个阶段,可以不断的推动我们的研究,能够开发出新的东西。

  

 

  实际上,在这个实验室里,我们也需要不断的考虑投资的问题。在这张图里,涉及到我们所有研究的投资,X轴是短期到长期的项目。Y轴上,我们可以看到一些课题的选择,一些被动的课题是社会和产品部门给我们的课题;还有经济界、学术界提出的课题。Y轴朝着更加开放的研究,就是寻求一些真理。在整个空间里面看到管道,我们有一个叫Blue Sky,右手边的象限,还有左下角的可持续发展,左上角的象限涉及到我们颠覆性的研究。

  所以,四个象限对于我们实验室的管理人员来说是极为重要的,我们有非常好的活动,非常好的人员来进行开发,这是我们微软研究院的理念,这也是在过去一些年中一直实施的。所以,这样的象限模型可以看到,另外一个关于我们象限的内容,特别强调的是关于多样性,有的时候跟一些人讲,也许他们是一些商人,也许他们是一些作家,或者还有各个方面的技术领域,有的时候他们是一些金融人士,或者经济学家,都有这样的趋势,就是把这些研究看成专注于蓝色天空使命的研究者。如果看一下我们的这个象限,是在基础研究上有多样性,对这种多样性做好准备迎接的话,那么四个象限里面都充满我们相关活动的话,我们希望推动的是朝着非常美妙的反馈环路发展,不断的发生的。这是第一个例子。

  案例2:编码理论

  

 

  我选择的第二个例子,今天上午提到的,我们编程的合成,程序合成,这是一个非常好的经验了。大家看到了,我们从一开始就讲了,在这样的研究领域,我们从编程的验证开始,什么是这个编程的验证,现在问题就是我们把代码拿过来,我们想把它用在一些算法上,就是做这样一个编程的验证,这样一些验证的算法,应该是检查这些代码,就是回答一些简单的问题。这些问题是:如果我们想要运行程序,执行代码的话,会发生什么不好的事情吗?然后,作为一个比较现实的问题,帮助编程人员、程序人员,有时可以帮助程序验证过程更扩大一些,如果发生不好的情况,请他们再生成一些实际案例来解释Bug,就是一些不好的行为,这是非常好的帮助,程序员可以使用,跟踪这些Bug,可以解决这些Bug。

  

 

  还有一些是微软和微软研究院投资很多的,我们编写大量的软件,这是非常重要的一点,就是我们要知道这个软件是否可靠安全,我们还做了基础性的研究。实际上两年前一篇重要的论文,这篇论文是在说最根本的原理,是我们微软使用的,来分析这些软件,以保证这些软件尽可能开放,我们能够解决安全方面的问题。

  

 

  这种类型的技术尽管经常都是一些非常理论性的,实际上也是非常现实可行的,从最基本的研究当中,所做的文章当中可以看到的类型,我们去做一些颠覆性的工作。从基本的研究又进入到下一步,就是创新的管道,到颠覆性的研究。这个程序的验证可以反向的做,我们有这样的一种程序,我们可以做反向的验证,这样做的话,就是说叫做我们的程序的合成,今天早晨提到过。程序的合成,就是把一些我们叫做案例的输入和输出,然后提出一些问题或者回答一些问题,这个程序是否存在,能够带来一些输入输出。或者说,我们能够生成所有可能的程序,跟我们案例里面的输入输出一致。这样我们可以生成代码,或者所有的代码,它可以是与输入输出一致的。这就是我们所谓的程序合成的问题。

  这个里面关键的一个洞察就是有可能把一个程序的验证朝一个方向去做,像这样的方向。我们还有一个想法,就是进行逆向的运行,就是把输入输出的概率,自动生成一些程序。今天早上Rick演示了一个视频,就是程序的合成,还有我们微软新的Office 2013版本,我们刚刚看的一些例子加上去,能够让我们自动的搞清楚使用这些程序的合成,还有反向的验证,都是在这两个案例的基础上,或者一个半的例子上,能够生成一些代码,自动生成其他我们所需要的结果。

  这只是我们三个创新的一部分,从基本的研究到颠覆性的技术,以至于再往下到应用,还有我们的程序验证和逆向,再往下是什么呢?随着现有程序合成技术的到来,这是对于程序合成的一个巨大的机会的领域。我们来想一下,在线的网上教学。如果你在网上学某一个课程,然后你在网上是做一个几何学的小测验,或者微积分小测验。我们知道网上教学的一个问题,就是有几千个学生同时在学这个学科,他们看到的是同样的一个测验的问题。所以,很难去判断到底谁是真正学习了的。但是如果我们使用程序合成技术的话,我们可以就是去出独一无二的测试题,这就是利用合成技术。也就是说把这种题做成一种程序语言,就是根据这样的理论,我们是否能生成不同的测试题,这是我们正在积极做的一个研究。它可以被用于数学或者其他的领域,我们还在做这个方面的技术验证,从而能够产生语言类的问题,比如说你学英文,可以用程序来给你出问题。

  这样的一个概念也展示了创新的力量,从基本的研究到一些课题研究,到使命研究,然后去找到更多的一些研究,带来的成果,帮助我们更好的实现我们研究投资象限内容的丰富。所以从程序的验证到电子表格到在线的教科书,不断的看到基础性方面的研究带来的一些令人惊喜的成果。

  案例3:数据存储

  

 

  最后我再举一个例子,在这个例子中,这个结果并不是让你惊奇的,但是却带来一个新的问题。那么,在上一个例子中,我们谈到这样的编码理论,我知道有很多的术语,在美国和亚洲尽管术语不一样,但是内容是一样的。我们假设我们要存储两块数据在一个数据库里。第一个是A=2,第二个是B=3,这两个数据要存在数据库里,下面我们就担心,这个数据存储的可靠性,尤其是你要A=2,在第一个磁盘上,B=3,在第二个磁盘上。如果一个磁盘出了问题,那你的这些数据都丢了。所以如何避免这个现象的发生?一个简单的方法,就是备份,就是使用复制进行备份,每一个数据都有一个备份的拷贝。所以如果一个磁盘出了问题,我们仍然可以把A的值从备份的拷贝中获取,这是一个很简单的主意。但是,在存储方面成本是比较高的,因为它把存储的成本提高了一倍。但是尽管存储的成本要乘以2,但是抽取数据的成本则很低。也就是说他和第一种说法是没有任何区别的成本。想把A和B都存起来,为了提高数据的可靠性,再加上A+B=5,在这种情况下,比如说我们丢失了A的数据拷贝,但是没有问题,因为通过读取B和A+B的编码,我们就可以推理出A=2,我们仍然有数据重构的能力。我们在这种情况下,第一种方案,简单复制数据拷贝方面,成本要减一半。但是,在数据重构方面,数据值提取方面的成本又要提高一些。所以,这就是利弊权衡的问题了。

  

 

  下面谈一下,就是这个恢复编码已经有很长的历史了,这非常现实的方法,是由Google所使用的。你们可以看到我们有一些存储数据在6个磁盘上存,再加上三个原始的用于支持数据恢复的存储值,来提高数据存储的可靠性。所以我们就要问一个问题了,我们是否在数据存储方面能做得更好呢?过去五六十年当中,人们都在很努力的工作,来更好的进行存储的完善,确实有一定的改善。一个是124码,这是Facebook用的,成本是只有前一个方案的33%。但是,数据重构的成本却是6+3的一倍。因为你在数据恢复和数据重构中,它有数据存储媒介之间的通信的成本等。

  还有非常令人惊奇的一部分,就是这样的一个概念已经被研究了五十年了,但是在五十年之后,我们编码理论方面做了非常充分的研究。今年3月份,在这样成熟的领域还产生了进步,微软研究院和产品组,又有了一个叫做本地重构码让你以更低的存储成本,更低的数据重构成本,来去优化数据的存储。

  

 

  我们知道理论非常重要,因为今天我们看到60%的年均文档型数据存储的增加,因此我们看到现在高可用性数据的需求量是非常多的,而且也在不断的增长中。那么我们看到数据中心的机器越来越多,这样的话,故障也需要降低,必须要以成本效益性的方式来降低成本,这是非常重要的一点。

  

 

  大家看到Windows Azure的技术文件中,我们可以为你们展示出我们为什么能够做得这么好。我们来看一下最后带来的结果是什么呢?在这张图上我们看到横轴是存储成本,纵轴是数据重构,就是数据读写的成本。你可以看到成本比传统的方法低的多。

  

 

  我们看到不管是数据存储还是数据重构的成本,我们比较Windows和Google,Windows Azure上有一个调优的系统,我们运营我们云系统的时候,我们可以实现12+4+2的本地数据的恢复。那么它在数据恢复方面的成本,数据重构方面的成本非常低,或者我们进一步降低数据存储的成本的话,在Windows Azure上,运营成本方面每年节约几亿美元的成本。所以,这解决我们所说的已经研究非常透彻,近五十年的理论的计算机科学的理论,突然之间为我们带来新的可能性。也是带来新的颠覆性的技术,这就是为云带来的颠覆。

  

 

  下面我做一些总结,有关创新的通道。可以用这四个象限来表述,对于新研究的人员,对于新进入计算机研究领域的人,你们一定要注意这种多样化,不管你们做蓝天型,还是做颠覆性,还是做某一个使命专注型,或者可持续型的,你一定要不断的提高能力。所有这些都是必要做的。如果你们看成一个通道的话,你会看到新的计算机研究人员,他们在这四个领域都有做。

  计算机研究有新的蓝天,具有颠覆性可能,也可以聚焦于某一使命,可以持续带来机会。我希望你们迎接多样性,共同推动新的创新。

  个人介绍

  Peter Lee博士是微软雷德蒙研究院的全球副总裁,负责管理拥有超过300位研究人员与工程师的微软雷德蒙研究院,致力于提升微软的产品和服务艺术层次及创造新技术。在加入微软前,Peter Lee博士是卡内基梅隆大学的一名教授。他曾在美国国防部高级防御研究计划局工作。在那里,Peter Lee博士创立和领导了一个主要的技术办公室,支持计算机和社会与物理科学相关领域的研究。

  (责任编辑:leonlee07)

举报 0
收藏 0
评论 0
13013