微软亚洲研究院 - 澳纽网Ausnz.net聚合阅读


干货 | 手把手带你入门微软Graph Engine


导读:出自微软亚洲研究院的Graph Engine是一个基于内存的分布式大规模图数据处理引擎,能够帮助用户高效地处理大规模图数据,且更方便地构建实时查询应用和高吞吐量的离线分析平台。自2015年发布以来,Graph Engine受到了来自学术界和工业界的广泛关注。点击【阅读原文】访问Graph Engine 的GitHub页面(https://github.com/Microsoft/GraphEngine)。


今天,我们邀请了Graph Engine的主要设计者与开发者之一,微软亚洲研究院机器学习组副研究员李亚韬为大家详解Graph Engine,并演示一些快速上手的实例。


(以下文字整理,内容略有精简)


首先,我们来回顾一下NOSQL中一种很重要的系统——键值存储器 (Key-Value stores)。Key-Value stores是一个字典形式的索引存储系统,里面所有数据都按照Key去索引,每个Key对应一个唯一值。这就像是各种语言,如Python、Java中的Dictionary或者Map。

比如MemCached,就是NOSQL中一个很早出现且非常流行的键值存储器(Key-Value stores)系统。它是一个分布式、多线程的缓存系统。为什么叫缓存系统?因为它其实并不知道用户存储的数据结构是什么样的,只是把数据当成一个个blobs,像二进制的数组一样。这里的例子就是说,当给定一个Foo ID,我们利用MemCached,可以得出一个能够识别的对象(Object)。但实际上MemCached本身无法识别我们这个东西,在它那里其实就是一个二进制的数组。


这所带来的问题是,一个系统如果不知道用户存的是什么东西,那么所有的计算就必须在客户端进行。因为如果系统不知道数据的属性,那就没有办法操作里面的数据。比如我有一个很大的对象,若要更新其中的一个部分,就需要把整个对象从客户端输入,然后进行一些操作再写回去。当两个人同时写一个东西时,就可能会导致一个人的改动被另一个人的冲掉。


Redis系统比MemCached出现得晚一些,它支持几种简单的数据结构。系统中每一个Key对应的值可以是一个数据结构——列表、集合或是字典。每一个值对应着一个小的容器,并且在这个容器上,它所有的操作都保持了原子性并支持事务。


但是在实际使用的过程中,我们会发现,很多时候数据没有办法简单的用列表或字典这些简单的数据结构来表示(因为它不能嵌入)。我们的数据有时候是层次结构的(Hierarchical)的,所以我们必须用某种层次化的数据结构,例如JSON、XML等去表示。在这种时候,Redis就没有办法很好地表达这些数据结构。实际上,业界很多用法都是用JSON模型先把它序列化成一个字符串,然后再输入Redis。但这样就会把Redis又变回MemCached,因为Redis不知道里面存的是什么东西,所以所有的计算操作又回到客户端。


谈到数据建模(DataModeling),我们不妨从另外一个角度,用图数据库去解决这种问题。在图数据库里,我们存储的是实体间的关系。

举个例子,左边是一个表,右边是和它等价的图中的关系。我们可以看到这里有三个人,有老板,也有员工。老板会管理员工,员工也会为了某个项目向老板报告,这种数据模型最核心的数据结构就是图。


图由节点和节点间的边构成。但这里的图和教科书上讲的图有点不一样,我们可以在点或者边上添加一些数据,这种图叫做“带属性图”(Property Graph),即它的点上能够存储数据,比如说一个人的年龄、名字等等。在这种数据模型下,我们可以有一些在图上的查询方法,它能够做到在SQL中很难表达的一些事情。


也正是因为这种灵活的特性,我们在实现图数据库时,会遇到一些挑战。主要的问题是在查询时,会有很多的随机存取。因为在图上查询时,很多是利用遍历实现的。虽然一个点走到另外一个点的代价不是很高,但是如果从一万个点走到它周围的两万个点,再走到周围的四万个点,这样一层一层扩散出去的话,问题就会变得越来越严重。如果把数据放在磁盘上,就会有很高的时延,因为我们没有办法很好地预测一个点的下一步会决定往哪边遍历。


为了解决这个问题,有几个主要的优化手段。一个就是不要像SQL里,同一个实体需要在不同的表里面查找,更多的是直接把一个点上所有相关的信息组织在一起。所以只需查找一次,就能索引到其中的一个实体。另一个方法是,我们要尽可能多的把数据放在内存里,这样随机存取的性能会提高很多。


我们在做图遍历时,如果是单机系统,利用广度优先算法BFS或者深度优先算法DFS都可以。但如果是分布式系统,由于不能跨机器执行单机算法,所以我们需要用消息传递(Message passing)实现图遍历的功能。

图数据模型下对应的查询语言和传统的SQL查询语言会有一些不一样。传统上,如果在多个表里查询数据,我们会用联结操作(join operator)把数据连在一起。但是在图查询语言里,我们更多的是直接从一个点遍历到它的邻居,再从中筛选出符合条件的数据,做操作。


此外,在图查询语言里还可以使用一些特殊的操作符。比如,给定两个点,然后可以查询数据库,找两点之间的最短距离。我们还可以做一些特殊的便利操作,比如从一个点走出去,走过一个三角形,又回到这个点,这样就可以找到这个点周围的所有三角形。以及,告诉系统一直沿着某个条件走下去,就好像正则表达式一样,直到遇到一个停止条件才停下来,我们把这个叫做“闭包”操作。

接下来我们看一个“闭包”的具体例子。假设Karl是部门的大老板,他会管理一些中层干部,这些中层干部会管理一些基层员工;而基层员工可能会在做一些项目,他们需要直接向Karl汇报。现在在Karl管理的部门中,要找到所有向Kark直接汇报的人,应该怎么找?


这里的问题是,我们不能确定管理的链条有多长。因为可能是A管着B、B管着C、C管着D,D又向H报告。如果用SQL,就需要把所有的两跳、三跳、四跳以及等等的操作都做一遍,最后再把结果综合。但是在图里面,由于有“闭包”操作,所以我们可以从Karl这个点出发,沿着管理这条路线走,这样走下去一定是报告和管理的关系,而终止条件是找到一个点,它不再管理其他人,或者是它连回了一条边,比如Karl这条报告的边。

刚才介绍了内存中系统以及Graph model怎么为数据建模,并且简单介绍了图数据库上的查询语句以及它是怎么做计算的。将这些内容结合,我们做了一个系统,就是Graph Engine,用于处理以上工作。


这里有一个系统结构示意图,中间这个三角形是系统的基础架构。最底层是一个内存中的键值存储器(Key-Value stores),以及计算引擎。计算引擎在不同机器之间会传递消息,并且一个机器可以调用另一个机器上某一类消息的响应代码(Handler)。在这种架构上构建图模型层(Graph Model),用户就可以利用图模型层的抽象,做自己的应用。所以Graph Engine系统不仅可以进行图数据的处理,由于它是分布式的,所以存储管理(Memory management)做的也相对较好,可扩展性(Scalability)也比较好。此外它还具有一定的通用性,不仅是图上的计算,还可以用于其他的应用。比如可以简单的把它用作键值存储器,简单的定义数据结构,当成Redis去用。

在系统最底层, RAM store本质上也是一个键值存储器,使用64位整数做Key,Value是任意的一个值。每个机器上有一个本地的RAM Store,不同的机器之间,给定一个Key之后,通过对这个Key进行Hash,可以判断当前的实体,即Cell ID对应的Value是在哪个机器上。这是一种叫Share-nothing的配置方法。当然这是一个可配置的(Configurable)方案,但是默认情况下,它是一个Share-nothing的结构。


拿到一个Key,首先判断它在哪个机器上,如果我们要访问对象,就把这个消息发到那个机器上,机器访问自己的本地内存数据。一个内存存储(Memory store)可以分成很多不同的块(Memory Trunk),里面有一套内存管理系统,所以我们最终可以定位到每一个对象所对应的内存区域。


讲到这儿大家可能会有一个疑问。刚才说,如果把数据按照Blob二进制存的话会有些限制,可现在不还是把数据扔到一个内存块里面,存储为byte数组么?那接下来就讲讲我们是怎么处理这个问题的。

在Graph Engine系统中,我们使用Trinity Specification Language语言,即TSL,来完成以下三种功能。第一个,做数据建模,虽然存储时存成的是一个Blob,但实际上我们有它的数据模式(Schema),并且可以由用户指定,而不是用一些简单的自带数据结构。第二,在做Message passing时,如果期望得到某一种格式的回复,我们可以用TSL来定义消息传递格式。第三,系统和其他外部系统之间需要交互,比如要从C#里传递一个东西,放到Python里,我们也可以通过TSL来进行数据交换,我们可以提供一种标准,作为数据的中间格式。


这里有两个TSL的例子,可以看到TSL和C族语言非常像。首先,看一下图模型的定义,我们用Cell关键字,指明定义的结构体是一种实体——实际上一个cell就是一个Key对应的一个Value,它有自己的内部结构。比如Movie里有电影名字,主演等。同样的,根据演员名字,我们可以得出这个人演了哪些电影。


我们可以在实体的 Cell Type以及它的Filed上加一些属性,用于和系统的其他模块进行交互。在Message Passing里,实际上是一个类似的结构,我们可以定义一个结构,一个cell也可以包含一个结构,不过这个结构体还可以额外用来做Message Passing。


定义结构后,接下来,我们定义了一个通信协议,协议说,发送消息是同步消息,消息发出后,我期待对方处理完返回的还是一个My Message。

定义好TSL后,会有一个TSL编译器,根据用户定义的Cell Struct以及其他定义结构,生成一些对Cell操作的存取器(Accessor)。比如这里的UseMyCellAccesor,这个API不是系统本来提供的,而是Graph Engine的程序集(Assembly)加上用户的TSL生成出的程序集然后再综合生成的一个API。


这个API的使用方法和Struct类似,可以直接操作里面的ID,也可以认为里面Links是个List,直接分配给List一些值。但实际上我们并没有分配一个运行时的List,我们会把操作翻译成对当前Cell对应的内存的操作。也就是说键值存储器负责最基本的给出内存空间。然后生成的代码负责处理用户如何分配数据,系统应该如何理解数据。


这样一来,我们可以用像Struct一样简单的接口,利用Accessor,操作一个虚拟的概念。我们只提供了对操作的描述,具体的执行则是翻译成了低层对内存直接的操作。这样既能保证用户接口的友好性,工作效率也可以做得非常高。


另外,这也是Graph Engine与其他系统一个很显著的区别,系统不仅可以对里面所存的实体进行类型定义,也可以有它自己的结构,甚至这个结构是分层的,因为一个Cell也可以包含其他的Struct。另一方面,由于拥有Accessor这套系统,因此,它可以直接在RAM Store里就地操作数据,从而相应地提高效率。

与此类似的,在用TSL做Message Passing过程中,我们从上图的左上角看起,客户端先初始化了一个请求服务器。在客户端,Graph Engine只负责分配缓冲区(Buffer),然后生成的API就会有Data Accsesor告诉我们如何往缓冲中填充数据,甚至可以直接把RAM Store中的一些数据取出,再通过Accesor传给服务器。在服务器这边,我们有一个IOCP的线程池(Thread Pool),或者在Linux系统中,我们用的是一个事件库。


并且我们还定义了协议(Protocol),每一个协议会对应一个Handler,代表服务器收到该协议的消息后应该做什么动作。我们把这个东西存成一个地址向量,在客户端来了一个请求后,系统通过向量跳转到一个Handler里去执行。执行完成后,根据消息是同步还是异步,可以做一个选择。如果同步,客户端会进行block,直到服务器处理完这个消息,并返回处理结果。


我们注意到,客户端发送的请求ReqWriter以及服务器返回的RspReader,其实都是由TSL编译器生成的。不仅如此,在一个消息到达服务器之后,它有一个调度(Dispatch)的过程,需要把消息翻译成一种数据结构,这里我们可以直接用Data Accessor去读取缓冲器中的内容。所有的辅助过程,包括Handler的抽象接口,都是由TSL Compiler生成的。我们设计系统的目标就是让消息传递(Remote Message Passing)变得尽量简单,就像在本地写GUI程序一样。


关于系统底层的实现细节就先介绍到这里。下面来看一个具体的例子——做一个Twitter的“爬虫”。Twitter本身提供了一组Streaming API,订阅后会不停地给你推送最新的消息。


我们可以在Graph Engine上加一个Message Handler,每次Twitter来了一条新的消息,我们就向这个消息协议转发,这个协议(Protocol)可以是同步、异步,或者是内部的协议,也可以是HTTP的协议,所以和其他语言非常好交互。

我们可以用这个做什么事情呢?当一条推文来了之后,我们可以把它放到Graph Engine里。在消息处理器中找到这条推文应该存的地方,比如,哪个用户发的,提到了哪些人等等。在做这件事情的同时,实体间的关系就建立起来了,因为一个用户发了一个推文,会有一个关系连到一条边,如果推文里提到了其他人,那么系统就不仅是存下了这条信息,还可以把所有关系都实时建立起来。


不仅如此,在不停更新数据的同时,我们还可以在上面跑一些计算,记在数据库里,并进行一些查询。

这里是一个简化的Twitter 图模型,里面有两种实体,一种是用户、一种是推文,我们用边把它们连起来,发现用户可能被其他的推文提到过。与此同时,关于推文的定义,它里面有一个单独的边,指向发推文的用户,并且把文本内容作为一个属性,附在这个点上。

比如,我写好了一个Python的Twitter“爬虫“,调用了官方接口,就可以去监测Twitter中的事件,那么怎么交互呢?在Graph Engine里面定义一个协议(Protocol),标出期望的请求是一个Tweet Message,这里面就包含了用户、时间戳、文本内容。因为这是一个事件定义,文本内容里可能是它发出的一个推文。在指定协议为HTTP后,Graph Engine启动时候就会监测一个HTTP的协议,然后我们就可以在Python里直接把数据传送到Graph Engine。

上图可以看到Post Tweet Handler的具体实现。首先从Python方来了一个请求,我们收到了一个推文消息,然后就可以实时在Handler里用正则表达式看有没有提到用户名的部分。如果有,就抽取出来,变成User ID,然后填充相应的关系。以及在此之后,我们会把当前推文存到系统里面。因为Handler不是单线程的调用,系统有一个thread Pool,所以这样的操作可以在一个Handler里实时完成。

更进一步,在不停的接收(Ingest)数据的同时,还可以定义另外一个协议。现在如果要做全文索引,就可以看到定义了协议后域名下就会多出一个SearchTweet的地址,如果用一个Python代码去访问这个地址,就会触发SearchTweetHandler。这里可以使用LINQ语法,localstorage代表要用自己机器上的RAM Store。后面的Selector是说一但使用Tweet_AccessorSelector,就会把所有推文全部选出来,再之后就可以用“where”做过滤(filtering)。比如,文本里有请求的查询内容,满足条件我们就做一个投影(projection),取出Cell ID,然后我们就拿到了所有符合搜索的推文。


那么问题也来了。Schema是用户自定义的,这里可能包含任何东西,在这种情况下,如何设计一个标准的图模型层?为此,我们采取了一个方案,就是把整个系统做成一个模块化系统(Module System),每一个模块可以提供一个泛型算法(Generic Algorithms),它不和某个具体数据绑定,而是根据某种元规则执行算法,类似C 里面模板库做的事情。


只要泛型算法对于一个数据的观点、看法和用户对于数据的看法一致,那么就可以说用户数据的schema和某个泛型算法是兼容的,进而用户就可以实现一个通用的图模型来完成一些他不方便自己实现的功能。


具体来讲,回到刚才的Tweet Graph上,我们有用户和推文两种实体。我们的目标是要把查询语言,就是LIKQ,应用到Tweet Graph,在Tweet Graph上实现图的查询。问题是现在的Schema里只有List<long>,系统不可能见到List<long>就认为它是一个边,然后去遍历,因为这个Long可能还有别的意思,这样是不现实的。

为了解决这个不匹配问题,我们可以加一些属性。这里的属性是TSL里面的,和C#里是不一样的,可以理解成是一个字符串,我们把字符串的标签(tag)打在了一个实体或者field上。这里打的标签叫做“ GraphEdge”,这样就指定了,它是图里面的边。这就回到了刚才所讨论的,数据和泛型算法对于一个属性有没有统一的认识。比如,如果查询语言觉得GraphEdge是边的意思,那么它就会采取一个方案。如果是一个算法的模块调用一个具体的名字,如遍历判断当前是不是一个用户。如果是用户就从Tweets mentioned_by走过去,那这样就不是泛型算法,因为它引用(reference)一个具体的数据。


为了避免这种情况,我们允许泛型算法直接通过属性,找到一个实体中所有符合属性的部分。它可以请求系统,去当前的实体里寻找所有有GraphEdge标志的部分,并且目标是想从这里面提取出长整型。所以不管你的Graph Engine是List<long>,还是单独的Long,甚至是一个Int,更有甚者,这里存的是个String,都可以通过我们系统的Graph Model中间层,然后尽可能的枚举(Enumerate)出长整型来,使得用户数据和系统的泛型算法间可以联系在一起。


接下来我们看一下具体的图查询语言,即LIKQ 。LIKQ是一个直接可以嵌入编程语言的查询语言,它和LINQ很像,都有一个很流畅的语法,可以直接写在编程语言里。


这里的例子是一个知识图谱,StartFrom这个点,指定一个查询条件,名字叫“比尔盖茨”,从这个点FollowEdge,就说从人这个点走到他的职业,然后再从FollowEdge走到people_profession_people_with_this_profession,就找到了和他相同职业的所有人。


我们不仅可以简单从每条边走出去,同时可以在一个点上时时的添加一些查询条件,方法是给这个点传入一个Lambda表达式,每当遍历的框架遇到这个点,比如走到第三跳时,就会动态执行这个Lambda表达式。


比如这里的例子是找和比尔盖茨相同职业的,会说三种以上语言的人。如果找到了,系统就保存当前路径(Path),否则就终止当前的搜索。


Lambda表达式具有非常灵活的查询(Query)特性,不仅可以调用Count>3,用户甚至可以预先把自己的一些功能注册到LIKQ模块里,只要服务器配置正确且加载了程序集(assembly),客户端就可以直接调用这个接口,调用服务器上预先存好的逻辑,而不用把整个逻辑全部写到Query里面。


LIKQ语言是一种线性遍历语言,所有的查询动作都是图的遍历(Graph Traversal)。比如Tweet Graph中,指定从Graph Engine出发(即Twitter上我们的帐号),从mentioned_by找到所有提到我们的人,不做任何过滤,一旦到达那个点之后,就执行下一跳,走的边是用户。也就是说从Graph Engine mentioned_by出发,找到了一个用户,即有一个用户提到了我们,走到这个用户后继续往前走,找到他们所发的那些推文。


这样一来,一旦到达某个推文之后,不加任何限制条件的时候系统会Action.Return。也就是说,由于它是一个线性的查询语言,因此每个查询表达式对应在图遍历中的一条路径上所有的限制条件,即它的限制条件都是从Graph Engine出发然后到一个用户再到一个推文。所以它只是限定了跳数,以及每一步从什么边跳出去。到达推文之后,它会无条件的把当前路径当成结果的一部分返回,然后做一些投影,把推文里的文本选择出来。这就是LIKQ图数据查询语言的一些简单例子。

看完这篇文章有没有收获很大?还想了解更多相关问题么?快来下方评论区提问吧!


 

Source: 微软亚洲研究院 | 23 Jun 2017 | 10:51 pm(NZT)

金融行业如何借助AI重新定义投资的疆界

上周,微软亚洲研究院与华夏基金共同举办了战略合作发布会,宣布双方将就人工智能在金融服务领域的应用展开战略合作研究。那么在金融领域,人工智能的道路会是怎样一幅画面呢?

发布会上,来自金融投资界和科技界两个领域的最强大脑们,就AI与投资结合所带来的机会及相关问题展开了头脑风暴。特别就两个非常重要的问题进行了讨论:首先,AI会不会改变我们的投资生活。其次,这样的一种改变对我们的财富管理意味着什么?

今天,我们与大家一起回顾科技、金融专家们是如何看待AI与投资结合的未来,发布会全纪录如下(文字内容略有精简)。


AI 投资将为金融领域带来什么样的创造力和智慧


● 洪小文:微软希望让人工智能真正造福投资者


纵观各种创新的技术,人工智能无疑是近年来全民的热词,可是这个热词对微软来说,却是一个老话题。20多年来,微软研究院在云计算、大数据、机器学习、语音识别、图像识别、自然语言理解等领域都取得了丰硕的研究成果。微软不断地推进人工智能的前沿发展,培养了大批人工智能人才。微软全球资深副总裁、微软亚太研发集团主席兼微软亚洲研究院院长洪小文博士表示,微软是一个平台公司,希望通过我们的智能服务平台,把人工智能普及化带给更多的企业伙伴跟开发者,让他们能够实现他们的梦想。

微软全球资深副总裁、微软亚太研发集团主席兼微软亚洲研究院院长洪小文博士


过去大家常说隔行如隔山,但在今天这个互联网 、AI 的时代,每个不同的行业都被互联网、云计算以及AI这些新技术“加”在一起。这是大势所趋,而能够将掌握的技术转化为生产力的企业,最有可能在数字化转型中抢得先机。

微软和华夏基金此次所展开的战略研究合作,发掘人工智能在金融投资行业的广泛应用,真正用技术转化成持续的动力,普及广大的投资大众。

洪小文博士相信,双方通过跨界的合作研究,能够将不断发展的人工智能技术,与金融行业的现实需求和应用场景相互结合,融会贯通,发掘数据洞察,帮助基金管理者从瞬息万变的市场当中发掘机会,让人工智能真正造福每个投资者。


刘铁岩:人工智能驱动金融产业技术变革


如今,当我们在搜索引擎输入人工智能或者金融这样的关键词,大家会看到很多与此有关的新闻报道和媒体评论,比如我们会看到人工智能让华尔街深感不安… 对冲基金将会用人工智能收割市场如此这般…那么为什么人工智能的到来会让投资界如此震动,人工智能又有哪些优势呢?


微软亚洲研究院副院长刘铁岩博士


微软亚洲研究院副院长刘铁岩博士在大会上从量价数据分析,文本数据分析,知识图谱及推理,以及预测、模拟与决策等方面,简单阐述了人工智能将为金融领域带来什么样的创造力和智慧。



量价数据是股票投资里非常重要的信息源之一。通常,投资经理会按照经验从量价数据的时序序列中寻找时空模式,以此来预测股票的涨跌,并决定何时买入、卖出股票。但这种根据经验的模式抽取,一定会受到个人因素的限制,很难有最优性的保障。所以这时,我们可以利用人工智能技术,依托大数据寻找更加客观、有效的时空模式指导投资,并且微软研究院在与此相关领域内的研究成果也将大有用武之地。

比如,在时序序列分析方面,2016年底,来自微软研究院基于深度神经网络的语音序列识别技术,首次达到了人类语音识别的精度;在二维的模式识别方面,由微软亚洲研究院发明的ResNet技术更是率先地超过了人类的图像识别精度,并获得了2015年ImageNet比赛的冠军,成为了图像识别领域首选的算法。微软的人工智能模型设计经验配合上华夏基金丰富的金融知识积累,我们一定可以为量价数据分析任务设计出高效的人工智能模型。

除了量价数据,文本数据也在金融投资中扮演着重要的角色,我们通过对文本数据的语义分析,主题分析和情感分析,可以预测市场对于一个行业或一个公司的预期,甚至可以去预测股票走势的拐点。

然而,对海量文本信息进行分析并非易事,简单的统计工具、或者标准的分类和主题模型,可能会遇到巨大的挑战。比如,当我们要分析的数据包含千万量级的词表时,相应的分类模型体量可能过大,而使训练时间非常长,甚至长达百年;当我们要对文本数据进行超细粒度的主题分析时,比如要分辨出上百万个不同类型的主题,则可能需要上千台服务器,运行几周到几个月的时间才能完成任务。

但这些看似不可能完成的任务,在微软亚洲研究院的面前,却变得可行。微软拥有能够处理千万词表的新型循环神经网络LightRNN,以及可以分析百万主题的人工智能模型LightLDA,再通过微软的Multiverso参数服务器进行分布式部署,我们就可以用一个只有几十台服务器的小型计算机集群,对海量文本数据进行超细粒度的实时分析,在信息获取和利用方面获得巨大优势。

除了这些原始数据外,在投资时,我们常常需要根据各种金融事件、以及金融实体之间的逻辑关系进行推理。这时就会遇到两个问题,首先,如何构建一个可靠的、信息丰富的金融知识图谱;第二,当我们拥有巨大体量的金融知识图谱时,如何进行高效的分析和推理。

微软亚洲研究院拥有目前世界上最高效的知识图谱索引和分析的开源引擎,有了这种引擎的支持,我们就可以对巨大体量的知识图谱,进行实时的分析推理,使很多隐藏的高阶因果关系浮出水面,给投资经理的决策插上理性的翅膀。



依据前面的人工智能技术构建投资方案之后,投资经理还需要根据市场的反馈不断地对投资方案进行调整。这个过程中,如何对市场的反馈快速响应,以及如何对金融市场其他参与者的行为进行精准建模,将成为致胜的利器。在这些方面,微软亚洲研究院独树一帜的前瞻性决策技术,如对偶增强学习和博弈机器学习,将会帮助投资者获得巨大的先发优势。

以上我们提到的人工智能算法都需要强大计算平台作为支撑,微软研究院拥有目前世界上效率最高的人工智能平台——CNTK(微软认知服务工具包)。在多项第三方评测中,CNTK不管是在单机的训练效率,还是集群的并行训练效率上都表现突出,力拔头筹。


把前面提到的来自微软研究院的优势算法和人工智能平台与华夏基金投研团队的领域知识相结合,我们将共同打造一个由人工智能驱动的全新的金融投资框架。这个框架里面会包含很多新的组成部分,比如端到端的因子提取与动态复合技术,基于金融知识图谱的推理模型,以及基于增强学习和博弈机器学习的自动化交易和资产配置策略等等。当然,想要在这些课题上取得突破性进展还需要深度的研究。比如金融市场环境开放,存在信息缺失、隐藏等问题,将给建模造成困难;市场规律动态变化,非平稳,将对人工智能模型的预测能力提出挑战;金融市场存在多方复杂博弈,且规模较大,将增加建模和分析的难度;黑天鹅等重要事件的小概率本质,不易用大数据、大样本方法预测;高频交易数据量大、实时性强,对人工智能计算平台将提出额外需求,等等。不过我们对于攻克这些难题持乐观态度,而这些挑战的存在也正凸显了我们和华夏基金进行战略合作研究的深远意义。



● 谢幸:用户画像与聊天机器人,打造个性化金融服务


站在华夏基金的角度,我们可以完成一个全新金融投资框架的构建,那么站在用户的角度,结合人工智能技术与金融,我们又能创造出哪些个性化的金融服务呢?

微软亚洲研究院社会计算组资深研究员谢幸博士分享了微软亚洲研究院在用户画像、性格分析和聊天机器人方面的最新进展,以及这些技术如何助力打造未来个性化的金融服务。


微软亚洲研究院资深研究员谢幸博士


用户画像就是根据用户每天在各类社交软件上产生的大数据合集,给用户打造一个更加个性化的环境和服务。而微软希望能够通过用户画像,更好地预测用户的风险偏好,理解用户的理财目标以及用户对资金的需求,以此帮助金融机构给用户设计更好的产品和服务。

在金融领域,我们常常需要了解用户的风险偏好。但现在一般是用问卷的方法,根据用户的问卷回答计算结果。然而这种方式在心理学专家眼里存在很多问题。

一方面,用户其实对自己并不是非常的了解,很多时候打分的标准很模糊。再就是很多用户会因为没有时间或者觉得这个不重要,就粗略地完成问卷,因此,这时我们拿到的结果就会有非常大的“噪音”。

要解决这个问题其实很简单,所使用的方法在心理学中叫做行为测量,其实就是我们去观察用户,通过用户的行为自动分析他的性格。这其中,可以用到微软亚洲研究院的LifeSpec跨平台用户行为数据集。

而在最近的工作中,基于心理学家的“大五人格理论”,我们提出了一个“大五人格推测模型”,通过集成不同来源的用户数据,针对每个维度的数据设计有针对性的计算特征,最后用集成学习的方法计算一个更加准确的大五人格。将这一方法应用在金融领域,不止是风险偏好,也许我们还能知道这些性格特征会怎样影响用户的购买行为,从而更加准确、成功的推荐金融产品/服务给用户。    

此外,微软亚洲研究院还有一个工作是个性化的聊天机器人。我们希望打造一个聊天机器人,类似金融服务里面的智能客服。一个人类客服在跟客户进行交流时,他通常需要了解用户,站在用户的角度考虑怎么样帮助用户解决问题,如何通过更合适的交流方式,来实现用户想做的事情,比如购买金融产品,或者推荐一些用户想要的理财工具。而我们则希望通过聊天机器人这项技术,为用户打造私人定制的金融顾问


金融行业将如何借助AI重新定义投资的疆界


● 汤晓东:AI 金融,仅仅只是个开始


华夏基金和微软的战略合作,可谓是金融领域人脑智慧和人工智能的融合。如果说,工业革命延伸了人类自然力中的"体力",那么人工智能则延伸了人类自然力中的“脑力”。


华夏基金总经理汤晓东


华夏基金总经理汤晓东表示,AI 零售业、AI 工业、AI 农业、AI 能源……传统行业和人工智能相融合,都将产生1 1>2,甚至是远大于2的效果。这种效果不仅仅有社会意义,还具有经济意义并蕴藏着巨大的投资机会。华夏基金作为国内权益类投资的龙头公司,一直致力于挖掘新的投资机会,面对这一大批千亿级的新经济、创新类产业,我们将积极分析、加大投资力度,为投资者创造更多的价值。如今,华夏基金正在积极探索把人工智能全方位应用到投资、销售、客服等各个领域。

华夏携手微软展开的战略合作,就相当于为华夏的投资能力加装了顶级智能装备。利用微软在人工智能领域的深厚积淀以及华夏基金强大的投研实力,探索智能投资的疆界,引领资产管理行业的智能化转型。

我们很难想象人工智能未来会如何改变投资,它究竟会成为投资经理的得力助手还是会成为这个行业的颠覆者,随着研究的深入,我们发现这个问题仅仅只是开始。


● 阳琨:人工智能,重新定义投资的疆界


华夏基金副总经理、投资总监阳琨表示,作为一名传统的基金经理,对于AI 投资这一主题,借用一句广告词来说,“一开始我是拒绝的”。但事实上,计算机已经在改变投资了,比如大类资产的均值方差计算,如果没有计算机的帮助,这必将是一项不可能完成的任务。


华夏基金副总经理、投资总监阳琨


那么未来的投资是什么样?人工智能将如何改变投资的疆界?我们畅想未来,或许有一天人工智能作为我的助手,会告诉我过去一天里证券市场或者财经领域发生了什么样的事情、有什么先例,能够扫除我在学习或者认知上的盲区。而在这个层面上来说,AI作为一种工具来提升投资效率这一趋势毋庸置疑。

AI 投资能够帮助我们提升智力的上限,使我们投资、决策、信息处理变得更加准确,这是我们可以看到的未来。


● 孙彬:人工智能助力资产配置


来自华夏基金的资产配置部总监孙彬则更加细致的阐述了人工智能将如何助力资产配置。人工智能领域,最核心有三个要素:第一个就是它需要有海量的数据做支撑;其次它必须有强大的运算能力做保证,而在这两个元素之后我们必须靠人类输入严谨的推理模式模型。


华夏基金资产配置部总监孙彬


孙彬希望利用机器对海量数据的处理能力和深度学习能力,去对历史上各种经济的数据、市场的数据甚至政策文本的数据进行复盘,帮助我们去归纳、总结市场当中特有的运行机制和几率,给我们的投资提供更多的客观数据和决策的依据。



人工智能在量化投资当中的应用渗透率也非常高。其中一个就是最近最热的一个话题,智能投顾。智能投顾希望用尽量低的成本、尽量标准化的流程、用最专业的投资工具,为海量用户提供差异化的投资顾问服务。

想实现千人千面的组合,首先要对人的需求做刻画,运用每个人身上的互联网节点,对每个投资者的目标进行刻画,描绘投资者的不同投资策略目标,依靠大量、离散的数据信息确定每个客户差异化的投资策略目标。

不同的投资策略目标完成后,需要给予用户一个资产配置的建议。每个人组合的大类资产配置比例以及资产内部的风格配置比例都是不一样的。人类需要给予机器一个恰当的模型,并输入模型所依赖的资产变量。然后,机器根据输入变量,以及每个用户差异化的投资策略目标,刻画每个用户资金的差异化资产配置比例。

资产配置比例形成后,需要通过底层资产的选择,完成资产配置的目的,为客户构建组合。在这个过程中,我们需要确定底层产品的分类和交易规则,告诉机器根据资产配置模型,我们分哪几个类型,以及交易规则是什么样的。机器再基于模型分量规则,对海量基金进行分析、排序,并在任何一个时点,形成可购买的最优组合推荐给客户。

此外,孙彬还介绍了人工智能将如何与资产配置模型做一个有效的、有机的结合。美林投资时钟是管理资产配置理论当中非常传统也是非常有效的理论。但因为各个不同的经济体,或者经济体不同的发展阶段,它在实践的应用中也经常出现一些失效的地方。



如果我们能用机器去对历史上各国,尤其是发达经济体的发展路径、经济数据、政策数据、市场数据进行复盘,也许我们可以找到一些经济增长趋势和经济增长变革当中对资产价格映射的影响,从而帮助我们更好地去捕捉变化的到来。

最后关于估值,一般认为,资产价格会提前对整个基本面的变化发生一些波动,我们需要观察、考虑,当基本面真正发生变化的时候,资产的价格是不是适应这种变化。因此我们有一个估值的指标做衡量,估值正好反映了投资者对未来的预期,所以我们也希望从机器对历史的大数据分析中,寻找资产之间、资产风格类别之间、以及经济基本面和估值之间的勾结关系和映射关系,帮助我们反映估值、资产的价格是否已经反映了投资基本面的变化。

如果我们能充分地利用好人工智能的发展,人工智能可以给主动管理的投资者提供更多的认知经济本质、认知市场本质、认知现实、甚至认知人性的更好的工具。这些工具将可以很大程度帮我们提高投资决策的胜率,帮助我们在未来的投资中获得更多的超额收益。

我们还为大家准备了长达两个小时的完整视频,建议先马后看!

视频地址:https://v.qq.com/x/page/d05141htt8l.html



 

Source: 微软亚洲研究院 | 19 Jun 2017 | 10:41 pm(NZT)

Microsoft Pix:让iPhone拍出自带大师范儿的照片

编者按:上个月,我们发表的“AI修图黑科技,Geek也能艺术范”一文中介绍了微软亚洲研究院在图片风格化方面的技术革新。读者纷纷表示希望可以早日用上这个修图黑科技。今天,相机应用Microsoft Pix iOS版更新了新功能,正是基于文中介绍的风格迁移技术,你现在就可以通过这项黑科技去创造媲美大师的作品啦。

微软专为iPhone和iPad打造的基于人工智能技术的相机应用Microsoft Pix最近推出了一项新功能,可以自动为随手拍摄的照片增加艺术化风格,模仿陈列在阿姆斯特丹、巴黎和纽约的著名画廊里的绘画杰作及艺术摄影作品。

这一功能由微软亚洲研究院、Skype团队和Pix团队共同开发,是iOS版Microsoft Pix的重要新功能之一,这款应用通过微软研究人员开发的智能算法套件,能够消除拍摄中的不确定因素,每一次快门都能拍出精美的照片。

​“这些新功能都非常好玩,”微软研究院计算摄影组首席项目经理Josh Weisberg表示,“过去,我们的很多工作都集中在如何运用人工智能和深度学习来更好地捕捉精彩瞬间和提升图像质量,但这些新功能则是为了带来更多乐趣——让照片更酷、更有艺术感。”

新功能之一“Pix风格”能够将照片转换成类似知名艺术作品的风格,或者为照片添加一些艺术效果,例如让照片看上去像是着火了一样。

​与仅能均匀改变相片颜色的滤镜不同,“Pix风格”功能将照片的纹理、图案和色调转化成所选定的风格,使之成为一件独特的创作作品。今天发布的“Pix风格”功能共包含11种独特的艺术风格,未来几周内还将增加更多风格。

第二个新功能是“Pix绘画”,可以制造出以所选艺术风格一笔一笔绘制作品的延时拍摄效果——让用户亲眼见证他们的杰作是如何诞生的。

​在新功能的开发过程中,Pix团队使用了深层神经网络,它可以用来训练大规模数据集——在这个项目中则是大量的画作——从而学习给定的艺术风格的精髓。“Pix风格”功能对照片进行风格转化以及“Pix绘画”功能对照片进行动画重绘便是大规模数据训练的结果。

​“Pix风格”功能可以直接在你的设备上运行,无需在云端进行计算。将人工智能从云端扩展到处于网络“边缘”的设备上,这正是微软所推动的变革之一。这样可以让用户迅速、轻松地将照片变成艺术品而无需使用数据流量,既降低了流量费用,也节省了等待时间。

iOS用户现在可以通过App Store下载使用这款应用,或者访问网站(点击网址https://www.microsoft.com/en-us/research/product/microsoftpix/)了解背后的秘密。


 

Source: 微软亚洲研究院 | 16 Jun 2017 | 3:39 pm(NZT)

周明:未来5-10年,自然语言处理将走向成熟


周明 微软亚洲研究院副院长

近日,微软亚洲研究院副院长周明在「自然语言处理前沿技术分享会」上,与大家讲解了自然语言处理(NLP)的最新进展,以及未来的研究方向,以下内容由CSDN记者根据周明博士的演讲内容编写,略有删减。 

周明博士于1999年加入微软亚洲研究院,不久开始负责自然语言研究组。近年来,周明博士领导研究团队与微软产品组合作开发了微软小冰(中国)、Rinna(日本)、Zo(美国)等聊天机器人系统。周明博士发表了120余篇重要会议和期刊论文(包括50篇以上的ACL文章),拥有国际发明专利40余项。


微软亚洲研究院在机器翻译、中国文化、聊天机器人和阅读理解的最新进展


机器翻译


今年微软首先在语音翻译上全面采用了神经网络机器翻译,并拓展了新的翻译功能,我们叫做Microsoft Translator Live Feature(现场翻译功能),在演讲和开会时,实时自动在手机端或桌面端,把演讲者的话翻译成多种语言。

图1 神经网络机器翻译

图1概括了神经网络机器翻译,简要的说,就是对源语言的句子进行编码,一般都是用长短时记忆(LSTM)进行编码。编码的结果就是有很多隐节点,每个隐节点代表从句首到当前词汇为止,与句子的语义信息。基于这些隐节点,通过一个注意力的模型来体现不同隐节点对于翻译目标词的作用。通过这样的一个模式对目标语言可以逐词进行生成,直到生成句尾。中间在某一阶段可能会有多个翻译,我们会保留最佳的翻译,从左到右持续。

这里最重要的技术是对于源语言的编码,还有体现不同词汇翻译的,不同作用的注意力模型。我们又持续做了一些工作,引入了语言知识。因为在编码的时候是仅把源语言和目标语言看成字符串,没有体会内在的词汇和词汇之间的修饰关系。我们把句法知识引入到神经网络编码、解码之中,这是传统的长短时记忆LSTM,这是模型,我们引入了句法,得到了更佳的翻译,这使大家看到的指标有了很大程度的提升。

图2 将知识图谱纳入传统的神经网络机器翻译中

此外,我们还考虑到在很多领域是有知识图谱的,我们想把知识图谱纳入到传统的神经网络机器翻译当中,来规划语言理解的过程。我们的一个假设就是虽然大家的语言可能不一样,但是体现在知识图谱的领域上可能是一致的,就用知识图谱增强编码、解码。具体来讲,就是对于输入句子,先映射到知识图谱,然后再基于知识图谱增强解码过程,使得译文得到进一步改善。


以上两个工作都发表在本领域最重要的会议ACL上,得到很多学者的好评。

图3 Microsoft Translator Live Feature工作场景

中国文化


大家会说,中国文化和人工智能有什么关系?中国文化最有代表性的是对联、诗歌、猜谜语等等,它怎么能够用人工智能体现呢?好多人一想这件事就觉得不靠谱,没法做。但是我们微软亚洲研究院就利用然语言处理的技术,尤其是机器翻译的经验,果断进军到中国文化里,这个在全世界独树一帜。

在2004年的时候,当时我们的沈向洋院长领导我们做了一个微软对联:用户输入上联,电脑自动对出下联,语句非常工整,甚至更进一步把横批对出来。这个系统在当时跟新浪进行了合作,做成了一个手机游戏,用户可以通过发短信的方式,将上联发过去,然后通过短信接收下联。当时大家都觉得很有意思。微软对联也是世界上第一次采用机器翻译的技术来模拟对联全过程。过去也有人做对联游戏,都是用规则的方法写很多很多的语言学规则,确保什么样的词跟什么样的词对,并符合对仗、平仄一堆语言学的规则,但是实际效果不好,也没有人使用。

我们把机器翻译技术巧妙用在中国文化上,解决了这个问题。在微软对联的基础上,我们继续去尝试其他的中国文化,其中有一个特色就是字谜。

我们小时候都爱猜字谜,领奖品。字谜是给你谜面让你猜谜底。当然也可以反过来,给定一个谜底,让你出谜面。现在,已经可以用电脑来模拟整个猜字谜和出字谜的过程了,我们也把这个功能放在了微软对联的网站上。

往后,更进一步,我们还会用人工智能技术来发展中国最经典的文化,包括绝句和律诗等。例如宋词有长短句,我们也可以用同样的技术来创作律诗、绝句和宋词。

最近,微软亚洲研究院的主管研究员宋睿华博士就在用这种神经网络的技术来进行诗歌的创作。这件事非常有创意:用户提交一个照片,让系统进行,然后变成一首诗,自由体的诗。写诗是很不容易的,因为要体现意境。你说这是山,这是水,这不叫诗;诗歌必须要升华、凝练,用诗的语言来体现此时的情或者景,由景入情,由情入景,这才是诗。

不久前,微软小冰发布了微软小冰写诗的技能,引起了很多人的关注。我们也在此基础上展示其他的中国文化,把人工智能和中国文化巧妙结合起来,弘扬中国文化。


对话即平台


“对话即平台”英文叫做“Conversation as a Platform (CaaP)”。2016年,微软首席执行官萨提亚在大会上提出了CaaP这个概念,他认为继图形界面的下一代就是对话,它会对整个人工智能、计算机设备带来一场新的革命。


图4 通用对话引擎架构


为什么要提到CaaP这个概念呢?我个人认为,有两个原因。


● 源于大家都已经习惯用社交手段,如微信、Facebook与他人聊天的过程。我们希望将这种通过自然的语言交流的过程呈现在当今的人机交互中,而语音交流的背后就是对话平台。

● 现在大家面对的设备有的屏幕很小,有的甚至没有屏幕,所以通过语音的交互,更为自然直观的。因此,我们是需要对话式的自然语言交流的,通过语音助手来帮忙完成。

而语音助手又可以调用很多Bot,来完成一些具体的功能,比如说定杯咖啡,买一个车票等等。芸芸众生,有很多很多需求,每个需求都有可能是一个小Bot,必须有人去做这个Bot。而于微软而言,我们作为一个平台公司,希望把自己的能力释放出来,让全世界的开发者,甚至普通的学生就能开发出自己喜欢的Bot,形成一个生态的平台,生态的环境。

如何从人出发,通过智能助理,再通过Bot体现这一生态呢?微软在做CaaP的时候,实际上有两个主要的产品策略。

第一个是小娜,通过手机和智能设备介入,让人与电脑进行交流:人发布命令,小娜理解并执行任务。同时,小娜作为你的贴身处理,也理解你的性格特点、喜好、习惯,然后主动给你一些贴心提示。比如,你过去经常路过某个地方买牛奶,在你下次路过的时候,她就会提醒你,问你要不要买。她从过去的被动到现在的主动,由原来的手机,到微软所有的产品,比如Xbox和Windows,都得到了应用。现在,小娜已经拥有超过1.4亿活跃用户,在数以十亿级计的设备上与人们进行交流。现在,小娜覆盖的语言已经有十几种语言,包括中文。小娜还在不断发展,这背后有很多自然语言技术来自微软研究院,包括微软亚洲研究院。

第二个就是小冰。它是一种新的理念,很多人一开始不理解。人们跟小冰一起的这种闲聊有什么意思?其实闲聊也是人工智能的一部分,我们人与人见面的时候,寒喧、问候、甚至瞎扯,天南海北地聊,这个没有智能是完成不了的,实际上除了语言方面的智能,还得有知识智能,必须得懂某一个领域的知识才能聊起来。所以,小冰是试图把各个语言的知识融汇贯通,实现一个开放语言自由的聊天过程。这件事,在全球都是比较创新的。现在,小冰已经覆盖了三种语言:中文、日文、英文,累积了上亿用户。很多人跟它聊天乐此不疲,而平均聊天的回数多达23轮。这是在所有聊天机器人里面遥遥领先的。而平时聊天时长大概是25分钟左右。小冰背后三种语言的聊天机器人也都来自于微软亚洲研究院。

无论是小冰这种闲聊,还是小娜这种注重任务执行的技术,其实背后单元处理引擎无外乎就三层技术:

● 通用聊天,需要掌握沟通技巧、通用聊天数据、主题聊天数据,还要知道用户画像,投其所好。

● 信息服务和问答,需要搜索的能力,问答的能力,还需要对常见问题表进行收集、整理和搜索,从知识图表、文档和图表中找出相应信息,并且回答问题,我们统称为Info Bot。

● 面向特定任务的对话能力,例如定咖啡、定花、买火车票,这个任务是固定的,状态也是固定的,状态转移也是清晰的,那么就可以用Bot一个一个实现。你有一个调度系统,你知道用户的意图就调用相应的Bot 执行相应的任务。它用到的技术就是对用户意图的理解,对话的管理,领域知识,对话图谱等等。

实际上,人类拥有这全部三个智能,而且人知道什么时候用什么智能,就是因为最上头,还有一个调度系统。你跟我闲聊的时候,我就会跟你闲聊;你跟我严肃地问问题,那么我就会回答你的问题。通过一个调度系统,可以想象,我们在做人机对话的时候,其实是在根据用户的提问调用不同的引擎,再根据不同的意图调用不同的Bot。这样整体来实现一个所谓的人机交互全过程。这背后的技术由不同的研究员分别去进行实施,然后再整体通过跟产品组合作体现一个完美的产品流程。

微软想把有关的能力释放给全世界,让每个人都能够体验人工智能的好处,让开发者开发自己的Bot。但是开发者的机器不懂自然语言,怎么办呢?我们就通过一个叫Bot Framework的工具、平台来实现。

任何一个开发者只用几行代码就可以完成自己所需要的Bot。这里有一个简单的例子,这个人想做一个披萨的Bot,他用Bot的框架,这几行语句填入相应的知识,相应的数据,就可以实现一个简单的定披萨的Bot。你可以想象很多小业主,没有这种开发能力,但是就是可以简单操作几下,就可以做一个小Bot吸引来很多客户。

这里面有很多关键技术。微软有一个叫做LUIS(Language Understanding Intelligent Service)的平台,提供了用户的意图理解能力、实体识别能力、对话的管理能力等等。比如说这句话“read me the headlines”,我们识别的结果是他想做朗读,内容就是今天的头条新闻。再比如说“Pause for 5 minutes”,我们理解它的意思是暂停,暂停多长时间?有一个参数:5分钟。所以,通过LUIS,我们可以把意图和重要的信息抽取出来,让后面Bot来读取。

图5 微软语言理解服务

微软的聊天对话技术也在与很多企业合作,赋能这些企业。比如,我们跟敦煌研究院合作。敦煌研究院提供出数据,我们则把我们的引擎加上去,很快就建立了一个敦煌研究院的客服系统,借助敦煌研究院公众号,可以让用户和它聊与敦煌有关的事。用户也可以问问题,例如敦煌研究院什么时候开门、有什么好吃的,他可以把聊天、对话都集成在一个平台上,发挥人工智能在公众号上的作用。

图6 敦煌公众号客服系统

阅读理解


阅读理解顾名思义就是给你一篇文章,看你理解到什么程度。人都有智能,而且是非常高的智能。除了累积知识,还要懂一些常识。具体测试你的阅读能力、理解能力的手段,一般都是给一篇文章,再你一些问题。你能来就说明你理解了,答不上来就说明你不理解。对电脑的测试也是这样。

图7 莱茵河介绍

我给大家举个例子,说明一下阅读理解。图7中,这一段话的大意是在介绍莱茵河,它流经哪些国家,最终在哪里注入大海。莱茵河畔最大的城市是德国科隆。它是中欧和西欧区域的第二长河流,仅次于多瑙河之后,约1230公里。然后,我们问的问题是,什么河比莱茵河长?当你读完了这段话,你就要推断,“after”在这里是什么意思,从而才能得出正确答案是多瑙河。电脑要做这道题,实际上要仔细解析很多问题,最终才能作出回答。


未来5-10年,NLP将走向成熟


最后,再介绍一下我对自然语言处理目前存在的问题以及未来的研究方向的一些考虑,供大家参考。

● 随着大数据、深度学习、云计算这三大要素推动,所谓认知智能,尤其是语言智能跟感知智能一样会有长足的发展。你也可以说,自然语言处理迎来了60余年发展历史上最好的一个时期,进步最快的一个时期,从初步的应用到搜索、聊天机器人上,到通过对上下文的理解,知识的把握,它的处理能力得到长足的进步。具体来讲,我认为,口语机器翻译肯定会完全普及,将来我认为它就是手机上的标配。任何人出国,无论到了哪个国家,拿起电话来你说你的母语,跟当地人交流不会有太大的问题,而且是非常自如的过程,就跟你打电话一样。所以,我认为口语机器翻译会完全普及。虽然这不意味着同声翻译能彻底颠覆,也不意味着这种专业领域的文献的翻译可以彻底解决;但我认为还是会有很大的进展。

● 自然语言的会话、聊天、问答、对话达到实用程度。这是什么意思?这意味着在常见的场景下,通过人机对话的过程完成某项任务。这个是可以完全实现,或者跟某个智能设备进行交流,比如说关灯、打开电脑、打开纱窗这种一点问题都没有,包括带口音的说话都可以完全听懂。但是同样,这也不代表任何话题、任何任务、用任何变种的语言去说都可以达到。目前离那个目标还很远,我们也在努力。

● 智能客服加上人工客服完美的结合,一定会大大提高客服的效率。我认为很多重复的客服工作,比如说问答,还有简单的任务,基本上人工智能都可以解决。但是复杂的情况下仍然不能解决。所以,它实际上是人工智能跟人类智能完美结合来提高一个很好的生产力,这个是没有问题的。

● 自动写对联、写诗、写新闻稿和歌曲等等,今天可能还是一个新鲜的事物,但是5到10年一定都会流行起来,甚至都会用起来。比如说写新闻稿,给你一些数据,这个新闻稿草稿马上就写出来,你要做的就是纠正,供不同的媒体使用等。

● NLP将推动语音助手、物联网、智能硬件、智能家居的普及。

● NLP与其他AI技术一起在金融、法律、教育、医疗等垂直领域将得到广泛应用。

但是,我们也清醒地看到,虽然有一些很好的预期,但是自然语言处理还有很多很多没有解决的问题。以下几个我认为比较重要的。

1.通过用户画像实现个性化服务。现在自然语言处理基本上用户画像用得非常非常少。人与人的对话,其实是对不同的人说不同的话,因为我们知道对话的人的性格、特点、知识层次,我了解了这个用户,知道用户的画像,那么在对话的时候就会有所调整。目前来讲,我们还远远不能做到这一点。

2.通过可解释的学习洞察人工智能机理。现在自然语言处理跟其他的人工智能一样,都是通过一个端对端的训练,而其实里面是一个黑箱,你也不知道发生了什么,哪个东西起作用,哪个东西没有起作用。我们也在思考,有没有一种可解释的人工智能,帮助我们知道哪些地方发挥了作用,哪些地方是错的,然后进行修正,快速调整我们的系统。目前还没有针对这个问题很好的解决方案,尽管有一些视觉化的工作,但是都比较粗浅,还没有达到最精准的判定和跟踪。

3.通过知识与深度学习的结合提升效率。所谓知识和深度学习的结合,有可能很多情况下是需要有人类知识的。比如说客服,是有一些常见处理过程的。那么出现问题我该怎么解决?这些知识如何跟数据巧妙结合,从而加快学习的过程、提高学习的质量,这也是比较令人关注的。

4.通过迁移学习实现领域自适应。如果们想翻某一个专业领域,比如说计算机领域,可能现有的翻译工具翻得不好。所以大家都在研究,有没有一种办法,能够帮助机器进行迁移学习,能够更好的运用到语音自适应上。

5.通过强化学习实现自我演化。这就是说我们自然语言系统上线之后有很多人用,得到了有很多人的反馈,包括显示的反馈、隐式的反馈,然后通过强化学习不断的提升系统。这就是系统的自我演化。

6.最后,我认为也是非常关键的,通过无监督学习充分利用未标注数据。现在都依赖于带标注的数据,没有带标注的数据没有办法利用。但是很多场景下,标注数据不够,你找人工标注代价又极大。那么如何用这些没有标注的数据呢?这就要通过一个所谓无监督的学习过程,或者半监督的学习过程增强整体的学习过程。这里也是目前研究上非常令人关注的。


本文由CSDN根据周明博士的演讲内容编写,已获授权转载


 

Source: 微软亚洲研究院 | 14 Jun 2017 | 9:58 pm(NZT)

可变形卷积网络:计算机新“视”界


如同视觉是人们获取信息的主要渠道一样,计算机视觉也是人工智能研究领域的核心问题之一,已有几十年的研究历史。顾名思义,计算机视觉是研究如何让电脑“看懂”图像,例如,对图像中的物体进行识别、分割、跟踪和三维几何测量等。

由于同样的物体在图像中可能呈现出不同的大小、姿态、视角变化甚至非刚体形变,因此如何适应这些复杂的几何形变是物体识别的主要难点,同时也是计算机视觉领域多年来关注的核心问题。很多传统经典方法,如尺度不变的特征变换(scale invariant feature transform, or SIFT)和可变形部件模型(deformable part models)等,都旨在解决这一问题。然而,由于人工设计特征的局限性,传统视觉方法在物体识别问题上多年来并未取得突破性的进展。

不久前,微软亚洲研究院视觉计算组的研究员在arXiv上公布了一篇题为“Deformable Convolutional Networks”(可变形卷积网络)的论文,首次在卷积神经网络(convolutional neutral networks,CNN)中引入了学习空间几何形变的能力,得到可变形卷积网络(deformable convolutional networks),从而更好地解决了具有空间形变的图像识别任务。

研究员们通过大量的实验结果验证了该方法在复杂的计算机视觉任务(如目标检测和语义分割)上的有效性,首次表明在深度卷积神经网络(deep CNN)中学习空间上密集的几何形变是可行的。该论文的源代码也于近期在GitHub上公布。


卷积神经网络的成功和局限

近年来,随着深度卷积神经网络的普遍使用,很多困难的视觉问题都获得了重大突破。图像识别于两年多前首次超越了人类的识别能力。物体检测、图像分割等也都达到了几年前传统方法难以企及的高度。

由于强大的建模能力和自动的端到端的学习方式,深度卷积神经网络可以从大量数据中学习到有效特征,避免了传统方法人工设计特征的弊端。然而,现有的网络模型对于物体几何形变的适应能力几乎完全来自于数据本身所具有的多样性,其模型内部并不具有适应几何形变的机制。究其根本,是因为卷积操作本身具有固定的几何结构,而由其层叠搭建而成的卷积网络的几何结构也是固定的,所以不具有对于几何形变建模的能力。

举个例子,想要识别出同一图像中不同大小的物体(比如远近不同的两个人),理想的结果是,在对应于每个物体的位置网络需要具有相应大小的感受野(receptive field)。直观的说,为了识别更大的物体网络需要看到更大的图像区域。然而,在现有的卷积网络架构中,图像中任何位置的感受野大小都是相同的,其取决于事先设定的网络参数(卷积核的大小、步长和网络深度等),无法根据图像内容自适应调整,从而限制了识别精度。


消除网络难以适应几何变形的“罪魁祸首”

追根溯源,上述局限来自于卷积网络的基本构成单元,即卷积操作。该操作在输入图像的每个位置时会进行基于规则格点位置的采样,然后对于采样到的图像值做卷积并作为该位置的输出。通过端到端的梯度反向传播学习,系统将会得到一个用矩阵表示的卷积核的权重。这就是自卷积网络诞生之初,已使用二十多年的基本单元结构。

微软亚洲研究院的研究员们发现,标准卷积中的规则格点采样是导致网络难以适应几何形变的“罪魁祸首”。为了削弱这个限制,研究员们对卷积核中每个采样点的位置都增加了一个偏移的变量。通过这些变量,卷积核就可以在当前位置附近随意的采样,而不再局限于之前的规则格点。这样扩展后的卷积操作被称为可变形卷积(deformable convolution)。标准卷积和可变形卷积在图1中有简要的展示。

​图1:展示了卷积核大小为 3x3 的正常卷积和可变形卷积的采样方式,(a) 所示的正常卷积规律的采样 9 个点(绿点),(b)(c)(d) 为可变形卷积,在正常的采样坐标上加上一个位移量(蓝色箭头),其中(c)(d) 作为 (b) 的特殊情况,展示了可变形卷积可以作为尺度变换,比例变换和旋转变换的特殊情况

事实上,可变形卷积单元中增加的偏移量是网络结构的一部分,通过另外一个平行的标准卷积单元计算得到,进而也可以通过梯度反向传播进行端到端的学习。加上该偏移量的学习之后,可变形卷积核的大小和位置可以根据当前需要识别的图像内容进行动态调整,其直观效果就是不同位置的卷积核采样点位置会根据图像内容发生自适应的变化,从而适应不同物体的形状、大小等几何形变,如图2、图3中所展示。

​图2:两层3*3的标准卷积和可变形卷积的区别。(a) 标准卷积中固定的感受野和卷积核采样点。(b) 可变性卷积中自适应的感受野和卷积核采样点。


图 3:更多可变形卷积的示例。每个图像三元组显示了三层3x3可变形卷积核的采样点位置(共729个点),对应于三个不同的图像区域(从左至右,背景,小物体,大物体)。


可变形卷积神经网络:简明深刻的网络结构革新

可变形卷积单元具有诸多良好的性质。它不需要任何额外的监督信号,可以直接通过目标任务学习得到。它可以方便地取代任何已有视觉识别任务的卷积神经网络中的若干个标准卷积单元,并通过标准的反向传播进行端到端的训练。由此得到的网络则称为“可变形卷积网络”。

可变形卷积网络是对于传统卷积网络简明而又意义深远的结构革新,具有重要的学术和实践意义。它适用于所有待识别目标具有一定几何形变的任务(几乎所有重要的视觉识别任务都有此特点,人脸、行人、车辆、文字、动物等),可以直接由已有网络结构扩充而来,无需重新预训练。它仅增加了很少的模型复杂度和计算量,且显著提高了识别精度。例如,在用于自动驾驶的图像语义分割数据集(CityScapes)上,可变形卷积神经网络将准确率由70%提高到了75%。

此外,通过增加偏移量来学习几何形变的思想还可方便地扩展到其它计算单元中去。例如,目前业界最好的物体检测方法都使用了基于规则块采样的兴趣区域(region of interests, ROI)池化(pooling)。在该操作中,对于每个采样的规则块增加类似的偏移量,从而得到可变形兴趣区域池化 (deformable ROI pooling)。由此所获得的新的物体检测方法也取得了显著的性能提升。


卷积网络的新思路

近年来,与神经网络结构相关的研究工作层出不穷,大多是对于各种基本网络单元连接关系的研究。不同于大部分已有的工作,可变形卷积网络首次表明了可以在卷积网络中显式地学习几何形变。它修改了已使用二十余年的基本卷积单元结构,在重要的物体检测和语义分割等计算机视觉任务上获得了重大的性能提升。

可以想象,在不远的未来,在更多的计算机视觉识别任务中(如文字检测、视频物体检测跟踪等)都将看到它的成功应用。


 

Source: 微软亚洲研究院 | 9 Jun 2017 | 10:13 pm(NZT)


对话|人工智能先驱Yoshua Bengio

​​

Yoshua Bengio


今年1月份,微软收购深度学习初创公司Maluuba时,Maluuba公司德高望重的顾问、深度学习先驱Yoshua Bengio也接手了微软的人工智能研究顾问工作。最近,Bengio以蒙特利尔学习算法研究所负责人的身份访问了微软位于华盛顿州雷德蒙的园区,并与员工们举行了座谈。本文是此次座谈内容的实录。(本文译自A conversation with AI pioneer Yoshua Bengio, 请点击网址即可查看。https://blogs.microsoft.com/next/2017/04/06/a-conversation-ai-pioneer-yoshua-bengio/#Fu2Sooc4EsSOMJLH.99



●  让我们从最基础的问题开始:什么是深度学习?

Bengio:深度学习是机器学习方法之一,而机器学习则是让计算机从有关我们周围世界或其中某个特定方面的范例中学习,从而让计算机变得更加智能的一种方式。

在所有的机器学习方法中,深度学习是最独特的,因为它的灵感源自我们对人脑探索与研究。深度学习试图让计算机学会很多不同层次的抽象和表达,这可能是使此类系统如此成功的原因。


●  能否给我们举个例子,说明人们是如何运用深度学习的?

Bengio深度学习最常见的运用方法被称为“监督学习”,我们向计算机提供在多种不同情境下应该如何行事的范例。例如,我们向计算机提供数百万个真人朗读句子的语音数据,当然也包括这每一个句子背后的声音数据对应的文本数据,我们希望计算机能够从这些对应的数据中学会将声音转换成文字。计算机像人类一样获得了在现实世界中的信息输入,它将通过对众多样本数据处理方法的学习来模拟人类完成任务的过程。


●  深度学习出现迄今已有数十年。您能否谈谈深度学习是如何从早期的起步阶段努力发展到如今广泛渗透进生活里的各类应用中的?

Bengio这一切都发端于20世纪50年代末,当时人们真正开始思考人工智能,并且意识到:“嘿,我们应该研究大脑是怎么运转的,并从中获取一些线索,用来打造一些更加智能的机器。”但随后深度学习研究一度沉寂,之后又于20世纪80年代初卷土重来并持续到90年代初,尔后再次淡出——因为它的成效并不能满足当时人们过高的期望。时至今日,深度学习研究已迎来第三波浪潮。大约五年前,深度学习技术开始在各类应用中取得惊人突破:诸如语音识别、图像识别以及近期的机器翻译等自然语言相关的应用。



●  作为深度学习的大咖,您认为目前最令人兴奋的研究工作是什么?

Bengio现在我对所谓“无监督学习”领域中所取得的进步感到非常兴奋。在这一领域内,目前最尖端的机器学习和深度学习系统的表现仍远远逊色于人类。一个两岁的幼童都可以通过观察世界并与之互动来学习新知。例如,她不必专门通过上课,而可以通过玩耍和观察来了解重力和压力等物理学知识。这就是无监督学习。我们(的机器)现在还远远不具备这种强大的能力,但好消息是我们已经在这一方面取得了令人惊叹的进步。这非常重要,因为如果要让机器超越它们目前擅长但有限的解决特定问题的能力,我们一定要掌握无监督学习。


●  在微软, 我们讨论的更多的是将人工智能视作是帮助人类完成任务、增强人们体验与能力的手段。您认为在人工智能辅助人类上最有潜力的方面都有哪些?

Bengio谈到我们在人工智能领域,特别是自然语言领域取得进步的第一个重要应用,那就是让计算机能够以更自然的方式与人类交流。眼下,我们与计算机打交道时常常会感到很懊恼,因为我们不知道如何更高效地与计算机进行沟通从而获取我们想要的信息。自然语言处理能力将让很多并非程序员出身的普通人能够更加便利地使用计算机。除此之外,计算机切实理解用户的需要和问题,不仅搜寻信息还可能找出原因,并帮助用户完成工作,这样的创想都是非常有前景的。


●  我想回到您前面谈过的话题:深度学习通常被认为是从人脑的运转方式中获得了灵感。为什么说深层神经网络受到了我们对大脑工作方式理解的启发,这又如何影响其研究潜力呢?

Bengio从神经网络研究的早期开始,人们就有一个想法,大脑中运行的计算可否这样加以抽象化:大脑中的每个神经元都在进行一种非常简单的数学运算。神经网络所做的就是将所有这些小运算组合在一起,但由神经元所执行的每项计算都是可以变化和调整的。这对应于我们大脑中神经元突触的变化——这就是我们人类学习的方式。事实证明,计算机学会如何将许多元素结合在一起,这种机器学习方式是非常强大的。



●   我们目前对大脑工作方式的了解程度如何?

Bengio大脑至今仍然是一个很大的谜。你不妨把它想象成一个大拼图。我们已经手握拼图的所有组件,世界各地成千上万的神经科学家正在研究其中许多不同的组件,但我们却忽略了全局。我和其他一些人相信并且希望的是,我们在深度学习中所取得的进步也将有助于我们发现这一全局。当然,我们不确信,但眼下科学界还有很多令人兴奋的想法,将更多的从机器学习和深度学习中获得的数学理念与神经科学相结合,以便更好地了解大脑。当然,我们也希望反过来也一样有效,因为目前深度学习还根本不能与人类智慧相提并论。人类和人类大脑能够做到机器不能做的事情,所以也许我们也能够通过对大脑工作原理的了解来启发和影响未来的深度学习系统。


●   我们常常听到很多对人工智能可以做什么的猜测。您能否给我们大致描述一下,我们距离创造能够实际模仿人类思维和行为的人造智能或深度学习技术还有多远?

Bengio有很多人向我提出过这个问题,而我的回答总是“我不知道”,而且我相信,没有一个严肃的科学家能给你一个直接的答案,因为还有太多未知数。我的意思是说,从字面上看,我们之所以从事这个领域的研究,就是因为我们不知道如何解决某些问题。但我们知道的是我们正在取得进展。我们也可以猜测,事情正朝着正确的方向发展。但是,比如说,还需要多长时间才能切实地解决一些更难的问题、更复杂的抽象问题?这是不可能有答案的。究竟是5年,15年,还是50年吗?现在我们面临一些障碍,但我们认为自己可以克服。但是,也可能一山更比一山高。


●   你能否谈谈深度学习在人们运用人工智能的各种工具中所处的地位?

Bengio深度学习正在改变过去几十年间人们对于人工智能的观念,将一些理念从相对传统的方式转向人工智能并实现两者的整合,并对其中一些好的想法兼收并蓄。其中最著名的例子就是深度学习与强化学习的融合。

因此,强化学习也是机器学习的一种,其中计算机并不会了解人类在特定情形下会怎么做。学习者这一方只能在一系列行动的实践之后看到行为的结果是好还是坏。在这方面研究的许多最新进展都体现在游戏等方面,但强化学习对于自动驾驶汽车等应用而言仍将是非常重要的。


​​​​
 

Source: 微软亚洲研究院 | 7 Apr 2017 | 8:59 pm(NZT)

讲堂| 曾文军:当机器学习遇到大视频数据

​​

你离成为人工智能专家,还有多远的距离?

近日,四位来自微软亚洲研究院的AI大咖在中国科技大学进行了一场以“开启智能计算的研究之门”为主题的前沿分享。这四位嘉宾分别是:


● 首席研究员刘铁岩——人工智能的挑战与机遇

● 资深研究员谢幸——用户画像、性格分析与聊天机器人

● 首席研究员童欣——数据驱动方法在图形学中的应用

● 首席研究员曾文军——当机器学习遇到大视频数据


目前,我们已经发布了刘铁岩博士的演讲——人工智能的挑战与机遇,谢幸博士的演讲——用户画像、性格分析与聊天机器人,和童欣博士的演讲——数据驱动方法在图形学中的应用

最后一位与大家分享的是曾文军博士的演讲——当机器学习遇到大视频数据,全文如下(文字内容略有精简)。希望这些关于前沿技术的思索能够开启属于你的智能计算研究之门!


今天很高兴有这个机会给大家分享一下微软亚洲研究院近两年在机器学习和视频大数据的分析和理解方面的一些工作以及一些思考。

AI兴起是由于有大数据等各方面的因素。大数据有各种不同的形态,其中视频信号占很大比重,现在的网络上,百分之七八十的流量是由视频信号所组成的,可以说它是大数据中的大数据

这种大数据给我们带来了挑战,同时也提供了很大的机会。从机会角度来说,这些数据可能在几年前还不太容易得到,但现在我们能够分析这个大数据,提取有价值的信息,从而去支持新的产品或者服务,所以这里面蕴藏了巨大的机会。在有大数据的同时,我们的计算资源也在迅速发展,机器学习和深度学习在这几年也取得了非常快速的进步。现在是IT行业非常兴旺的时代。

关于视觉信号分析,可以发现它的发展也是起起伏伏,到一定阶段都会看到一些瓶颈。其中一个很大的瓶颈就是没有足够量的数据,所以模型或算法上的发展都受到了一定的限制。

2010年左右,李飞飞教授和她的同事以及学生构建了ImageNet Database,这是一个有标注的数据集,应该是目前为止最大的有标注的图像数据集。它按照WordNet的层级去组织,比如从哺乳动物到狗,再到一个明确的狗的品种。因为它有概念,同时每个概念里面也有几百到上千的图像可以跟它associat在一块,所以是一个很好的图像信号的表示,也是一个很好的知识库。这个数据库辅助了图像分析、计算机视觉等相关领域近期的快速发展。

除了ImageNet,近几年也有一些与图像识别相关的比赛,其中图像分类就是希望在100多万的标注图像上,去进行分类。当然,还有一些如物体检测、场景检测、场景分析和语义分割等。

关于ImageNet图像分类比赛,2012年前,错误的概率很大,所以基本上很难适用。2012年,Hinton的实验室第一次把深度神经网络用到这个任务上,一下有了很大的突破,也引起了很大的关注。随后这几年技术就一直有持续的发展,并且神经网络结构上的变化促使了比较大的进步。

短短几年内图像识别这个任务已经做的很不错了。当然还有一些更有挑战性的任务,像语义分割等等。虽然图像上已经有了很大的进步,但视频方面却还是差的很远

视频信号相比于图像信号有更大的挑战,因为它是一个更高维的信号,里面的内容多样性也非常大。所以要去判断它、理解它都很困难,当然数据量很大也是另外一个问题。

还有一个问题,在很多情况下,视频是实时的,比如监控,因此在处理速度等各方面都有很大的要求。而且标注视频数据时每一帧都要标注,也很耗费时间、精力和成本。这也是为什么视频发展相比图像来讲还是落后一些。

缺少训练数据又是另外一个问题,如监控录像的数据很难获得。要解决这个问题,不能像其他视频一样可以从视频网站上找到很多数据做训练,所以发展也受到了阻碍,会稍微慢一点。

接下来,介绍一下微软亚洲研究院在视频分析方面做的一些工作。

我们最近两年尝试了以人为中心的方法(Human  centric approach),意识到在视频里面,人是一个最主要的主体,要理解视频,首先要理解人。因此,我们围绕人,来进行人的检测,以及人的属性和行为的研究工作。

我们用了一些视觉方面的基础技术和深度学习的一些技术。下面举几个例子介绍一下这方面的主要问题、挑战,以及我们取得的一些最新成果。

人脸/人的检测及追踪是非常基础的问题,但在视频处理中,最基本的问题也是非常难的问题。比如要把视频里的人脸模糊掉,就是个难题。大家可能觉得人脸识别在图像方面已经做的很好了。可是一旦用到毫无控制的视频里面,其实并不是一回事。

人脸可能会出现侧面的情况,或者大小不一,各种形象都有可能,要做检测很难。所以一般这种问题,我们都要做检测追踪,如果是做逐帧的检测,很可能在很多帧上都检测不到这个人脸,所以只能通过跟踪的方法,利用全过程的相关性,从能够检测的那帧去跟踪到另一帧里不能检测到的人脸。

在这个视频人脸模糊问题里,因为隐私保护的要求,所以不能漏掉任何一帧里的人脸,如果漏掉一帧,那么就被看见了,因此每帧都在做检测,每帧都在做跟踪。还可能很多情况下,不是所有的人脸都需要被抹掉,可能某些个别的人脸要抹掉,这个问题就更复杂了,因为需要区分不同的人脸,只抹掉需要抹掉的,所以这里面当然就有人脸识别的问题。



同样的技术,用到不同的应用,比如名人识别(celebrity recognition),如果能够检测跟踪并识别到名人的脸,那么就可以知道一个名人他在某个视频里的什么时候出现,出现了多长时间等,这实际上也是一种具体的应用。

人脸当然是一个非常基础的问题,但是很多情况下,可以看到的人脸要么很小,要么看不见,所以必须依靠其他技术,例如,人体的检测与跟踪。人体的问题更复杂,因为它是一个不规则的形状,而且不是不变的,跟踪它比人脸还难,毕竟人脸的形状基本上还是比较固定的。

在这个基础上,我们希望知道一个人的属性是什么,如:性别、是不是戴帽子、衣着的类型等等,这可以被用来做更进一步的研究,搜索一个特定的人或是一类人。也可以做的再细一点,把人体的部分分开,这同样也是为了做理解和搜索,也可以做所谓的Re-Identification,就是在不同的相机视角里面,把同一个人找出来。

我们在这方面做了一些工作,做Re-Identification实际上是一个匹配的过程,要匹配一个人和另外一个人,可以用整个身体去匹配。如果能把一个人分割开,如上衣,下衣等等,理论上可以做的更好。

通过CNN网络学到一些特征,再用一些注意力模型(attention  model)去把重要的部分抽取出来,然后再结合到一起作为一个特征的描述,这样就不是笼统的描述这个人可能是红色的,而是说这个人的这一部分是什么颜色,那一部分是什么颜色,这样做匹配就会更准确。

还有一个例子是在衣着比例不一样的情况下做匹配,这种时候整个人的匹配就会相对比较难。如果能够有一个方法,虽然衣着比例不一样,但是依旧可以把相应的部分提取出来,做局部的匹配,那么就可以做的更好。这些都可以通过深度学习去学的,包括各部分的关系、怎么样把某一部分找出来,实际上都可以通过深度神经网络去学的。



再进一步,我们还想知道人体的主要关节点在哪里,并把它提取出来。这十分有用,我们可以用它做一些动作的分析和识别,来看一个人到底在做什么样的动作。

这个问题其实也很有挑战性。一是动作可以有各种各样的表现,然后还有遮挡的问题,有些关节会被其他的身体部分给挡住。这方面的工作基本是用一个完全卷积网络(fully convolutional network)去提取信息,给出一个热度图,也就是一个概率。这个模型基本上可以给每一个不同的关节一个概率的分布图,这样就能大概知道,哪里可能是头、膝盖等。



关于关节点估计(Pose Estimation)的挑战实际上也很多。第一个问题是相似性,左踝关节和右踝关节可能很难区分。在这种情况下,可能需要利用不同关节间的特殊关系来帮助确认。第二个问题是动作、姿势的多样性。如果利用关节间的特殊关系,就需要想办法去考虑到各种各样的情形,因为图像中不一定在头部左边的就是左肩。我们找到了一个方法可以把比较多样的状况标准化成比较一致的数据,只要数据一致之后就具有一定的统计性,有了统计性就会很好学。



除此之外,我们也在做多人关节点估计,多人情况下一旦有多个人出现并且靠的比较近时就会有更多不明确的信息,谁的左肩、谁的右脚等等,会有更复杂的问题。

还有一个是视频上做关节点估计,传统方法是一帧一帧的去解然后再做关节点的叠加。但原则上应该直接作为一个视频数据,去解决里面动作/关节点的检测和追踪。

在行为识别方面,我们也有一系列的工作。比如一个RGB的视频,我们希望把他的姿态和关节点找出来,从而判断是什么样的动作。如下图,我们设计了一个网络,因为这是一个视频,就算从图像上得到关节的序列,但它还是一个时间序列的数据。所以一般在这种情况下,我们都可以用一个RNN。



图中的LSTM是属于特殊类别的一种RNN,因为它有记忆性,所以在每一个时刻,它不但能看到当前这一帧的骨骼,还记下了前几帧的骨骼信息。因此,它可以做一个总体的判断,来表示在一小段时间里面,动作是如何变化的,这样行为识别可以做的更好。LSTM是目前非常流行的方法,它对于时序数据或者视频数据来说都是一个很好的工具

同时,可能还要加一些约束,比如共现性学习(co-occurrence learning),对一定的动作,某些关节之间会有很大的相关性,所以需要将限制加入到网络中从而帮助更好、更快的学习。因为空间很大、参数非常多,所以一定要利用先验的知识或者一些特性。

此外,在做行为识别时,可以看到一个特定的动作其实不是所有的关节都是同样重要的。比如下图,喝水的时候,手部、肘部的关节可能比较重要,腿部可能就是噪声。



所以我们有一个空域注意力(spatial attention,就是做一个特定动作的分类器,从而更多关注那些需要学习的关节,这样就可以把噪声去掉,在做设计的时候才能做的更好。同样,在输出上也是一样,因为这是一个序列,所以实际上在每一帧里面可能都有一个输出。

在时域中,实际上也有一个注意力的问题,比如踢腿这个动作,可能踢的快到最高点的时候是最主要的点。其他时候也有一些输出,但是不见得是对这个动作最重要的输出。对于最有助于踢这个动作判断的,我们叫时域注意力(temporal attention)。最终得到一个如下所示基本的网络结构。



从NTU这个目前最大的3D skeleton数据集的结果可以看出来,在短短一两年的时间,提升还是很大的。我们的STA-LSTM方法做出的结果有很好的效果。 



前面提到的重点都是在人上,但是其他比较主要的物体,像车我们也在做,包括车的检测、跟踪,双闪灯、左转灯等等,当然车牌也是很重要的一个部分,检测加识别。当然如果有检测和跟踪技术,同样也可以做一些编辑的应用,比如把车牌抹掉,这实际上跟之前提到的视频中的人脸部分的编辑面临同样的问题。

我刚才展示了我们最近做的一些工作。最后想对大家说,微软研究院和学校一个比较大的不同在于微软毕竟是一个大的企业,所以我们除了发很好的论文以外,还要考虑如何把我们的研究成果转化为生产力,去造福这个社会。目前,我们有很多的技术已经被运用到了产品里,有的还正在产品化的过程中,同时我们也在跟许多内部和外部的同行进行合作。我们希望与大家进行更多的交流,从而推动技术的发展!

谢谢大家!


​​​​
 

Source: 微软亚洲研究院 | 31 Mar 2017 | 10:59 pm(NZT)

微软AI讲堂 · 清华大学站 暨 微软编程之美2017启动仪式

​​

人类今天面临的最重要课题之一就是人工智能。纵观人类历史上的诸多创新,像汽车、印刷机、蒸汽机、载人飞机、火箭和人造卫星……它们都不只是孤立的创新,更是推动人类在浩瀚无垠的各领域里迅猛发展的加速器。

早在25年前,微软研究院成立伊始,我们就设想着有一天能创造出通用人工智能,能听、会看、可讲,还能理解人类思维。今天的我们,可能比以往任何一个时刻都更接近这个美好愿望。人工智能不仅使人类的视野得以延展,还让我们的脑力更加强大。

如果说2016年是人工智能元年,那么2017年则可视为人工智能政策的元年。刚刚过去的两会,人工智能登上了热词榜,不仅被写入代表提案,还出现在总理政府工作报告中。毋庸置疑,人工智能的发展迎来了最好的时代。

但作为当前最前端的科技研究,人工智能在普通大众眼中多少有些“深不可测”——复杂的知识结构,天文般的代码,还有云山雾绕的术语。微软深信,这种关乎人类共同体发展的突破性技术应当惠及每个人,向全球公民普及人工智能知识也一直是我们的目标。

基于这样的初心,微软亚洲研究院决定启动“微软AI讲堂”系列活动。我们将通过讲座、分享、讨论等形式多样的活动行程线上线下联动,走进校园,传递知识,普及科学,揭开人工智能的神秘面纱。

微软AI讲堂第一站设在清华大学,主题为“拥抱智能,对话未来”。这场专家分享会将聚焦人工智能领域自然语言理解方向,面向清华大学学生以及北京地区所有微软学生俱乐部同学们。在人工智能时代,我们应该怎样更好武装自己,迎接机遇与挑战?在微软AI课堂第一讲,你不仅能听清华大学和微软亚洲研究院的大咖专家们分享见解,更可围观业界初创公司和校园创新新星间的精彩讨论。


微软AI讲堂


• 时间:  4月6日 星期四  下午14:00~16:40

• 地点:清华大学


​​

嘉宾介绍


潘天佑(Tim Pan)


潘天佑博士现任微软亚洲研究院副院长,全面负责微软亚洲研究院与亚太地区高校、研究机构及政府的学术交流和研究合作。他建立了一系列战略方针、积极探索商业机会,并构建了针对不同层面的多种学术交流和人才培养项目,以加强微软亚洲研究院与学术界之间的伙伴关系。

潘天佑博士拥有获得美国圣路易斯华盛顿大学(Washington University in St. Louis)电机工程博士学位。潘博士具有20余年计算机相关工作经验,曾成功创立两家专注于智能卡芯片和大规模银行系统的技术公司。潘天佑博士2005年至2007年曾任职微软亚洲研究院学术合作部。出于对人才培养和学术合作的激情,2012年潘天佑博士选择再次加入微软亚洲研究院。

潘天佑博士连续十年担任台湾圣约翰科技大学校董,义务授课并就计算机技术和高科技创业发表演讲。潘天佑博士同时是一名信息系统安全专家,拥有CISSP等相关工业认证。


孙茂松


孙茂松,2007-2010年任清华大学计算机科学与技术系系主任。主要研究领域为自然语言处理、互联网智能、机器学习、社会计算和计算教育学。国家重点基础研究发展计划(973计划)项目首席科学家,国家社会科学基金重大项目首席专家。在国际刊物、国际会议、国内核心刊物上发表论文160余篇,主持完成文本信息处理领域ISO国际标准2项。主要学术兼职包括:教育部在线教育研究中心副主任,清华大学大规模在线教育研究中心主任,清华大学-新加坡国立大学下一代搜索技术联合研究中心共同主任,国务院学位委员会第六届学科评议组计算机科学与技术组成员,国家自然科学基金委员会第十二、十三届专家评审组成员,中国科学技术协会第九届全国委员会委员,北京市语言文字工作委员会专家委员会副主任,中国中文信息学会第六、七届副理事长,《中文信息学报》主编,《大数据》杂志编委会副主任,全国计算机慕课联盟副理事长,多个教育部或省市级重点实验室学术委员会主任、副主任,国家语言文字工作委员会“两岸语言文字交流与合作协调小组”成员等。2007年获全国语言文字先进工作者,2016年获全国优秀科技工作者及首都市民学习之星。


周明


微软亚洲研究院副院长、国际计算语言学协会(ACL)候任主席、 中国计算机学会理事、中文信息技术专委会主任、术语工作委员会主任、中国中文信息学会常务理事,哈尔滨工业大学、天津大学、南开大学、山东大学等多所学校博士导师。

1985年毕业于重庆大学,1991年获哈尔滨工业大学博士学位。1991-1993年清华大学博士后,随后留校任副教授。1996-1999访问日本高电社公司领导中日机器翻译研究。他是中国第一个中英翻译系统CEMT-I(哈工大1989年)、日本最有名的中日机器翻译产品J-北京(日本高电社1998年)的研制者。1999年,周明博士加入微软亚洲研究院,不久开始负责自然语言研究组。他带领团队进行了微软输入法、英库词典(必应词典)、中英翻译、微软中国文化系列(微软对联、微软字谜、微软绝句)等重要产品和项目的研发,并对微软Office、必应搜索、Windows等产品中的自然语言技术做出了重要贡献。近年来,周明博士领导研究团队与微软产品组合作开发了微软小冰(中国)、Rinna(日本)、Zo(美国)等聊天机器人系统。周明博士发表了100余篇重要会议和期刊论文(包括45篇以上的ACL文章),拥有国际发明专利40余项。他多年来通过微软与中国和亚太地区的高校和学术团体在学术研究和人才培养等多方面紧密合作,对推动计算语言学和自然语言处理的研究在区域内的发展做出了杰出贡献。


胡一川


胡一川本科硕士毕业于清华大学,博士毕业于美国宾夕法尼亚大学。2011年,胡一川联合创办了个性化影视推荐公司「今晚看啥」,并在2012年底被百度收购。在百度期间,他带领百度视频团队打造了一个大规模的视频搜索和推荐引擎。2015年6月他离开百度二次创业成立「助理来也」,目标是基于语义、对话和推荐等技术打造一款真正靠谱的人工智能助理产品。「助理来也」目前已覆盖数百万用户,并获得微软、光速、红杉、真格等知名投资机构的多轮投资。


主办单位:

• 清华大学校团委

• 微软亚洲研究院学术合作部

合作单位:

• 清华大学计算机科学与技术系

• 清华大学数据科学研究院

•IEEE

承办单位:

• 清华-微软未来互联网与计算兴趣团队


微软编程之美2017启动仪式


除了以上“微软AI讲堂”活动,更值得期待的是,我们也将在活动上全面启动微软编程之美2017挑战赛。编程之美挑战赛是微软面向学生开展的大型编程比赛,自2012年以来已成功举办了五届比赛,先后有来自国内外77000 高校学生参加过编程之美大赛。现已成为以解决挑战性问题为目标的优秀学生切磋交流及实现梦想的平台。今年,编程之美挑战赛2.0时代到来,它致力于帮助学生们了解、学习最新的技术理念,动手实践最热门的技术,玩转最酷炫的工具,并通过比赛加强他们在协作、沟通等方面的软实力,从而提高青年开发者的综合实践能力,成为能够解决当今热点问题,走在时代前沿的青年典范。

2017编程之美挑战赛的主题为:请同学们利用微软机器人框架(Microsoft Bot Framework)和微软认知服务(Microsoft Cognitive Services),为你所爱的学校打造一个最美Bot。大赛分为资格赛、初赛和决赛三个阶段,资格赛要求参赛队伍以Bot Framework为技术平台,完成例题中规定好的问题,并回答正确。 快来点击网址http://studentclub.msra.cn/bop2017报名吧!

一切都已准备就绪,微软亚洲研究院邀请你前来和我们一起对话,畅聊人工智能的美好未来。现场聆听清华大学和微软亚洲研究院专家们的见解与分享,零距离围观精彩碰撞,赶快行动吧~

​​​​
 

Source: 微软亚洲研究院 | 31 Mar 2017 | 12:47 am(NZT)

微软AI讲堂 · 清华大学站│拥抱智能 对话未来 暨 微软编程之美2017启

​​

人类今天面临的最重要课题之一就是人工智能。纵观人类历史上的诸多创新,像汽车、印刷机、蒸汽机、载人飞机、火箭和人造卫星……它们都不只是孤立的创新,更是推动人类在浩瀚无垠的各领域里迅猛发展的加速器。

早在25年前,微软研究院成立伊始,我们就设想着有一天能创造出通用人工智能,能听、会看、可讲,还能理解人类思维。今天的我们,可能比以往任何一个时刻都更接近这个美好愿望。人工智能不仅使人类的视野得以延展,还让我们的脑力更加强大。

如果说2016年是人工智能元年,那么2017年则可视为人工智能政策的元年。刚刚过去的两会,人工智能登上了热词榜,不仅被写入代表提案,还出现在总理政府工作报告中。毋庸置疑,人工智能的发展迎来了最好的时代。

但作为当前最前端的科技研究,人工智能在普通大众眼中多少有些“深不可测”——复杂的知识结构,天文般的代码,还有云山雾绕的术语。微软深信,这种关乎人类共同体发展的突破性技术应当惠及每个人,向全球公民普及人工智能知识也一直是我们的目标。

基于这样的初心,微软亚洲研究院决定启动“微软AI讲堂”系列活动。我们将通过讲座、分享、讨论等形式多样的活动行程线上线下联动,走进校园,传递知识,普及科学,揭开人工智能的神秘面纱。

微软AI讲堂第一站设在清华大学,主题为“拥抱智能,对话未来”。这场专家分享会将聚焦人工智能领域自然语言理解方向,面向清华大学学生以及北京地区所有微软学生俱乐部同学们。在人工智能时代,我们应该怎样更好武装自己,迎接机遇与挑战?在微软AI课堂第一讲,你不仅能听清华大学和微软亚洲研究院的大咖专家们分享见解,更可围观业界初创公司和校园创新新星间的精彩讨论。


微软AI讲堂


• 时间:  4月6日 星期四  下午14:00~16:40

• 地点:清华大学


嘉宾介绍


潘天佑(Tim Pan)


潘天佑博士现任微软亚洲研究院副院长,全面负责微软亚洲研究院与亚太地区高校、研究机构及政府的学术交流和研究合作。他建立了一系列战略方针、积极探索商业机会,并构建了针对不同层面的多种学术交流和人才培养项目,以加强微软亚洲研究院与学术界之间的伙伴关系。

潘天佑博士拥有获得美国圣路易斯华盛顿大学(Washington University in St. Louis)电机工程博士学位。潘博士具有20余年计算机相关工作经验,曾成功创立两家专注于智能卡芯片和大规模银行系统的技术公司。潘天佑博士2005年至2007年曾任职微软亚洲研究院学术合作部。出于对人才培养和学术合作的激情,2012年潘天佑博士选择再次加入微软亚洲研究院。

潘天佑博士连续十年担任台湾圣约翰科技大学校董,义务授课并就计算机技术和高科技创业发表演讲。潘天佑博士同时是一名信息系统安全专家,拥有CISSP等相关工业认证。


孙茂松


孙茂松,2007-2010年任清华大学计算机科学与技术系系主任。主要研究领域为自然语言处理、互联网智能、机器学习、社会计算和计算教育学。国家重点基础研究发展计划(973计划)项目首席科学家,国家社会科学基金重大项目首席专家。在国际刊物、国际会议、国内核心刊物上发表论文160余篇,主持完成文本信息处理领域ISO国际标准2项。主要学术兼职包括:教育部在线教育研究中心副主任,清华大学大规模在线教育研究中心主任,清华大学-新加坡国立大学下一代搜索技术联合研究中心共同主任,国务院学位委员会第六届学科评议组计算机科学与技术组成员,国家自然科学基金委员会第十二、十三届专家评审组成员,中国科学技术协会第九届全国委员会委员,北京市语言文字工作委员会专家委员会副主任,中国中文信息学会第六、七届副理事长,《中文信息学报》主编,《大数据》杂志编委会副主任,全国计算机慕课联盟副理事长,多个教育部或省市级重点实验室学术委员会主任、副主任,国家语言文字工作委员会“两岸语言文字交流与合作协调小组”成员等。2007年获全国语言文字先进工作者,2016年获全国优秀科技工作者及首都市民学习之星。


周明


微软亚洲研究院副院长、国际计算语言学协会(ACL)候任主席、 中国计算机学会理事、中文信息技术专委会主任、术语工作委员会主任、中国中文信息学会常务理事,哈尔滨工业大学、天津大学、南开大学、山东大学等多所学校博士导师。

1985年毕业于重庆大学,1991年获哈尔滨工业大学博士学位。1991-1993年清华大学博士后,随后留校任副教授。1996-1999访问日本高电社公司领导中日机器翻译研究。他是中国第一个中英翻译系统CEMT-I(哈工大1989年)、日本最有名的中日机器翻译产品J-北京(日本高电社1998年)的研制者。1999年,周明博士加入微软亚洲研究院,不久开始负责自然语言研究组。他带领团队进行了微软输入法、英库词典(必应词典)、中英翻译、微软中国文化系列(微软对联、微软字谜、微软绝句)等重要产品和项目的研发,并对微软Office、必应搜索、Windows等产品中的自然语言技术做出了重要贡献。近年来,周明博士领导研究团队与微软产品组合作开发了微软小冰(中国)、Rinna(日本)、Zo(美国)等聊天机器人系统。周明博士发表了100余篇重要会议和期刊论文(包括45篇以上的ACL文章),拥有国际发明专利40余项。他多年来通过微软与中国和亚太地区的高校和学术团体在学术研究和人才培养等多方面紧密合作,对推动计算语言学和自然语言处理的研究在区域内的发展做出了杰出贡献。


胡一川


胡一川本科硕士毕业于清华大学,博士毕业于美国宾夕法尼亚大学。2011年,胡一川联合创办了个性化影视推荐公司「今晚看啥」,并在2012年底被百度收购。在百度期间,他带领百度视频团队打造了一个大规模的视频搜索和推荐引擎。2015年6月他离开百度二次创业成立「助理来也」,目标是基于语义、对话和推荐等技术打造一款真正靠谱的人工智能助理产品。「助理来也」目前已覆盖数百万用户,并获得微软、光速、红杉、真格等知名投资机构的多轮投资。


主办单位:

• 清华大学校团委

• 微软亚洲研究院学术合作部

合作单位:

• 清华大学计算机科学与技术系

• 清华大学数据科学研究院

•IEEE

承办单位:

• 清华-微软未来互联网与计算兴趣团队


微软编程之美2017启动仪式


除了以上“微软AI讲堂”活动,更值得期待的是,我们也将在活动上全面启动微软编程之美2017挑战赛。编程之美挑战赛是微软面向学生开展的大型编程比赛,自2012年以来已成功举办了五届比赛,先后有来自国内外77000 高校学生参加过编程之美大赛。现已成为以解决挑战性问题为目标的优秀学生切磋交流及实现梦想的平台。今年,编程之美挑战赛2.0时代到来,它致力于帮助学生们了解、学习最新的技术理念,动手实践最热门的技术,玩转最酷炫的工具,并通过比赛加强他们在协作、沟通等方面的软实力,从而提高青年开发者的综合实践能力,成为能够解决当今热点问题,走在时代前沿的青年典范。

2017编程之美挑战赛的主题为:请同学们利用微软机器人框架(Microsoft Bot Framework)和微软认知服务(Microsoft Cognitive Services),为你所爱的学校打造一个最美Bot。大赛分为资格赛、初赛和决赛三个阶段,资格赛要求参赛队伍以Bot Framework为技术平台,完成例题中规定好的问题,并回答正确。 快来点击网址http://studentclub.msra.cn/bop2017报名吧!

一切都已准备就绪,微软亚洲研究院邀请你前来和我们一起对话,畅聊人工智能的美好未来。现场聆听清华大学和微软亚洲研究院专家们的见解与分享,零距离围观精彩碰撞,赶快行动吧~

​​​​
 

Source: 微软亚洲研究院 | 31 Mar 2017 | 12:24 am(NZT)

微软AI讲堂 · 清华大学站│拥抱智能 对话未来 暨 微软编程之美2017启

​​

人类今天面临的最重要课题之一就是人工智能。纵观人类历史上的诸多创新,像汽车、印刷机、蒸汽机、载人飞机、火箭和人造卫星……它们都不只是孤立的创新,更是推动人类在浩瀚无垠的各领域里迅猛发展的加速器。

早在25年前,微软研究院成立伊始,我们就设想着有一天能创造出通用人工智能,能听、会看、可讲,还能理解人类思维。今天的我们,可能比以往任何一个时刻都更接近这个美好愿望。人工智能不仅使人类的视野得以延展,还让我们的脑力更加强大。

如果说2016年是人工智能元年,那么2017年则可视为人工智能政策的元年。刚刚过去的两会,人工智能登上了热词榜,不仅被写入代表提案,还出现在总理政府工作报告中。毋庸置疑,人工智能的发展迎来了最好的时代。

但作为当前最前端的科技研究,人工智能在普通大众眼中多少有些“深不可测”——复杂的知识结构,天文般的代码,还有云山雾绕的术语。微软深信,这种关乎人类共同体发展的突破性技术应当惠及每个人,向全球公民普及人工智能知识也一直是我们的目标。

基于这样的初心,微软亚洲研究院决定启动“微软AI讲堂”系列活动。我们将通过讲座、分享、讨论等形式多样的活动行程线上线下联动,走进校园,传递知识,普及科学,揭开人工智能的神秘面纱。

微软AI讲堂第一站设在清华大学,主题为“拥抱智能,对话未来”。这场专家分享会将聚焦人工智能领域自然语言理解方向,面向清华大学学生以及北京地区所有微软学生俱乐部同学们。在人工智能时代,我们应该怎样更好武装自己,迎接机遇与挑战?在微软AI课堂第一讲,你不仅能听清华大学和微软亚洲研究院的大咖专家们分享见解,更可围观业界初创公司和校园创新新星间的精彩讨论。


微软AI讲堂


• 时间:  4月6日 星期四  下午14:00~16:40

• 地点:清华大学


嘉宾介绍


潘天佑(Tim Pan)


潘天佑博士现任微软亚洲研究院副院长,全面负责微软亚洲研究院与亚太地区高校、研究机构及政府的学术交流和研究合作。他建立了一系列战略方针、积极探索商业机会,并构建了针对不同层面的多种学术交流和人才培养项目,以加强微软亚洲研究院与学术界之间的伙伴关系。

潘天佑博士拥有获得美国圣路易斯华盛顿大学(Washington University in St. Louis)电机工程博士学位。潘博士具有20余年计算机相关工作经验,曾成功创立两家专注于智能卡芯片和大规模银行系统的技术公司。潘天佑博士2005年至2007年曾任职微软亚洲研究院学术合作部。出于对人才培养和学术合作的激情,2012年潘天佑博士选择再次加入微软亚洲研究院。

潘天佑博士连续十年担任台湾圣约翰科技大学校董,义务授课并就计算机技术和高科技创业发表演讲。潘天佑博士同时是一名信息系统安全专家,拥有CISSP等相关工业认证。


孙茂松


孙茂松,2007-2010年任清华大学计算机科学与技术系系主任。主要研究领域为自然语言处理、互联网智能、机器学习、社会计算和计算教育学。国家重点基础研究发展计划(973计划)项目首席科学家,国家社会科学基金重大项目首席专家。在国际刊物、国际会议、国内核心刊物上发表论文160余篇,主持完成文本信息处理领域ISO国际标准2项。主要学术兼职包括:教育部在线教育研究中心副主任,清华大学大规模在线教育研究中心主任,清华大学-新加坡国立大学下一代搜索技术联合研究中心共同主任,国务院学位委员会第六届学科评议组计算机科学与技术组成员,国家自然科学基金委员会第十二、十三届专家评审组成员,中国科学技术协会第九届全国委员会委员,北京市语言文字工作委员会专家委员会副主任,中国中文信息学会第六、七届副理事长,《中文信息学报》主编,《大数据》杂志编委会副主任,全国计算机慕课联盟副理事长,多个教育部或省市级重点实验室学术委员会主任、副主任,国家语言文字工作委员会“两岸语言文字交流与合作协调小组”成员等。2007年获全国语言文字先进工作者,2016年获全国优秀科技工作者及首都市民学习之星。


周明


微软亚洲研究院副院长、国际计算语言学协会(ACL)候任主席、 中国计算机学会理事、中文信息技术专委会主任、术语工作委员会主任、中国中文信息学会常务理事,哈尔滨工业大学、天津大学、南开大学、山东大学等多所学校博士导师。

1985年毕业于重庆大学,1991年获哈尔滨工业大学博士学位。1991-1993年清华大学博士后,随后留校任副教授。1996-1999访问日本高电社公司领导中日机器翻译研究。他是中国第一个中英翻译系统CEMT-I(哈工大1989年)、日本最有名的中日机器翻译产品J-北京(日本高电社1998年)的研制者。1999年,周明博士加入微软亚洲研究院,不久开始负责自然语言研究组。他带领团队进行了微软输入法、英库词典(必应词典)、中英翻译、微软中国文化系列(微软对联、微软字谜、微软绝句)等重要产品和项目的研发,并对微软Office、必应搜索、Windows等产品中的自然语言技术做出了重要贡献。近年来,周明博士领导研究团队与微软产品组合作开发了微软小冰(中国)、Rinna(日本)、Zo(美国)等聊天机器人系统。周明博士发表了100余篇重要会议和期刊论文(包括45篇以上的ACL文章),拥有国际发明专利40余项。他多年来通过微软与中国和亚太地区的高校和学术团体在学术研究和人才培养等多方面紧密合作,对推动计算语言学和自然语言处理的研究在区域内的发展做出了杰出贡献。


胡一川


胡一川本科硕士毕业于清华大学,博士毕业于美国宾夕法尼亚大学。2011年,胡一川联合创办了个性化影视推荐公司「今晚看啥」,并在2012年底被百度收购。在百度期间,他带领百度视频团队打造了一个大规模的视频搜索和推荐引擎。2015年6月他离开百度二次创业成立「助理来也」,目标是基于语义、对话和推荐等技术打造一款真正靠谱的人工智能助理产品。「助理来也」目前已覆盖数百万用户,并获得微软、光速、红杉、真格等知名投资机构的多轮投资。


主办单位:

• 清华大学校团委

• 微软亚洲研究院学术合作部

合作单位:

• 清华大学计算机科学与技术系

• 清华大学数据科学研究院

•IEEE

承办单位:

• 清华-微软未来互联网与计算兴趣团队


微软编程之美2017启动仪式


除了以上“微软AI讲堂”活动,更值得期待的是,我们也将在活动上全面启动微软编程之美2017挑战赛。编程之美挑战赛是微软面向学生开展的大型编程比赛,自2012年以来已成功举办了五届比赛,先后有来自国内外77000 高校学生参加过编程之美大赛。现已成为以解决挑战性问题为目标的优秀学生切磋交流及实现梦想的平台。今年,编程之美挑战赛2.0时代到来,它致力于帮助学生们了解、学习最新的技术理念,动手实践最热门的技术,玩转最酷炫的工具,并通过比赛加强他们在协作、沟通等方面的软实力,从而提高青年开发者的综合实践能力,成为能够解决当今热点问题,走在时代前沿的青年典范。

2017编程之美挑战赛的主题为:请同学们利用微软机器人框架(Microsoft Bot Framework)和微软认知服务(Microsoft Cognitive Services),为你所爱的学校打造一个最美Bot。大赛分为资格赛、初赛和决赛三个阶段,资格赛要求参赛队伍以Bot Framework为技术平台,完成例题中规定好的问题,并回答正确。 快来点击网址http://studentclub.msra.cn/bop2017报名吧!

一切都已准备就绪,微软亚洲研究院邀请你前来和我们一起对话,畅聊人工智能的美好未来。现场聆听清华大学和微软亚洲研究院专家们的见解与分享,零距离围观精彩碰撞,赶快行动吧~

​​​​
 

Source: 微软亚洲研究院 | 31 Mar 2017 | 12:10 am(NZT)











© 澳纽网 Ausnz.net