杏彩娱乐注册

您的位置: 杏彩娱乐注册 > 杏彩娱乐注册 >

浅道野生智能:近况、义务、构架取同一

发布时间:2017-11-04

来源: 视觉求索

作者:朱松纯 加州大学洛杉矶分校UCLA统计学和计算机科学教授,视觉、认知、学习与自主机器人核心主任

2017年11月02日 登载于 《视觉求索》微信大众号

目次

弁言

第一节 现状:正视现实

第二节 未来:一只乌鸦给我们的启示

第三节 历史:从“春秋五霸”到“战国六雄”

第四节 统一:“小数据、大任务”范式与认知构架

第五节 学科一:计算视觉 --- 从“深”到“暗”

第六节 学科二:认知推理 --- 走进内心世界

第七节 学科三:语言通讯 --- 相同的认知基础

第八节 学科四:博弈伦理 --- 获取、共享人类的价值观

第九节 学科五:机器人学 --- 构建大任务平台

第十节 学科六:机器学习 --- 学习的最终极限与“停机问题”

第十一节 总结: 智能科学 --- 牛顿与达尔文的统一

附录 中科院主动化所讲演会上的发问与互动戴录

道谢

引言

“人工智能”这个名词在沉静了近30年之后,最近两年“咸鱼翻身”,成为了科技公司公关的疆场、网络媒体吸睛的风口,随后受到当局的器重和投资界的追捧。因而,新闻发布会、顶峰论坛相继而来,当局策略规划出台,各种新闻应付自如,宣布一个“智能为王”时代的到来。

到底什么是人工智能?现在的研究处于什么阶段?往后如何发展?这是大家普遍关注的问题。由于人工智能涵盖的学科和技术面非常广,要在短时间内周全认识、理解人工智能,别说非专业人士,就算对本行业研究人员,也是好不容易的任务。

所以,现在很多宣传与决策冲到认识之前了,由此弗成防止地制成一些思惟和言论的混乱。

自从客岁用了微信以来,我就常常收到亲友挚友转来的惊世骇俗的新闻题目。我发现很多谈论缺累科学根据,变成了“娱乐AI”。一个在1970年代研究乌洞的物理学博士,素来没有研究过人工智能,却时不断被抬出来猜测人类末日的到来。某些公司的公关部分和媒体施展想象力,动辄把一些无辜的研究人员启为“巨匠”、“泰斗”。最近,名词不敷用了。玄月初,就有报导把请来的一名米国教授称作“人工智能祖师爷”。

这位教授的确是机器学习领域的一个领军人物,但人工智能是1956年开始的,这位教授也才刚刚诞生。何况机器学习只是人工智能的一个领域而已,大部分其它重要领域,如视觉、语言、机器人,他都没有涉足,所以这样的封号很荒谬(声名一点:我对这位学者自己没有意见,估计他自己不一定知道这个封号)。当时我想,后面是不是有人会搬出“达摩老祖、佛祖如来、孔雀王、太上老君、玉皇大帝”这样的封号。十月晦,鲜明就听说达摩院建立了,声称要碾压米国,议论惊动!别说一般老庶民担心拾饭碗,就连一些业内的研究人员都被说得心慌了,来问我有什么见地。

我的意见很简单:大多数写报道和搞炒作宣传的人,基本不懂人工智能。这就像年轻人玩的传话游戏,扭曲的信息在多次传导过程中,逐级放大,最后传回来,自己吓到自己了。下面这个例子就说明公众的误解到了什么程度。往年9月我在车上听到一家电台讨论人工智能。两位主持人谈到硅谷脸书公司,有个顺序员突然发现,两台电脑在通讯过程中发明了一种全新的语言,快捷交流,人看不懂。眼看一种“超等智能”在几秒以内迅速迭代进级(我加一句:这仿佛就像宇宙大发作的前几秒钟),法式员惶惶不可终日。人类现在只剩最后一招才能救命自己了:“别愣着,赶快拔电源啊!…”终于把人类从地府又拉回来了。

回到本文的正题。周全认识人工智能之所以难题,是有客观本因的。

其一、人工智能是一个非常普遍的领域。当后人工智能涵盖很多大的学科,我把它们归纳为六个:

(1)计算机视觉(暂且把模式识别,图像处理等问题归入个中)、

(2)自然语言理解与交流(暂时把语音识别、分解纳入个中,包括对话)、

(3)认知与推理(包含各种物理和社会常识)、

(4)机器人学(机械、控制、设计、运动规划、任务规划等)、

(5)博弈与伦理(多代办人agents的交互、抗衡与合作,机器人与社会融会等议题)。

(6)机器学习(各种统计的建模、分析工具和计算的方法),

这些领域目前还比较散,目前它们正在交叉发展,走向统一的过程中。我把它们通俗称作“战国六雄”,中国历史本来是“战国七雄”,我这里为了费事,把两个小一点的领域:博弈与伦理归并了,伦理本身就是博弈的各种平衡态。最终目标是希望形成一个完整的科学体系,从目前闹哄哄的工程实践变成一门真正的科学Science of Intelligence。

因为学科比较疏散,处置相干研究的大少数博士、教授等专业人员,往往也只是波及以上某个学科,甚至临时专一于某个学科中的具体问题。比如,人脸识别是计算机视觉这个学科里面的一个很小的问题;深度学习属于机器学习这个学科的一个当红的派别。很多人现在把深度学习就同等于人工智能,就相当于把一个地级市说玉成国,肯定分歧适。读到这里,搞深度学习的同学一定不信服,或者很赌气。你先别慢,等读完后面的内容,你就会发现,不管CNN网络有几何层,还是很浅,跋及的任务还是很小。

各个领域的研究人员看人工智能,如果按照印度人的谚语可以叫做“瞽者摸象”,但这明显是语言触犯了,还是中国的文学大师苏轼游庐山时说得有水平:

“横当作岭侧成峰,遐迩高下各不同。

不识庐山真面庞,只缘身在此山中。”

其发布,人工智能发展的断代景象。因为历史发展的起因,人工智能自1980年代以来,被分化出以上多少大学科,彼此自力发展,并且这些学科基本摈弃了之前30年以逻辑推理与启示式搜索为主的研究办法,与而代之的是概率统计(建模、学习)的方法。留在传统人工智能领域(逻辑推理、搜寻博弈、专家体系等)而不分流到以上分收学科的老一辈中,确实是有许多齐局视线的,但多半已经由世或退息了。他们当中只要少少数人在80-90年月,以灵敏的目光,过渡或许引领了几率统计与学习的方式,成了学术领军人类。而重生代(80年月以后)留在传统人工智能学科的研究人员很少,他们又不是很懂得那些被分化进来的学科中的详细问题。

这类范畴的分化取近况的断代, 宾不雅上形成了今朝的教界和工业界思绪和观念相称“凌乱”的局势,媒体上的混治就更缩小了。然而,以踊跃的立场来看,这个局面确切为当初的年青一代研究职员、研讨死供给了一个很好的立功破业的机遇和辽阔的舞台。

鉴于这些现象,《视觉求索》编纂部同仁和同业多次催促我写一篇人工智能的批评和介绍资料。我就免为其难,仅以自己30年来念书和跨学科研究的阅历、观察和思辩,浅谈什么是人工智能;它的研究现状、任务与构架;以及如何走向统一。

我写这篇文章的动机在于三点:

(1)为在读的研究生们、为有志进入人工智能研究领域的年轻学者宽阔视家。

(2)为那些对野生智能感兴致、爱好思考的人们,做一个前沿的、综述性的先容。

(3)为公寡与媒体从业人员,做一个人工智能科普,廓清一些现实。

本文来源: 本文技术内容选自我2014年来在多所大学和研究所做的讲座报告。2017年7月,微软的沈向洋博士要求我在一个朋友聚首上做一个人工智能的简介,我增添了一些通俗的内容。2017年9月,在谭铁牛和王蕴红教员的要求下,我加入了中科院自动化所举办的人工智能人机交互讲习班,他们派速记员和一位博士生整理出本文初稿。如果没有他们的热忱辅助,这篇文章是不行能写成的。原讲座两个半小时,本文做了删加和文字润饰。依然有四万字,加上大量拉图和示例。很负疚,无奈再紧缩了。

本文择要:文章前四节浅易讨论什么是人工智能和当前所处的历史时期,后面六节分别切磋六个学科的重点研究问题和难点,有什么样的前沿的课题等候年轻人去探索,最后一节讨论人工智能是否以及如何成为一门成熟的科学体系。

诚如伸子所言:“路漫漫其修远兮,我将高低而求索”。

第一节 近况评价:重视现实

人工智能的研究,简单来讲,就是要通过智能的机器,延长和加强(augment)人类在改革自然、管理社会的各项任务中的能力和效力,终极实现一个人与机器协调共生共存的社会。这里说的智能机器,可所以一个虚构的或者物理的机器人。与人类几千年来发明出来的各种工具和机器分歧的是,智能机器有自立的感知、认知、决议、学习、执行和社会合作能力,合乎人类感情、伦理与品德观念。

抛开科幻的幻想,谈几个近期具体的应用。无人驾驶大家听了很多,先说说军用。部队里的一个班或者行动组,现在比如要七个人,将来可以减到五个人,另外两个用机器来调换。其次,机器人可以用在救灾和一些危险的场景,如核泄漏现场,人不能进去,必须靠机器人。医用的例子很多:智能的假肢或外骨架(exoskeleton)与人脑和身体信号对接,增能人的行动控制能力,帮助残疾人更好生活。另外,还有就是家庭养老等办事机器人等。

但是,这方面的进展很不尽人意。以前岛国常常夸耀他们机器人能舞蹈,中国有一次春节晚会也拿来表演了。那都是事先编写的程序,结果一个福岛核辐射事变一下子把所有问题都暴露了,发现他们的机器人一点招都没有。米国也派了机器人过去,同样出了很多问题。比如一个简单的技术问题,机器人进到灾害现场,背地拖一根长长的电缆,要供电和传数据,结果电缆就被缠住了,转动不得。有一次,一位同事在餐桌上半恶作剧说,以现在的技术,要让一个机器人长时间像人一样处理问题,可能要自带两个微型的核电站,一个发电驱动机械和计算装备,另一个发电驱动热却系统。顺便说一个,人脑的功耗大约是10-25瓦。

看到这里,有人要问了,教授说得错误,我们明显在网上看到好国机器人让人蔚为大观的表示。比如,这一家波士顿能源学公司(Boston Dynamics)的演示,它们的机器人,怎样踢都踢不倒呢,或者踢倒了可以自己爬起来,并且在朝中森林箭步如飞呢,还有几个背重的电驴、大狗也很酷。这家公司原来是由米国国防部支撑开收回机器人来的,被谷歌出售以后、就不再连接国防项目。但是,谷歌发现除了烧钱,今朝还找不到贸易前途,最远始终待卖之中。您会问,那谷歌不是很牛吗?DeepMind下围棋不是也一次次安慰中国人的神经吗?有一个顺天的机器人身材、一个逆天的机器人大脑,它们都在统一个公司外部,那为什么没有做出一个人工智能的产物呢?他们未尝不在废寝忘食的奋战之中啊。

人工智能炒作了这么一下子,您看看周围情况,您看到机器人走到大巷上了?没有。您看到人工智能进入家庭了吗?其实还没有。您可能独一直接领教过的是基于大数据和深度学习训练出来的谈天机器人,你可能跟Ta聊过。用我故乡湖北人的话,这就叫做“扯黑”--- 东扯西推、说口语。如果你没有被Ta气得背过气的话,要么您真的是忙得慌,要末是您果然有耐烦。

为了测试技术近况,米国国防部高等研究署2015年在洛杉矶郊区Pomona做了一个DARPA Robot Challenge(DRC),赏格了两百万美金奖给竞赛的第一名。有很多队伍参加了这个竞赛,上图是韩国科技大学队赢了第一名,右边是他们的机器人在现场开门出来“救灾”。整个竞赛场景设置的跟好莱坞片场一样,复造了三个赛场,满是冒烟的救灾局面。

机器人自己开着一个车子过来,自己下车,开门,去拿工具,关阀门,在墙上开洞,最后过一个砖头做的障碍区,上楼梯等一系列动作。我当时带着学生在现场看,因为我们恰好有一个大的DARPA项目,项目主管是里面的评判员。当时,我第一感觉还是很震摇的,感觉不错。后来发现底细,原来机器人所有的动作基本上是人在遥控的。每一步、每一个场景分别有一个界面,每个学生控制一个模块。感知、认知、动作都是人在批示。就是说这个机器人其实并没有自己的感知、认知、思惟推理、规划的能力。

造成的结果是,你就可以看到一些不堪设想的事情。比如说这个机器人去抓门把手的时候,因为它靠后台人的感知,偏差一厘米,就没抓着;或者脚踩楼梯的时候差了一点点,它重心就得到了平衡,可是在后面把持的学生没有重力感知旌旗灯号,一看落空平衡,他来不迭反应了。你想一想看,我们人踩滑了一会儿能保持平衡,因为你整个人都在一起反应,可是那个学生只是远远地看着,他反应不过来,所以机器人就七颠八倒。

这还是一个简单的场景。其一、整个场景都是当时设定的,各个团队也都重复练习过的。如果是没有碰见的场景,需要灵机定夺呢?其二、整个场景还没有人涌现,如果有其余人呈现,需要社会活动(如语言交流、合作协作)的话,那复杂度就又要上两个数目级了。

其实,如果完全由人手动控制,现在的机器人都可以做手术了,而且手术机器人已经在遍及之中。上图是我实验室与一家公司合作的项目,机器人可以开拉链、检讨包裹、用钳子拆除炸弹等,都是可以实现的。现在的机器人,机械控制这一块已经很不错了,但这也不是完全管用。比如上面提到的波士顿动力学公司的机器人电驴走山路很稳定,但是它马达乐音大,霹雳隆的噪音,到疆场上去把目标都给暴露了。特别是早晨执勤、侦察,你搞那么大洞悉,怎么行呢?

2015年的此次DRC比赛,久时就葬送了米国机器人研究的严重项目标立项。内行(包括国集会员)从名义看,认为这个问题曾经处理了,应当留给公司来开辟;行家看到里面的艰苦,感到一时半会出有大度经隐晦决不了。这个意识上的降好在某种水平上就是“科研的冬季”到来的前题前提。

小结一下,现在的人工智能和机器人,关键问题是缺乏物理的常识和社会的常识“Common sense”。 这是人工智能研究最大的阻碍。那么什么是常识?常识就是我们在这个世界和社会糊口生涯的最基本的知识:(1)它应用频次最高;(2)它可以举一反三,推导出而且帮助获取其它知识。这是解决人工智能研究的一个核心课题。我自2010年来,一直在率领一个跨学科团队,攻关视觉常识的获取与推理问题。我在自动化所做了别的一个关于视觉常识报告,也被转录成中文了,未几会揭晓出来。

那么是不是说,我们离真正的人工智能还很悠远呢?其实也否则。关键是研究的思路要找对问题和方向。自然界已经为我们提供了很好的案例。

上面,我便去看一下,天然界给咱们展现的解问。

第二节 未来目标: 一只乌鸦给我们的启示

同属自然界的鸟类,我们对比一下体型大小都差不多的乌鸦和鹦鹉。鹦鹉有很强的语言模仿能力,你说一个短句,多说几遍,它能重复,这就类似于当前的由数据驱动的聊天机器人。二者都可以说话,但鹦鹉和聊天机器人都不明白说话的语境和语义,也就是它们不能把说的话对应到物理世界和社会的物体、场景、人物,不符合因果与逻辑。

可是,乌鸦就远比鹦鹉聪明,它们能够制作工具,懂得各种物理的常识和人的活动的社会知识。

下面,我就介绍一只乌鸦,它生活在复杂的乡村环境中,与人类交互和共存。YouTube网上有不少这方面的视频,大家可以找来看看。我个人认为,人工智能研究该搞一个“乌鸦图腾”, 因为我们必须认真向它们学习。

上图a是一只乌鸦,被研究人员在岛国发现和跟踪拍摄的。乌鸦是野生的,也就是说,没人管,没人教。它必须靠自己的观察、感知、认知、学习、推理、执行,完全自主生活。如果把它算作机器人的话,它就在我们现实生活中活下来。如果这是一个自立的流落汉进乡了,他要在乡下活下去,包括与城管周旋。

首先,乌鸦面对一个任务,就是寻找食品。它找到了坚果(至于如何发现坚果里面有果肉,那是另外一个例子了),需要砸碎,可是这个任务超越它的物理动作的能力。其它动物,如大猩猩会使用工具,找几块石头,一块大的垫在底下,一块中等的拿在手下去砸。乌鸦怎么试都不可,它把坚果从天上往下抛,发现解决不了这个任务。在这个过程中,它就发现一个窍门,把果子放到路上让车轧过去(图b),这就是“鸟机交互”了。后来进一步发现,虽然坚果被轧碎了,但它到路中间去吃是一件很风险的事。因为在一个毂击肩摩的路面上,随时它就就义了。我这里要强调一点,这个过程是没有大数据训练的,也没有所谓监督学习,乌鸦的性命没有第二次机会。这是与当前很多机器学习,特别是深度学习完全不同的机制。

然后,它又开始观察了,见图c。它发现在凑近红绿路灯的路口,车子和人有时候停下了。这时候,它必须进一步融会出红绿灯、斑马线、行人指导灯、车子停、人流停这之间复杂的因果链。甚至,哪个灯在哪个方向管用、对什么对象管用。搞清楚之后,乌鸦就选择了一根正幸亏斑马线上方的一根电线,蹲下来了(图d)。这里我认输调另一点,也许它观察和学习的是另外地址,那个点没有这些蹲点的条件。它必须信任,同样的因果关系,可以搬到当前的所在来用。这一点,当前很多机器学习方法是做不到的。比如,一些增强学习方法,让机器人抓取一些牢固物体,如积木玩物,换一换位置都不可;打游戏的人工智能算法,换一换画面,又得重新开始学习。

它把脆果扔到斑马线上,等车子轧过去,然后比及止人灯亮了(图e)。这个时候,车子都停在斑马线里面,它终究可以不慌不忙地走过去,吃到了地上的果肉。你说这个乌鸦有多聪明,这是我冀望的真挚的智能。

这个乌鸦给我们的启发,最少有三点:

其一、它是一个完全自主的智能。感知、认知、推理、学习、和执行, 它都有。我们前面说的, 世界上一批顶级的科学家都解决不了的问题,乌鸦向我们证实了,这个解存在。

其二、你说它有大数据学习吗?这个乌鸦有几百万人工标注好的训练数据给它学习吗?没有,它自己把这个事通过小批数据想清楚了,没人教它。

其三、乌鸦头有多大?不到人脑的1%大小。 人脑功耗大约是10-25瓦,它就只有0.1-0.2瓦,就实现功能了,根本不需要前面谈到的核动力发电。 这给硬件芯片设计者也提出了挑战和思路。十几年前我到中科院计算所讲座, 就说要做视觉芯片VPU,应该比后来的GPU更超前。我最近介入了一个计算机体系结构的大项目,也有这个目标。

在座的年轻人想想看,你们有很大的机会在这里面,这个解存在,但是我们不知道怎么用一个科学的手腕去实现这个解。

讲通俗一点,我们要寻觅“乌鸦”模式的智能,而不要“鹦鹉”模式的智能。当然,我们必须也要看到,“鹦鹉”模式的智能在商业上,针对某些垂直利用或者有用。

我这里不是说要把所有智能问题都解决了,才能做商业运用。单项技术如果成熟落地,也可以有伟大商业价值。我这里谈的是科学研究的目的。

第三节 历史时期:从“春秋五霸”到“战国六雄”

要搞清楚人工智能的发展趋势,首先得回想历史。读不懂历史,无法预测未来。这一节,我就结合自己的经历谈一下我的观点,不见得准确和片面。为了让非专业人士便于理解,我把人工智能的60年历史与中国历史的一个时期做一个类比,但绝对不要做更多的推行和延伸。如下图所示,这个的时期以是米国时间为准的,中国一般会滞后一两年。

首先,从表面一层来看。反映在一些产业新闻和社会新闻层面上,人工智能经过了几起几落,英文叫做Boom and Bust,意思是一哄而上、一哄而集,很抽象。每次昌盛期都有不同的技术在里面起作用。

最早一次的兴起是1956-1974,以命题逻辑、谓词逻辑等知识表达、启发式搜索算法为代表。当时就已经开始研究下棋了。然落后入第一次冬天。这个时候,中国停止文革,开始学习东方科技。我上小学的时候,就听到报纸报道计算机与人下国际象棋,十分猎奇。

1980年代初又兴起了第二次热潮,一批吹嘘的教授、研究人员退场了。做专家系统、知识工程、调理诊断等,中国当时也有人想做西医等系统。虽然这次此中也有学者拿了图灵奖,但这些研究没有很好的理论基础。1986年我上了中国科大计算机系,我对计算机专业自身不是最感兴趣,觉得那就是一个工具和技巧,而人工智能方向水很深,值得持久探索,所以我很早就去选建了人工智能的研究生课程,是由自动化系一个到米国深造的老师返来开的课。

上完课,我很扫兴,感觉扑空了。它基本还是以符号为主的推理,离现实世界最远。当时人工智能里面的人员也很达观,没士气。所以,我就去浏览关于人的智能的相关领域:神经心理学、心理学、认知科学等,这就让我摸到了计算机视觉这个新兴的学科。在80年代末有个长久的神经网络的研究热潮,我们当时本科五年制,我的大学结业论文就是做神经网络的。随后,人工智能就跌入了近30年的穷冬。

第三次高潮就是最近两年崛起的深度学习推进的。有了以前的经验,一开始学者们都很谨严,出来忠告说我们做的是特定任务,不是通用人工智能,大家不要炒作。但是,拦不住了。公司要做宣传,然后,大家开始加码宣传。这就像踩踩事宜,处在前面的人是苏醒的,他们叫停,可是后面大量闻信赶来的人不知情,冒死往里面挤。人工智能的确是太重要了,谁都不想误了这趟车。也有人认为此次是真的,不会再有冬天了。冬天不冬天,那就要看我们现在怎么做了。

所以说,从我读大学开始,人工智能这个名词从公家视野就消散了近30年。我现在回头看,其实它当时并没有消逝,而是分化了。研究人员分别凑集到五个大的领域或者叫做学科:计算机视觉、自然语言理解、认知科学、机器学习、机器人学。这些领域形成了自己的学术圈子、国际会议、国际期刊,各搞各的,独立发展。人工智能里面还有一些做博弈下棋、常识推理,还留在里面继承搞,但人数不多。我把这30年叫做一个“分治时期”,相当于中国历史的“春秋时期”。春秋五霸就相当于这分出去的五个学科,大家各自觉展壮大。

其次、从深一层的理论基础看。我把人工智能发展的60年分为两个阶段。

第一阶段:前30年以数理逻辑的表达与推理为主。这里面有一些出色的代表人物,如John McCarthy、Marvin Minsky、Herbert Simmon。他们懂很多认知科学的东西,有很强的全局观点。这些都是我读大学的时候敬慕的人物,他们拿过图灵奖和其它一堆大奖。但是,他们的工具基本都是基于数理逻辑和推理。这一套逻辑的东西发展得很清洁、美丽,很值得我们学习。人人有兴趣,可以参考一册最新工具书:The Handbook of Knowledge Representation,2007年编写的,1000多页。但是,这些标记的知识表达不落地,全书谈的没有现实的图片和系统;所以,一本1000多页的书,PDF文明只有10M,下载非常快。而我现在给的这个讲座,PPT差未几1G, 因为有大量的图片、视频,是实在的例子。

这个逻辑表达的“体制”,就相当于中国的周代,周文王建立了一个相对疏松的诸侯部落体制,后来批示不灵,就崩溃了,进入一个秋秋五霸时期。而人工智能恰好也分出了五大领域。

第二阶段:后30年以概率统计的建模、学习和计算为主。在10余年的发展之后,“春秋五霸”在1990年中期都开始找到了概率统计这个新“体制”:统计建模、机器学习、随机计算算法等。

在这个体系的转型过程中,起到中心作用的有这么几个人。讲得通俗一点,他们属于预言家鲜艳者,提早看到了人工智能的发展驱除,押对了偏向(就相称于80年代买了微软、英特尔股票;90年代末,押对了中国房地产的那一批人)。他们没有进入中国媒体的宣传视野。我扼要介绍一下,从中我们也可以学习到一些治学之道。

第一个人叫Ulf Grenander。他从60年代就开始做随机过程和概率模型,是最早的前驱。60年代属于百花怒放的时期,当其余领武士物都在谈逻辑、神经网络的时候,他开始做概率模型和计算,建立了狭义模式理论,试图给自然界各种模式建立一套统一的数理模型。我在以前谈计算机视觉历史的博文里写过他,他刚刚逝世。米国数学学会AMS刚刚以他名字设立了一个奖项(Grenander Prize)奖给对统计模型和计算领域有奉献的学者。他相对是学术思想的先驱人物。

第二个人是Judea Pearl。他是我在UCLA的共事,原来是做启发式搜索算法的。80年代提出贝叶斯网络把概率知识表达于认知推理,并估计推理的不断定性。到90年代末,他进一步研究因果推理,这又一次领先于时代。2011年因为这些贡献他拿了图灵奖。他是一个知识广博、思想活泼的人,不断有首创思想。80多岁了,还在高产颁发论文。顺便吹法螺一句,他是第一个在UCLA计算机系和统计系兼职的教授,我是多年之后第二个这样兼职的。其实搞这种跨学科研究当时思想超前,找工作或者评断的时候,双方的同业都不待见,不承认。

第三个人是Leslei Valiant。他因团圆数学、计算机算法、分布式体系结构方面的大量贡献,2010年拿了图灵奖。1984年,他发表了一篇文章,首创了computational learning theory。他问了两个很简单、但是深刻的问题。第一个问题:你到底要多少例子、数据才能近似地、以某种相信度学到某个概念,就是PAClearning;第二个问题:如果两个强分类器综合在一起,能否提高性能?如果能,那么不断加弱分类器,就可以收敛到强分类器。这个就是Boosting和Adaboost的来源,后来被他的一个博士后设计了算法。

顺便讲一句,这个机器学习的道理,其实中国人早就在生活中观察到了,就是俗话说的“三个臭裨将、顶个诸葛亮”。这里的裨勉强是副卒,接触的时候凑在一起商量对策,被官方耳食之言,说成“皮匠”。Valiant为人非常低调。我1992年去哈佛念书的时候,第一学期就上他的课,当时听不懂他说话,他上课基本是喃喃自语。他把自己科研的问题直接安排功课让我们去做,到哪里都找不到参考谜底,也没有任何人可以问。苦啊,100分的课我考了40多分。上课的人从四十多人,到了期中只有十来个人,我开始担忧是不是要挂科了。最后,还是坚持到期末。他把成就揭在他办公室门上,当我怀着局促不安心境去看分的时候,发现他给每个人都是A。

第四个人是David Mumford。我把他放在这里,有点公心,因为他是我博士导师。他说他60年代初本来对人工智能感兴趣。因为他数学能力特别强,上代数几何课程的时候就发现能够证明大定理了,结果一起不可收拾,拿了菲尔茨奖。但是,到了80年代中期,他不记初心,还是决定转回到人工智能方素来,从计算机视觉和计算神经科学入手。我听说他把原来代数几何的书全部拿下书架放在走廊,让人拿走,不再看了。数学家来访问,他也不招待了。计算机视觉80年代至90年代初,一个最大的门户就是做几何和不变量,他是这方面的行家,但他根本不干预这个方向。他就重新开始学概率,那个时候他搞不懂的问题就带我去敲楼上统计系教授的门,比如去问哈佛一个著名的概率学家Persy Diaconis。他完全是一个学者,放下架子去学习新东西,直奔关键的体系,而不是拿动手上用惯了的锤子处处找钉子 --- 这是我最信服的地方。然后,他皈依了广义模式理论。他的贡献,我就避嫌不说了。

这个时期,还有一个重要的人物是做神经网络和深度学习的多伦多大学教授Hinton。我上大学的时候,80年代前期那一次神经网络热潮,他就闻名了。他很有思想,也很坚持,是个学者型的人物。所不同的是,他下面的团队有点像摇滚歌手,能凭着一首通俗歌曲(代码),敏捷红遍大江南北。这里顺便说一下,我跟Hinton只见过一面。他腰椎徐病使得他不能随处作报告,前几年来UCLA做讲座(当时候深度学习刚刚开始起来),我们部署了一个面谈。一会晤,他就说“我们总算见面了”,因为他读过我早期做的统计纹理模型和随机算法的一些论文,他们学派的一些模型和算法与我们做的工作在数理层面有很多本质的联系。我打印了一篇综述文章给他带在座水车归去的路上看。

这是一篇关于隐式(马尔科妇场)与隐式(稀少)模型的统一与过渡的信息尺度的论文,他回Toronto后就发来邮件,说很愉快读到这篇论文。很有意思的是,这篇论文的初稿,我和学生藏名投到CVPR会议,三个评分是“(5)强盛拒绝;(5)强烈拒绝;(4)拒尽”。评论都很短:“这篇文章不知所云,很怪同weird”。我们觉得文章逝世定了,就勤得辩驳 (rebuttal),结果出乎意本地被录取了。当然,揭橥了也没人读懂。所以,我就写成一篇长的综述,算是暂时弃捐了。我把这篇论文给他看,Hinton究竟是内行,他一定也想过类似的问题。最近,我们又归去做这个问题,我在本年的ICIP大会特邀报告上还提到这个问题,后面也会作为一个《视觉求索》文章宣布出来。这是一个十分关键的问题,就是两大类概率统计模型如何统一起来(就像物理学,希视统一某两个力和场),这是绕不过去的。

扯远了,回到人工智能的历史时期,我作了一个比较通俗的说法,让大家好记住,相当于咱们中国晚期的历史。初期数理逻辑的体制相当于周嘲笑,到80年代这集体制瓦解了,人工智能大略有二三十年不存在了,提及人工智能大家都觉得不着调,臭名化了。其实,它进入一个春秋五霸时期,计算机视觉、自然语言理解、认知科学、机器学习、机器人学五大学科自力发展。在发展强大的过程中,这些学科都发现了一个新的平台或者模式,就是概率建模和随机计算。春秋时期虽然有一些交战,但还是相对安静的时期。

那么现在开始进入一个什么状态呢?这“年龄五霸”不断裁减地皮和人马,在一个共同平台上开始交互了。比如说视觉跟机器学习很早就开始融合了。现在视觉与自然语言、视觉跟认知、视觉跟机器人开始融合了。最近几年来,我和合作家就屡次组织这样的联席研讨会。现在,学科之间则开始吞并了,就像是中国历史上的“战国七雄”时期。除了五霸,还有原来留在人工智能里面的两个慷慨向:博弈决策和伦理道德。这两者其实很濒临,我后面把它们合并到一起来说,一共六大领域,我把它归纳为“战国六雄”。

所以,我跟那些计算机视觉的研究生和年轻人说,你们不要纯真在视觉这里做,你连忙出去“抢地盘”,独自做视觉,已经没有多少新东西可做的了,机能调不过公司的人是一方面;更费事的是,别的领域的人打进来,把你的地皮给占了。这是必然发生的事情,现在正在发生的事情。

我的断定是,我们刚进进一个“战国时代”,当前就要把这些领域统一路来。起首我们必须深刻理解盘算机视觉、做作语言、机器人等发域,这外面有很丰盛的式样和语意。如果你不懂这些问题domain的内在,仅仅是做机器学习就称做人工智能专家,生怕说不外往。

我们正在进入这么一个大集成的、大变更的时代,有很多机会让我们去探索前沿,不要孤负了这个时代。这是我演讲的第一个部分:人工智能的历史、现状,发展的大趋势。

下面,进入我今天报告的第二个主题:用一个什么样的构架把这些领域和问题统一起来。我不敢说我有答案,只是给大家提出一些问题、例子和思路,供大家思考。不要指引我给你提供代码,下载回去,调调参数就能发文章。

第四节 人工智能研究的认知构架:小数据、大任务范式

智能是一种现象,表现在个体和社会群体的行为过程中。回到前面乌鸦的例子,我认为智能系统的本源可以追溯到两个基本前提条件:

一、物理环境客观的现实与因果链条。这是外部物理环境给乌鸦提供的、生活的界限条件。在不同的环境条件下,智能的情势会是不一样的。任何智能的机器必须理解物理世界及其因果链条,顺应这个世界。

二、智能物种与生俱来的任务与价值链条。这个任务是一个生物进化的“刚需”。如个别的生活,要解决吃饭和保险问题,而物种的传承需要交配和社会活动。这些基本任务会衍生出大量的其它的“任务”。动物的行为都是被各种任务驱动的。任务代表了价值观和决策函数,这些价值函数很多在进化过程中就已经形成了,包括人脑中发现的各种化学成份的赏罚调制,如多巴胺(快活)、血清素(苦楚)、乙酰胆碱(焦急、不肯定性)、去甲肾上腺素(离奇、高兴)等。

有了物理环境的因果链和智能物种的任务与价值链,那么一切都是可以推导出来的。要结构一个智能系统,如机器人或者游戏环境中的实拟的人物,我们先给他们定义好身体的基本行动的功能,再定一个模型的空间(包括价值函数)。其实,生物的基因也就给了每个智能的个体这两点。然后,它就来临在某个环境和社会群体之中,就应该自主地生存,就像乌鸦那样找到一条生路:认识世界、利用世界、改造世界。

这里说的模型的空间是一个数学的概念,我们人脑时刻都在改变之中,也就是一个抽象的点,在这个空间中移动。模型的空间通过价值函数、决策函数、感知、认知、任务方案等来表达。通俗来说,一个脑模型就是世界观、人生观、价值观的一个数学的表达。这个空间的复杂度决定了个体的智商和成绩。我后面会讲到,这个模型的表达方式和包含哪些基本因素。

有了这个后天的基本条件(设计)后,下一个重要问题:是什么驱动了模型在空间中的运动,也就是学习的过程?还是两点:

一、 当地的数据。外部世界通过各种感知旌旗灯号,传送到人脑,塑造我们的模型。数据来源于观察(observation)和实践(experimentation)。观察的数据普通用于学习各种统计模型,这种模型就是某种时间和空间的结合散布,也就是统计的关系与相关性。实践的数据用于学习各种因果模型,将行为与结果联系在一起。因果与统计相关是不同的概念。

二、内涵的任务。这就是由内涵的价值函数驱动的行为、以期达到某种目的。我们的价值函数是在生物进化过程中形成的。因为任务的不同,我们往往对环境中有些变量非常敏感,而对其它一些变量不关怀。由此,形成不同的模型。

机器人的脑、人脑都可以算作一个模型。任何一个模型由数据与任务来共同塑造。

现在,我们就离开一个很关键的地方。一样是在概率统计的框架下,当前的很多深度学习方法,属于一个被我称作“大数据、小任务范式(big data for small task)”。针对某个特定的任务,如人脸识别和物体识别,计划一个简单的价值函数Loss function,用大量数据训练特定的模型。这种方法在某些问题上也很无效。但是,酿成的结果是,这个模型不能泛化息争释。所谓泛化就是把模型用到其它任务,解释其实也是一种复杂的任务。这是必定的结果:你种的是瓜, 怎么生机得豆呢?

我多年来一直在提倡的一个相反的思路:人工智能的发展,需要进入一个“小量据、大任务范式(small data for big tasks)”,要用大量任务、而不是大量数据来塑造智能系统和模型。在哲学思想上,必须有一个思路上的大的转变和推翻。自然辨证法里面,恩格斯讲过,“休息创造了人”,这个有点争议。我认为一个更适合的说法是“任务塑造了智能”。人的各种感知和行为,每时每刻都是被任务驱动的。这是我过去很多年来一直保持的观点,也是为什么我整体上不承认深度学习这个学派的做法,虽然我自己是最早提倡统计建模与学习的一批人,但是后来我看到了更大的问题和局面。当然,我们的假设条件是智能系统已经有了前面讲的基本的设置,这个系统设置是亿万年的进化得来的,是否是通过大量数据了打磨(镌汰)出来的呢。有道理!如果我们把整个发展的过程都斟酌出去,智能系统的影响可以分红三个时间段:(1)亿万年的进化,被达尔文理论的一个客观的适者生活的pheontype landscape驱动;(2)千年的文化形成与传承;(3)几十年个别的学习与顺应。 我们人工智能研究平日考虑的是第三个阶段。

那么,如何定义大量的任务?人所感兴趣的任务有多少,是个什么空间结构?这个问题,心理和认知科学一直说不清楚,写不下来。这是人工智能发展的一个宏大挑衅。

理清了这些前提条件,带着这样的问题,下面我用六节分别介绍六大领域的问题和例子,看能不能找到个性的、统一的框架和表达模型。过去几年来,我的研究中央一直把这六个领域的问题综合在一起研究,目的就是寻觅一个统一的构架,找到“乌鸦”这个解。

第五节 计算机视觉:从“深”到“暗” Dark, Beyond Deep

视觉是人脑最重要的信息来源,也是进进人工智能这个殿堂的大门。我自己的研究也恰是从这里动手的。这一节以一个详细例子来介绍视觉里面的问题。固然,很多问题远近没有被解决。

这是我家厨房的一个视角。多年前的一个下战书,我女女下学回家,我正在写一个大的项目申请书,就拍了这一张作为例子。图像就是一个像素的二维矩阵,可是我们感知到非常丰富的三维场景、行为的信息;你看的时间越长,理解的也越多。下面我罗列几个被支流(指大大都研究人员)疏忽的、但是很关键的研究问题。

一、几何常识推理与三维场景构建。以前计算机视觉的研究,需要通过量张图像(多视角)之间特征点的对应关系,去计算这些点在三维世界坐标系的位置(SfM、SLAM)。其实人只需要一张图像就可以把三维几何预算出来。最早我在2002与一个学生韩峰宣布了一篇文章,遭到其时几何学派的讥笑:一张图像怎么能计算三维呢,数学上说欠亨呀。其实,在我们的人造情况中,有很多几何常识和规律:比如,你坐的椅子高度就是你小腿的长度约16英寸,桌子约30英寸,案台约35英寸,门高约80英寸 --- 都是按照人的身体尺寸和动作来设计的。别的,天然环境中有很多反复的东西,比如几个窗户一样巨细一致,建造设计和都会规划都有规矩。这些就是geometric common sense,你根据这些几何的约束就可以定位很多点的三维位置,同时估计相机位置和光轴。

见下图所示,在这个三维场景中,我们的理解就可以表达成为一个层次分化(compositional)的时空因果的解译图(Spatial,Temporal and Causal Parse Graph),简称 STC-PG。STC-PG是一个极为重要的概念,我下面会逐步介绍。

多少重修的一个很主要的配景是,我们往往不需要逃供非常精确的深度位置。比如,人对三维的感知其实都长短常禁绝的,它的准确度取决于你以后要执行的任务。在履行的过程中,你一直地依据需要来进步精度。比如,你要去拿几米之外的一个杯子,一开始你对杯子的方位只是一个大抵的估量,在你走近、伸手的过程中逐渐调整粗度。

这就回到上一节谈的问题,不同任务对几何与识其余精度要求不一样。这是人脑计算非常高效的一个重要原因。最近,我以前一个博士后刘晓白(现在是助理教授)和我其他学生在这方面获得了很好进展,具体可以查看他们相关文章。

二、场景识此外本质是功能推理。现在很多学者做场景的分类和宰割都是用一些图像特征,用大量的图片例子和手工标注的结果去训练神经网络模型 --- 这是典型的“鹦鹉”模式。而一个场景的定义本质上就是功能。当你看到一个三维空间之后,人脑很快就可以想象我可以干什么:这个地方倒水,这里可以拿杯子,这里可以坐着看电视等。古代的设计往往是复合的空间,就是一个房间可以多种功能,所以简单去分类已经不合适了。比如,美式厨房可以做饭、洗菜、用餐、聊天、用饭。寝室可以睡觉、打扮、放衣服、看书。场景的定义是按照你在里面能够干什么,这个场景就是个什么,按照功能分别,这些动作都是你想象出来的,实践图像中并没有。人脑感知的识别区与运动规划区是直接互通的,相互影响。我的博士学生赵一彪就是做这个的,他卒业去了MIT做认知科学博后,现在创建了一家自动驾驶的AI公司。

为了想象这些功能,人脑有十分丰富的动作模型,这些动作根据尺度分为两类(见下图)。第一类(左图)是与整个身体相关的动作,如坐、站、睡觉、工作等等;第二类(右图)是与手的动作相关的,如砸、剁、锯、撬等等。这些四维基本模型(三维空间加一维时间)可以通过平常活动记载下来,表达了人的动作和家具之间,以及手和工具之间的关系。正因为这一点,心理学研究发现我们将物体分成两大类,分辨寄存在脑皮层不同地区:一类是跟手的巨细有关,跟手的动作相关的,如你桌上的东西;另一类是跟身体相关,比方家具之类。

有了这个理解,我们就知道:下面两张图,虽然图像特点完全不同,但是他们是同一类场景,功能上是等价的。人的活动和行为,不论你是哪个国家、哪个历史时期,基本是稳定的。这是智能泛化的基础,也就是把你放到一个新的地域,你不需要大数据训练,立刻就可以理解、顺应。这是我们能够触类旁通的一个基础。

回到前面的那个STC-PG解译图,每个场景底下其实就分解成为一些动作和功能 (见STC-PG图中的绿色方片节点)。由计算机想象、推理的各种功能决定对场景的分类。 想象功能就是把人的各种姿势放到三维场景中去拟合(见厨房解译图中人体线画)。这是完全不同于当前的深度学习方法用的分类方法。

3、物理稳定性与关联的推理。我们的生涯空间除满意人类的各类需要(功效、任务)除外, 另外一个根本束缚就是物理。我们对图像的说明和理解被表告竣为一个解译图,这个解译图必需知足物理法则,不然就是过错的。好比稳固性是人可以疾速感知的,假如你发明四周货色不稳,要倒了,你反答十分快,赶快让开。比来我们名目组的耶鲁年夜学传授Brian Scholl的认知真验收现,人对物理稳定性的反响是毫秒级,第一反映时光大概 100ms。

我们对图像的理解包含了物体之间的物理关系,每个物体的支持点在那里。比如,下面这个图,吊灯和墙上挂的东西,如果没有支撑点,就会失落下来(右图)。这个研究方向,MIT认知科学系的Josh Tenenbuam教授予我都做了多年。

我提出了一个新的场景理解的minimax标准:minimize instability and maximize functionality最小化不稳定性且最大化功能性。这比以前我们做图像理解的用的MDL(最小描述长度)尺度要更靠谱。这是解决心算机视觉的基来源根基理,功能和物理是设计场景的基本准则。几何尺寸是从属于功能推出来的,比如椅子的高度就是因为你要坐得舒畅,所以就是你小腿的长度。

回到我家厨房的例子,你就会问,那里面的水是如何被检测到的呢?水是看不见的,花瓶和水壶里的水由各种方式推出来的。另外,你可能注意到,桌上的番茄酱瓶子是倒立着,为什么呢? 你可能很清楚,m88明升,你家的洗头膏快用完的时候,瓶子是不是也是的倒着放的呢?这就是对稀薄液体的物理和功能理解之后的结果。由此,你可以看到我们对一个场景的理解是多么“深刻”,远远超越了用深度学习来做的物体分类和检测。

四、意向、注意和预测。厨房那张图有一个人和一只狗,我们可以进一步识别其动作、眼睛凝视的地方,由此推导其动机和意向。这样我们可以计算她在干什么、想干什么,比如说她现在是渴了,还是累了。通过期间积累之后,进而知道她知道哪些,也就是她看到了或者没有看到什么。在时间上做预测,她下面想干什么。只有把这些都计算出来了,机器才能更好地与人进行交互。

所以,虽然我们只看到一张图片,那张STC-PG中,我们增长了时间维度,对人和动物的之前和之后的动作,做一个层次的分析和预测。当机器人能够预判断人的意图和下面的动作,那么它才能和人禁止互动和合作。后面,我们讲的语言对话可以帮助人机互动和合作;但是,我们日常很多交互协助,靠的是默契,不需要言语也能做很多事。

下面的这一张图,是多摄像机的一个综合场景的解译实例。这是我的实验室做出来的一个视觉系统。这个视频的理解就输入为一个大的综合的STC-PG。在此基础上,就可以输出文字的描述(I2T)和回答提问 QA。我们把它叫做视觉图灵测试,网址:visualturingtest.com。

与第一节讲的机器人竞赛类似,这也是一个DARPA项目。测试就是用大量视频,我们算进场景和人的三维的模型、动作、属性、关系等等,然后就往返答林林总总的1000多个问题。现在一帮计算机视觉的人研究VQA(视觉问答),就是拿大量的图像和文本一路训练,这是典范的“鹦鹉”系统,基本都是“扯白”。答复的文字没有真公理解图像的内容,常常逻辑欠亨。我们这个工作是在VQA之前,当真做了多年。我们系统在项目DARPA测试中当先,事先其它团队根本无法实现这项任务。可是,现在科研的一个现实是走向“文娱化”:肤浅的歌直流行,大家都能唱,复纯精深的东西大家躲着走。

既然说到这里,我就逆便说说一些竞赛的事情。大约从2008年开始,CVPR会议的风尚就被人“带到沟里”了,组织各种数据集竞赛,不谈理解了,就是数字挂帅。中国很多学生和团队就开始参加,俗称“刷榜”。我那个时候跟那些组织数据集的人说(其实我自己2005年是最早在湖北莲花山做大型数据标注的,但我一早就看到这个问题,不饱励刷榜),你们这些比赛前几名肯定是中国粹生或者公司。

现在果真应验了,大部门榜上前几名都是中国人名字或单元了。咱们刷榜比挨乒乓球借强健,刷榜变成我们AI研究的“国球”。所谓刷榜,通常为下载了人家的代码,改良、调剂、拆建更大模块,这样速率快。我已经拜访一家技巧很牛的中国公司(不是弄视觉的),谁人公司的研发主管非常自豪,说他们刷榜老是赢,米国一流大学都不在话下。我听得不耐心了,我说人家就是两个学生在那里弄,你们这么大个团队在这里刷,你代码里面基本没有算法是你自己的。如果人家之前不颁布代码,你们基本没法玩。很多公司就拿这种刷榜的结果宣扬自己跨越了世界一流程度。

5、任务驱动的因果推理与学习。前面我谈了场景的理解的例子,下面我谈一下物体的识别和理解,以及为什么我们不需要大数据的学习模式,而是靠融会贯通的能力。

我们人是非常功利的社会动物,就是说做什么事情都是被任务所驱动的。这一点,2000年前的司马姑息已经远在西方功利哲学之前看到了( 《史记》 “货殖传记” ):

“世界熙熙,皆为利来;全国攘攘,皆为利往。”

那么,人也就带着功利的目的来对待这个世界,这叫做“teleological stance”。这个物体是用来干什么的?它对我有什么用?怎么用?

当然,有没有效是相对我们手头的任务来决定的。很多东西,当你用不上的时候,往往熟视无睹;一旦要急用,你就会当个宝。俗话叫做“势利眼”,没方法,这是人道!你今天干什么、明天干什么,时时刻刻都有任务。俗话又叫做“屁股决定脑袋”,一个官员坐在不同位置,他就有不同的任务与思路,位置一调,马上就“事过境迁”了。

我们的知识是根据我们的任务来组织的。那么什么叫做任务呢?如何表达成数学描述呢?

每个任务其实是在改变场景中的某些物体的状态。牛顿发明了一个词,在这里被借用了:叫做fluent。这个词还没被翻译到中文,就是一种可以改变的状态,我暂且翻译为“流态”吧。比如,把水烧开,水温就是一个流态;番茄酱与瓶子的空间位置关系是一个流态,可以被挤出来;还有一些流态是人的生物状态,比如饥、乏、系统、悲哀;或者社会关系:从正常人,到朋友、再到好友等。人类和动物忙繁忙碌,都是在改变各种流态,以提高我们的价值函数(利益)。

理解这一点,我们再来谈理解图像中的三维场景和人的动作。其实,这就是因果关系的推理。所谓因果就是:人的动作招致了某种流态的改变。理解图像其实与侦察(祸尔摩斯)破案一样,他需要的数据往往就是很小的蛛丝马迹,但是,他能看到这些蛛丝马迹,而一般没有受侦探训练的人就看不见。那么,如何才干看到这些蛛丝马迹呢?其一、你需要大量的知识,这个知识来源于图像之外,是你设想的过程顶用到的,比如一个头发怎么失落在这里的?还有就是行为的念头目的,犯案人员到底想改变什么“流态”?

我把这些图像之外的东西统称为“暗物质”--- Dark Matter。物理学家认为我们可观察的物质和能量只是占宇宙总体的5%,剩下的95%是观察不到的暗物质和暗能量。视觉与此十分类似:感知的图像往往只占5%,提供一些蛛丝马迹;尔后面的95%,包括功能、物理、因果、动机等等是要靠人的想象和推理过程来完成的。

有了这个认识,我们来看一个例子(见下图左)。这个例子来自我们CVPR2015年发的paper,主要作者是朱毅鑫,这也是我很喜欢的一个工作。一个人要完成的任务是砸核桃,改变桌子上那个核桃的流态。把这个任务交给UCLA一个学生,他从桌面上的工具里面选择了一个锤子,整个过程没有任何过人之处,因为你也会这么做。

不过你细想一下,这个问题还相当复杂。这个动作就包含了很多信息:他为什么选这个锤子而不选其它东西,他为什么拿着锤这个柄靠后的位置?他挥舞的力度用多少,这都是经过计算的。这还有几千几万的可能其他各种选择、解法,他没有选择,说明他这个选法比其它的选择肯定会好,好在哪呢?看似简单的问题,往往很关键,一般人往往忽略了。

你通过这一揣摩、一比较就融会到这个任务是什么,有什么诀窍。以前学徒就是随着师傅学,师傅常常在做任务,徒弟就看着,学生也不教,门徒就靠自己贯通。偶然候师傅还要留一手,否则你早早班师了,抢他的饭碗。有时候师傅挡着不让你看;莫言的演义就有这样的情节。人就是在观察的时候,把这个任务学会了。

现在到一个新的场景(图右),原来学习的那些工具都不存在了,完全是新的场景和物体,任务坚持不变。你再来砸这个核桃碰运气,怎么办?人当然没有问题,选这个木头做的桌子腿,然后砸的动作也不一样。这才是抛砖引玉,这才是智能,这没有什么其他数据,没有大量数据训练,这不是深度学习方法。

那这个算法怎么做的呢?我们把对这个物理空间、动作、因果的理解还是表达成为一个Spatial,Temporal and Causal Parse Graph(STC-PG)。这个STC-PG包含了你对空间的理解(物体、三维形状、质料等)、时间上动作的规划、因果的推理。最佳是这样子砸,它物理因果能够实现,可能会被砸开,再连在一块来求解,求时间、空间和因果的这么一个剖析图,就是一个解。也就是,最后你达到目的,改变了某种物理的流态。

我再强调几点:

一、这个STC-PG的表达是你想象出来的。这个理解的过程是在你动手之前就想好了的,它里面的节点和边大多半在图像中是没有的,也就是我称作的“暗物质”。

二、这个计算的过程当中,大量的运算属于“top-down”自顶向下的计算过程。也就是用你脑皮层里面学习到的大量的知识来解释你看到的“千丝万缕”,形成一个公道的解。而这种Top-down的计算过程在目前的深量多层神经收集中是没有的。神经网络只有feedforward 向上逐层传布信息。你可能要说了,那不是有Back-propagation吗?那不是top-down。一年前,LeCun来UCLA做讲座,他看到我在坐,就说DNN目前缺少朱教授一曲倡导的Top-Down计算过程。

三、学习这个任务只要要极少的几个例子。如果一个人要太多的例子,解释Ta脑袋“不开窍”,智商不敷。特地说一句,我在UCLA授课,期终学生会给先生评估教学品质。一个罕见的学生看法就是朱教授给的例子太少了。对不起,我没时间给你上课讲那么多例子,靠做题、题海训练,那不是真本领,也不是学习的本质。子曰:“学而不思则罔,思而不学则殆”。这里的“思”应该是推理,对自然界或者社会的现象、行为和任务,形成一个契合规律的自洽的解释,在我看来就是一个STC-PG。

那么STC-PG是如何推导出来的呢?它的母板是一个STC-AOG,AOG就是And-Or Graph与或图。这个与或图是一个复杂的概率语法图模型,它可以导出巨量的符合规则的概率事务,每一个事宜就是STC-PG。这个表达与语言、认知、机器人等领域是一致的。在我看来,这个STC-AOG是一个统一表达,它与逻辑以及DNN可以买通关节。这里就不多讲了。

接着砸核桃的例子讲,还是朱毅鑫那篇文章的实验,这个实验很难做。比如现在的一个任务是“铲土”,我给你一个例子什么叫铲土,然后开始测试这个智能算法(机器人)的泛化能力。见下图。

第一组实验(图左)。我给你一些工具,让你铲土,机器人第一选择挑了这个铲子,这个不是模式识别,它同时输出用这个铲子的动作、速度;输出铲子柄的绿色地方表示它要手握的地方,这个红的表示它用来铲土的位置。第二选择是一把刷子。

第二组实验(图中)。如果我要把这些工具拿走,你现在用一些家里常见的物体,任务还是铲土。它的第一选择是锅,第二选择是杯子。两者的确都是最好选择。这是计算机视觉做出来的,自动的。

第三组试验(图左)。如果我们回到石器时期,一堆石头无能什么事件?所以我常常说,我们石器时代的先人,比现在的小孩聪慧。由于他们可能懂得这个天下的实质,现在,对象和物体越来越特定了,一个对象做一个任务,人皆酿成愈来愈愚了。视觉认知就退步成模式辨认的问题了:从本来东西的理解酿成一个形式识别。也就是由黑鸦变鹦鹉了。

计算机视觉小结:我冗长总结一下视觉的历史。见下图。

视觉研究前面25年的主流是做几何,以形状和物体为中央的研究:Geometry-Based and Object-Centered。最近25年是从图像视角通过提取丰富的图像特征描述物体的表面来做识别、分类: Appearance-Based and View-Centered。几何当然决定表观。那么几何后面深处原因是什么呢?几何形状的设计是因为有任务,最顶层是有任务,然后考虑到功能、物理、因果,设计了这些物体再来产生图像,这是核心问题地点。我把在当前图像是看不见的“东西”叫dark matter。物理里面dark matter energy占95%,确确实着实我们智能里面dark matter也占了大部分。而你看到的东西就是现在深度学习能够解决的,比如说人脸识别、语音识别,就是很小的一部分看得见的东西;看不见的在后面,才是我们真正的智能,像那个乌鸦能做到的。

所以,我的一个理念是:计算机视觉要持续发展,必须挖掘这些“dark matter”。把图像中想象的95%的暗物质与图像中可见的5%的蛛丝马迹,结合起来思考,能力达到真正的理解。现在大家都喜悲在自己工作前面加一个Deep,以为这样就算深刻了、深厚了,但其实还是非常浮浅的。无论你多深,不管你卷积神经网络几多层,它只是处置可见的图像表观特征、语音特征,没有跳出那5%,对吧?那些以为深度学习解决了计算机视觉的同学,我压服你了么?如果没有,前面还有更多的内容。

视觉研究的未来,我用一句话来说:Go Dark, Beyond Deep --- 发挖暗,超越深。

这样一来,视觉就跟认知和语言接轨了。

第六节 认知推理:走进内心世界

上一节讲到的智能的暗物资,已经属于感知与认知的结合了。再往里面走一步,就进入人与动物的内心世界Mind, 内心世界反应外部世界,同时遭到动机任务的硬套和歪曲。研究外延包括:

Ta看到什么了?知道什么了?什么时候知道的?这其实是对视觉的历史时间求积分。

Ta现在在存眷什么?这是当前的正在执行的任务。

Ta的意图是什么?后面想干什么?预判未来的目的和动机。

Ta喜欢什么?有什么价值函数?这在第九节谈判到具编制子。

自从人工智能一开始,研究者就提出这些问题,代表人物是Minsky:society of minds,心理学研究叫做Theory of minds。到2006年的时候,MIT认知科学系的Saxe与Kanwisher(她是我一个项目合作者)发现人的大脑皮层有一个特地的区,用于感想、推理到别人的想法:我知道你在想什么、干什么。这是人工智能的重要部分。

说个艰深的例子,你可能听到过这样的社会消息:某男可以同时与几个女朋友保持闭系,而且不被对方发现,就是他那几个女朋友互相不知情。这其实很难做到,因为你一不警惕就要裸露了。他需要记着跟谁说过什么假话、做过或者许可过什么事。这种人的这个脑皮层区必定是特殊发动,而他的那些女友人的这个区可能不那么发达。片子中的特务需要特别训练这方面的“反侦察”能力,就是你尽可能不让对方发现你的心坎。这是极其状态。事实生活中,个别非隐衷性的运动中,我们是不布防的,也就是“正人开阔荡”。

不但是人有这个侦察与反侦查的才能,动物也有(见上图)。比如说这个鸟(图左),它藏果子的时候,会检查周围能否有别的鸟或植物在那边看到它;如果有,它就不藏,它非要找到没人看它的时候和处所藏。这就是它在察看你,晓得你知道什么。图中是一个狐狸和水獭对立的视频。水獭抓到鱼了以后,发现这个狐狸在岸上盯着它呢,它知道这个狐狸想夺它嘴里叼着的鱼。水獭就想措施把鱼躲起来,它把这个鱼藏到水底下,然后这个狐狸去找。这阐明了动物之间相互知道对方在想什么。

小孩从一岁多的时候开始就有了这个意识。一个关键反应证据是:他会指东西给你看,你看到了、还是没看到的,他会知道。Felix Warneken现在在哈佛大学小心理学系的助理教授。他当博士生的时候做过一系列心理实验。一般一岁多的小孩能知道给你开门,小孩很愿意、主动去协助。小孩很早就知道跟人进行合营,这就是人机交互。你把这个小孩看成一个机器人的话,你要设计一个机器人,就是希望它知道看你想干什么,这是人工智能的一个核心表现。

只管人工智能和认知科学,和最近机器人领域的人都对这个问题感兴趣,但是,大家以前还都是嘴上、夸夸其谈,用的是一些toy examples作为例子来剖析。要做真实世界的研究,就需要从计算机视觉软弱。计算机视觉里面的人呢,又大部分都在闲着刷榜,一时半会还没意思到这是个问题。我的实验室就疾足先得,做了一些开端的探索,目前还在积极推动之中。

我们首先做一个简单的实验,如上图。这个人在厨房里,当前正在用微波炉。有一个摄像头在看着他,就跟监控一样,也可以是机器人的眼睛(图左)。首先能够看到他目前在看什么(图中),然后,转换视角,推算他目前看到了什么(图右)。

上面这个图是实验的视频的截图。假设机器人事先已经熟悉某个三维房间(图e),它在观察一个人在房间里面做事(图a)。为了便利理解,咱们就想象这是一个养老院或者病院病房,机器人需要知道这个人现在在干什么,看什么(图c)。它的输出仅仅是一个二维的视频(图a)。它开始跟踪这个人的运动轨迹和眼睛注目的地方,显示在图e的那些轨迹和图f的行为分类。然后,图d(右上角)是它估算出来的,这个人应该在看什么的图片。也就是,它把它附体到这个人身上,来感知。这个结果与图b对比,非常符合。图b是这个人带一个眼镜,眼镜有一个小摄像头记录下来的,他确其实看的东西。这个实验结果是魏平博士提供的,他是西交大前校长郑北宁老师那里的一个青年先生,博士时代在我实验室访问,后来又回来学习。

这里面需要揣测动作与物体的时空交互,动作随时间的转换,手眼和谐。然后,进一步猜他下面干什么,用意等等。这个细节我不多讲了。

对这个人内心的状态,也能够用一个STC-AOG 和STC-PG 来表达的,见下图,大体包露四部分。

一、时空因果的概率“与或图”,STC-AOG。它是这个人的一个总的知识,包含了所有的可能性,我待会儿会进一步论述这个问题。 剩下的是他对当前时空的一个表达,是一个STC-PG解译图。此解译图包含三部分,图中表达为三个三角形,每个三角形也是一个STC-PG 解译图。

二、当前的情景situation,由上图的蓝色三角形表示。当前的情况是什么,这也是一个解,表示视觉在0-t时间段之间对这个场景的理解的一个解译图。

三、意向与动作规划图,由上图的绿色三角形表示。这也是一个层次化的解译图,预判他下面还会做什么事情,

4、当前的注意力,由上图的白色三角形表示。描述他正在关注什么。

把这全部解译图放在一起,基本上代表着我们脑袋的从前、现在、将来的短临时间内的状况。用一个统一的STC-PG 和 STC-AOG来解释。 这是一个档次的分化。 果为是Composition, 它须要的样板就很少。

有人要说了,我的深度神经网络也有层次,还一百多层呢。我要说的是,你那一百多层其实就只有一层,对不对?因为你从特征做这个识别,中间的东西是什么你不知道,他不能去解释中间那些过程,只有最后一层输出物体种别。

上面说的这个表达,是机器人对某个人内心状态的一个估计,这个估计有一个后验概率,这个估计不是唯一的,存在不确定性。而且,它肯定不是真相。不同的人观察某个人,可能估计都不一样。那么在一个机器与人共生共存的环境中,假设这个场景里有N个机器人或者人,这里面有很多N个“自我”minds。然后,每个人有对别人有一个估计,这就有N x(N-1)个minds表达。我知道你在想什么,你知道我在想什么,这至少是平方级的。你有一百个朋友的话,哪个朋友他脑袋里想什么你心里都有数。关系越近,理解也就越深,越准确。

当然,我们这里只是做一阶推理,在复杂、反抗的环境中,人们不能不用多阶的表达。昔时司马懿和诸葛亮在祁山对峙时,诸葛亮比司马懿总是要多算一阶。所谓兵不恶诈,就是有时候我故意把一个错误信息传给你,《三国小说》中很多此类的出色故事,比如周瑜打黄盖、蒋干匪书。

我用下面这个图来大致总结一下。两个人A与B或者一个人一个机器人,他们脑袋里面的表达模式。图中是一个嵌套的递归纳构,每个椭圆代表一个大脑的内心mind。

每个mind除了上面谈到的知识STC-AOG 和状态STC-PG,还包含了价值函数,就是价值观,和决策函数。价值观驱动动作,然后根据感知、行动去改变世界,这样因果就出来了。我后面再细谈这个问题。

最底下中间的那个椭圆代表真实世界(“上帝”的mind,本相只有TA知道,我们都不知道),上面中间的那个椭圆是共识。多个人的话就是社会共识。在感知基础上,大家形成一个统一的东西,共同理解,我们达成共识。比如,大家一起吃饭,菜上来了,大家都看到这个菜是什么菜,如果没有共识那没法弄。比如,“混淆是非”或者“天子的新装”,就是在这些minds之间出现了不一致的东西。这是所谓“认识论”里面的问题。以前,在大学学习认识论,老师讲得比较空洞,很难理解;现在你把表达写出来,所有都清楚了。这也是人工智能必须解决的问题。

我们要达成共识,共同的知识,然后在一个小的团体、大致社会达成共同的价值观。当有了共同价值观的时候,就有社会道德和伦理规范,这都可以推导出来了。俗语说,入城顺俗。当你参加一个新的团体或者交际群体,你可能先观观察看大家都是怎么干事谈话的。机器人要与人共生共存 必须理解人的集团的社会道德和伦理规范。所以说,这个认识论是机器人发展的必经之道。乌鸦知道人类在干什么,它才能够应用这个在社会里保存。

那么若何达成共识呢?语言就是需要的形成共识的工具了。

第七节 语言通讯:沟通的认知基础

我要介绍的人工智能的第三个领域是语言、对话。最近我两次在视觉与语言结合的研讨会上做了报告,从我自己观察的角度来谈,视觉与语言是稀不可分的。

人类的说话中枢是奇特的,风趣的是它在活动规划区的邻近。我们为何要对话呢?语行的来源就是要把一小我脑壳(mind)的一个疑息抒发传给您一团体,这就包含上一节讲的常识、留神、动向打算,演绎为图中那三个三角形的表白。盼望经由过程对付话构成共鸣,造成独特的义务计划,就是我们分歧举动。以是,语言发生的基本是人要追求配合。

动物之间就已经有丰硕的交流的方法,很多借助于肢体语言。人的对话未必用语言,手语、哑剧(pantomine)异样可以通报很多信息。所以,在语言产生之前,人类就已经有了十分歉富的认知基础,也就是上一节谈的那些表达。没有这样的认知基础,语言是空泛的符号,对话也不成能产生。

发育心理学实验注解,12个月的小孩就可以知道去指东西,更小年纪就不会,但是很多动物永久达不到这个水平。举个例子,有人做了个实验。一群大猩猩坐在动物园里,一个猩猩妈妈带一个小猩猩,玩着玩着小猩猩跑不见了,然后这个妈妈去找。周围一大堆闲着的猩猩坐在那里晒太阳,它们明明知道那个小猩猩去哪了。如果是人的话,我们就会热情地指那个小孩的偏向,人生成是合作的,去赞助别人的,助桀为虐,所以这是为什么我们人进化出来了。猩猩不会,猩猩不指,它们没有这个动机,它们脑袋与人比拟一定是缺了一块。人和动物相比,我们之所以能够比他们更高级,因为脑袋里有很多通讯的认知构架(就像多层网络通讯协定)在大脑皮层里面,没有这些认知构架就没法通信。研究语言的人不去研究底下的认知构架,那是不会有很大长进的。下面这个图来源于人类学的研究的一个领甲士物 Michael Tomasello。

除了需要这个认知基础,语言的研究不克不及离开了视觉对外部世界的感知、机器人运动的因果推理,否则语言就是无源之水、无本之木。这也就是为什么当前一些聊天机器人都在“扯白”。

我们前来看一个最基本的的过程:信息的一次发送。当某甲(sender)要发送一条新闻给某乙(receiver),这是一个简略的通信communication。这个通讯的数学模型是昔时贝我实验室喷鼻农Shannon1948年提出来的信息论。起首把它编码,因为如许收起来比较短,比较快;针对噪声通讲,减些冗余码防错;而后解码,某乙就拿到了这个信息。睹下图。

在这个通讯过程之中他有两个基本的假设。第一、这两边共享一个码本,否则你没法解码,这是一个基本假设。第二、就是我们有个共享的外部世界的知识在里面,我们都知道世界上正在发生什么什么事情,比如哪个股票来日要涨了,哪个地方要发生什么战斗了等等。我给你传过去的这个信息其实是一个解译图的片段(PG:parse graph)。这个解译图的片段对于我们物理世界的一个状态或者可能发生的状态的描述。这个状态也有可能就是我脑袋Mind里面的一个想法、感觉、流态(fluents)。比如,很多女人拿起德律风,叫做“煲粥”,就在交流内心的一些经历和感触。

如果没有这个共同的外部世界,那我根本就不知道你在说什么。比如外国人散在一起讲一个笑话,我们可能听不懂。我们中国人说“林黛玉”,那是非常丰富的一个文化符号,我们都明确谁是林黛玉,她的出身、情绪、性格和价值观,就轮到本国人听不懂了。

Shannon的通讯理论只关心码本的建立(比如视频编解码)和通讯带宽(3G,4G,5G)。1948年提出信息论后,尽管有很多聪明人、数学基础很强的人进到这个领域,这个领域一直没有什么大的冲破。为什么?因为他们忽视了几个更重大的认识论的问题,躲而不谈:

甲应该要想一下:乙脑袋里面是可与甲有一个共同的世界模型?不然,解码之后,乙也不克不及懂得里面的内容?或者会曲解。那么我发这个信息的时候,说话要尽量削减这样的误会。

甲还应该要想一下:为什么要发这个信息?乙是不是已经知道了,乙关不存眷这个信息呢?乙爱不爱听呢?听后有什么反应?这一句话说出去有什么成果呢?

乙要想一下:我为什么要收这个信息呢?你发给我是什么意图?

这是在认知层面的,递归轮回的认知,在编码之外。所以,通讯理论就尽管发送,就像以前电报大楼的发报员,收钱发报,他们不管你发报的动机、内容和效果。

纵观人类语言,中国的象形文字切实了不得。所谓象形笔墨就完满是“密码通讯”。每一个字就是内部世界的一个图片、你一看就清楚了,不需要编解码。我觉得研究自然语言的人和研究视觉统计建模的人,都要好难看看中国的甲骨文,然后,所有的事情都清楚了。每个甲骨文字就是一张图,图是什么?代表的就是一个解译图的片断(fragment of parse graph)。

上面这个图是一个汉字的演化和关系图,从一本书叫做《汉字树》得来的。几年前,我到台湾访问,发现这本丛书,很有意思。这个图是从眼睛开始的一系列文字。

首先从具象的东西开初,这旁边是一个眼睛,“目”字,把脚搭在眼睛下面,孙悟空时常有这个举措,就是“看”(look)。

然后是会心,比如“省”,就是细看,明察春毫,画一个很小的叶子在眼睛上面,唆使说你看叶子里面的东西,表示你要细看。

然后开始表达形象的概念,属性attribute、时空怎么表达,就是我们甲骨文里面,表示出发、终止,表示人的关系,人的脑袋状态,甚至表现伦理道德。就这样,一直推演开。

所以,搞视觉认知的,要理解物体功能就要追溯到石器时代去,搞语言的要追溯到语言起源。

下图是另一个例子:日、月、山、水、木;鸟、鸡、鱼、象、羊。下面黑色的图是我们实验室现在用计算机视觉技术从图像中得到的一些物体的表达图模型,其实就从新创造一些更具像的甲骨文。这项技术是由YiHong,司长长等博士做的无监视学习。他们的算法发现了代表鸟的有头、身子和足、水波和水草等“类甲骨文”名词符号。这种视觉的表达模型是可解释explainable、直觉的。

所以,从生成式模型的角度来看,语言就是视觉,视觉就是语言。

再来看看动词。考考你们,这是啥意思?第一个字,两只手,一根绳索,在拖地上一个东西,拿根绳子拽。第二个很简单,洗手。第三是关门。第四是支援的援字,一只手把另外一个人的手往上拉。第五也是两个手,一个手朝下一个手向上,啥意思?我给你东西,你接收。第六是争取的争,两个手往相反的方向抢。第七两个人在聊天。基本上,字已经表示了人和人之间的动作细节。

现在我的实验室里,计算机也能自动学出“类甲骨文”的动伺候的表达,见下图。我们学出来的这些两个人交互的动作包括:坐、玩手机、握手、人拉人等等。我们把这些动作模型分离叫做4DHOI (4D Human-Object Interaction)、4Dhoi(4D hand-object interaction)、4DHHI (4D Human-Human Interaction)。

我方才说了名词和动词,还有很多其他的东西,我倡议你们去研究一下,要建模型的话我们现代的甲骨文其实就是一个模型,他能够把我们世界上所有需要表达的东西都给你表达了,是一个齐备了的语言模型。

我再举个复杂和抽象的例子,咱们古代人怎么定义伦理道德,非常的英俊!

引言中谈到,大家担神思器人进入社会以后,是不是会迫害人类生计,所以激起了很多讨论。有一次我参加一个DARPA内部会议,会议邀请了各界教授们讨论这个问题,他们来自社会伦理学、认知科学、人工智能等学科。大家无所适从。轮到我做报告,我就说,其实这个问题,中国古代人的智慧就已经想清楚了。

伦理道德的“德”字怎么定义的?什么叫道德?

道德规范是什么,它是个绝对的界说,跟着时间和人群而变更。我刚来米国的时候,米国社会不许打胎、不许异性恋,现在都可以了。中国以前妇女都不准再醮。乃至到几十年前,我在故乡都据说这样的规则:如果一个妇女在路上,她的影子投到一个少老身上,那是大不敬,所以走路必须绕开,这就是一种社会标准。

中文这个“德”字你看右边是单人旁,双人旁其实不是两个人,双人旁在甲骨文绘的是十字路心(见最右侧阿谁图),十字路口就是说你是要做个取舍,是个决策。你怎么选择?比如说一个白叟倒在地上,你是扶他仍是不扶他?这就是一个选择。贪不贪污、受不行贿这都是内心的一个抉择。这个挑选是你内心面做出的,所以下面有个心字。

那怎么判断你内心的选择符不吻合道德呢?社会不可能把大量规则逐条列出来,一个汉字也没法表达那么多的内容吧。“德”字上面是一个十字,十字下面一个四,其实不是四,而是眼睛,十个眼睛看着你。就是由大众来评判的。这就相当于西方的陪审团,伴审团都是普通大众中筛选出来的(那是更进一层的司法规范了)。他们如果觉得你做的事情能够接受就是道德,如果不接受那就是不道德。所以,你在做选择的时候,必须考虑周围人的见解,人家脑袋里会怎么想,才决定这个东西做不做。

所以,如果没有上一节讲的认知基础,也就是你如果不能揣摸别人的思想,那就无法知道道德伦理。研究机器人的一个很重要的一个问题是:机器要去做的事情它不知道该不应做。那么它首先想一下(就相当于棋盘推演simulation):我如何做这个事情,人会有什么反应,如果反应好就做,如果反应欠好就不做,就这么一个规则。以不变应万变。

那它怎么知道你怎么想的呢?它必须先了解你,你喜欢什么、讨厌什么。每个人都不一样,你在不同的群体里面,哪些话该说,哪些话不应说,大家心里都知道,这才是交互,你没有这方面知识你怎么交互呢?

所以我还是觉得我们古代的人很有智慧,比我们现在的人想的深刻的多,一个字就把一个问题说得很精炼。咱们现在大部分人不想问题,因为你不需要想问题了,大量媒体、告白四处都是,食品刻刻吸收你的眼球,你光看都看不过来,还想个什么呢!只有娱乐就行了。

现在,我们回到语言通讯、人与机器人对话的问题。下图就是我提出的一个认知模型。

两个人之间至多要表达五个脑袋minds:我知道的东西、你知道的东西、我知道你知道的东西、你知道我知道的东西、我们共同知道的东西。还有,对话的时候你的意图是什么等等诸多问题。具体我不讲那么多了。

最后,我念道一点,言语与视觉更深层的接洽、与数学中代数拓扑的联系。拓扑学是甚么意义?就是道图像空间,说话空间,就是一个年夜聚集,选集。我们的每一个观点常常是它的一个子散,比方说,贪图的图象是一个集开,一百万个象素就是一百万维空间,每张图象就是这百万维空间的一个点。

人脸是个概念,所有的人脸就是在这一百万维空间的一个子集,但是这个子集和其它个子集要发生关系,这个关系叫拓扑关系。计算机的人把它叫做语法,对应于代数拓扑。比如,头和脖子在肩膀上是合规的,概率很高。这个图像空间的结构其实就是语法,这个语法就是STC-AOG,时空因果的与或图。语法可导出“语言”,语言就是一个相符语法的句子的总的集合。STC-AOG就是知识的总体表达,而我们看到的眼前每一个例子是由STC-AOG导出来的时空因果解译图STC-PG。计算机视觉用它,语言肯定用它,认知是它,机器人任务规划也是它。这就是一个统一的表达。

第八节 博弈伦理:获得、同享人类的价值观

机器人要与人交流,它必须懂得人类价值观。哲学和经济学里面有一个基本假设,认为一个理性的人(rational agent),他的行为和决策都由利益和价值驱动,总在追求自己的利益最大化。与此对应的是非理性的人。对于感性的人,你通过观察他的行为和选择,就可以反向推理、学习、估算他的价值观。我们暂时消除他有可能成心伪装、困惑我们的情况。

这个价值观我们把它表达为一个利益函数Utility function,用一个符号U表示。它凡是包含两部分:(1)Loss缺掉函数,或者Reward奖励函数;(2)Cost花费函数。就是说,你做一件事失掉几许好处,破费若干成本。我们可以把这个利益函数定义在流态的(fluents)空间里面。我们每次行动,改变某些流态,从而在U定义的空间中向上走,也就是“贬值”。由函数U对流态向量F求微分的话,就获得一个“场”。

温习一下高级数学,我们假设一个人在某个时期,他的价值取向不是抵触的。比如,如果他认为A比B好,B比C好,然后C比A好,那就循环了,价值观就不自恰。这在场论中就是一个“旋涡”。一个到处“无旋”的场,就叫做一个保守场。其对于的价值观U就是一个势能函数。

所谓“人往下处行、火往低处流”说的是社会和物理的两个分歧现象,本度完整一致。就是人和水都在依照各自的势能函数在运动!那么驱动听的势能函数是什么呢?

人与人的价值不同,就算同一个人,价值观也在改变。本文不讨论这些社会层面的价值观,我们指的是一些最基本的、常识性的、人类共同的价值观。比如说把房间整理干净了,这是我们的共识。

上图是我做的一个简单的实验。我把几种不同的椅子、凳子放在我办公室(左图)和实验室(右图)。然后,我统计一放学生进来以后,他喜欢坐哪个椅子,实在不行可以坐地上。这样我就可以得到这些椅子的排序。A、B、C、D、E、F、G排个序,见上面的统计图。我观察了这些人的选择,就问:为什么这个椅子比那个椅子好?是什么好?这其实就反映了人的脑袋里面一个基本的价值函数。又说一遍:很普通的日常现象,包含深刻的途径。苹果落地不是这样吗?大家习以为常了,就不去问这个问题了。

为了解答问题,我的两个博士生朱毅鑫和搞物理和图形学的蒋凡是夫(他刚刚去Upenn宾州大学当助理教授),用图形学的物理人体模型模仿人的各种的姿态,然后计算出这些坐姿在这些椅子上的时候,身体几大部件的受力分布图。见下图,比如背部、臀部、头部受多少力。

下图中蓝色的直方图显著了六个身体部位的受力分别图。由此我们就可以推算出每个维度的价值函数。下面图中六条红色的曲线是负的价值函数,当人的坐姿使得各部位受力处于红线较低的值,就有较高的“价值”,也就是坐得“舒服”。当然每个人可能不一样,有的人腰疼爱必须坐硬板凳子有的人喜欢坐软沙发。这也是为什么,如果你观察到有些异常,可以推导这个人某地方可能受伤了。

读到这里,你不由要问:这不是与物理的势能函数,如重力场,一样吗?对,就是一个道理。这也是在最后一节我将要说的:达尔文与牛顿的理论体系要统一。

这对我们是常识,但是机器人必须计算出很多这样的常识,TA需要将心比心为人设想,这个就不容易了。

叠衣服也是我们做的另外一个例子。如果我们把这个守旧的势能函数可视化为一个地形图,那么你叠一个衣服的过程,就像走一条爬山的门路。这个衣服我们原来搅散了,它对应的状态在谷底,最后叠好了就即是上到山顶了。每步动作就有一个奖励reward。我根据你叠衣服的过程,把这山形状基本画出来,机器就知道叠衣服这个任务的本质是什么。你给它新的衣服,它也会叠了。机器人可以判断你的价值观。

最近大家念叨较多的是机器人下棋,特别是下围棋,的确刺激了国人的神经。下棋法式里面一个要害就是学习价值函数,就是每个可能的棋局,它要有一个准确的价值判断。最近,各种游戏、和删强学习也比较炽热。但这些研究都是在简单的符号空间里面玩。我实验室做的这两个例子是在真实世界,学习人的价值函数。

有了价值函数,在一个多人环境中,就有了竞争与合作,形成我们上一节谈到的社会规范、伦理道德。这些伦理、社会规范就是人群在合作合作之中,受到外部物理环境与因果限度下,达成的暂时的准平衡态。每种平衡态不见得是一个流动的规则,要求大家做同样的划定动作,而是一种概率的“行为的语法”。规则其实就是语法。说到底,这还是一种概率的时空因果与或图STC-AOG的表达。

在社会进化过程中,由于某些鸿沟条件的改变(如新的技术发明,像互联网、人工智能)或者是政策改变(如改造开放),攻破了旧的平衡,社会急巨变化;然后,达成新的准平衡态。那么社会规范对应的是另一个时空因果与或图STC-AOG。你拿着一个准平衡态的STC-AOG模型去到另一个准平衡态生活,就出现所谓的“不服水土”现象。

谈到这里,我想趁便对照两大类学习方法。

一、归纳学习 Inductive learning。我们通过观察大量数据样本,这些样本就是对某个时期、某个地区、某个人群达成的准平衡态的观察。也是我前面谈过的千年文明的形成与传启。归纳学习的结果就是一个时空因果的概率模型,我把它表达为STC-AOG。每个时空的动作是一个STC-PG,解译图。

2、演绎学习 Deductive learning。这个东西文献中很少,也就是从价值函数(另有物理因果)动身,间接推导出这些准均衡态,在我看来,这也是一个STC-AOG。这就请求对研究的工具有深入的、天生式的模型和理解。比如,诸葛明到了祁山,先查看天形,知道自己的步队、粮草情形,摸明白敌手司马懿的情况(包括性情)。然后,他脑袋里面推演,就知道怎样结构了。

人的学习往往是二者的联合。年沉的时辰,回纳学惯用很多一些,归纳学习往往是一种不成生激动,交点膏火,当心也可能发现了新寰宇。到了“五十而不惑”的时候,价值观成型了,驾驶不雅笼罩的空间也基本齐备了,那末基本上就用演绎学习。

AlphaGo先是通过归纳学习,学习人类大量棋局;然后,最近它就完全是演绎学习了。AlphaGo的棋局空间与人类生存的空间复杂度还是没法比的。而且,它不必考虑因果关系,一步棋下下去,那是确定的。人的每个动作的结果都有很多不确定要素,所以要困可贵多。

第九节 机器人学:构建大任务平台

我在第四节谈到人工智能研究的认知构架,应该是小数据、大任务范式。机器人就是这么一个大任务的科研平台。它不只要调换视觉识别、语言交流、认知推理等任务,还要执行大量的行动去改变环境。我就不介绍机器节制这些问题了,就用市道上提供的通用机器人平台。

前面介绍过,人和机器人要执行任务,把任务分解成连续串的动作,而每个动作都是要改变环境中的流态。

我把流态分作两大类:

(1)物理流态 (Physical Fluents):如下图左侧,刷漆、烧开水、拖地板、切菜。

(2)社会流态 (Social Fluents): 以下图左边,吃、喝、 追赶、扶持,是转变自己内部生物状态、或者是与他人的关系。

当机器人重建了三维场景后(在谈视觉的时候提到了,这实际上是一个与任务、功能推理的迭代生成的过程),它就带着功利和任务的眼力来看这个场景。如下图所示,哪个地方可以站,哪个地方可以坐,哪一个地方可以倒水等等。下面图中亮的地方表现可以执行某个动作。这些图在机器人规划中又叫做Affordance Map。意思是:这个场景可以给你提供什么?

有了这些单个基本任务的舆图,机器人就可以做任务的规划。这个规划本身就是一个层次化的表达。文献中有多种方法,我还是把它统一称作一种STC-PG。这个过程,其实相当复杂,因为它一边做,一边还要不断看和更新场景的模型。因为我前面介绍过,对环境三维外形的计算精度是根据任务需要来决定的,也就是Task-Centered视觉表达。

这个动作规划的过程还要考虑因果、考虑参预景中别人的反应。考虑的东西越多,它就越成熟,干事就得体、不莽鲁莽撞。

我一开始讲到的那个机器人竞赛,这些感知和规划的任务其实都交给了一群在后台遥控的人。

下面,我就简单介绍几个我实验室获得的初步演示结果,后盾没有远控的人。我实验室用的是一个特用的Baxter机器人,配上一个万向挪动的底座和两个抓手(grippers),还有一些传感器、摄像优等。两个抓手是不同的,左手力道大,右手机动。很有意思的是,如果你观察过龙虾等动物,它的两个钳子也是不同的,一个用来夹碎、一个是锯齿状的。

下图是一个博士生舒天民教会了机器人几种社交动作,比如握手。握手看似平凡,其实非常奥妙。但你走过去跟一个人握手的过程中,你其实需要多次判断对方的意图;否则,会出现为难局面。舒的论文在米国这儿媒体都报道过。

下面这个组图是机器人完成一个总是的任务。首先它听到有人去拍门,揣度有人要进来,它就去开门。其次,它看到这个人手上拿个蛋糕盒子,双手被占了,所以需要帮助。通过对话,它知道对方要把蛋糕放到冰箱里面,所以它就去帮人开冰箱的门(上右图)。这个人坐下来后,他有一个动作是抓可乐罐,摇了摇,放下来。它必须揣摸这个人要喝水,而可乐罐是空的(不可见的流态)。假设它知道有可乐在雪柜,它后面就开冰箱门拿可乐,然后递给人。

当然,这个是受限环境,要能够把样的功能做成仍旧一个场景的话,那就基性能靠近我们前面提到的可敬的乌鸦了。我们还在努力中!

第十节 机器学习:学习的极限和“停机问题”

前面谈的五个领域,属于各个层面上的“问题领域”,叫Domains。我们尽力把这些问题放在一个框架中来思考,觅求一个统一的表达与算法。而最后要介绍的机器学习,是研究解决“方法领域”(Methods),研究如何去拟合、获取上面的那些知识。打个比喻,那五个领域就像是五种钉子,机器学习是研究锤子,希看去把那些钉子锤进去。深度学习就像一把比较好用的锤子。当然,五大领域里面的人也发了然很多锤子。只不过最近这几年深度学习这把锤子比较流行。

网上对于机械进修的探讨良多,我这里就提出一个基础题目,与人人商量:进修的极限与“停机问题”。

大家都知道,计算机科学里面有一个有名的图灵停机Halting问题,就是判定图灵机在计算过程中是不是会停下了。我提出一个学习的停机问题:学习应应是一个持续交流与通讯的过程,这个交流过程是基于我们的认知构架的。那么,在什么条件下,学习过程会停止呢?当学习过程末行了,系统也就达到了极限。比如,有的人早早就决议不学习了。

尾先,究竟什么是学习?

当前大家做的机器学习,其实是一个很广义的定义,不代表整个的学习过程。见下图。 它就包含三步:

(1)你界说一个丧失函数loss function 记作u,代表一个小任务,比如人脸识别,对了就嘉奖1,错了就是-1。

(2)你选择一个模型,比如一个10-层的神经网络,它带有几亿个参数theta,需要通过数据来拟合。

(3)你拿到大量数据,这里假设有人给你筹备了标注的数据,然后就开端拟合参数了。

这个过程没有因果,没无机器人行动,是纯洁的、被动的统计学习。目前那些做视觉识别和语音识别都是这一类。

实在真实的学习是一个交互的进程。 就像孔子与学生的对话,我们教养生也是如许一个过程。 学生能够问教师,先生问先生,共同思考,是一种同等交换,而不是经过大批题海、挖鸭式的练习。坦率说,我固然是教学,现在就经常从我的专士生那边学到新知识。

这个学习过程是建立在认知构架之上的(第六节讲过的构架)。我把这种广义的学习称作通讯学习Communicative Learning,见下图。

这个图里面是两个人A与B的交流,一个是老师,一个是学生,完全是平等的结构,表现了教与学是一个平等的互动过程。每个椭圆代表一个脑袋mind,它包含了三大块:知识theta、决策函数pi、价值函数mu。最底下的那个椭圆代表物理世界,也就是“天主”脑袋里面知道的东西。上面中间的那个椭圆代表两边达成的共识。

这个通讯学习的构架里面,就包含了大量的学习模式,包括以下七种学习模式(每种学习模式其实对应与图中的某个或者几个箭头),这里面还有很多模式可以开辟出来。

(1)主动统计学习passive statistical learning:上面刚刚谈到的、当前最风行的学习模式,用大数据拟合模型。

(2)主动学习active learning:学生可以问老师主动要数据,这个在机器学习里面也流行过。

(3)算法教学algorithmic teaching:老师自动跟踪学生的停顿和能力,然后,设想例子来帮你学。这是本钱比较高的、理想的优良老师的教学方式。

(4) 演示学习learning from demonstration:这是机器人学科里面经常使用的,就是手把手叫机器人做动作。一个变种是模拟学习immitation learning。

(5)感知因果学习perceptual causality:这是我发现的一种,就是通过观察别人行为的因果,而不需要去做实验考证,学习出来的因果模型,这在人类认知中十分广泛。

(6)因果学习causal learning:通过着手实验, 掌握其它变量, 而得到更牢靠的因果模型, 科学实验往往属于这一类。

(7)增强学习reinforcement learning:就是去学习决策函数与价值函数的一种方法。

我在第一节谈到过,深度学习只是这个广义学习构架里面很小的一部分,而学习又是人工智能里面一个领域。所以,把深度学习等同于人工智能,真的是井底之蛙、以管窥豹。

其次,学习的极限是什么?停机条件是什么?

对于被动的统计学习,文献中有很多关于样本数量或者毛病率的下限。这里我所说的学习的极限就远远超出了那些定义。我是指这个广义的学习过程是否收敛?收敛到哪?学习的停机问题,就是这个学习过程怎么终止的问题。就这些问题,我和吴英年正在写一个综述文章。

我们学习、谈话的过程,其实就是某种信息在这些椭圆之间活动的过程。那么影响这个活动的身分就很多,我罗列几条如下。

(1)教与学的动机:老师要去交学生一个知识、决策、价值,首先他必须确认自己知道、而学生不知道这个事。同理,学生去问老师,他也必须意想到自己不知道,而这个老师知道。那么,一个关键是,单方对自己和对方有一个准确的估计。

(2)教与学的方法:如果老师正确知道学生的进度,就可以精确地提供新知识,而非重复。这在algorithmic learning 和 perceptual causality里面很显明。

(3)智商问题:若何去丈量一个机器的智商?很娴静物,有些概念你怎么教都教不会。

(4)价值函数:如果你对某些知识不感兴趣,那肯定不想学。价值观相左的人,那根本都无法交流,更别谈相互聆听、学习了。比如微信群里面有的人就待不了,退群了,因为他跟你纷歧样,收敛不到一起去,最后同一个群的人收敛到一起去了,互相增强。这在某种程度上造成了社会的决裂。

这个学习条件的设定条件不同,人们学习肯定不会收敛到同一个地方。中国14亿人,有14亿个不同的脑模型,这14亿人中间,部分又有一些共识,也就是共享的模型。

我说的停机问题,就是这个静态过程中所达成的各种平衡态。

第十一节 总结:智能科学 --- 牛顿与达尔文理论体系的统一

到此,我摘要介绍了人工智能这六大领域的一些前沿问题,希望帮助大家看到一个大致的轮廓与头绪,在我眼中,它们在一个共同的认知构架下正在走向统一。其中有很多冲动人心的前沿课题,期待年轻人去探索。

那么人工智能这六大领域、或者叫“战国六雄”,如何从当前闹轰轰的工程实际,成为一门成熟的科学体系呢?从人工智能Artificial Intelligence变成 智能科学Science of Intelligence,或者叫 Intelligence Science,这个统一的科学体系应该是什么?

什么叫科学?物理学是迄今为止发展最为完美的一门科学,我们可以鉴戒物理学发展的历史。我自己特别喜欢物理学,1986年报考中科大的时候,我填写的志愿就是近代物理(4系)。填完意愿以后,我就回籍下去了。我哥哥当时是市里的干部,他去高中查看我的自愿,一看报的是物理,恐怕未来欠好找工作,他就给我改报计算机。当时我们都没见过计算机,他也没跟我磋商,所以我是误打误碰进了这个新兴的专业,但心里总是朝思暮想物理学之美。

比及休假,上《力学概论》的课,课本是当经常务副校长伉俪写的,我这里就不提名字了,大家都知道,这是科大那一代民气中永久的影象。打开书的第一页,我就被媒介的文字震动了。下面是一个截图,划了重点两句话,讨论如下。

(1)物理学的发作就是一部寻求物理世界的统一的历史。第一次大的统一就是牛顿的典范力学, 经由过程万有引利巴天界星体运动与世雅的看似庞杂的物体运动做了一个同一的解释。形成一个迷信的系统,从此也动摇了大师的信心:

“物理世界存在着完全的因果链条”。

物理学的义务就是寻找安排自然各种现象的统一的力。

这完全是一个信念,你相信了,就为此努力!自牛顿以来,300多年了,物理学家还在斗争,逐步发现了一个美好的宇宙模型。

相比于物理学,可叹的是,人工智能的研究,到目前为止,极少关注这个科学的问题。顶级的工程学院也不教这个事情,大家忙着教一些技能。解决一些小问题,日子就能过得红清静火。80年代有些著名教授公然讲智能现象那么复杂,根本不可能有统一的解释,更多是“a bag of tricks”一亮袋的阴谋。有一些“兵来将挡、水来土掩”的工程法令就好了。这当然是肤浅和短视的。

我的博士导师Mumford1980年代从杂数学转来学习、研究人工智能,他的理想是为智能构建一个数学体制(mathematics of intelligence)。以他的身份做这种改变是极端不容易的(他有很多吓人的头衔,包括菲尔兹奖、麦克阿瑟蠢才奖、国际数学家协会主席、米国国度科学勋章), 而我到目前还没有见过第二个这么转型的大家。 1991年我读完大学,请求研究生院的个人陈说(Statement of Purpose)中就懵懵懂懂地提出要探索这样一种统一框架。其时也没有互联网,我也没有听说过Mumford。记切当时科大计算机系刚刚有了第一台激光打印机,替换针式打印。我购了两包“佛子岭”卷烟给管机房的师兄,让他一定要帮我把这三页纸的个人陈述好好排版、打印出来!结果,大部分黉舍都谢绝了我的申请,而我导师把我登科到哈佛读博士。同一年, 科大计算机系一个师弟吴英年被登科到哈佛统计学读博,我们就成了室友。他对物理和统计的理解十分深刻,过去25年我们一直在一同协作。现在回首看,人生何其幸哉!

(2)物理学把生物的意志排除在研究之外,而这正好是智能科学要研究的对象。智能科学要研究的是一个物理与生物混杂的复杂系统。智能作为一种现象,就表现在个体与自然、社会群体的相互作用和行为过程中。我个人相信这些行为和现象必然有统一的力、相互作用、基本元向来描述。其实这些概念对我们搞计算机视觉的人来说一点也不生疏。我们的模型与物理模型是完全相通的,当你有一个概率分布,你就有了“势能函数”,就有了各种“相互作用”, 然后就有了各种“场”与“力”。

这些问题放在之前是没稀有据来做研究的,就像爱因斯坦讲的“…不过是一个勇敢的期望,一个玄学学派成问题的幻想罢了”。而现在可以了,我后面已给出了一些例子: 砸核桃、坐椅子、叠衣服。我们可以从数据中推算各种相互感化的力,用于解释人的各类行动。比来,我有两个学生开丹和舒天平易近就用“社会的力和场”来解释人的互相感化, 舒还拿了2017年外洋认知学会的一个“计算建模奖”。 我们以后会写作品介绍这方面的任务。

智能科学的复杂的地方在于:

(1)物理学面貌的是一个客观的世界,当这个客观世界映照到每个人脑中, 形成一个客观与客观融合的世界,也就是每个人脑中的模型(这是统计中贝叶斯学派观点)。这个模型又被映射到别人脑袋之中。每个脑Mind里面包含了上百个别人的模型的估计。 由这些模型来驱动人的运动、行为。

(2)物理学可以把各种现象断绝出来研究,而我们一张图像就包含大量的模式, 人的一个简单动作后面包含了很复杂的心理活动,很难隔分开。何况,当前以大数据集为依据的“深度学习”学派、“刷榜派”非常流行,你要把一个小问题单独拿出来研究,那在他们复杂数据集里面是讨不到什么廉价的。文章送到他们手上,他们就“强烈拒绝”,要求你到他们数据集上跑结果。这批人缺乏科学的思维和素养。呜吸哀哉!

回到前面乌鸦的例子,我在第四节讨论到,我们研究的物理与生物系统有两个基本前提:

一、智能物种与生俱来的任务与价值链条。这是生物进化的“刚需”,动物的行为都是被各种任务驱动的,任务由价值函数决定,尔后者是进化论中的phenotype landscape,通俗地说就是进化的适者生计。达尔文进化论中提出来进化这个概念,但没有给出数学描写。厥后大家发现,基因渐变其实就是物种在这个退化的、大时间标准上的价值函数中的行为action。我前面谁人叠衣服的价值函数地形图,就是从生物学借来的。

二、物理环境客观的现实与因果链条。这就是自然尺度下的物理世界与因果链条,也就是牛顿力学的东西。

说到底,人工智能要变成智能科学,它本质上势必是达尔文与牛顿这两个理论体系的统一。

2016年我到牛津大学开项目合作会,趁便观赏了伦敦的Westminster Abbey 大教堂。 让我惊奇的是:牛顿(1642-1727)与达尔文(1809-1882)两人的泉台相距也就2-3米远。站在那个所在,我那时十分感叹。 这两个人可以说是完全改变人类世界观的、最巨大的科学伟人,但是他们伟大的理论体系和思想的统一,还要等多暂呢?

这篇长文的成稿正好是暮秋,让我想起唐朝墨客刘禹锡的《秋词》,很能说明科研的一种境界,与大家共赏:

“自古遇秋悲寥寂,我言秋天胜春朝。

阴空一鹤排云上,便引诗情到碧霄。”

附录

中科院自动化研究所举办的《人工智能前沿讲习班—人机交互》报告的互动记录(修正整理版)。

时间:2017年9月24日下午

掌管人: 王蕴红教授介绍辞(多谢溢美之词,在此省略)。

朱 终场白:

感谢谭铁牛老师多次关照和王蕴红老师的盛意邀请。今天是礼拜天,非常不好心思,延误大家休养时间。我知道大家日常平凡都很忙,你们坚持听到最后一讲,非常不容易。所以,我给你们带来一点干货,作为“精力弥补”。

今天的讲座是个命题作文,王老师要我谈人机交互。到底什么是人机交互,它要解决哪些问题?我就花了一周时间整理了一个比较长的讲座,给大家介绍人工智能的发展,和人机交互的体系结构。这个问题非常大,而且研究工作刚刚起步,大家需要把很多问题放在一起看、才能看出大致的表面。我给大家提一个思路,启发大家思考,我其实不想直接给出一个解答方法。如许的话就褫夺了你们思考的空间和权力。

2017年底我在《视觉求索》揭橥过一篇谈“学术人生”的文章,讲到做学识的一个理想境地就是“月白风清”,也就是夜深人静的时候,你去科学前沿探索真理。古天的讲座,愿望把大家带到这么一个空阔的地方,去明白一番。

报告后的提问互动:

提问一:朱老师,机器怎么通过学习让它产生自我意识。刚才您演示的那个机器人,门口有个人他要进来,Ta怎么知道自己撤退把路给让出来?

朱:自我意识这个问题非常重要。我先简要介绍一下布景,再回答你的问题。

自我意识(self-awareness,consciousness)在意理学领域争议很大,甚至于认知学会一度不勉励大家去谈这个问题,这个标的目的的人多年拿不到研究经费。人工智能里面有多数人在谈,但是,还不落地。自我认识包括几点:

(1)感知体验。我们费钱去看电影、坐过山车、游览,其实买的就是一种体验。这种体验是一种比较低层次的自我意识,形成一种表达(可以是我上面讲到的解译图)。 过后你也可以体现。

(2)运动休会。我们虽然有镜子,可是除了跳舞人员,大家并没有看到自己的行为动作。但是, 我们对自己的体态和动作是有认知的。我们时辰知道我们的身形和三维动作。比如,心思学实验,把你和一群人(熟习和不熟悉的都有)的动作步态用几个关节点做运动捕获,记载下来,然后,就把这些点放给你看,你只看到点的运动,看不到其它信息。你认出哪个人是你自己的比率高于认出别人,而且对视角不那么敏感。所以,我们通过感知和运动在共同树立一个自我的三维模型。这两者是互通的,往往得益于镜像神经元(mirror neurons)。这是内部表达的一个症结转换机制。

机械人在那圆里就比拟轻易完成,它有自己的三维本相,枢纽有传感器,又有Visualodometry, 可随时改造本人正在情形中的三维地位跟状态。这一面没有易。

(3)自知之明。中国有个鄙谚叫做“人贵有自知之明”。换句话说,常人很难有蚍蜉撼树。对自己能力的认识,不要手法眼低、或者眼妙手低。而且这种认识是要随时更新的。比如,饮酒后不能开车,灯光暗的时候我的物体识别能力就不那么强,就是你对自己能力变化有一个判断。我们天天能力可能都纷歧样其实,这个相当复杂了。

比如,机器人进到岛国福岛救灾场景,核辐射随时就在侵害机器人的各种能力。忽然,哪一条线路不通了,一个关节运动受限了,一块内存被损坏了。它必须自己知道,然后重新调整自己的任务规划。目前人工智能要做到这一点,非常难。

刚才说的人进来、机器人知道今后退,那就是一个调和动作的规划。你规划动作、首先要知道对方是什么动作。比如,人与人握手就其实是非常复杂的互动过程。为了达成这个目标,你要在脑内做模拟simulate。

提问二:感谢朱教授,感觉今天听到的都是我以前从来没有听过的东西。我有一个问题就是像机器人这种自我认识都很难,像您说的交互他还要去理解对方那个人的设法,这种信息他怎么来获取呢?也是通过学习还是?

朱:靠观察与实践。你看别人做事你就观察到,你就能够学到每个人都不一样的价值函数,你就了解到你周围的同事,比如你们共享一个办公室,或者观察你家庭里面的人,你跟他生活的时间越长,你就越来越多的知道他怎么想问题、怎么做事,然后你跟他在交互的过程中越来越默契了。除了观察,还有实践,就是去试探、磨练对方。伉俪之间,刚娶亲会打骂,之后越吵越少了、和谐了,价值观融合大致收敛了、或者能够互相忍耐了。实在无法收敛,那就各奔前程,到民政局办手绝。这两种情况都是我说的“学习的停机问题”。大家之间不要再相互交流、学习了,要么心心相印、心领神会;要么不闻不问、形同陌路。

提问三:他也是通过他自己观察到,它里面建立一个图吗?一个解译图(parse graph)吗?

朱:在我看来是这样的。就是我必须把你脑袋里面的很多构造尽量重构出来,表达层面就是解译图,至于人脑如安在神经元层面存储这个解译图,我们不浑楚。人脑确定有相似的表达,我脑袋里面有你的表达后,我便可以拆或者演你的对各种情况的反应。

文学作者创作的时候,他脑袋里面同时要装下几10、上百号人的模型和知识表达,那些人知道什么、什么时候知道的。读理科的人一般观察比较敏钝。扮演艺术家在这方面能力肯定也特别强。

发问四:像我们刚打仗机器学习,你有无什么推荐的,因为现在大家都在追踪训练深度网络,有没有一个推荐的,就是概率模型还是什么东西,一个数学理论或者一个数学工具。

墨:我的主意是这样的,首先让各人正直思维,就是你想学,摸索实理和已知。就是说在更阑人静的时候你探索真谛,等你心情沉寂上去,你天然就看到一些他人疏忽的东西。不要让我推举某个工具、代码、秘笈,拿来就用。我明天讲的东西都不是起源于某一个实践、工具,是举一反三后的成果。

我反复申饬学生们,做科学研究不是过去那种到北京天桥看花招,那里热烈就往哪里钻。我以前也谈到过一个“路灯的隐喻”,科学研究就像在一个黝黑的夜迟找钥匙,大家喜欢聚在路灯底下找,但是极可能钥匙不在那个灯底下。

提问五:朱老师好,非常光荣来听这个报告,我最后一个问题很简单。您说那几个时期,我想问一下秦代到底什么时候能到?到秦朝的时候,数学的哪一块你认为,可能会被用做秦朝的武器或者最厉害的那个兵器是什么。

朱:问得很好。什么时候会到达统一?这个事情中国有两个说法,都有情理。

一种说法叫做“望山跑死马”。你远眺望见前面那个山快到了,你策马前行,可是马跑死都到不了,中间可能还有几条河拦住来路。那是我们对这个事情估计缺乏。

第二个说法是“远在天涯,近在面前”。 能不能到达,决定于你这边的人的智慧和行动。什么时候统一、谁来统一,这决定于我们自己努力了。春秋和战国时期,思想家是至多的,诸子百家全体都出来了,那是一个思想剧烈碰撞的时代。我今天讲的这些东西其实都在我脑袋里面激烈的碰撞,我还有些问题想不通。

我们现在谈这个事情和框架,你认为世界上有若干人在做?我的视察是:少少,兴许一只手就能够数得过去。

你的第二个问题,如果要统一,那最厉害的数学工具是什么?我们要建立统一的知识表达:概率和逻辑要融合,和深度学习也要融合。我们看看物理学是如何统一的,他们里面各种模型(四大类的力与相互作用)必须和谐,然后解释各种现象。简单说我们需要搞清楚两点:

一、什么地方用什么模型? 对比经典力学、电磁学、光学、统计物理、粒子物理等都有自己的现象、规律和使用规模。我们这边也类似,各种模型有它们的范畴和基础,比如我们常常听说的,凶布斯模型往往就在高熵区,稀疏模型在低熵区,与或图语法用在中熵区。这一块除了我的实验室,世界上没有其他人研究。

二、这些模型之间如何转化? 前面我讲了一个例子,我写了一篇关于隐式(马尔科夫场)与显式(密疏)模型的统一与过渡的信息尺度的论文,投到CVPR会议,结果,三个评分是“(5)强烈拒绝;(5)强烈拒绝;(4)拒绝”。大家根本就没想这个问题,眼睛都巴巴地看着数据集、性能晋升了多少。刷榜成了CVPR科研的重要范式。在某些人眼中,刷榜成了唯一方式。我以前是批评这个风气,后来一想,其实应该多鼓励。我对那些把民众带到沟里去的学术领武士物,以前是批驳,现在我特别感谢Ta们。这样我自己的学生才有更多时间去实现我们的思路。你们都一起涌过来踩踏、乱开乱挖,我都躲不开。我做研究喜欢安静,不去赶热闹,不去追求文章援用率这些目标。

王蕴红教授总结(整理):今天朱教授的报告,大家可以感到到两点。

1、纵横捭阖、举重若轻。纵论、横论整小我工智能六大领域很多深刻的标题,在很多层面上纵横穿插的线,他理得异常清晰、举重若轻,支发自若。无比荣幸能听到这样的报告。

二、授人以渔而不是鱼。他讲的是如何去思考问题,如何去看世界,如何研究一些真副本质的东西。近几年深度学习被过多夸大之后,有很多博士生还有一些研究者过于依附工具,思考的能力被破坏了。其实研究的世界那么大,你一定要抬开端来看看,瞻仰星空。

叫谢

感激微硬研究院郭百宁、华刚、代季峰等博士2016年9月在北京组织的研究会。2017年6月汤晓鸥、王晓刚、林倞等教授吆喝我在喷鼻港中文大学所作的呈文。沈背洋博士在2017年7月西俗图构造的碧慧论坛。2017年9月在谭铁牛教授观察下、王蕴白教授在中科院自动化所举行的人工智强人机交互讲习班、并指派速记员和北航博士生刘紧涛同窗整顿出报告的中文初稿。倘使没有他们的耐烦、督促、激励和帮助,这篇中文报告是弗成能产生的。报告中的局部图片由VCLA@UCLA实验室朱毅鑫、魏仄、舒天平易近等人协助收拾。

感谢中科大阮荣钟教授、杨志宏同学帮我找到那本收藏的《力学概论》电子扫描版。其绪论被摘录在文中。我的思想受到这本书的企图。

感谢《视觉求索》公众号编辑部周少华、华刚、吴郢、罗杰波等同仁的协助。

感谢米国多家机构对文中说起研究的历久支持。