张含望：将因果关系引入计算机视觉的“小学生”

如果能设计一个机器，像人类先贤一样，把万有引力定律、π 这些算出来，这才是真正的人工智能。

作者 | 陈彩娴

二战期间，美国心理学家、被称为“行为主义之父”的 B. F. Skinner 进行了一项名为“鸽子迷信”（Pigeon Superstition）的著名实验：

将鸽子放置在一个封闭的箱子内，定时打开投喂窗。在实验过程中，鸽子无意做了一个动作（比如扇翅膀，或跺脚），箱子的投喂窗口被打开，鸽子得以喂食。接着，它继续重复这个动作，果然，投喂窗口再次打开。于是，这只鸽子就会一直重复这个动作。

在鸽子眼里，它以为只要自己扇翅膀，投喂窗口就会打开。它们迷信自己的某些行为与结果之间存在联系，但实际上，两者之间并不存在因果相关。真正的“上帝之手”是人类管理员手中的按钮。

张含望：将因果关系引入计算机视觉的“小学生”

图注：鸽子实验

事实上，早在公元前，柏拉图在其著作《理想国》中便介绍了一个思辨实验，叫做“洞穴寓言”（Allegory of the Cave）。在这个实验中，有一束光照进洞穴，将外界的事物投影在洞壁上，洞穴里的人只能通过投影去观察外面的世界。

张含望：将因果关系引入计算机视觉的“小学生”

图注：柏拉图的“洞穴寓言”实验

结合这两个例子，来自南洋理工大学（NTU）计算机科学与工程学院的助理教授张含望提出一个观点：人类观察世界的方式几乎与鸽子无异。由于感官的限制，我们也是在一个受限的、封闭的环境中观察事物，然后进行测量与定义。

在这个基础上，张含望总结，“智慧/智能”（Intelligence）的定义是：从观察投影中重建世界。也就是说，人类需要对“洞外”的世界进行建模，随后根据自己的观测，与该模型进行拟合。而所谓 AI，则是：从数据投影中重建世界。

但是，正如 Carlo Rovelli 在《现实不是你所见：量子力学之旅》（Reality Is Not What It Seems）一书中所提到的，我们观察到的不一定是真实的世界。比如，在麦哲伦进行环球旅行之前，人类一直认为地球是方的。

同理，当前 AI 所观察/重建的世界，也不一定是真实的世界。在本质上，目前的 AI 只是人类因为懒惰而发明的工具，并不具备智能。

在他看来，AI 仍是一个比人类更低维的生物，与人类之间存在很大差距，对事物的因果推理能力便是其中之一。因此，张含望提出将因果推理引入 AI 研究中，比如目前最火热的计算机视觉方向，希望推动该领域的进一步发展。

“Underground”科研路

由张含望创立并带领的机器推理与学习实验室（Machine Reasoning and Learning Lab，简称“MReal”）是全球第一个将因果关系推理引入计算机视觉研究中的团队。

2018 年 1 月，张含望正式入职南洋理工大学，在计算机科学与工程学院担任助理教授，并获得“南洋学者”资助，创立了 MReal 实验室。

MReal，读作“Me Real”，意为“我很Real”。这个有点“中二”的名字其实来源于国内的综艺节目“中国有嘻哈”。当时，中国有嘻哈火遍大街小巷，说唱选手经常说“Keep real”（保持真我），这似乎很符合张含望对自我与科研的期许，于是便起了这个名字。

他称，如果 MReal 是一家风格独特的说唱厂牌，实验室里的学生则是 AI 学术圈里视觉因果一派的“Young OG”，自己是主理人；如果MReaL是一家电竞俱乐部，学生则是因果战术流的"ADC大哥”，自己则是身兼辅助与教练。

张含望：将因果关系引入计算机视觉的“小学生”

图注：张含望在一次演讲后向学生表达“瑞思拜”（Respect）

一开始，MReal 主要研究计算机视觉与多媒体信息，2019 年才转而研究因果推理。不过短短两年时间，张含望便因其在视觉与因果推理结合上的研究贡献，被 IEEE Intelligent System 评选为 “AI 十大潜力人物”（AI's 10 to Watch）之一。

张含望的科研精神与“真我”的嘻哈精神有着相似之处：不盲目从众，追求个性与创新。

当前，Vision-Language（视觉-语言，以下简称“VL”）的大部分工作都是研究注意力机制，或是研究数据集，而张含望是学术界研究 VL 的一股清流，偏向于寻找一个通用框架，将离散符号化的语言和向量连续化的视觉相结合，也就是“因果推理”。

张含望追求创新的科研风格，最早是受到浙大师兄杨易的影响。

2005年，张含望凭借高中物理竞赛成绩参加自主招生考试，顺利进入浙江大学竺可桢学院（以下简称“竺院”）混合班就读本科，攻读计算机科学专业。尽管高中就读于省重点，从小到大也算是一个学霸，但张含望回忆，当年他在人才济济的竺院是一个很卑微的存在：

“我天天学习，上课认真听讲，独立完成作业，最后考试分数还没有天天谈恋爱、玩乐队、参加各种社团活动的同学高。”

竺院的学习经历对张含望最大的影响，不是所学习的知识，而是让他了解到一个优秀的人可以有多优秀：“从智商，到情商，到颜值，到多才多艺，最后到考试成绩，你会发现你的同学就跟偶像剧里的男主一样。”

张含望认为，自己没有拿得出手的特长：“弹吉他也不会，弹钢琴也不会，打篮球也不行，打游戏也不是职业选手的水平，就只能搞一搞科研了。”竺院鼓励学生在大二下学期便到浙大的各个实验室实习，于是，张含望便开始张罗实验室的实习申请。

2007年前后，计算机系最火的是嵌入式系统，其次是计算机图形。当时，浙大的图形与并行系统实验室（CAD-GAPS）也引进了许多从国外回来的学术大牛（包括周昆等人）。可想而知，申请研究热门方向的实验室实习竞争非常激烈。

张含望的成绩不占优势，自知无法进入这些热门的实验室，便申请了当时最冷门的人工智能研究所。

在人工智能研究所实习期间，张含望在导师吴飞（当时是师资博士后，现为浙大人工智能研究所所长）的带领下学习 PCA 公式、人脸识别、流形学习与图结构嵌入等知识，由此开始了自己的 AI 科研探险。

他在研究所中遇到了杨易。那时候，杨易正在浙大读博。2010年，杨易从浙大获得博士学位，赴卡内基梅隆大学计算机系攻读博士后，如今在悉尼科技大学担任工程与信息技术学院教授，以及 ReLER 实验室负责人。

张含望调侃，杨易在实验室天天炒股、打星际，又爱玩、又能挣钱、还能发paper。实习时，因为与杨易走得很近，杨易在无意中给他灌输了一种思想，就是千万不能抄袭，不能盲目跟风，而是要多思考新的点子。

比如，杨易在读博期间于 IEEE Transactions on Multimedia 上发表了论文“Mining semantic correlation of heterogeneous multimedia data for cross-media retrieval”（浙大计算机学院发表在 Transactions 上的第一篇文章）便只用到了 5 行代码。

这让张含望觉得很神奇：原来我们不一定要学习很牛的编程，学好数学似乎更重要，可以达到“四两拨千斤”的效果。

之后，张含望便与本科同学走上了不同的道路：他的许多同学都在实验室写手机程序或调代码，而他则跟着杨易、吴飞等人学习公式。也是从那时候开始，他逐渐转向看一些比较偏理论的研究工作。

读博：研究多媒体信息处理

在张含望临近本科毕业时，全球金融危机爆发，美国院校发放给中国留学生的 offer 质量也随着经济衰退急剧下降。

张含望记得，当时竺院排名第 5 的同学也只拿到了 UCLA 的 offer，而像他这样成绩平平的学生，美国的学校基本不用指望。加上家庭原因，他希望选择一个离家近一点的学校继续深造，但又已错过保研、保博的最佳时机。

于是，在当时研究所主任庄越挺（现任浙大计算机学院院长）的推荐下，张含望联系了新加坡国立大学（NUS）的蔡达成教授。蔡达成是 NUS 计算机学院的首位院长，主要从事多媒体信息处理，是该领域的泰斗级人物。

蔡达成很欢迎他过去读博，于是，2009 年本科毕业后，张含望赴 NUS 攻读计算机博士学位，开始从事多媒体语言研究。

张含望：将因果关系引入计算机视觉的“小学生”

图注：新加坡国立大学

在读博期间，张含望的工作曾获得 ACM MM 2012 最佳演示亚军（Best Demo Runner-up），ACM MM 2013 最佳学生论文奖，NUS 计算机学院最佳博士学位论文奖。

但据张含望介绍，他读博的过程并不算顺利，直到博士三年级才发表了第一篇 CVPR。而当时，CVPR 的影响力并不如 ACM MM。2012年，CVPR 的参会人数才 300 多人，学术界普遍认为，ACM MM 的长文要比 CVPR 的 poster 论文高出不止一个档次。所以，他当时发表了一篇 CVPR，只能算是刚入门。

“因为我对自己的要求也比较高，我想做一些比较有影响力的工作。”张含望如是说。

由此不难推测，张含望的读博经历就相当于一个“不断跟自己死磕”的过程。他引用一位华裔博士生 Philip J. Guo 的博客《The Ph.D. Grind: A Ph.D. Student Memoir》，其中，“grind”一词的含义是“研磨”，实际上就是“死磕”的意思。

“读博时，你就是应该每天没事儿就跟自己擡杠，再跟别人擡杠。如果你能成为某一个领域的杠精，那你的 PhD 就可以毕业了。”

张含望在 NUS 读了近 5 年博士，毕业后继续在 NUS 担任 3 年博士后研究员，期间获得 ACM SIGIR 2016最佳论文荣誉提名。随后，2017年，他前往哥伦比亚大学 DVMM 实验室从事博士后研究工作。

求学期间，他曾与蔡达成、张世富、颜水成、何向南、聂礼强等多位知名研究者合作，见识了不同人生选择之后的发展路径。而对他做科研影响最深的，是两位潜心做学术的导师：蔡达成与张世富。

在博导蔡达成身上，张含望学到最重要的一点是：做研究要纯粹，要做有影响力的工作，而不要为了短期的利益放弃长远规划。

张含望：将因果关系引入计算机视觉的“小学生”

图注：张含望（右）与蔡达成（中）

“他是一个淡泊名利的人。尽管在学术界的威望很高，但直到现在，他的许多学生都入选了各种 Fellow，他还不是 IEEE Fellow 或 ACM Fellow，甚至连 Member 都不是。”

此外，蔡达成对生活的热爱也感染了张含望：“他非常热爱生活，把做学术当成是他生活的一部分。”兴许是在导师的影响下，张含望也很接地气：他阅读各种各样的书籍，看说唱综艺，关注微博八卦，将“时间管理大师”、《祖宗十九代》这类接近生活的梗用在因果关系推理的讲解中。

而博士后导师张世富对他的影响，则体现在对自己科研方向的坚持，与世无争；此外，张世富“很清楚自己需要的是什么，不轻易受到旁人的影响”。在张含望看来，后者是衡量一个人是否成熟的重要标准。

“他在江湖中的传言可能是一位很严厉的老师，但在我看来，他是一个非常可爱的人。”张含望不掩其对张世富的钦佩之情。

张含望：将因果关系引入计算机视觉的“小学生”

图注：张含望（左）与博士后导师张世富（右）

张世富出生于台南的普通家庭，凭借自己的努力以高分考上国立台湾大学，随后赴 UC Berkeley 读博，保持卓越的成绩。1993年，张世富博士毕业，美国社会对华人的歧视与排斥仍未褪去，而他刚从伯克利毕业就能加入纽约市哥伦比亚大学担任教职，如今已是哥大电机与计算机工程系教授兼副院长，其学术能力可见一斑。

另一点让张含望佩服的是：尽管张世富的地位有很多赚钱的机会，但他没有选择利用自己的科研去谋利。2017年，国内人工智能发展火爆，很多机构高薪聘请他担任职位，他一一回绝。在一次会谈中，张含望问导师为什么不利用自己的研究成果去赚钱，张世富只是淡淡地说了一句：“不就是少了几个亿吗？”相比赚钱，张世富知道自己更喜欢在高校做研究。

导师对科研的纯粹态度，与当下讨论火热的内卷现象形成鲜明对比。张含望因此感慨：现在的年轻学生为了发顶会论文绞尽脑汁，但发顶会可能不是 Ta 真正想要的，而是因为周围的同学都在努力发顶会，Ta 随波逐流而已。“至于是谁引领了这一风气，他们并不在意。”

大约是受导师的影响，张含望在招收博士生的过程中，最看重的是两点品质：一是热爱自己所研究的内容；二是知道自己想要什么。

“不管 Ta 将来是想靠研究成果赚钱，比如发5、6篇 paper进入大厂，年薪百万，还是想继续在学术界做研究，不管 Ta 的理想是功利的还是纯粹的，只要 Ta 为自己的研究着迷、并愿意付出，我都给予肯定。”

在 CV 中引入因果推理

2014年，张含望从 NUS 博士毕业。当时，多媒体信息处理的研究热度已开始下降，VQA 刚刚兴起，许多人转去研究 CV，张含望也是其中之一。他选择将 CV 与原先所学习的多媒体知识相结合，即所谓的“视觉-语言”（VL）。

在刚担任教职时，张含望便敏锐地发现，大家在研究 VL 时集中于研究注意力机制与模型拟合。MReal 也沿着相似的方式去做了一些研究，即将连接主义与符号主义进行简单结合，语言端完全符号化，视觉端完全向量化，但所取得的效果并不是很好。

2019年，张含望到美国长滩参加 CVPR，偶然在一个名为“Computer Vision After 5 Years”（五年之后的CV）的研讨会上听到了许多 CV 领域知名学者，包括 Jitendra Malik、Bill Freeman、Rick Szeliski、Cordelia Schmid、Ross Girshick 等人的演讲。

张含望：将因果关系引入计算机视觉的“小学生”

图注：“五年之后的CV”研讨会所邀嘉宾

在会上，学者们诟病了当时 CV 领域所存在的一些问题，比如，炫酷的生成模型只是浅显地学习偏差，却没有真正理解图像的内容，可解释性差；再有，许多 VL 研究都只是在创造新的数据集，用来发现偏差，随后又丢弃，数据集并没有形成 Benchmark，如此无限循环。

张含望与他们的看法不谋而合。

“我一直认为人类的语言是符号化的。当你在组织语言时，你不会用到你的通感。比如当你说猫和狗的时候，除非你给自己很长的时间，否则你不会具象化到一个狗和猫。如果你去交谈的话，你说的每一个词都是一个抽象的符号。所以我认为，在语言端，如果你要让图片生成语言，那么一定要把图片的内容抽象化成可被语言总结的一个符号。”

令他感到庆幸的是，尽管一些学者也发现了这些问题，但不知道如何解决，而他从那时候开始就有一个强烈的直觉：提高模型可解释性的解决方案之一，就是在视觉研究中引入因果关系推理。

那一年，他开始阅读因果推理研究的相关书籍，比如Judea Pearl 的《The Book of Why》。张含望读了一遍半中文版，四遍英文版，时不时还回头去翻看。“我看这本书至少派生出 10 个 idea，7篇已经发表，还有几篇在等待发表。”

张含望：将因果关系引入计算机视觉的“小学生”

目前，MReal 在将因果关系引入计算机视觉的研究方向上已取得一定成果。

比如，他们的研究工作“Two Causal Principles for Improving Visual Dialog”，仅用一个损失函数的技巧，就可以让所有视觉对话的模型超过 SOTA，取得 Visual Dialog Challenge 2019的第一名，性能比第二名绝对高10个点，以至于2020年主办方为此修改了比赛规则。在这背后，就是用因果关系对数据集进行细致分析后，发挥了强大的作用。

张含望：将因果关系引入计算机视觉的“小学生”

图注：MReal 参加 Visual Dialog Challenge 2019 获得冠军

MReal 的另一项成果“Long-Tailed Classification by Keeping the Good and Removing the Bad Momentum Causal Effect”，也是用因果关系解释了当前在长尾数据训练里一些诡异的trick，不需要对分布设计复杂的损失函数，就可以完美解决分类不平衡的问题。这类“四两拨千斤”的技巧还广泛应用到了元，增量，小样本，零样本学习，以及VQA，图文生成，检测与分割等问题上。

张含望的研究目标之一，是希望在计算机视觉领域，结合因果推理研究推出自己的作品，吸引更多人用因果关系研究 CV，形成一个流派。

他们的计划是用因果关系将所有能够研究的项目都研究一遍。张含望强调：“因果推理不是一个具体的算法，而是一种思维模式，一种研究问题的角度。我想给每一个cv的研究领域都抛一个因果的砖。”他认为，只有引入因果关系推理才能避免 CV 领域一些可笑的研究，推动领域的进一步发展。

此外，MReal 正在尝试通过群论的方式来定义因果关系中最重要的概念，将因果推理做成一套更容易入门的具体算法和方案。

他谈到，之前带过一些交换生，离开 MReal 回到原来的学校后，如果再去做因果推理，会遇见很多困难。“只有跟我距离很近的，能够天天跟我讨论的学生才能做出来。我觉得这可能就是一个门槛，而我不希望门槛长时间存在。”

张含望：将因果关系引入计算机视觉的“小学生”

图注：MReal 实验室部分成员合影

张含望认为，因果关系（causality）是实现人工智能的起点。因果关系具备几个重要特征：

因果关系来源于科学，而不是来源于数据（观察）；

因果关系是可以被数据证伪的；

因果关系打破了当前拟合的条条框框（将来会成为一个革命）；

因果关系与网络模型无关。

他还提到，目前 AI 研究不重视因果关系的原因，主要有以下3点：

1）当前 AI 研究对国计民生的影响不是很大。目前，AI 的落地更多是使用推荐算法在多媒体平台上进行产品优化推荐，而不是应用在类似医疗、政策制定等重要领域。比如，如果你去医院看病，让你在机器人医生和人类医生之间选择，大家应该都会选人类医生，因为现在的 AI 能力还不足以让我们信赖。

2）人类对自己的智力不够自信。比如，我们认为下棋很聪明，却不认可冒泡排序背后的强大逻辑，因此当 Alpha Go 打败世界围棋冠军时，大多数人感到震惊。对机器来说，概率计算不难，但理解冒泡排序却很难。

3）人类很幸运。其实关联（correlation）不等于因果（causality），但在许多实际情况下，关联等同于因果（比如种牛痘），因此我们容易将两者混合，趋于研究事物之间的关联/拟合，而不去挖掘背后的因果关系。

张含望强调，研究因果不等于舍弃研究关联。相反，他希望“correlation + causality > correlation”。如今，计算机视觉的许多工作是研究“correlation”，而张含望将因果推理引入 CV，无疑是开拓了一条人迹稀少的道路。

学者之风：精通理论，传播知识

“一个学者的使命，应该是用知识去影响更多的人。” 这是张含望内心的信仰。

比如，衡量一篇科研文章的好坏标准，是读者只要具备本科知识背景就能够读懂。

他谈到本科期间很喜欢的一位老师，名叫陈天洲。这位老师也是竺院混合班出身，直博、留校任教，2006年晋升为浙大教授。陈天洲老师非常热爱科研，但很不幸，在2015年因为胰腺癌离开了人世。

张含望回忆，在老师刚发现得了胰腺癌时，头两年自己去看相关的医学文献，自学成才，还发表了两三篇治疗胰腺癌的文章。这件事给张含望带来很深的感悟：“我觉得一篇好的文章应该是能够救命的。你的文章一定要写得足够好，在一个行外人需要这方面知识时能够很好地帮助到Ta。”

除了写好科研文章，张含望还认为，一个合格的老师应该精通理论。

在指导学生的过程中，他通常是自己去阅读各类文献或书籍，消化艰深的理论，将想法具象化出来，然后结合学生的研究，尽可能以通俗的故事将想法传达给学生，然后由学生通过数学演算能力和编程能力将理论变成可执行的步骤。

谈起学生，张含望自豪地说：“我觉得我都是被我的学生带飞。他们的科研方式与科研风格都很成熟。如果硬要说他们还有什么不足的话，可能只是因为刚入门，对这个行业还不够熟悉而已。”

AI 的发展仍是漫漫长路。张含望提出：数据是机器观察的实践，能否设计一个机器，像人类先贤一样，把万有引力定律、π 这些算出来，才是真正的人工智能。而将因果推理引入 AI 研究的时间还很短，希望这位“小学生”能给我们带来更多的惊喜！

研究探讨 Q&A

1. OpenAI 近期开发的 DALL·E 模型展示了近乎拟人的语言-图像转换能力，您如何看待这项工作的意义？

我觉得它肯定是一个很伟大的工作。它的伟大之处就跟 Alpha Go 一样，Alpha Go 让人看到深度学习的强大，DALL·E 让人看到 Vision-Language 的强大。

张含望：将因果关系引入计算机视觉的“小学生”

图注：DALL·E 效果示例

相比理论上的创新，我更关心的是 DALL·E 具体用到了哪些 Transformer 技巧，如何让这些离散的符号与向量化的视觉之间的 gap 越来越小，以及用了哪些数据、多大规模的数据。

Vision-Language 此前一直被认为是灌水的领域，但 DALL·E 的出现让大家看到了这个方向的潜力，就像 Alpha Go使深度学习为大众所认知一样。当时，深度学习已经很火，但公众不认识，大家都觉得我们是一帮在实验室里做研究的书呆子；但 Alpha Go 出来以后，大家都觉得：“你们这些书呆子真的太帅了！”

我希望DALL·E能开源，MReal 就可以在使用比较廉价显卡能跑动的情况下，基于这棵参天大树添加一些枝叶。

2. 您如何看待连接主义与符号主义结合的意义？

MReal原本做的工作基本上是连接主义与符号主义的结合。当下，如果做纯符号，符号推理的正确率很高，但是你怎么得到鲁棒的符号？比如说，你怎么把所有的猫和所有的狗都很能鲁棒的检测出来，然后把真实世界中所有很连续的、很鲁棒的感知信号抽象成符号？这本身就是一个很难的问题。而你要做好这一点，必须要通过连接主义来做检测、预测。我认为AI将来最终的形态肯定是底层是连接主义，高层是符号推理。

但是，把深度的网络放在前端，符号放在后端，为什么效果比较差？因为它不是一个完整的端到端的模型。前端的深度网络检测出物体，接着就必须马上做一个离散的决策，把物体变成符号，然后再去做推理。这中间会有一个代沟。

在深度学习中，如果将它们放在一起进行优化，代沟就会产生非常巨大的误差。所以，现在连接主义跟符号主义所结合的研究主流，是把代沟进一步细分成模块化的embedding，但是这个模块还不是一个严格意义上的离散的符号，它也有它的embedding。

我认为，当前连接主义与符号主义的研究仍有很大的发展空间，而因果关系是解决这个问题的关键因素。

3. 深度学习和符号推理的泛化能力很不一样，前者更擅长内插 (interpolation)，后者更擅长外推 (extrapolation)，您如何看待两者的结合？

不管是深度学习还是符号推理，如果没有用到因果模型，都是在做完形填空 (内插)，因为它们是没有想象能力的（外推）。

想象能力在因果关系里面的术语叫反事实推理。什么叫反事实推理？比如说，你本科上的是 a 学校，你去想象：如果你没有上 a 学校，上了 b 学校，那么你现在是一个什么样的状态？这就是基于现在的想象，而想象的能力是人工智能的巅峰。你只有做到想象，你才能够去想象出新的模型，然后去外推到没见过的情形。

人类社会的本身就是一个想象的结果。关于想象力的一个具体例子是钱的发明。在人类社会最早期的时候，钱的概念并不存在，而是以物换物。后来，以物换物不能满足需求，比如，你需要喝酒，手里有酒的人需要牛皮，而你手里只有棉花。这时，以物换物的形式就不适用。久而久之，人类通过想象，将自己的剩余物注入国家的公权力机构（国家金库）中，货币由此诞生，全部人类由此连接。这是尤塔利在《人类简史》里讲过的故事：人类社会的形成，是基于想象力。艺术、宗教、金融市场等等，都是“外推”。我们如今灿烂的文明成果，皆是“外推生成“的。

4. 您认为引入因果关系推理能够为 CV 研究提供哪些新的角度？

我认为因果关系推理是 CV 研究的必备工具，它就应该在CV中。人类的所有科学发现本身就是：先假设理论，然后通过观察，形成自己的想法（也就是自己的方法论/理论），将数据套入理论中，之后再看往后观察的测试数据是否会推翻。如果推翻了，便进行二次修订，如此轮回。

深度学习火了之后，几乎所有研究方法都是在研究数据的拟合。在算力强大的模型上，研究人员可以很好地进行测试数据的拟合，但他们忽视了一个问题，就是：在一开始，他们就没有针对整个问题建立一个合理的模型。

举一个老生常谈的例子：巧克力的销量跟诺贝尔奖的得奖数是一个明显正相关。如果你建立一个模型来拟合这个正相关，你将得到一个很好的模型：能够准确预测，一个国家的巧克力销量越高，这个国家得诺贝尔奖的可能性就会更大。但如果你拿这个模型去做一些很重要的事情，比如做一个政府决策，你可能会为了得到高的巧克力销量，让所有学龄小孩每天多吃一公斤巧克力。

张含望：将因果关系引入计算机视觉的“小学生”

图注：巧克力销量与诺贝尔奖获得者数量呈正比

这显然是一件很荒谬的事情。这也是为什么现在的深度模型还不能够被人们信任的原因之一，而且我认为这也是最重要的原因。

如果引入因果关系的推理，你能对刚才所说的问题做一些改进。

就刚才的例子来讲，如果一个研究者不只是基于巧克力的数据和诺贝尔奖得奖的数据，就去造一个很fancy的、很漂亮CNN网络，而能够稍微去想一想背后的社会学原因，经济学原因，你可能会建立出一个模型，能够推断：巧克力的销量上升，可能往往是发达国家，国民本身就很富裕。由于国民都很富裕，对科研的投入和教育的投入也会相应更充足，那么你的模型就会避免这种很荒谬的偏差。

它只要捕捉到巧克力销量高的背后原因是GDP高，他就会知道，如果你只是提高巧克力的食用量，而不提高国家的经济实力，那么对你拿诺贝尔奖也是没有任何帮助的。这样的模型就是可解释的，可信赖的。

而引入因果关系，能够提高模型的决策能力，让模型的思考更加完善。

5. 能否谈一下常识、知识与记忆之间的关系？现在深度学习其实有一些很不合理的地方，比如算数。深度学习能够战胜世界围棋冠军，却无法掌握连小孩子都懂的简单算数。

小孩子能够通过1+1=2来得出100+100=200，是因为小孩具有符号推理能力，也就是想象能力（外推）。而机器在算数上的准确率不高，是因为机器缺少外推的想象力，所以无法具有我们人类的可拓展能力。

要达到这种能力，我认为Attention is NOT all you need，还要引入一些高级的变化，比如群论知识。就是一个物体变换在某一空间的表示虽然跟它在另外一个空间的表示不同，但它代表同一个物理意义，只不过它的形态跟操作方式都变掉了。

我认为现在的模型泛化能力做得不好，是因为通过深度模型后，很多变换都失真甚至消失了。深度学习认为，给模型输入的数据被标记为某种变换形式，模型所学的embedding也要是这样的形式。这个约束太强了，也不合理。深度学习已经在被动群变换（比如supervised learning）的表示学习上取得重大进展，我认为下一步应该是在自主群变换上取得重大进展。这样，才可以学习到可以用作外推的模块。不过，我貌似没有在现有的self-supervised learning （自监督学习）里看到突破。

6. 您觉得，如果深度学习结合因果推理，能够提高机器的常识能力吗？

会。

首先我们定义常识。我认为哲学对常识的定义是不可计算的。之前我们做过一篇工作，叫“Visual Commonsense R-CNN”。我觉得这是一个被低估的工作。这篇工作其实有讨论什么是视觉常识，将常识引入了深度学习中。当我们把 commonsense（常识）拆分为两个单词：common+sense，你就能知道，“common”的意思是大量的共生。比如只要下雨，室内就会潮湿，那么你就容易将“下雨”和“潮湿”联系起来。而 sense 是 sense-making，意思是“有道理”，也就是掌握了鲁棒的因果关系。

比如我们刚刚举的例子，吃巧克力就能得诺贝尔奖，你会觉得这是没有道理的。但是，它又确实是正相关的统计结果，你能说它错吗？只是，在常识的指导下，你认为它不对。因为你做过类似的干预实验：比如我本人高中就吃得好，两百斤的体重也没让我考上清华。也就是说，“吃巧克力”与“得诺贝尔奖”之间没有因果关系，只是一个正相关的统计结果。

所以我认为，人类经过总结所得到的鲁棒的两个元素之间的因果关系就叫“常识”。

这时，我们就可以基于这个定义去做一些测试。比如，跳广场舞的大叔大妈的常识，与受过高等教育水平的青年学生的常识，可能不是同一个常识。父母常说的养生知识，多喝热水、多吃枸杞，可能在你看来是很荒谬的，因为你读了更多的书，有了更多的生活阅历，看了更多的东西，你会把一些虚假的关联（混杂因子）给删除掉。

但如果你只是想要make sense，一个物理学家告诉你引力波、黑洞是什么样，你又会觉得不够common（普遍），因为这些是知识，而不是常识。

7. 您如何看待许多人常说的“可解释的模型性能不好，性能好的模型不可解释”？

我觉得这个观点是在耍流氓，就是“我不懂的就是不好的”。可能大家对可解释性有误解。如果将来机器有生命，知道自己是人工智能后，他可能会问一个问题：我的机理为什么一定要能被人类理解？你随便问一个人：你理解整个宇宙了吗？没有理解，但宇宙是存在的。郭老师说，你看不见 Wifi，但你能说它不存在吗？你不能因为你无法理解某个模型/深度学习理论，就说它的可解释性不好。

我们定义“可解释性”，不能只是说学到了某个可以可视化的东西。我觉得这个观点太肤浅了。在我看来，在机器学习和统计学当中，可解释性都叫inductive bias（归纳偏置）。“解释”本身就是一种bias。如果你将人类这种碳基生物所掌握的归纳偏置硬塞到一个硅基生物的模型里，比如深度学习网络，让它顺着你的想法来学它，性能当然会变差。所以我认为这个论断是不对的。

那么，如何让模型既能达到可解释，又能达到性能好呢？这其实是翻译的问题，就是如何将一个黑盒子的深度学习网络的机理翻译出来。这又要扯到群论上：任何特征的提取都是一种变换，这种变换必须要能够翻译过来，即找到咱们人类理解的空间当中的变换，这就叫“同态变换”。要不然永远都是鸡同鸭讲。我们目前就在研究如何用因果理论来发现这种“同态”。

8. 对于想要从事人工智能研究的在校生，您有哪些学习建议？

1）对于本科生：

我觉得千万不要跟风。就我个人的例子来说，如果我当时跟风，一脑子只学编程代码，那么我现在可能就只是一个高级码农，而无法从事自己所真正热爱的职业。一定要知道自己想要什么。现在很多年轻人觉得自己被“内卷”，活得很痛苦、很焦虑，我觉得是因为 Ta 不知道自己想要什么。在他们眼里，Ta的人生选择完全是受制于他人眼中的选择。他没有真正为自己做过选择。

另外，如果一个本科生未来想从事 AI 的话，我觉得还是应该多学基础，比如数学。不要看到你的同学去了其他大厂实习，发了一篇顶会，你就着急。如果你真的要进入一个专业的领域，发顶会只是时间问题。别人所拥有的东西，可能是因为机遇，而不是实力。你完全没有必要羡慕其他人，而是应该羡慕自己手上所拥有的东西：年轻。

本科生不要浮躁，不要为了发paper、申请美国的好学校，就强行要求自己去哪实习、发顶会。我其实挺反感这样的做法。当然，我觉得是有天才的，我也见过这样的天才，既能做一堆实习、发表顶会，还能把基础知识学好。对于这种天才型的学生来讲的话，我觉得根本不需要我们常人给 Ta 建议。他想做的事，他喜欢做的事，他做任何行业都可以做的很好。

2）对于博士生：

就像《The Book of Why》里所谈到的，你要不停地问自己为什么，大到问为什么要做某个方面的研究，小到具体问为什么某个技巧能够work？甚至你可能从一个非常稀松平常的工作，通过不停地问为什么，来发现一个新的领域和一个新的方法。

如果你的每一步都建立在问为什么的基础上，没有偷懒，没有盲目跟风，且你的每一步都是建立在自己能够回答自己问的“为什么”的情况下，那么我相信，你的工作一定是非常impressive，非常具有影响力的。

9. 您认为本科生在本科阶段最重要的是打好基础。那么，如果一个本科生毕业后直接申请您的博士，您是不是就不太看重 Ta 的大厂实习或者顶会论文数量？

对。

我觉得大多数本科生所发表的任何论文，我应该多少能知道你是怎么发表的。有可能是你的老板急需paper，你跑了一段时间代码，发表了论文。在我看来，一个本科生的人生阅历是很难让他完全独立地想出一个idea去研究的。如果你的idea不是独立的话，你发10篇顶会，只能证明你的代码能力还是ok的，你做科研工作不会累趴，但对科研的热爱并不需要用顶会的数量来证明。

判断一个本科生是否有科研潜力，本来就应该是一个导师赖以生存的看家本领。一个只通过顶会paper来判断是否录取你的导师，就好比盲目跟风的投机者，购买已经在高位的股票的一样，这本身就是一种为了节约沟通成本的偷懒行为。本科生努力发顶会，就是在用大厂或导师偷懒的错误行为，来惩罚自己本该有无限可能的青春。

我的学生进来都没有paper，出来都有了，这才是真香。

参考链接：

1. https://personal.ntu.edu.sg/hanwangzhang/

3. https://zhuanlan.zhihu.com/p/95465063

转载请超链接注明：头条资讯 » 张含望：将因果关系引入计算机视觉的“小学生”

免责声明
    ：非本网注明原创的信息，皆为程序自动获取互联网，目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责；如此页面有侵犯到您的权益，请给站长发送邮件，并提供相关证明(版权证明、身份证正反面、侵权链接)，站长将在收到邮件24小时内删除。