观点:AI 可能让人类科技“跑偏”,耽误一些更重要的技术

日期:2018-4-26  来源:36氪

编者按:对于人工智能的讨论已经逐渐深入。本文作者Michael Jordan在“Artificial Intelligence — The Revolution Hasn’t Happened Yet”一文中论述了自己对于人工智能的看法,革命仍未发生,我们需要认清来自未来的严峻挑战。 

人工智能是当今时代的颂歌。这句话被技术专家、学者、记者和风险投资家拿来反复使用。就像其他一些从技术领域扩散到一般大众的表达一样,人们对于这一词汇的使用存在严重误解。但这并不又是一个大众不了解科学家情况的案例,在这里科学家常常被公众所迷惑。在某种程度上见证了智能技术在硅谷冉冉升起的时代取悦着所有人,让我们着迷,并以同样的方式恐吓我们。同样不幸的是,它让我们分心。

有这么一种表述当前时代的叙述方式。想象一个故事,里面有人类、计算机、数据和生死攸关的决定,但是故事的重点不是关于硅芯片的幻想而是其他一些东西。14年前,我的妻子在怀孕时做了超声波检查。一位遗传学家指出胎儿心脏周围的一些白色斑点。“这是唐氏综合征的标志,”她告诉我们,“患这一病症的风险已经上升至1/20。”她又告诉了一些我们应该知道的东西,患唐氏综合征的胎儿可以通过羊膜穿刺术实现基因改造。但是羊膜穿刺术具有风险,在手术过程中杀死胎儿的概率约为1/300。作为一名统计学家,我决定找出这些数据的来源。长话短说,我发现在一项10年前所做的英国统计分析中显示,这些白色斑点反映了钙的堆积情况,它们的确是唐氏综合征的“预言者”。但是我同样注意到在我们的检查中使用的成像机器中每平方英寸的像素比英国这项研究中所使用的机器高出几百个像素。我回去告诉遗传学家,认为白色斑点很可能是“假阳性”情况,确切来说它们应该是一种“白噪音”。她回复道“啊,这就解释了为什么从几年前开始,我们发现唐氏综合征的发病率呈上升状态;新机器时代到来了。”

我们没有做羊膜穿刺术,几个月后一个健康女孩来到了世界上。但是这件事情一直困扰着我,尤其是我在经过粗略统计后发现有成千上万的人在一天内被诊断出患有这种疾病,许多人选择了羊膜穿刺术,许多胎儿因为不必要的原因走向死亡。这件事所反映的不是关乎我的个人医疗保健问题,它关乎一个在某个时间与地点考察变量并得出结果,进行统计分析,并应用于其他时间与地点的医疗系统问题。这一问题不仅仅关于数据分析本身,而且与数据库研究人员所说的“来源”问题有关,从广义范围来讲,包括数据从何而来?从数据中得出哪些推论?这些推论与当前情况有多大关系?那些受过训练的人可能会基于一例例个案回答上述所有问题,而问题在于设计一个可以解决上述问题且供大范围使用的医疗系统却不需要细心的人类的监督。

我也是一名计算机科学家,却突然意识到,那些将计算机科学与统计数据相融合,并将人类因素考虑在内而建立起的一个大规模使用的推理和决策系统所依赖的原理问题在我的教育经历中呈缺失状态。而这些不仅在医学领域,在商业、交通和教育领域也同样需要的原理的发展,至少应该与让我们眼花缭乱的人工智能系统同等重要。

无论能否快速理解“智力”问题,我们的确在为拓宽人类生命而将计算机与人类相结合的道路上遭遇困境。虽然这一挑战被一些人看作是“人工智能”的产物,但它也应该被简单却同样视为一个新的工程学分支产物。就像几十年前的土木工程与化学工程一样,这个新学科的目标是将一些关键思想之力集中到一起,以安全的方式,为人类带来新的资源与能力。鉴于土木工程与化学工程建立在物理与化学的基础上,这个新工程学科将建立在如“信息”“算法”“数据”“不确定性”“计算”“推理”和“优化”等上个世纪出现的思想基础上。此外,由于新学科所重点关注的数据产生于人类且关乎于人类,因此它的发展需要来自社会学科与人文学科观点的支持。

当这门学科的建筑瓦块已经出现时,那些能将这些瓦块粘合在一起的原理还没有出现,所以目前这些瓦块以一种特别的方式组合在一起。

因此,就像人类在土木工程原理出现之前建造房屋和桥梁一样,基于机器、人类和环境在内在大范围内使用的推理与决策系统也以某种方式推动该领域发展。早期建筑和桥梁有时以不可预见的方式发生坍塌,并造成悲剧性后果,与此类似,许多大规模投入使用的早期推理与决策系统已经暴露出存在严重的概念缺陷问题。

不幸的是,人类不太擅长预测下一个严重缺陷会是什么。而就目前来看,我们缺少一个拥有分析与设计原理的工程学科。

最近那些关于此议题的对话经常将“AI”看为一个智能通配符(an intellectual wildcard),这一行为很难让人们推断新兴技术所涉及的范围和后果。让我们先来看看“人工智能”在历史上以及近期都被用来指代什么。

如今大部分被称为“人工智能(AI)”的东西在过去几十年里被称做“机器学习(ML,Machine Learning)”,尤其是在公共领域。“机器学习”是一个融合统计学、计算机学和其他学科思想的算法领域,它用来处理数据,进行预测并帮助做出决策。就机器学习对于现实世界所产生的影响而言,它是真正有用的东西,这种影响并不仅仅波及近期。事实上,彼时的机器学习在20世纪90年代就具备了紧密的产业关联度,到了世纪之交,像亚马逊这样有远见的公司已经在公司业务中使用这一技术,为防欺诈和物流链预测解决关键性后端问题,建立包括推荐系统在内面向消费者的创新性服务。随着数据库和计算资源在接下来20年中获得快速发展,机器学习以显而易见的方式为包括亚马逊在内的公司提供助力,将公司决策与大规模数据绑定在一起。新的商业模式在那时已经出现。“数据科学(Data Science)”一词被用来指代一种现象,即反映了机器学习算法专家期待与数据库和分布式系统专家建立合作以制造出具有扩展性的优良机器学习系统的需求,也反映了与此系统有关的更大语境及社会范围。

在过去几年中,思想与技术的融合趋势被重新命名为“人工智能(AI)”。这一概念重塑行为值得我们仔细研究。

回望历史,“人工智能”一词在20世纪50年代末出现,它用来指一种拥有人类智力水平的软件与硬件实体的激动人心的愿望。我们将使用“模仿人类式人工智能(human-imitative AI)”来表述这种渴望,突出强调人工智能实体如果不是从身体上至少也是在精神上应该成为人类的一员,无论这意味着什么。在很大程度上这属于一项学术事业。虽然操作研究、统计、模式识别、信息论与控制论等相关学术领域已经存在,且经常受到人类智能(与动物智能)的启发,但是应该说这些领域多专注于“低层次”的信号和决策事宜。例如,一只松鼠能够感知它所居住的森林的三维结构,并在树枝间来回跳跃,这一现象会带给相关领域鼓舞人心之力。“人工智能”则意味着对不同东西的关注,它更关注于人类对于“推理”和“思考”的“高层次”“认知”能力。然而,60年后的今天,在高层次的推理与思考层面我们依然难以取得突破。现在被称为“人工智能”的运用主要出现在那些低水平模式识别与运动控制相关的工程领域,以及专注于发现数据的存在模式并作出预测再对假设和决策进行监测的统计领域。

事实上,著名的“反向传播”算法在20世纪80年代早期就被大卫·鲁梅尔哈特重新发现,而被公认为是 “人工智能革命”的核心则首次出现在20世纪50年代至60年代的控制论领域。该技术的早期应用是为阿波罗飞船向月球推进时提供推力。

自20世纪60年代以来,技术已经取得巨大进步,但是这一进步并不基于对模仿人类式人工智能的追求。相反,如同阿波罗飞船的例子一样,这些想法隐藏于幕后,并且一直以研究人员专注于解决特定工程挑战而取得突破的结果出现。虽然公众对于这些进步一直呈盲目态度,但是在文献搜索、文本分类、防欺诈检查、推荐系统、个性化搜索、社交网络分析、规划、诊断和A/B测试等领域研究和系统建设方面取得了巨大成功,这些进步为谷歌、Netflix、Facebook和亚马逊等公司的发展提供动力。

人们可以简单把所有这些都称为“AI”,的确这也是实际所发生的事情。这样的标签可能会令优化人员或统计研究人员感到惊讶,他们发现自己突然成为了“人工智能研究人员”。但是除了研究人员的标签问题之外,更严重的问题是使用这个单一的、定义不清的缩写词并不能让人们对于相关智力和商业问题产生清晰的认识。

过去二十年中,基于对通常被称为“智能增强”(IA,Intelligence Augmentation)的模仿人类式人工智能的发展渴望,技术在工业与学术领域获得重大进展。此处的计算与数据被用来创造那些用来增强人类智力与创造力的服务。搜索引擎可以看做一个智力增强的例子(它增强了人类的记忆能力和事实知识储备能力),也强化了自然语言的转译(增强了人类交流的能力)。基于计算而出现的声音与图像是艺术家的调色板和创造力的增强剂。尽管这种服务可能会涉及到高层次的推理与思考问题,但是它们主要执行各种对人类有用的字符串匹配和数字操作。

希望读者能容忍最后一个缩略词出现,让我们大致想象一个“智能基础设施(II,Intelligent Infrastructure)”学科,它是一个包含计算、数据和使人类环境更加有支撑、有趣且安全的网状物。这样的基础设施出现在交通、医疗、商业、金融等领域,对个人及社会产生巨大影响。这些技术有时会出现在关于“物联网”的对话中,但是“物联网”通常指把“东西”放到互联网上,而不指向那些与“东西”相关的更大挑战中。在这种更大挑战中,基于“东西”的技术能够分析数据流,从而发现关于这个世界的事实,并与人类和其他“东西”产生交互,而不仅仅涉及简单的比特。

我们可以想象自己生活在一个基于数据流、数据分析流的“社会规模的医疗系统”中,医生和医疗设备被置入人体或围绕在人体周围,因此能够帮助诊断和提供护理。这一系统的信息整合了身体细胞、DNA、血液测试、环境、遗传学以及大量关于药物与治疗的科学文献。它不仅关注一位医生和一位病人,而是所有人类之间的关系,就像目前的医学测试可以基于一组人类(或动物)实验而应用于其他人类一样。如同目前的银行系统将重心放在金融与支付领域,该医疗系统注重于维护技术的相关性、来源和可靠性问题。尽管人们能够预见这个系统会出现包括隐私、问题、安全在内的许多问题,但是这些问题也应该被视为挑战,而不是障碍。

那么,我们所面临的一个关键问题是:研究典型模仿人类式人工智能是专注于更大挑战的最佳或者唯一途径吗?某些关于机器学习的最受追捧的成功故事实际上发生在模仿人类式人工智能的领域,如计算机视觉、语音识别、游戏和机器人技术等领域。因此,也许我们应该只需等待着这些领域取得进一步进展。有两点需要说明。第一,尽管人们不可能从报纸上阅读到这些,但是模仿人类式人工智能可以取得的成功实际上是有限的,我们离实现这一抱负还很远。不幸的是,那些在模仿人类式人工智能所取得的有限进展的激动和恐惧导致了没有其他工程领域的出现过度繁荣与过曝的媒体关注度。

第二,也更为重要的是,在这些领域所取得的成功对于解决重要的智能增强和智能基础设施问题既不充分也不必要。就充分因素而言,想想自动驾驶汽车。要实现这样的技术,需要解决一系列工程问题,这些问题可能与人类具备的能力(或人类缺乏的能力)没有什么关系。总体交通系统(II类型)可能更接近于当前的空中交通管制系统,而不是那种不专心的向前行驶的人类司机集合。它将比当前的空中交通管制系统复杂得多,尤其在运用大量数据和自适应系统建模而对深入决策产生影响之时。正是这些需要最先解决的,专注于模仿人类式人工智能的挑战会分散掉我们的注意力。

而就必要性方面,有时人们会认为,对于模仿人类式人工智能的渴望已经将智能增强和智能基础设施囊括在内。因为模仿人类式人工智能系统不仅能够解决人工智能所面临的经典问题(如图灵测试中所体现的那样),而且它也是解决智能增强和智能基础设施相关问题的最佳选择。而对于此问题的争论几乎没有历史先例。土木工程通过展望一位人造木匠或是砖匠而获得长足发展的吗?化学工程是否由一名人造化学家所框定?更有争议的是,如果我们的目标是建造化工厂,我们是否需要先制造出一个人造化学家,然后再去研究如何建造化工厂的问题?

一个相关论点是,人类智力是我们已知的唯一一种智力,我们应该把模仿它作为前进之路应该迈出的第一步。但是事实上,人类并不擅长于进行某些推理,我们存在着固有的过失、偏见与局限。更为重要的是,我们并没有进化到可以执行智能基础设施所必须面对的大规模决策情况,更不要提去解决智能基础设施所出现的不确定性问题。可能有人会说,人工智能系统不仅会模仿人类智力,还会“纠正”它,也会规模化处理问题。但是我们现在身处于科幻小说的程度之中,而科幻前提下的自娱自乐不应该成为我们在面对重要的智能增强和智能基础设施时的主要策略。我们需要根据它们的自身优点去解决上述两个方面,而不是将其放置在模仿人类式人工智能的议程中。

不难发现,在智能基础设施系统中,有关算法和基础设施方面的挑战并不是人工智能研究的中心主题。它需要具备管理那些快速变化且在全球范围发展不连贯的分布式知识库的能力。这样的系统必须具备处理及时且分布式决策的云交互能力,也必须处理一些长尾现象,即某些个体拥有大量数据而大多数个体却拥有极少数据。它也必须解决不同行政势力与商业竞争边界所导致的共享数据的困难。最为重要的是,智能基础设施系统必须将激励和价格等经济元素引入统计与计算相关基础设施领域。如此,系统不仅可以提供服务,而且可以用于创建市场。音乐、文学与新闻等领域迫切需要这样的市场出现,从而通过数据分析将生产者与消费者联系在一起。这些变化也必须在伦理、法律、社会不断获得发展的语境中进行。

当然,典型模仿人类式人工智能问题依然会引起极大关注。但是,当前侧重于通过数据收集、部署“深度学习”基础设施等狭隘的人类技能应该转向更加开放的议题上。这些议题包括将意义与推理引入执行自然语言的处理系统中,需要推断与展示因果关系、需要发展计算能力可追踪的不确定性、需要发展制定与追求长期目标制度。这些都是模仿人类式人工智能的经典目标,但是在当前关于“人工智能革命”的争论中,人们很容易忘记这些问题尚未解决。

智能增强仍然扮演着非常重要的角色,因为就在可预见的未来对现实世界进行抽象推测而言,计算机无法于人类相匹敌。我们需要那些经过深度思考的人类与计算机进行互动而解决最紧迫的问题。我们希望计算机能够使人类创造力发展到新层次,而不是将其取代。

创造“人工智能”一词的约翰·麦卡锡显然是为了将自己正处于萌芽期的研究与诺伯特·维纳区分开。维纳创造了“控制论”来表达自己对于智能系统的看法,从而将操作研究、统计、模式识别、信息论与控制论联系起来。而麦卡锡则强调其与逻辑之间的联系。一个有趣的逆转是,在麦卡锡所树立的术语旗帜下,维纳的理论议程在当今时代占据了主导地位。

但是我们需要超越麦卡锡和维纳所持有的特定历史观点。

我们需要认识到当前关于人工智能的公开对话关注于一个狭窄的行业圈子和学术圈子,这令我们盲目于人工智能、智能增强和智能基础设施所面对的挑战和机遇。

所涉及的范围问题不是关于科幻梦想或者是超级人类机器噩梦的实现,更多是关于随着其在日常生活中越来越显现并产生影响力而产生的人类理解与塑造技术的需要。而要实现理解与塑造,那么需要倾听来自各行各业的声音,不能仅仅关注于技术层面上的对话。仅仅关注模仿人类式人工智能可能会导致被听到的声音范围受限。

虽然工业将继续推动许多方面获得发展,学术界也将继续发挥重要作用而不仅仅止于提供一些最具创新性的技术理念,但是我们也迫切需要来自计算与统计学科的研究人员与其他学科的研究人员一起做贡献,尤其是社会学科、认知学科与人文学科。

另一方面,人文学科与自然学科在我们的前进路途中必不可少,我们也不应该假装自己所谈论的东西已经超出为前所未有的规模和范围工程所做的努力。我们不希望在建立一个帮助医疗治疗、交通选择和商业机会的系统之后却发现它并不能真正起作用,所犯的错误会让人类付出生命和幸福的代价。正如我所强调的,在以数据为中心和以学习为中心的领域中还未出现一个工程学科。尽管有些领域令人兴奋,但是还不能被看作是一门工程学科。

此外,我们应该接受这样一个事实,即我们所见证的是一个新的工程分支的诞生。“工程学”经常被学术界或其他地方引用为狭义意义,带着冷酷的、无情的机器意味,以及人类将失去其控制的负面含义。但是我们需要一门工程学科。

在当今时代,我们真正拥有构想一些新东西的机会,这包括一个以人为中心的工程学科。

我拒绝为这个新兴学科命名,但是如果“AI”缩写继续通过占位符命名法而使用,那么我们需要意识到这一方法所存在的缺陷。让我们扩大视野、缓和炒作,认清面向未来的严峻挑战。