就在过去的几个月里，美联储的加息结束了科技资本的狂欢，美国上市的SaaS公司的股价下跌了70%。裁员和紧缩是必要的选择。但就在市场一片哀嚎之际，all - e2发布了，随后出现了一大批很酷的人工智能公司。这些事件在风险投资界引发了一波浪潮，我们看到一些兜售基于人工智能产品的公司在收入不到数百万美元、没有经过验证的商业模式的情况下，估值达到了数十亿美元。不久前，同样的故事也发生在Web 3上!感觉我们即将进入一个新的繁荣时代，但这一次人工智能真的能推动科技行业的复苏吗？

本文将带你回顾人工智能领域的非凡历史，通过四个维度来理解“机器心脏的进化”:由关键参与者推动的学术进步、算法和思想的出现、公司和产品的进步，以及脑科学对神经网络的迭代影响。忘掉那些花哨的图片制作应用吧，让我们来学习一些接近人工智能本质的东西。本文共分为六章：

AI进化史-前神经网络时代，机器学习的过渡，潘多拉魔盒软件2.0的兴起-软件范式的转移和进化，软件2.0和Bug 2.0智能架构-基础设施3.0。如何组装智能、统一模型的智能架构先锋——变形金刚诞生、基础模型、AI湖的新机遇、现实世界AI自动驾驶新前沿、机器人与智能代理AI进化未来——透视神经网络、千脑理论，人工智能何时普及？

文章较长，共22800字，请留出一小时左右的阅读时间，欢迎收集阅读!本文中的每一个链接和引用都是有价值的，特别推荐作为衍生阅读。

在阅读之前，我们将打断埃隆马斯克和马云在WAIC 2019上谈论人工智能的经典视频。全程注意埃隆马的脸。你认为机器智能能超越人类智能吗？带着这个问题去看，相信看完之后会有一个系统的答案!

在本文中，为了使写作简洁，当同一段文字中出现大量重复的词语时，将使用AI (artificial Intelligence)来表示人工智能，使用ML (Machine Learning)来表示机器学习。DL (Deep Learning)代表深度学习，并以各种缩写词为主。

至于机器是否真的能“知道”、“思考”等等，我们很难严格地定义它们。我们对人类心理过程的理解可能只比鱼对游泳的理解好一点点。

John McCarthy

早在1945年，图灵就已经在思考如何用计算机来模拟人脑。他设计了ACE(自动计算引擎)来模拟大脑的工作。在给同事的一封信中，他写道：“我可能对大脑如何工作的模型比对计算的实际应用更感兴趣.即使大脑是一个由轴突和树突生长计算出来的复杂神经元电路，我们可以在ACE中建立一个模型，允许ACE的实际结构没有改变的可能性，它只是记住了数据.“这就是机器智能的起源，至少当时在英国是这样定义的。

1.1前神经网络时代

神经网络是模仿人脑神经元运作的计算机系统。人工智能随着神经网络的发展而出现。1956年，美国心理学家弗兰克罗森布拉特(Frank Rosenblatt)实现了神经网络的早期演示——感知器模型(Perceptron Model)，该模型使用监督学习方法对简单的图像进行分类，如三角形和正方形。这是一台只有8个模拟神经元的计算机，由马达和转盘组成，与400个光探测器相连。

图01:Frank Rosenblatt感知器模型

IBM的乔治敦实验室在这些研究的基础上实现了第一个机器语言翻译系统，在英语和俄语之间进行翻译。1956年夏天，在达特茅斯学院的一次会议上，人工智能被定义为计算机科学的一个研究领域，马文明斯基、约翰麦卡锡、克劳德香农和纳撒尼尔罗切斯特组织了这次会议，他们被称为人工智能的“创始人”。

图02:1956年达特茅斯人工智能夏季研究项目的参与者

DARPA在这个“黄金时代”将大部分资金用于人工智能，并在短短10年后发明了阿帕网。人工智能的早期先驱试图教计算机模仿人类完成复杂的心理任务，并将其分为五个子领域：推理、知识表示、规划、自然语言处理(NLP)和感知，这是一个至今仍存在的笼统术语。

从专家系统到机器学习

1966年，马文明斯基(Marvin Minsky)和西摩帕珀特(Seymour Papert)在他们的著作《07555 -79000》中证明，由于硬件的限制，只有几层的神经网络只能执行最基本的计算，浇灭了人们对这条路线的热情，导致AI领域的第一个泡沫破灭。这些先驱者并不知道，在随后的几十年里，计算机的速度会以指数级增长，达到数亿倍。

20世纪80年代，随着计算机性能的提高，一种新的计算机语言Prolog Lisp流行起来，可以利用复杂的程序结构，如条件循环来实现逻辑，人工智能就是专家系统(Expert System)， iRobot公司绝对是那个时代的明星；但在经历了短暂的繁荣之后，硬件存储有限，专家系统无法解决特定的、难以计算的逻辑问题，人工智能再次陷入困境。

我怀疑任何与形式逻辑非常相似的东西都不会是人类推理的好模型。

Marvin Minsky

直到1997年IBM深蓝击败国际象棋冠军加里卡斯帕罗夫，新的概率推理方法才得到广泛应用。随后的IBM沃森项目使用这种方法在电视游戏节目0755-79,000中定期击败人类选手。

概率推理是典型的机器学习。今天的大多数人工智能系统都是由ML驱动的，其中预测模型是在历史数据上训练的，并用于对未来做出预测。这是人工智能的第一次范式转变，算法没有指定如何解决任务，而是根据数据诱导任务，动态地实现目标。ML带来了大数据的概念。

机器学习算法通常通过分析数据和推断模型来建立参数，或者通过与环境交互并获得反馈来学习。人类可以标注数据，也可以不标注，环境可以是模拟的，也可以是真实的。

Deep Learning

深度学习是一种利用多层神经网络和反向传播技术训练神经网络的机器学习算法。这个领域几乎是由Geoffrey Hinton发明的，他和他的同事在1986年发表了一篇关于dns深度神经网络的开创性论文，其中引入了反向传播的概念，这是一种调整权重的算法。每次你改变权重，神经网络会比以前更快地接近正确的输出。它可以很容易地用多层神经网络实现，打破了Minsky在1966年写的感知器限制的魔咒。

图03:Geoffrey Hinton深度神经网络

深度学习直到2012年才真正起步，当时Hinton和他在多伦多的两个学生证明，使用反向传播训练的深度神经网络在图像识别方面击败了最先进的系统，错误率几乎减半。由于他在该领域的工作和贡献，Hinton的名字几乎已经成为深度学习的代名词。

数据是新的石油

深度学习是一个革命性的领域，但为了让它像预期的那样工作，需要数据。最重要的数据集之一是ImageNet，由李飞飞创建。斯坦福大学人工智能实验室前主任、谷歌Cloud AI/ML首席科学家李飞飞早在2009年就发现，数据对机器学习算法的发展至关重要，并于同年在《计算机视觉与模式识别》(CVPR)上发表了一篇相关论文。

图04:李菲菲ImageNet

这个数据集对研究人员非常有用，它已经成为最重要的年度DL竞赛的基准。在短短7年的时间里，ImageNet将获胜算法在图像中分类物体的准确率从72%提高到98%，超过了人类的平均能力。

神经网络爆炸

在深度学习理论和数据集的支持下，自2012年以来，深度神经网络算法爆发了。卷积神经网络(CNN)、循环神经网络(RNN-Recurrent Neural Network)和LSTM-Long - Short-Term Memory等都有不同的性质。例如，递归神经网络是高级神经元和低级神经元之间的直接连接。

来自日本的计算机研究员福岛邦彦(Kunihiko Fukushima)根据视觉在人脑中的工作原理创建了一个人工神经网络模型。该架构基于人类大脑中的两种神经元细胞，称为简单细胞和复杂细胞。它们存在于初级视觉皮层，即大脑中处理视觉信息的部分。简单单元检测局部特征，如边缘；复杂单元将一个区域内简单单元的结果聚合在一起。例如，一个简单的单元格可能检测到椅子的边缘，而一个复杂的单元格可能汇总信息以产生一个结果，通知下一个更高级别的简单单元格，这样就可以一步一步地识别完整的结果。

图05:深度神经网络如何识别物体(TensorFlow)

CNN的结构是基于这两类细胞的级联模型，主要用于模式识别任务。它在计算上比大多数其他架构更高效和更快，并且在许多应用程序中被用于击败大多数其他算法，包括自然语言处理和图像识别。每当我们更多地了解大脑是如何工作的，神经网络的算法和模型就会变得更好!

自2012年以来，深度神经网络的使用呈爆炸式增长，而且进展惊人。目前机器学习领域的研究大多集中在深度学习上，这就像是进入了潘多拉魔盒被打开的时代。

图06:人工智能的进化

GAN

gan生成对抗网络是深度学习领域的另一个重要里程碑。它诞生于2014年。它帮助神经网络用更少的数据学习，生成更多的合成图像。然后，这将用于识别和创建更好的神经网络。GANs的发明者伊恩古德费罗(Ian Goodfellow)在蒙特利尔的一家酒吧里提出了这个想法，它由两个神经网络组成，它们在玩猫捉老鼠的游戏，一个神经网络创建看起来像真的图像的假图像，而另一个神经网络则判断它们是否是真的。

描述07:GANs模拟生产图形的演变

GANs将帮助创建图像，以及真实世界的软件模拟，Nvidia广泛使用它来增强其真实世界的模拟系统，在那里开发人员可以训练和测试其他类型的软件。你可以使用一个神经网络来“压缩”图像，而不是直接压缩数据，另一个神经网络来生成原始视频或图像。在他的一篇论文中，Demis Hassabis提到了人类大脑“海马体”中类似的记忆回放机制。

大规模神经网络

大脑的工作方式当然不是由有规则的人编程的。

Geoffrey Hinton

大规模神经网络的竞争始于谷歌Brain，该公司成立于2011年，现在是谷歌Research的一部分。他们推动了TensorFlow语言的发展，提出了通用模型Transformer的技术解决方案，并在此基础上开发了BERT，我们将在第4章详细讨论。

DeepMind是这个时代的传奇人物之一，2014年被谷歌以5.25亿美元收购。它专注于游戏算法，其任务是“解决智能问题”，然后使用该智能“解决其他所有问题”!DeepMind的团队开发了一种新的算法，Deep Q-Network (DQN)，可以从经验中学习。2015年10月，AlphaGo在围棋比赛中首次击败人类冠军李世石。然后AlphaGo Zero用一种新的改进算法让人类不可能再次赢得比赛，这种算法可以自我发挥。

另一家传奇公司是OpenAI，这是一家由埃隆马斯克、山姆奥特曼、彼得蒂尔和里德霍夫曼于2015年创立的价值10亿美元的研究企业。它的主要竞争对手是DeepMind。OpenAI的任务是人工通用智能(Agi-Artificial General Intelligence)，这是一个高度自主的系统，在大多数有经济价值的工作上表现优于人类。GPT-3于2020年推出，是最好的nlp自然语言处理工具之一。通过其API，可以实现自然语言同步翻译、对话、文案，甚至抄录。现在最流行的生成图像(DALLE)。

Gartner AI HypeCycle

值得一看的是Gartner的HypeCycle，这是他们对2022年AI领域各项技术成熟度的最新预测，可以快速了解AI进化史篇章中不同技术的发展阶段。

描述08:Gartner AI HypeCycle 2022

在上世纪60年代遭受挫折的神经网络自2012年以来获得了新生。反向传播花了这么长时间才发展起来的原因之一是它需要计算机执行乘法矩阵计算。在20世纪70年代末，世界上最强大的超级计算机之一Cray-1能够每秒进行50兆次浮点运算。现在GPU的FLOPs已经达到了万亿次，英伟达最新的数据中心GPU Nvidia Volta能够达到125 Tflops，比50年前世界上最快的计算机在单个芯片上的能力高出250万倍。技术的进步是多方面的。一些不合时宜的理论或方法，在其他技术条件具备的情况下，可以整合巨大的能量。

未来的计算机语言将更多地关注目标，而不是程序员所考虑的实现过程。

Marvin Minsky

软件2.0的概念最初是由Andrej Karpathy提出的，他是一个很有天赋的孩子，小时候随家人从捷克移民到加拿大，在多伦多大学跟随Geoffrey Hinton学习，然后在斯坦福李菲菲团队获得博士学位，专注于NLP和计算机视觉。与此同时，他作为创始团队成员加入OpenAI，阐释了深度学习的关键人物和历史节点。2017年，埃隆马斯克将他招募到特斯拉，负责自动驾驶研发，随后又有了重建的FSD (Full自动驾驶)。

根据Andrej Karpathy的定义——“软件2.0使用更抽象的、对人类不友好的语言生成，比如神经网络的加权。没有人写代码，一个典型的神经网络可能有数百万个权重，这很难直接编码。安德烈说他以前试过。这几乎不是人工任务。

图09:Andrej Karpathy和神经网络权重

在创建深度神经网络时，程序员只写几行代码，让神经网络自己学习，计算权重，形成网络连接，而不是手工编写代码。这种软件开发的新范式始于第一个机器学习语言TensorFlow，我们称这种新的编码方法为software 2.0。在深度学习兴起之前，大多数人工智能程序都是用Python和JavaScript等编程语言手写的。人类编写每一行代码，并确定程序的所有规则。

图10:机器学习是如何工作的？(TensorFlow)

相比之下，随着深度学习技术的出现，程序员正在利用这些新方法为程序分配目标。例如赢得一场围棋比赛，或通过提供适当的输入和输出数据，例如给予算法具有“SPAM”特征的消息和其他没有“SPAM”特征的消息。编写一个粗略的代码骨架(一个神经网络架构)，确定程序空间的一个可搜索子集，并使用我们可以提供的计算能力来搜索该空间，从而形成一个有效的程序路径。在神经网络中，我们一步一步地限制搜索的范围到一个连续的子集。通过反向传播和随机梯度下降，搜索过程非常高效。

神经网络不仅仅是另一种分类器，它们代表了我们如何开发软件的范式转变的开始。它是软件2.0。

软件1.0人们编写代码，编译后生成可执行的二进制文件；但是在软件2.0中，人们提供数据和神经网络框架，这些框架经过训练，可以将数据编译成二进制神经网络。在今天的大多数实际应用中，神经网络结构和训练系统越来越像商品一样标准化，因此大多数软件2.0开发由两部分组成：模型设计实现和数据清理标记。这从根本上改变了我们软件开发迭代的范式，并且团队被分成两部分：2.0程序员负责模型和数据，1.0程序员负责维护和迭代运行模型和数据的基础设施、分析工具和可视化界面。

马克安德森的经典文章标题《感知器：计算几何学导论》现在可以读成：“软件(1.0)正在吞噬世界，现在人工智能(2.0)正在吞噬软件!”

2.2软件演进

软件从1.0发展到2.0是通过一个叫做“数据产品”的中间阶段。当顶级软件公司在了解大数据的商业潜力后，开始使用机器学习来构建数据产品时，就出现了这种情况。下面的图片来自Ahmad Mustapha(《Jeopardy》)的一篇文章，很好地展示了这种转变。

图11:软件产品发展的三种状态

这种中间状态也被称为大数据和算法推荐。在现实生活中，这样的产品可以是亚马逊的产品推荐，预测客户会对什么感兴趣，Facebook的朋友推荐，Netflix的电影推荐或抖音短视频推荐。还有什么？Waze的路由算法，Airbnb背后的排名算法，等等。

数据产品有几个重要的特征：它们不是软件的首要功能，通常是为了增加体验，达到更好的用户活跃度和销售目标；2. 2. 可以随着数据的增加而进化；3.它大部分是基于传统ML实现的，最重要的一点是数据产品是可解释的。

但一些行业正在发生变化，机器学习是其中的主体。这种向2.0技术堆栈的转变发生在我们放弃编写显式代码来解决复杂问题的时候，在过去的几年里，许多领域都取得了巨大的进步。语音识别曾经涉及大量的预处理、高斯混合模型和隐式马尔可夫模型，但今天它几乎完全被神经网络所取代。早在1985年，信息论和语音识别方面的知名专家弗雷德耶利内克(Fred Jelinek)有一个经常被引用的笑话：“每当我解雇一名语言学家，我们的语音识别系统的性能就会提高。”

图12:图形软件2.0代表应用

除了我们熟悉的图像和语音识别、语音合成、机器翻译和游戏等挑战外，人工智能在许多传统系统中也看到了转型的早期迹象。例如，The Case for Learned Index Structures用神经网络取代了数据管理系统的核心组件，实现了比B-Trees缓存优化快70%的速度，同时节省了一个数量级的内存。

因此，软件2.0范式具有以下新特征：深度学习是主体，所有的功能都是围绕神经网络的输入输出构建的，比如语音识别、自动驾驶；2. 2. 可解释性并不重要。一个好的大数据推荐广告可以告诉客户为什么他们会看到它，但你不能从神经网络中找到规则，至少现在还不能。3.高研发投资vs低研发投资，现在很多成功都来自大学和科技公司的研究部门，论文肯定比应用多。

2.3软件2.0的优势

为什么我们更愿意将复杂的程序移植到Software 2.0?Andrej Karpathy在《Why Software Is Eating the World》有一个简单的答案：他们在实践中工作得更好!

很容易写入芯片

因为神经网络有一个相对较小的指令集：矩阵乘以一个数字并在零处判断阈值，因此更容易在芯片上编写它们。示例包括使用自定义asic，神经形态芯片等(Alan Turing在设计ACE时就考虑到了这一点)。例如，带有预先训练过的卷积网络的小型廉价芯片可以识别语音、合成音频和处理视觉信号。当我们被低能量智力包围时，世界将是一个不同的地方(无论是好是坏)。

非常敏捷

敏捷开发意味着灵活和高效。如果你有一段c++代码，有人想让你把它的速度提高一倍，你就需要系统地调整甚至重写它。但是，在软件2.0中，我们删除了网络中的一半通道，重新训练，然后就可以继续了。它的运行速度正好是原来的两倍，但输出更差。就像魔法一样。相反，如果你有更多的数据或计算能力，你的程序可以通过增加更多的通道和重新训练来更好地工作。

模块可以融合成一个最佳的整体

做过软件开发的人都知道，程序模块通常使用公共函数、api或远程调用进行通信。但是，如果我们让最初单独训练的两个软件2.0模块相互作用，我们可以通过反向传播整个事情来轻松地做到这一点。想象一下，如果您的浏览器可以自动集成和改进底层系统指令，使网页加载更有效，那将是多么令人惊讶。但是在软件2.0中，这是默认行为。

它比你做得好

最后，也是最重要的是，神经网络比你能想到的任何有价值的垂直领域代码都要好，至少对于你现在写的图片、视频、声音和语音相关的任何东西来说是这样。

2.4 Bug 2.0

在传统软件software 1.0中，大多数程序都是通过源代码保存的，这些源代码的长度从数千行到数亿行不等。谷歌的整个代码库据说大约有20亿行代码。无论有多少代码，传统的软件工程实践已经表明，使用打包和模块化设计有助于创建易于隔离bug以进行修改的可维护代码。

但在新的范式中，程序作为神经网络架构的权重存储在内存中，程序员编写的代码非常少。软件2.0带来了两个新问题：不可解释性和数据污染。

由于训练完成的神经网络的权重，工程师无法理解(尽管现在在理解神经网络方面有了很多进展，这将在第6章中讨论)，所以我们无法知道为什么正确的实现是。有什么问题吗？这与大数据算法有很大不同，尽管大多数应用程序只关心结果，没有解释；但对于一些安全敏感领域，如自动驾驶和医疗应用，这确实很重要。

在2.0栈中，数据决定了神经网络的连接，因此不正确的数据集和标签会混淆神经网络。错误的数据可能来自错误、设计或故意混淆的数据(AI领域的一个新的程序伦理问题)。例如，iOS上的自动拼写功能被意外的数据训练污染了，当我们输入某些字符时，我们从来没有得到正确的结果。训练模型会假设受污染的数据是一次重要的修正，一旦训练部署完成，错误就会像病毒一样传播开来，传播到数百万部iphone上。所以在这个2.0版本的Bug中，你需要很好地测试程序的数据和结果，以确保这些边缘情况不会导致程序失败。

在短期内，软件2.0将变得越来越普遍，无法通过清晰的算法和软件逻辑来表达的问题将转移到新的2.0范式中，在这种范式中，现实世界并不适合简洁的打包。正如Minsky所说，软件开发应该更关注目标而不是过程。这种范式有机会颠覆整个开发生态，软件1.0将成为软件2.0的外围系统的服务，以构建面向智能的体系结构。越来越明显的情况是，当我们开发通用人工智能(AGI)时，它将用软件2.0编写。

Intelligence-oriented架构

回顾近十年来深度学习在人工智能领域的迅猛发展，人们的注意力都集中在算法的突破、训练模型的创新和智能应用的神奇表现上。当然，这些是可以理解的，但是智能系统的基础设施很少被提及。就像在计算的早期，人们需要汇编语言、编译器和操作系统方面的专家来开发一个简单的应用程序，所以今天你需要大量的数据和分布式系统来大规模部署AI。安德鲁•迈克菲(Andrew McAfee)和埃里克•布林约尔松(Erik Brynjolfsson)在他们的著作《The Rise of Software 2.0》(《Software 2.0》)中讽刺地指出，“我们的机器智能时代仍然是由人类驱动的”。好消息是，GANs大大降低了完全依赖人类数据的训练成本，谷歌AI继续努力使AI基础设施民主化。但现在还处于早期阶段，我们需要新的智能基础设施来将众包数据转化为众包情报，并从昂贵的科学机构和少数精英组织中开发人工智能的潜力。

应用程序和基础设施同步发展。基础设施1.0-C /S(客户端/服务器时代)

商业互联网在上世纪90 年代末期成熟起来，这要归功于x86 指令集（Intel）、标准化操作系统（Microsoft）、关系数据库（Oracle）、以太网（Cisco）和网络数据存储（EMC）。Amazon，eBay，Yahoo，甚至最早的Google 和Facebook 都建立在这个我们称之为Infrastructure 1.0 的基础上。

Infrastructure 2.0 - Cloud（云时代）

Amazon AWS、Google Cloud 还有Microsoft Azure 定义了一种新的基础设施类型，这种基础设施是无需物理部署可持续运行的、可扩展的、可编程的，它们有些是开源，例如Linux、MySQL、Docker、Kubernetes、Hadoop、 Spark 等等，但大多数都是要钱的，例如边缘计算服务Cloudflare、数据库服务MangoDB、消息服务Twilio、支付服务Stripe，所有这些加在一起定义了云计算时代。推荐阅读我在2021 年9 月的这篇《Machine, Platform, Crowd: Harnessing Our Digital Future》。

归根结底，这一代技术把互联网扩展到数十亿的终端用户，并有效地存储了从用户那里获取的信息。Infrastructure 2.0 的创新催化了数据急剧增长，结合算力和算法飞速进步，为今天的Machine Learning 时代搭建了舞台。

Infrastructure 2.0 关注的问题是- “我们如何连接世界？” 今天的技术重新定义了这个问题- “我们如何理解这个世界？” 这种区别就像连通性与认知性的区别，先认识再了解。2.0 架构中的各种服务，在给这个新的架构源源不断的输送数据，这就像广义上的众包；训练算法从数据中推断出逻辑（神经网络），然后这种逻辑就被用于对世界做出理解和预测。这种收集并处理数据、训练模型最后再部署应用的新架构，就是Infrastructure 3.0 - 面向智能的架构。其实我们的大脑也是这样工作的，我会在第六章中详细介绍。

配图13：Hidden technical debt in Machine Learning Systems

在现实世界的Machine Learning 系统中，只有一小部分是由ML 代码组成的，如中间的小黑盒所示，其周边基础设施巨大而繁杂。一个“智能”的应用程序，数据非常密集，计算成本也非常高。这些特性使得ML 很难适应已经发展了七十多年的通用的冯诺依曼计算范式。为了让Machine Learning 充分发挥其潜力，它必须走出今天的学术殿堂，成为一门工程学科。这实际上意味着需要有新的抽象架构、接口、系统和工具，使开发人员能够方便地开发和部署这些智能应用程序。

01

想要成功构建和部署人工智能，需要一个复杂的流程，这里涉及多个独立的系统。首先，需要对数据进行采集、清理和标记；然后，必须确定预测所依据的特征；最后，开发人员必须训练模型，并对其进行验证和持续优化。从开始到结束，现在这个过程可能需要几个月或者是数年，即使是行业中最领先的公司或者研究机构。

好在除了算法和模型本身之外，组装智能架构中每个环节的效率都在提升，更高的算力和分布式计算框架，更快的网络和更强大的工具。在每一层技术栈，我们都开始看到新的平台和工具出现，它们针对Machine Learning 的范式进行了优化，这里面机会丰富。

配图14：Intelligence Infrastructure from Determined AI

参照智能架构领域的投资专家Amplify Partners 的分类，简单做个技术栈说明。

为Machine Learning 优化的高性能芯片，它们内置多计算核心和高带宽内存（HBM），可以高度并行化，快速执行矩阵乘法和浮点数学神经网络计算，例如Nvidia 的H100 Tensor Core GPU 还有Google 的TPU；能够完全发挥硬件效率的系统软件，可以将计算编译到晶体管级别。Nvidia 在2006 年就推出的CUDA 到现在也都保持着领先地位，CUDA 是一个软件层，可以直接访问GPU 的虚拟指令集，执行内核级别的并行计算；用于训练和推理的分布式计算框架（Distributed Computing Frameworks），可以有效地跨多个节点，扩展模型的训练操作；数据和元数据管理系统，为创建、管理、训练和预测数据而设计，提供了一个可靠、统一和可重复使用的管理通道。极低延迟的服务基础设施，使机器能够快速执行基于实时数据和上下文相关的智能操作；Machine Learning 持续集成平台（MLOps），模型解释器，质保和可视化测试工具，可以大规模的监测，调试，优化模型和应用；封装了整个Machine Learning 工作流的终端平台（End to End ML Platform），抽象出全流程的复杂性，易于使用。几乎所有的拥有大用户数据量的2.0 架构公司，都有自己内部的3.0 架构集成系统，Uber 的Michelangelo 平台就用来训练出行和订餐数据；Google 的TFX 则是面向公众提供的终端ML 平台，还有很多初创公司在这个领域，例如Determined AI。总的来说，Infrastructure 3.0 将释放AI/ML 的潜力，并为人类智能系统的构建添砖加瓦。与前两代架构一样，虽然上一代基础设施的巨头早已入场，但每一次范式转移，都会有有新的项目、平台和公司出现，并挑战目前的在位者。

AI 进化史

Deep Learning 被大科技公司看上的关键时刻是在2010 年。在Palo Alto 的一家日餐晚宴上，斯坦福大学教授Andrew Ng 在那里会见了Google 的CEO Larry Page 和当时担任Google X 负责人的天才计算机科学家Sebastian Thrun。就在两年前，Andrew 写过一篇关于将GPU 应用于DL 模型有效性分析论文。要知道DL 在2008 年是非常不受欢迎的，当时是算法的天下。

几乎在同一时期，Nvidia 的CEO Jensen Huang 也意识到GPU 对于DL 的重要性，他是这样形容的：'Deep Learning 就像大脑，虽然它的有效性是不合理的，但你可以教它做任何事情。这里有一个巨大的障碍，它需要大量的计算，而我们就是做GPU 的，这是一个可用于Deep Learning 的近乎理想的计算工具'。

以上故事的细节来自Forbes 在2016 年的一篇深度报道。自那时起，Nvidia 和Google 就走上了Deep Learning 的智能架构之路，一个从终端的GPU 出发，另一个从云端的TPU 开始。

配图15：Nvidia AI vs Google AI 的对比

Nvidia 今天赚的大部分钱的来自游戏行业，通过销售GPU，卖加速芯片的事情AMD 和很多创业公司都在做，但Nvidia 在软件堆栈上的能力这些硬件公司无人能及，因为它有从内核到算法全面控制的CUDA，还能让数千个芯片协同工作。这种整体控制力，让Nvidia 可以发展云端算力服务，自动驾驶硬件以及嵌入式智能机器人硬件，以及更加上层的AI 智能应用和Omniverse 数字模拟世界。

Google 拥抱AI 的方式非常学术，他们最早成立了Google Brain 尝试大规模神经网络训练，点爆了这个领域的科技树，像GANs 这样充满灵感的想法也是来自于Google （Ian Goodfellow 同学当时任职于Google Brain）。在2015 年前后Google 先后推出了TensorFlow 还有TPU（Tensor Processing Unit - 张量芯片），同年还收购了DeepMind 来扩张研究实力。Google AI 更倾向于用云端的方式给大众提供AI/ML 的算力和全流程工具，然后通过投资和收购的方式把智能融入到自己的产品线。

现在几乎所有的科技巨头，都在完善自己的“智能”基础设施，Microsoft 在2019 年投资了10 亿美金给OpenAI 成为了他们最大的机构股东；Facebook 也成立了AI 研究团队，这个仅次于他们Reality Lab 的地位，Metaverse 里所需的一切和“智能”相关的领域他们都参与，今年底还和AMD 达成合作，投入200 亿美元并用他们的芯片来搭建新的“智能”数据中心；然后就是Tesla，在造电车之外不务正业搭建了世界上规模最大的超级电脑Dojo，它将被用来训练FSD 的神经网络和为未来的Optimus（Tesla 人形机器人）的大脑做准备。

正如过去二十年见证了“云计算技术栈”的出现一样，在接下来的几年里，我们也期待着一个巨大的基础设施和工具生态系统将围绕着智能架构- Infrastructure 3.0 建立起来。Google 目前正处于这个领域的前沿，他们试图自己的大部分代码用软件2.0 的范式重写，并在新的智能架构里运行，因为一个有可能一统江湖的“模型”的已经出现，虽然还非常早期，但机器智能对世界的理解很快将趋向一致，就像我们的大脑皮质层理解世界那样。

一统江湖的模型

想象一下，你去五金店，看到架子上有一种新款的锤子。你或许已经听说过这种锤子了，它比其他的锤子更快、更准；而且在过去的几年里，许多其他的锤子在它面前都显得过时了。你只需要加一个配件再扭一下，它就变成了一个锯子，而且和其它的锯子一样快、一样准。事实上，这个工具领域的前沿专家说，这个锤子可能预示着所有的工具都将集中到单一的设备中。

类似的故事也在AI 的工具中上演，这种多用途的新型锤子是一种神经网络，我们称之为Transformer（转换器模型- 不是动画片里的变形金刚），它最初被设计用来处理自然语言，但最近已经开始影响AI 行业的其它领域了。

1.2 Machine Learning 的跃迁

2017 年Google Brain 和多伦多大学的研究人员一同发表了一篇名为《软件行业的云端重构》的论文，里面提到了一个自然语言处理（NLP）的模型Transformer，这应该是继GANs 之后Deep Learning 领域最重大的发明。2018 年Google 在Transformer 的基础上实现并开源了第一款自然语言处理模型BERT；虽然研究成果来自Google，但很快被OpenAI 采用，创建了GPT-1 和最近的火爆的GPT-3。其他公司还有开源项目团队紧随其后，实现了自己的Transformer 模型，例如Cohere，AI21，Eleuther（致力于让AI 保持开源的项目）；也有用在其它领域的创新，例如生成图像的Dall-E 2、MidJourney、Stable Diffusion、Disco Diffusion, Imagen 和其它许多。

配图16：发表《Attention Is All You Need》论文的八位同学

发表这篇论文的8 个人中，有6 个人已经创办了公司，其中4 个与人工智能相关，另一个创办了名为Near.ai 的区块链项目。自然语言处理这个课题在上世纪五十年代开创AI 学科的时候就明确下来了，但只到有了Deep Learning 之后，它的准确度和表达合理性才大幅提高。序列传导模型（Seq2Seq）是用于NLP 领域的一种DL 模型，在机器翻译、文本摘要和图像字幕等方面取得了很大的成功，2016 年之后Google 在搜索提示、机器翻译等项目上都有使用。序列传导模型是在输入端一个接一个的接收并编码项目（可以是单词、字母、图像特征或任何计算机可以读取的数据)，并在同步在输出端一个接一个解码输出项目的模型。在机器翻译的案例中，输入序列就是一系列单词，经过训练好的神经网络中复杂的矩阵数学计算，在输出端的结果就是一系列翻译好的目标词汇。

视频17：Visualizing A Neural Machine Translation Model

Transformer 也是一款用于NLP 的序列传导模型，论文简洁清晰的阐述了这个新的网络结构，它只基于注意力机制（Attention），完全不需要递归（RNN）和卷积（CNN）。在两个机器翻译的实验表明，这个模型在质量上更胜一筹，同时也更容易并行化，需要的训练时间也大大减少。

好奇心强的同学，如果想了解Transformer 模型的具体工作原理，推荐阅读Giuliano Giacaglia 的这篇《Attention Is All You Need》。4.2 Foundation Models斯坦福大学CRFM HAI 的研究人员在2021 年8 月的一篇名为《How Transformers Work》的论文中将Transformer 称为Foundation Models（基础模型），他们认为这个模型已经推动了AI 领域新一轮的范式转移。事实上，过去两年在arVix 上发表的关于AI 的论文中，70% 都提到了Transformer，这与2017 年IEEE 的一项研究相比是一个根本性的转变，那份研究的结论是RNN 和CNN 是当时最流行的模型。从NLP 到Generative AI来自Google Brain 的计算机科学家Maithra Raghu 分析了视觉转换器（Vision Transformer），以确定它是如何“看到”图像的。与CNN 不同，Transformer 可以从一开始就捕捉到整个图像，而CNN 首先关注小的部分来寻找像边缘或颜色这样的细节。这种差异在语言领域更容易理解，Transformer 诞生于NLP 领域。例如这句话：“猫头鹰发现了一只松鼠。它试图抓住它，但只抓到了尾巴的末端。” 第二个句子的结构令人困惑： “它”指的是什么？如果是CNN 就只会关注“它”周围的词，那会十分不解；但是如果把每个词和其他词连接起来，就会发现是”猫头鹰抓住了松鼠，松鼠失去了部分尾巴”。这种关联性就是“Attention”机制，人类就是用这种模式理解世界的。Transformer 将数据从一维字符串（如句子）转换为二维数组（如图像）的多功能性表明，这种模型可以处理许多其他类型的数据。就在10 年前，AI 领域的不同分支几乎没有什么可以交流的，计算机科学家Atlas Wang 这样表述， “我认为Transformer 之所以如此受欢迎，是因为它暗示了一种变得通用的潜力，可能是朝着实现某种神经网络结构大融合方向的重要一步，这是一种通用的计算机视觉方法，或许也适用于其它的机器智能任务”。更多基于Transformer 模型的Generative AI 案例，推荐好友Rokey 的这篇《On the Opportunities and Risks of Foundation Models》，这应该是中文互联网上写得最详细清晰的一篇。涌现和同质化Foundation Models 的意义可以用两个词来概括：涌现和同质化。涌现是未知和不可预测的，它是创新和科学发现的源头。同质化表示在广泛的应用中，构建Machine Learning 的方法论得到了整合；它让你可以用统一的方法完成不同的工作，但也创造了单点故障。我们在Bug 2.0 那一小节中提到的数据污染会被快速放大，现在还会波及到所有领域。

配图18：人工智能的涌现过程（来自斯坦福研究人员2021 年8 月的论文）

AI 的进化史一个不断涌现和同质化的过程。随着ML 的引入，可以从实例中学习（算法概率推论）；随着DL 的引入，用于预测的高级特征出现；随着基础模型（Foundation Models）的出现，甚至出现了更高级的功能，在语境中学习。同时，ML 将算法同质化（例如RNN），DL 将模型架构同质化（例如CNN），而基础模型将模型本身同质化（如GPT-3）。

一个基础模型如果可以集中来自各种模式的数据。那么这个模型就可以广泛的适应各种任务。

配图19：Foundation Model 的转换（来自斯坦福研究人员2021 年8 月的论文）除了在翻译、文本创作、图像生成、语音合成、视频生成这些耳熟能详的领域大放异彩之外，基础模型也被用在了专业领域。 DeepMind 的AlphaFold 2 在2020 年12 月成功的把蛋白质结构预测的准确度提升到了90% 多，大幅超过所有的竞争对手。他们在《AI 时代的巫师与咒语》杂志上发表的文章中提到，像处理文本字符串这样读取氨基酸链，用这个数据转换成可能的蛋白质折叠结构，这项工作可以加速药物的发现。类似的应用也在药物公司发生，阿斯利康（AstraZeneca）和NVIDIA 联合开发了MegaMolBART，可以在未标记的化合物数据库上进行培训练，大幅提升效率。

大规模语言模型

这种通用化的特征，让大规模神经网络的训练变得非常有意义。自然语言又是所有可训练数据中最丰富的，它能够让基础模型在语境中学习，转换成各种需要的媒体内容，自然语言=编程方式=通用界面。

视频20：生成式AI - DALLE 2 Explained

因此，大规模语言模型（LLMs - Large Scale Language Models）成了科技巨头和新创业公司必争之地。在这个军备竞赛之中，财大气粗就是优势，它们可以花费数亿美元采购GPU 来培训LLMs，例如OpenAI 的GPT-3 有1750 亿个参数，DeepMind 的Gopher 有2800 亿个参数，Google 自己的GLaM 和LaMDA 分别有1.2 万亿个参数和1370 亿个参数，Microsoft 与Nvidia 合作的Megatron-Turing NLG 有5300 亿个参数。

但AI 有个特征它是涌现的，大多数情况挑战是科学问题，而不是工程问题。在Machine Learning 中，从算法和体系结构的角度来看，还有很大的进步空间。虽然，增量的工程迭代和效率提高似乎有很大的空间，但越来越多的LLMs 创业公司正在筹集规模较小的融资（1000 万至5000 万美元) ，它们的假设是，未来可能会有更好的模型架构，而非纯粹的可扩展性。

4.3 AI 江湖的新机会

随着模型规模和自然语言理解能力的进一步增强（扩大训练规模和参数就行），我们可以预期非常多的专业创作和企业应用会得到改变甚至是颠覆。企业的大部分业务实际上是在“销售语言”—— 营销文案、邮件沟通、客户服务，包括更专业的法律顾问，这些都是语言的表达，而且这些表达可以二维化成声音、图像、视频，也能三维化成更真实的模型用于元宇宙之中。机器能理解文档或者直接生成文档，将是自2010 年前后的移动互联网革命和云计算以来，最具颠覆性的转变之一。参考移动时代的格局，我们最终也会有三种类型的公司：

1、平台和基础设施

移动平台的终点是iPhone 和Android，这之后都没有任何机会了。但在基础模型领域OpenAI、Google、Cohere、AI21、Stability.ai 还有那些构建LLMs 的公司的竞争才刚刚开始。这里还有许多许新兴的开源选项例如Eleuther。云计算时代，代码共享社区Github 几乎托管了软件1.0 的半壁江山，所以像Hugging Face 这种共享神经网络模型的社群，应该也会成为软件2.0 时代智慧的枢纽和人才中心。

2、平台上的独立应用

因为有了移动设备的定位、感知、

相机等硬件特性，才有了像 Instagram，Uber，Doordash 这种离开手机就不会存在的服务。现在基于 LLMs 服务或者训练 Transformer 模型，也会诞生一批新的应用，例如 Jasper（创意文案）、Synthesia（合成语音与视频），它们会涉及 Creator & Visual Tools、Sales & Marketing、Customer Support、Doctor & Lawyers、Assistants、Code、Testing、Security 等等各种行业，如果没有先进的 Machine Learning 突破，这些就不可能存在。

红衫资本美国（SequoiaCap）最近一篇很火的文章《Generative AI: A Creative New World》详细分析了这个市场和应用，就像在开篇介绍的那样，整个投资界在 Web 3 的投机挫败之后，又开始围猎 AI 了。

配图21：在模型之上的应用分类（Gen AI market map V2）

3、现有产品智能化

在移动互联网的革命中，大部分有价值的移动业务依旧被上个时代的巨头所占据。例如，当许多初创公司试图建立“Mobile CRM”应用时，赢家是增加了移动支持的 CRM 公司，Salesforce 没有被移动应用取代。同样，Gmail、Microsoft Office 也没有被移动应用取代，他们的移动版做得还不错。最终，Machine Learning 将被内置到用户量最大的 CRM 工具中，Salesforce 不会被一个全新由 ML 驱动的 CRM 取代，就像 Google Workspace 正在全面整合它们的 AI 成果一样。

我们正处于智能革命的初期，很难预测将要发生的一切。例如 Uber 这样的应用，你按下手机上的按钮，就会有一个陌生人开车来接你，现在看来稀疏平常，但智能手机刚出现的时候你绝对想不到这样的应用和交互界面。那些人工智能的原生应用也将如此，所以请打开脑洞，最有趣的应用形态还在等你去发掘。

我们已经感受了基础模型的强大，但这种方法真能产生的智力和意识么？今天的人工智能看起来非常像工具，而不像智能代理。例如，像 GPT-3 在训练过程中不断学习，但是一旦模型训练完毕，它的参数的各种权重就设置好了，不会随着模型的使用而发生新的学习。想象一下，如果你的大脑被冻结在一个瞬间，可以处理信息，但永远不会学到任何新的东西，这样的智能是你想要的么？Transformer 模型现在就是这样工作的，如果他们变得有知觉，可以动态的学习，就像大脑的神经元无时不刻不在产生新的连接那样，那它们更高级的形态可能代表一种新的智能。我们会在第六章聊一下这个话题，在这之前，先来看看 AI 如何在现实世界中生存的。

05 现实世界的 AI

过去对无人操作电梯的担忧与我们今天听到的对无人驾驶汽车的担忧十分相似。

Garry Kasparov

现实世界的 AI（Real World AI），按照 Elon Musk 的定义就是 “模仿人类来感知和理解周围的世界的 AI”，它们是可以与人类世界共处的智能机器。我们在本文前面四章中提到的用 AI 来解决的问题，大多数都是你输入数据或者提出目标，然后 AI 反馈给你结果或者完成目标，很少涉及和真实世界的环境互动。在真实世界中，收集大量数据是极其困难的，除非像 Tesla 一样拥有几百万辆带着摄像头还实时联网的电车来帮你采集数据；其次感知、计划再到行动，应该会涉及到多种神经网络和智能算法的组合，就像大脑控制人的行为那样，这同样也是对研发和工程学的极端挑战。但在 Transformer 模型诞生之后，能够征服现实世界的 AI 又有了新的进展。

5.1 自动驾驶新前沿

就在前几周 Ford 旗下的 Argo AI 宣布倒闭，一时间又给备受争议的自动驾驶领域蒙上了阴影。目前还没有一家做自动驾驶方案的公司真正盈利，除了传奇的 George Hotz 所创办的 Comma.ai，这个当年 Elon Musk 都没撬动的软件工程师和高级黑客。

技术路线的选择

一辆可以自动驾驶汽车，实际上就是一台是需要同时解决硬件和软件问题的机器人。它需要用摄像头、雷达或其他硬件设备来感知周围环境，软件则是在了解环境和物理位置的情况下规划路线，最终让车辆驶达目的地。

目前的自动驾驶主要两大流派：纯视觉的系统和基于激光雷达的系统。Google 的 Waymo 是激光雷达方案的先驱，还有刚破产的 Argo AI 也是，其实大部分都是这个流派，因为优势很明显，激光雷达可以精准的识别三维世界，不需要太复杂的神经网络训练就能轻松上路，但大功率激光雷达的成本是个大问题；采用纯视觉方案的只有 Tesla 和 Comma 这样的另类公司，它们完全靠摄像头和软件，无需任何辅助感知硬件。

激光雷达还有另一个问题，它眼中的世界没有色彩也没有纹理，必须配合摄像头才能描绘真实世界的样子。但两种数据混合起来会让算法极其复杂，因此 Tesla 完全放弃了激光雷达，甚至是超声波雷达，节省成本是很重要的一个原因，另一个原因是现实世界都道路都是为人类驾驶设计的，人只靠视觉就能完成这个任务为什么人工智能不行？这个理由很具 Elon Musk 的风格，只需要加大在神经网络上的研发投入就可以。

Waymo 和 Tesla 是自动驾驶领域的领跑者，Gartner 的副总裁 Mike Ramsey 这样评价：“如果目标是为大众提供自动驾驶辅助，那么 Tesla 已经很接近了；如果目标让车辆能够安全的自动行驶，那么 Waymo 正在取得胜利”。Waymo 是 Level 4，可以在有限的地理条件下自动驾驶，不需要司机监督，但驱动它的技术还没有准备好让其在测试领域之外的大众市场上使用，而且造价昂贵。从 2015 年开始，Tesla 花了六年多的时间赶上了 Waymo 现在的测试数据，同时用于自动驾驶的硬件越来越少，成本越来越低。Tesla 的战略很有意思：“自动驾驶要适应任何道路，让车像人一样思考”，如果成功的话，它的可扩展性会大得多。

让车看见和思考

Tesla 在 AI 上的押注是从 2017 年 Andrej Karpathy 的加入开始的，一个灵魂人物确实能改变一个行业。Andrej 领导的 AI 团队完全重构了原有的自动驾驶技术，采用最新的神经网络模型 Transformer 训练了完全基于视觉的自动导航系统 FSD Beta 10，在 2021 年的 AI Day 上，Tesla AI 团队也毫无保留了分享了这些最新的研发成果，目的是为了招募更多人才加入。

为了让车可以像人一样思考，Tesla 模拟了人类大脑处理视觉信息的方式，这是一套的由多种神经网络和逻辑算法组合而成的复杂流程。

配图22：The Architecture of Tesla AutoPilot

FSD 的自动驾驶步骤大概如下：

视觉影像收集：通过车载的 6 个 1280x960 解析度的摄像头，采集 12bit 色深的视频，识别出环境中的各种物体和 Triggers（道路情况）向量空间生成：人类看到的世界是大脑根据感知数据实时构建还原的三维世界，Tesla 用同样的机制把车周围世界的全部信息都投射到四维向量空间中，再做成动态的 BEV 鸟瞰图，让车在立体的空间中行使和预测，从而可以精准控制。在 2021 年之前采用的是基于 Transformer 模型的 HydraNets，现在已经升级到最新的 Occupancy Networks，它可以更加精准的识别物体在 3D 空间中的占用情况神经网络路线规划：采用蒙特卡洛算法（mcts）在神经网络的引导下计算，快速完成自己路径的搜索规划，而且算法还能给所有移动的目标都做计划，并且可以及时改变计划。看别人的反应作出自己的决策，这不就是人类思维么？

Tesla FSD 能够如此快速的感知和决策，还得靠背后超级电脑 Tesla Dojo 的神经网络训练，这和 OpenAI 还有 Google 训练 LLMs 类似，只不过这些数据不来自互联网，而是跑在路上的每一辆 Tesla 汽车，通过 Shadow Mode 为 Dojo 提供真实的 3D 空间训练数据。

配图23：Occupancy Networks ♥️ NeRFs

大自然选择了眼睛来作为最重要的信息获取器官，也许是冥冥之中的进化必然。一个有理论认为 5.3 亿年前的寒武纪物种大爆发的部分原因是因为能看见世界了，它让新的物种可以在快速变化的环境中移动和导航、规划行动了先和环境做出互动，生存概率大幅提高。同理，让机器能看见，会不会一样让这个新物种大爆发呢？5.2 不是机器人，是智能代理并不是所有的机器人都具备感知现实世界的智能。对于一个在仓库搬运货物的机器人来说，它们不需要大量的 Deep Learning，因为环境是已知的和可预测的，大部分在特定环境中使用的自动驾驶汽车也是一样的道理。就像让人惊叹的 Boston Dynamic 公司机器人的舞蹈，他们有世界上最好的机器人控制技术，但要做那些安排好的动作，用程序把规则写好就行。很多看官都会觉得 Tesla 在今年九月发布的机器人 Tesla Optimus 那慢悠悠的动作和 Boston Dynamic 的没法比，但拥有一个优秀的机器大脑和可以量产的设计更重要。

视频24：Tesla AI Day 2022 Optimus 的发布自动驾驶和真实世界互动的核心是安全，不要发生碰撞；但 AI 驱动的机器人的核心是和真实世界发生互动，理解语音，抓握避让物体，完成人类下达的指令。驱动 Tesla 汽车的 FSD 技术同样会用来驱动 Tesla Optimus 机器人，他们有相同的心脏（FSD Computer）和相同的大脑（Tesla Dojo）。但训练机器人比训练自动驾驶还要困难，毕竟没有几百万个已经投入使用的 Optimus 帮你从现实世界采集数据，这时 Metaverse 概念中的虚拟世界就能展露拳脚了。虚拟世界中的模拟真实为机器人感知世界建立新的基础模型将需要跨越不同环境大量数据集，那些虚拟环境、机器人交互、人类的视频、以及自然语言都可以成为这些模型的有用数据源，学界对使用这些数据在虚拟环境中训练的智能代理有个专门的分类 EAI（Embodied artificial intelligence）。在这一点上，李飞飞再次走在了前列，她的团队发布了一个标准化的模拟数据集 BEHAVIOR，包含 100 个类人常见动作，例如捡玩具、擦桌子、清洁地板等等，EAI 们可以在任何虚拟世界中进行测试，希望这个项目能像 ImageNet 那样对人工智能的训练数据领域有杰出的学术贡献。

视频25：100 Household Activities in Realistically Simulated Homes

在虚拟世界中做模拟，Meta 和 Nvidia 自然不能缺席。佐治亚理工学院的计算机科学家 Dhruv Batra 也是 Meta AI 团队的主管，他们创造了一个名叫 AI 栖息地（AI Habitat）虚拟世界，目标是希望提高模拟速度。在这里智能代理只需挂机 20 分钟，就可以学成 20 年的模拟经验，这真是元宇宙一分钟，人间一年呀。Nvidia 除了给机器人提供计算模块之外，由 Omniverse 平台提供支持的 NVIDIA Isaac Sim 是一款可扩展的机器人模拟器与合成数据生成工具，它能提供逼真的虚拟环境和物理引擎，用于开发、测试和管理智能代理。

机器人本质上是具体化的智能代理，许多研究人员发现在虚拟世界中训练成本低廉、受益良多。随着参与到这个领域的公司越来越多，那么数据和训练的需求也会越来越大，势必会有新的适合 EAI 的基础模型诞生，这里面潜力巨大。

Amazon Prime 最新的科幻剧集《The Peripheral》，改编自 William Gibson 在 2014 年的出版的同名小说，女主角就可以通过脑机接口进入到未来的智能代理。以前一直觉得 Metaverse 是人类用来逃避现实世界的，但对于机器人来说，在 Metaverse 中修行才是用来征服现实世界的。

ARK Invest 在他们的 Big Ideas 2022 报告中提到，根据莱特定律，AI 相对计算单元（RCU - AI Relative Compute Unit）的生产成本可以每年下降 39%，软件的改进则可以在未来八年内贡献额外 37% 的成本下降。换句话说，到 2030 年，硬件和软件的融合可以让人工智能训练的成本以每年 60% 的速度下降。

配图26：AI 在 2030 年的市场规模 87 万亿美元

AI 硬件和软件公司的市值可以以大约 50% 的年化速度扩大，从 2021 年的 2.5 万亿美元剧增到 2030 年的 87 万亿美元。

通过将知识工作者的任务自动化，AI 应能提高生产力并大幅降低单位劳动成本，从生成式 AI 的应用的大爆发就可以看出端倪；但用来大幅降低体力劳动的成本，现实世界的 AI 还有更长的路要走。我们原以为着 AI 会让体力劳动者失业，却不知道它们确有潜力让脑力劳动者先下岗了。

06 AI 进化的未来

科幻小说家 Arthur Clarke 这样说过："任何先进的技术都与魔法无异"！如果回到 19 世纪，想象汽车在高速路上以 100 多公里的时速行驶，或者用手机与地球另一端的人视频通话，那都不可想象的。自 1956 年 Dartmouth Workshop 开创了人工智能领域以来，让 AI 比人类更好地完成智力任务，我们向先辈们的梦想前进了一大步。虽然，有些人认为这可能永远不会发生，或者是在非常遥远的未来，但新的模型会让我们更加接近大脑工作的真相。对大脑的全面了解，才是 AI 通用化（AGI）的未来。

6.1 透视神经网络

科学家们发现，当用不同的神经网络训练同一个数据集时，这些网络中存在相同的神经元。由此他们提出了一个假设：在不同的网络中存在着普遍性的特征。也就是说，如果不同架构的神经网训练同一数据集，那么有一些神经元很可能出现在所有不同的架构中。

这并不是唯一惊喜。他们还发现，同样的特征检测器也存在与不同的神经网络中。例如，在 AlexNet、InceptionV1、VGG19 和 Resnet V2-50 这些神经网络中发现了曲线检测器（Curve Detectors）。。不仅如此，他们还发现了更复杂的 Gabor Filter，这通常存在于生物神经元中。它们类似于神经学定义的经典"复杂细胞"，难道我们的大脑的神经元也存在于人工神经网络中？

配图27：OpenAI Microscope Modules

OpenAI 的研究团队表示，这些神经网络是可以被理解的。通过他们的 Microscope 项目，你可以可视化神经网络的内部，一些代表抽象的概念，如边缘或曲线，而另一些则代表狗眼或鼻子等特征。不同神经元之间的连接，还代表了有意义的算法，例如简单的逻辑电路（AND、OR、XOR），这些都超过了高级的视觉特征。

大脑中的 Transformer

来自 University College London 的两位神经科学家 Tim Behrens 和 James Whittington 帮助证明了我们大脑中的一些结构在数学上的功能与 Transformer 模型的机制类似，具体可以看这篇《How Transformers Seem to Mimic Parts of the Brain》，研究显示了 Transformer 模型精确地复制在他们大脑海马体中观察到的那些工作模式。

去年，麻省理工学院的计算神经科学家 Martin Schrimpf 分析了 43 种不同的神经网络模型，和大脑神经元活动的磁共振成像（fMRI）还有皮层脑电图（EEG）的观测做对比。他发现 Transformer 是目前最先进的神经网络，可以预测成像中发现的几乎所有的变化。计算机科学家 Yujin Tang 最近也设计了一个 Transformer 模型，并有意识的向其随机、无序的地发送大量数据，模仿人体如何将感官数据传输到大脑。他们的 Transformer 模型，就像我们的大脑一样，能够成功地处理无序的信息流。

尽管研究在突飞猛进，但 Transformer 这种通用化的模型只是朝着大脑工作的精准模型迈出的一小步，这是起点而不是探索的终点。Schrimpf 也指出，即使是性能最好的 Transformer 模型也是有限的，它们在单词和短语的组织表达上可以很好地工作，但对于像讲故事这样的大规模语言任务就不行了。这是一个很好的方向，但这个领域非常复杂！

6.2 千脑理论

Jeff Hawkins 是 Palm Computing 和 Handspring 的创始人，也是 PalmPilot 和 Treo 的发明人之一。创办企业之后，他转向了神经科学的工作，创立了红木理论神经科学中心（Redwood Center），从此专注人类大脑工作原理的研究。《A Thousand Brains》这本书详细的解释了他最重要的研究成，湛庐文化在今年九月推出了中文版《千脑智能》。

大脑新皮层（Neocortex）是智力的器官。几乎所有我们认为是智力的行为，如视觉、语言、音乐、数学、科学和工程，都是由新皮层创造的。Hawkins 对它工作机理采取了一种新的解释框架，称为 "Thousand Brains Theory"，即你的大脑被组织成成千上万个独立的计算单元，称为皮质柱（Cortical Columns）。这些柱子都以同样的方式处理来自外部世界的信息，并且每个柱子都建立了一个完整的世界模型。但由于每根柱子与身体的其他部分有不同的联系，所以每根柱子都有一个独特的参考框架。你的大脑通过进行投票来整理出所有这些模型。因此，大脑的基本工作不是建立一个单一的思想，而是管理它每时每刻都有的成千上万个单独的思想。

我们可以把运行 Transformer 训练的神经网络的电脑想象成一个及其简陋的人工皮质柱，给它灌输各种数据，它输出预测数据（参考第四、五两章的讲解来理解）。但大脑新皮层有 20 多万个这样的小电脑在分布式计算，他们连接着各种感知器官输入的数据，最关键的是大脑无需预训练，神经元自己生长就完成了学习，相当于把人造的用于训练的超级电脑和预测数据的电脑整合了。在科学家没有给大脑完成逆向工程之前，AGI 的进展还举步维艰。

视频28：How the Brain Works: The Thousand Brains Theory of Intelligence

千脑理论本质上是一种感觉-运动理论（Sensory-Motor Theory），它解释了我们如何通过看到、移动和感知三维空间来学习、识别物体。在该理论中，每个皮质柱都有完整物体的模型，因此知道在物体的每个位置应该感应到什么。如果一个柱子知道其输入的当前位置以及眼睛是如何移动的，那么它就可以预测新的位置以及它在那里将感应到什么。这就像看一张城镇地图，预测如果你开始朝某个方向走，你会看到什么一样。有没有觉得这个过程和 Tesla 的纯视觉自动驾驶的实现方法很像？感知、建模、预测和行动。

要像大脑一样学习

自我监督：新皮层的计算单位是皮质柱，每个柱子都是一个完整的感觉-运动系统，它获得输入，并能产生行为。比如说，一个物体移动时的未来位置，或者一句话中的下一个词，柱子都会预测它的下一次输入会是什么。预测是皮质柱测试和更新其模型的方法。如果结果和预测不同，这个错误的答案就会让大脑完成一次修正，这种方式就是自我监督。现在最前沿的神经网络正 BERT、RoBERTa、XLM-R 正在通过预先训练的系统来实现“自我监督”。

持续学习：大脑通过神经元组织来完成持续学习。当一个神经元学一个新的模式时，它在一个树突分支上形成新的突触。新的突触并不影响其他分支上先前学到的突触。因此，学新的东西不会迫使神经元忘记或修改它先前学到的东西。今天，大多数 Al 系统的人工神经元并没有这种能力，他们经历了一个漫长的训练，当完成后他们就被部署了。这就是它们不灵活的原因之一，灵活性要求不断调整以适应不断变化的条件和新知识。

多模型机制的：新皮层由数以万计的皮质柱组成，每根柱子都会学物体的模型，使多模型设计发挥作用的关键是投票。每一列都在一定程度上独立运作，但新皮层中的长距离连接允许各列对其感知的对象进行投票。智能机器的 "大脑 "也应该由许多几乎相同的元素（模型）组成，然后可以连接到各种可移动的传感器。

有自己的参考框架：大脑中的知识被储存在参考框架中。参考框架也被用来进行预测、制定计划和进行运动，当大脑每次激活参考框架中的一个位置并检索相关的知识时，就会发生思考。机器需要学会一个世界的模型，当我们与它们互动时，它们如何变化，以及彼此之间的相对位置，都需要参考框架来表示这类信息。它们是知识的骨干。

为什么需要通用人工智能（AGI）

AI 将从我们今天看到的专用方案过渡到更多的通用方案，这些将在未来占据主导地位，Hawkins 认为主要有两个原因：

第一个就和通用电脑战胜专用电脑的原因一样。通用电脑有更好的成效比，这导致了技术的更快进步。随着越来越多的人使用相同的设计，更多的努力被用于加强最受欢迎的设计和支持它们的生态系统，导致成本降低和性能的提升。这是算力指数式增长的基本驱动力，它塑造了二十世纪后半叶的工业和社会。

Al 将通用化的第二个原因是，机器智能的一些最重要的未来应用将需要通用方案的灵活性，例如 Elon Musk 就希望可以有通用智能的机器人来帮忙探索火星。这些应用将需要处理很多无法预料的问题，并设计出新颖的解决方案，而今天的专用的 Deep Learning 模型还无法做到这一点。

6.3 人工智能何时通用？

通用人工智能（AGI）这是 AI 领域的终极目标，应该也是人类发明了机器计算之后的终极进化方向。回顾机器之心六十多年的进化，我们似乎找到了方法，就是模仿人类的大脑。Machine Learning 要完成这块拼图，需要有数据、算力还有模型的改进。

数据应该是拼图中最容易实现的。按秒来计算，ImageNet 数据集的大小已经接近人从出生到大学毕业视觉信号的数据量；Google 公司创建的新模型 HN Detection，用来理解房屋和建筑物外墙上的街道号码的数据集大小，已经可以和人一生所获取的数据量所媲美。要像人类一样，使用更少的数据和更高的抽象来学习，才是神经网络的发展方向。

算力可以分解为两个部分：神经网络的参数（神经元的数量和连接）规模以及单位计算的成本。下图可以看到，人工神经网络与人脑的大小仍有数量级的差距，但它们在某些哺乳动物面前，已经具备竞争力了。

配图29：神经网络规模和动物与人类神经元规模的对比

我们每花一美元所能得到的计算能力一直在呈指数级增长。现在大规模基础模型所用到的计算量每 3.5 个月就会翻一番。

配图30：122 years of Moore’s Law: 每一美元产生的算力有些人认为，由于物理学的限制，计算能力不能保持这种上升趋势。然而，过去的趋势并不支持这一理论。随着时间的推移，该领域的资金和资源也在增加，越来越多人才进入该领域，因为涌现的效应，会开发更好的软件（算法模型等）和硬件。而且，物理学的限制同样约束人脑的能力极限，所以 AGI 可以实现。当 AI 变得比人类更聪明、我们称这一刻为奇点。一些人预测，奇点最快将于 2045 年到来。Nick Bostrom 和 Vincent C. Müller 在 2017 年的一系列会议上对数百名 AI 专家进行了调查，奇点（或人类水平的机器智能）会在哪一年发生，得到的答复如下：

乐观预测的年份中位数 (可能性 10%) - 2022现实预测的年份中位数 (可能性 50%) - 2040悲观预测的年份中位数 (可能性 90%) - 2075

因此，在 AI 专家眼里很有可能在未来的 20 年内，机器就会像人类一样聪明。这意味着对于每一项任务，机器都将比人类做得更好；当计算机超过人类时，一些人认为，他们就可以继续变得更好。换句话说，如果我们让机器和我们一样聪明，没有理由不相信它们能让自己变得更聪明，在一个不断改进的机器之心进化的螺旋中，会导致超级智能的出现。从工具进化到数字生命按照上面的专家预测，机器应该具有自我意识和超级智能。到那时，我们对机器意识的概念将有一些重大的转变，我们将面对真正的数字生命形式（DILIs - Digital Lifeforms）。一旦你有了可以快速进化和自我意识的 DILIs，围绕物种竞争会出现了一些有趣的问题。DILIs 和人类之间的合作和竞争的基础是什么？如果你让一个有自我意识的 DILIs 能模拟疼痛，你是在折磨一个有感知的生命吗？这些 DILIs 将能够在服务器上进行自我复制和编辑（应该假设在某个时候，世界上的大多数代码将由可以自我复制的机器来编写），这可能会加速它们的进化。想象一下，如果你可以同时创建100,000,000 个你自己的克隆体，修改你自己的不同方面，创建你自己的功能函数和选择标准，DILIs 应该能够做到这一切（假设有足够的算力和能量资源）。关于 DILIs 这个有趣的话题在《Life 3.0》和《Superintelligence: Paths, Dangers, Strategies》这两本书中有详细的讨论。这些问题可能比我们的预期来得更快。Elad Gil 在他的最新文章《AI Revolution》提到 OpenAI、Google 和各种创业公司的核心 AI 研究人员都认为，真正的 AGI 还需要 5 到 20 年的时间才能实现，这也有可能会像自动驾驶一样永远都在五年后实现。不管怎样，人类最终面临的潜在生存威胁之一，就是与我们的数字后代竞争。历史学家 Thomas Kuhn 在其著名的《The Structure of Scientific Revolutions》一书中认为，大多数科学进步是基于广泛接受的理论框架，他称之为科学范式。偶尔，一个既定的范式被推翻，被一个新的范式所取代 - Kuhn 称之为科学革命。我们正处在 AI 的智能革命之中！

参考

Letter from Alan Turing to W Ross Ashby - Alan Mathison TuringSoftware 2.0 - Andrej KarpathyThe Rise of Software 2.0 - Ahmad MustaphaInfrastructure 3.0: Building blocks for the AI revolution - Lenny Pruss, Amplify PartnersWill Transformers Take Over Artificial Intelligence? - Stephen OrnesAI Revolution - Transformers and Large Language Models (LLMs) - Elad GilWhat Is a Transformer Model? - RICK MERRITTAI 时代的巫师与咒语 - Rokey ZhangGenerative AI: A Creative New World - SONYA HUANG, PAT GRADY AND GPT-3What Real-World AI From Tesla Could Mean - CleanTechNicaA Look at Tesla's Occupancy Networks - Think AutonomousBy Exploring Virtual Worlds, AI Learns in New Ways - Allison WhittenSelf-Taught AI Shows Similarities to How the Brain Works - Anil AnanthaswamyHow Transformers Seem to Mimic Parts of the Brain - Stephen OrnesAttention Is All You Need - PAPER by Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia PolosukhinOn the Opportunities and Risks of Foundation Models - PAPER by CRFM & HAI of Stanford UniversityMaking Things Think - BOOK by Giuliano GiacagliaA Thousand Brains（中文版：千脑智能）- BOOK by Jeff Hawkins

本文主要介绍了关于ai驱动是什么意思（理解 AI 驱动的软件 2.0 智能革命）的相关养殖或种植技术，电子数码栏目还介绍了该行业生产经营方式及经营管理，关注电子数码发展动向，注重系统性、科学性、实用性和先进性，内容全面新颖、重点突出、通俗易懂，全面给您讲解电子数码技术怎么管理的要点，是您电子数码致富的点金石。
以上文章来自互联网，不代表本人立场，如需删除，请注明该网址：http://seotea.com/article/1432492.html

ai驱动是什么意思（理解 AI 驱动的软件 2.0 智能革命）

01

AI 进化史

1.2 Machine Learning 的跃迁

05

现实世界的 AI

06

AI 进化的未来

6.1 透视神经网络

6.2 千脑理论

冷藏柜能储存水果吗

硬的西梅会放软吗西梅很硬放多久才会软

进入候机厅还需要身份证吗

到底谁代表国际社会？美国要求中国和国际社会站在一起

恭喜人类在量子力学的研究上获得重大突破

ai驱动是什么意思（理解 AI 驱动的软件 2.0 智能革命）

01

AI 进化史

1.2 Machine Learning 的跃迁

05

现实世界的 AI

06

AI 进化的未来

6.1 透视神经网络

6.2 千脑理论

ai驱动是什么意思（理解 AI 驱动的软件 2.0 智能革命）相关推荐知识

冷藏柜能储存水果吗

​硬的西梅会放软吗 西梅很硬放多久才会软

进入候机厅还需要身份证吗

到底谁代表国际社会？美国要求中国和国际社会站在一起

恭喜人类在量子力学的研究上获得重大突破

硬的西梅会放软吗西梅很硬放多久才会软