英伟达CEO黄仁勋与乔・罗根播客对谈,重提2012年送芯片给特斯拉(美股代码:TSLA)首席执行官马斯克的往事,以及自己童年流落美国、英伟达险些破产的经历。黄仁勋完整讲述内容如下:

2012年,多伦多大学杰弗里・辛顿的实验室里,他的两名学生伊利亚・萨茨凯弗和亚历克斯・克里热夫斯基做出了一个名为 AlexNet 的模型。这个模型在图像识别领域的表现,超越了人类过去30年编写的所有计算机视觉算法。计算机视觉是通往真正人工智能的基石 —— 如果连 “看” 都做不到,就更谈不上 “懂” 了。“他们是怎么做到的?就是买了两张英伟达显卡回家训练。” 这两张显卡就是 GTX 580,采用了 SLI 双卡互联技术。

为什么我们的显卡能做到这一点?因为我们从1984年起,就一直在研究一种 “全新的计算方式”—— 并行计算。

传统的 CPU 是按部就班地顺序执行指令:第一步、第二步、第三步…… 而我们的做法是把一个问题拆解成几千个小任务,分配给几千个计算核心同时处理。这套方法的使用门槛很高,但只要你能把问题转化为我们发明的 CUDA 格式,你的设备就能瞬间变成一台超级计算机。

计算机图形学本身就是 “易并行计算” 的绝佳案例 —— 屏幕上的每个像素原本就互不相关,我们可以同时计算400万个像素!于是我们把这套超级计算机技术集成到显卡里,让游戏玩家能用来玩游戏。

总而言之,伊利亚和亚历克斯正是用我们这种 “玩家级超级计算机”,做出了震惊世界的 AlexNet。我看到这个成果后就意识到:这绝不仅仅是计算机视觉技术,这东西根本就是一个 “通用函数逼近器”!

什么是通用函数逼近器?上学的时候,老师会给你一个黑盒子,里面藏着一个函数 f(x),你输入 x,它就会输出对应的结果。传统编程需要你自己推导并写出这个函数公式,比如牛顿第二定律 F = ma,把公式写进程序里就能解决问题。但深度学习完全不同 —— 你根本不用自己写公式!你只需要给它大量 “输入→输出” 的样本,它就能自己 “学” 出对应的函数公式。今天能学牛顿定律,明天能学麦克斯韦方程组,后天能学薛定谔方程…… 只要你能提供足够的输入和输出样本,它几乎什么都能学会。

当时我们静下心来思考:“等等,这东西的用途绝不止于图像识别吧?它可以解决‘世界上所有有输入、有输出的问题’!而整个宇宙的运行规律,不就是由无数输入和输出的关系构成的吗?” 在那一刻,我们就知道:这就是人工智能真正迎来爆发的起点。

其实当时有几个关键问题必须解决。比如,我们必须证明这项技术真的能 “规模化” 应用到巨型系统中。当时那篇 AlexNet 的论文,只用了两张 GTX 580显卡做 SLI 互联,对吧?而这套配置,正是你当年玩《雷神之锤》时用的装备。

所以说,GTX 580 SLI 这套游戏配置,就是把深度学习推上历史舞台的 “革命性计算机”。那是2012年,可当时人们还只是拿它来玩《雷神之锤》。

那就是现代人工智能的大爆炸时刻。我们很幸运,因为我们当时正在研发这项技术、这种全新的计算方式。更幸运的是,率先发现这项技术巨大潜力的,居然是一群游戏玩家。而我们也恰好抓住了那个关键的瞬间。这有点像《星际迷航》里的 “第一次接触”—— 瓦肯人必须恰好观测到地球人启动曲速引擎的那一刻。如果他们没有亲眼看到那一闪而过的光芒,就永远不会降临地球,后续的一切也就不会发生。如果当年我没有注意到那个瞬间,如果那道象征着突破的 “光芒” 稍纵即逝,如果我们公司没能抓住这个机遇,那后来会发生什么,谁也无法预料。

我们亲眼见证了那个历史性的时刻,然后通过分析推理得出结论:这是一个 “通用函数逼近器”,绝不仅仅能用来做计算机视觉。只要解决两个问题,我们就能用它来做任何事情。

第一个问题:我们必须证明这项技术确实具备规模化扩展的能力。第二个问题:世界上永远不会有足够多的 “输入 - 输出” 样本,让我们通过监督学习的方式教会人工智能所有知识。就像你不可能全程监督孩子学会每一件事一样,数据量会成为制约发展的瓶颈。

我们需要一种 “无监督学习” 的方式,让计算机能够自主学习。这个目标在当时还需要好几年才能实现,但如今无监督学习已经成为现实,人工智能已经可以自主学习了。

为什么人工智能能实现自主学习?因为我们拥有海量的 “正确答案样本”。最典型的应用就是 “预测下一个词”。我们收集人类所有的文字数据,把一句话的最后一个词遮住,或者随机遮住中间的某个词,让模型不断猜测,直到猜对为止。比如 “玛丽去了 bank”,这里的 bank 指的是河岸还是银行?单看这句话无法判断,但如果后面加上 “钓了一条鱼”,就能确定指的是河岸了。我们把几十亿个这样的句子输入给模型,让它自己从中找出语言规律。这就是无监督学习的由来。

当 “可规模化” 和 “无监督学习” 这两个关键概念同时落地时,我们就下定决心:要把所有资源都投入到这项技术中。它将帮助人类解决一大堆此前从未攻克过的难题。那一年,是2012年。

到了2016年,我造出了全球第一台真正为深度学习量身打造的超级计算机 ——DGX-1。

黄仁勋当年送给马斯克的那台设备叫 DGX Spark,其实是后来推出的迷你版本。第一代 DGX-1的售价高达30万美元,光是研发成本就耗费了英伟达几十亿美元。

它不再是简单的双卡 SLI 互联,而是通过 NVLink 技术,将8张当时性能最强的 GPU 连接在一起,本质上就是 “超级增强版的 SLI 互联技术”。

我在 GTC 大会上第一次公开展示 DGX-1时,全场鸦雀无声,没有人能听懂我在讲什么。

当时我和马斯克已经认识很久了,我们曾帮他研发过 Model S、Model 3的车载电脑,还打造了第一代全自动驾驶(FSD)电脑。

DGX-1发布后,全球范围内没有收到一张订单,没有一个人愿意买 —— 除了马斯克。

我们围坐在壁炉旁聊天时,他突然说:“我有一个非营利组织,可能真的非常需要这样一台超级计算机。” 听到这话,我当时心都凉了…… 耗费几十亿美元研发的产品,每台售价30万美元,结果第一个客户居然是一家非营利组织?

NVDA|黄仁勋的传奇一生:9岁流落美国 两次濒临破产、靠200美元买书给员工救活公司 砸几十亿美元研发却无人问津、只有马斯克下单

我亲手组装了第一台 DGX-1,打包好后开车送到旧金山,送到 OpenAI 当时那个狭小的办公室。那是在二楼,一间比你现在所处的房间还要小的屋子,彼得・蒂尔、伊利亚・萨茨凯弗等一群人都在那里。

那就是 OpenAI 的起点,那一年是2016年。

DGX-1的算力是1 petaflops(千万亿次浮点运算 / 秒),9年后推出的 DGX Spark 算力同样是1 petaflops,但体积只有一本书那么大,售价仅为4000美元。这就是科技进步的速度。

1993年英伟达创立时,我们的目标就是研发一种全新的计算架构,用来解决普通计算机无法攻克的难题。但问题来了:我们的 “杀手级应用” 在哪里?当时所有已有的应用程序,普通 CPU 都能处理,否则这些应用根本不会被开发出来。我们写下的使命宣言,在当时看来几乎 “不可能实现”,但1993年的我对此一无所知,只觉得这个目标听起来很酷。

那时候《毁灭战士》《雷神之锤》都还没问世,约翰・卡马克也还没发明第一人称射击游戏。我专程跑到日本去找世嘉公司,因为当时只有街机厅才有真正的3D 游戏 —— 比如《VR 战士》《梦游美国》。这些街机使用的3D 芯片,居然是从军用飞行模拟器上拆下来的,价格极其昂贵。我当时就想:我们能不能把这种级别的3D 画面,集成到家用电脑里?

于是我们和世嘉公司签下了人生中的第一份大合同:“你们负责把街机游戏移植到电脑平台,我们来帮你们研发下一代主机的芯片。” 这笔钱,救了英伟达的命。

结果研发了两年后我们才发现,我们选定的三项核心技术路线全部走错了:

别人用三角形构建3D 图形,我们却用二次曲面;别人用 Z 缓冲技术自动排序图形层级,我们却让程序手动排序;别人用逆向纹理映射技术,我们却用正向纹理映射…… 三个最关键的技术决策,全部出错。1995年年中,我们成了 “起跑最快,却满盘皆输” 的那个失败者。

当时硅谷大概有50家3D 显卡初创公司,所有人都选对了技术路线,只有我们一败涂地。公司濒临破产,还欠着世嘉公司一款主机芯片的研发任务。我飞到日本去见世嘉社长入交昭一郎,当时33岁的我,满脸青春痘,瘦得像根竹竿,面对着这位头发花白的长辈说:“我要告诉你一个坏消息:我们承诺给你的技术,根本做不出来,我们的路线完全错了,继续研发只会浪费你的钱。我建议你找其他公司合作…… 但我还是需要你最后再投500万美元,不然我们公司明天就会破产。就算你投了这500万美元,也极有可能血本无归。”

他考虑了两天,然后回复我说:“我投。” 理由很简单,“就因为喜欢你这个年轻人”。

如果他当年把那500万美元用来购买英伟达的股票,到今天大概能值1万亿美元吧?可惜英伟达上市后,他们就把股票全部抛售了,当时公司的市值只有3亿美元。

拿到500万美元的救命钱后,我们依然不知道该如何把技术做对。我们裁掉了主机芯片研发团队的所有成员,公司最后只剩下几十个人。我拿着兜里仅剩的200美元,去书店买了3本硅谷图形公司(SGI)的3D 图形技术 “圣经”,分给三位架构师:“去把这些书读懂,然后我们再来拯救公司。” 结果他们读完书后,把 SGI 的通用技术方案全部拆解,只保留了 “游戏领域最需要的那一小部分”,并直接把这些功能硬编码到芯片里。就这样,一张售价几百美元的显卡,图形处理速度居然追平了价值百万美元的 SGI 工作站。这就是现代 GPU 的起源。

我们还做了一个关键决策:不追求 “满足所有3D 应用需求”,只专注于一件事 —— 游戏。我们砍掉了所有针对 CAD 设计、飞行模拟器的复杂功能,把所有资金都投入到 “玩家最关心的图形画质” 上。这就是 GeForce 显卡的诞生历程。

后来我们要研发 RIVA 128这款救命芯片,但公司的资金已经快耗尽了。我听说有家公司研发了一款 “硬件模拟器”,可以先在模拟器上完整运行驱动程序,确认没有漏洞后再送去芯片厂流片。我们拿出了公司剩余资金的一半 ——50万美元,去购买这款模拟器 —— 结果对方说:“我们公司已经破产了,仓库里刚好还剩最后一台。” 买下这台模拟器后,我们的芯片实现了 “一次流片成功”。这套 “先在模拟器上验证” 的流程,后来成了全世界芯片公司的标准操作流程。

芯片流片那天,我打电话给台积电创始人张忠谋:“我要直接量产这款芯片,我确定它一定会成功。” 张忠谋选择相信并支持我。RIVA 128显卡横空出世,英伟达也成为了史上从创立到营收突破10亿美元速度最快的公司。

那段时间,我总觉得整个世界都在飞速旋转,完全失控。就算躺在床上,也依然感觉天旋地转,内心充满了极度的焦虑。这种感觉,这辈子大概也就经历过那么几次。

而现在,33年过去了,我每天早上醒来都是这种感觉。那种脆弱感、不确定感、不安全感 —— 从来没有离开过我。我对失败的恐惧,远远超过了对成功的渴望。

因为我并不贪婪,我只想让公司活下去。我也算不上野心勃勃,我只是想让公司生存下来、让我们的团队做出有影响力的事业。

我每天醒来的第一件事,就是凌晨4点起床,查看几千封邮件,日复一日,从未间断,包括感恩节、圣诞节在内的所有节假日。我对 “度假” 的定义是 “和家人待在一起”,但就算度假,我也依然会工作。我的孩子们也都在英伟达工作,同样每天辛勤忙碌。我们一家人,似乎都带着 “吃苦耐劳的基因”。

我9岁、哥哥11岁那年,父母把我们从泰国送到了美国(当时泰国发生政变,街上随处可见坦克)。我们寄住在素未谋面的叔叔家里,后来叔叔帮我们找到了肯塔基州最贫困的一个县 —— 那里有一所名为奥尼达浸礼会学院的寄宿学校。这所学校专门招收 “问题少年” 和国际学生,学校里100% 的学生都抽烟、带刀,我的室友17岁,身上满是刚缝好的刀伤。我9岁时的杂务,就是打扫100间男生宿舍的厕所。那个地方,如今是美国阿片类药物危机的重灾区,在当时是全美最贫困的县,直到今天依然如此。

我们和父母联系的方式,是用一台卡带录音机。每个月我们都会录下 “这个月我们做了什么”,然后寄回泰国,父母再录下他们的话寄回来。就这样,我们有整整两年没有听过父母的声音。我还曾在录音带里兴奋地说:“爸爸妈妈!我们今天去了一家超厉害的餐厅,整间店亮晶晶的,就像未来世界一样,食物都装在盒子里,汉堡超级好吃!”—— 那家餐厅,其实就是麦当劳。

这就是我的美国梦。我是第一代实现美国梦的移民。很难让人不热爱这个国家。

“我当年执意研发 CUDA 技术,导致公司股价暴跌,市值一度只剩20到30亿美元 —— 因为加入 CUDA 功能后,显卡成本翻倍,却没人愿意买。但如果我们明明相信这就是未来的方向,却选择什么都不做,那我们会后悔一辈子。” 结果,CUDA 技术彻底改变了世界。

很多人以为成功的人每天都过得很快乐,其实并非如此。成功的路上,充满了孤独、痛苦、羞辱、质疑和嘲笑。但 “吃苦是这段旅程的必经之路”。如今我所拥有的一切感恩、自豪和珍贵回忆,都是从那些痛苦的经历中孕育出来的。