一个数据中心的耗电量堪比费城,它如今是美国的新型工厂,既创造着未来,也支撑着经济。这样的局面能持续多久?
“我确实认为,世界上的很多地方终会布满数据中心,”OpenAI首席执行官山姆·奥特曼曾这样表示。插图绘制:Jun Cen
从美国几乎任何一座城市出发,往几乎任何方向行驶,不久后你都会看到一座数据中心——它像一个巨大的白色盒子,从平整过的土地上拔地而起,两侧是发电机,周围围着栅栏,活像个监狱大院。用于人工智能的数据中心是美国的新型工厂。这类中心里塞满了计算设备,接收信息并输出人工智能成果。自2022年ChatGPT推出以来,它们的数量开始以惊人的速度激增。“我确实认为,跟着时间推移,世界上的很多地方都会布满数据中心,”OpenAI首席执行官山姆·奥特曼最近说道。
美国领先的人工智能数据中心独立运营商是CoreWeave,该企业成立于8年前,最初只是一次随意的尝试。2017年,纽约一家中等规模对冲基金的交易员决定开始挖掘密码货币,并用这些货币作为他们梦幻足球联盟的入场费。为了挖掘密码货币,他们购买了一块图形处理器(GPU),这是英伟达公司生产的一款高性能微芯片。这款GPU原本是面向视频游戏玩家销售的,但英伟达提供的一款软件能将其变成一台低成本超级计算机。“从资本回报率的角度来看,这个尝试非常成功,所以我们开始扩大规模,”CoreWeave的联合发起人之一布莱恩·文图罗告诉我,“要是能在五天左右收回成本,谁都会想多做几次这样的生意。”
不到一年时间,这些交易员便辞去了对冲基金的工作,购买了数千块GPU,放在新泽西州文图罗祖父的车库里运行。2018年密码货币市场后,CoreWeave从破产的矿工那里收购了更多微芯片。不久之后,该公司打造了一个平台,让外部客户可使用这些GPU。随后在2022年,文图罗偶然发现了Stable Diffusion——一款生成图像的AI工具。他向这款人工智能输入不同场景的描述,它便生成了精准且精美的插图。“这东西一定会让全世界为之着迷,”文图罗回忆起当时的想法时说道。
Stable Diffusion的训练是在与CoreWeave设备类似的英伟达设备上完成的。文图罗和他的联合发起人嗅到了一生中难得的商业机遇。CoreWeave筹集了1亿美元,几乎全部用来购买英伟达的硬件。不久后,英伟达首席执行官黄仁勋安排了与他们的会面。“他花了大约十分钟调侃我是新泽西来的,”文图罗说。但最终,英伟达收购了该公司的一部分股份。到2022年年中,CoreWeave开启了一项全新的业务:为AI开发者和满是英伟达设备的仓库牵线搭桥。
现代数据中心的建设始于20世纪90年代,当时商业互联网刚刚兴起。数据中心承载着网站运营、电子邮件协调、支付处理以及视频和音乐流媒体传输等功能。亚马逊在建设数据中心方面格外积极——弗吉尼亚州劳登县修建了大量数据中心,该地区也因此被称为“数据中心走廊”。甚至在人工智能热潮兴起之前,数据中心就已经有利可图;在某些年份,亚马逊网络服务部门的利润超过了公司的零售业务,而其销售额却远低于零售业务。
但随着英伟达GPU的问世以及大规模人工智能训练的开展,数据中心行业发生了翻天覆地的变化。2022年11月,ChatGPT推出后迅速走红。“全世界都为之疯狂,”文图罗说。微软与OpenAI合作,为ChatGPT的运行提供所需的数据中心算力支持。当微软不足以满足需求时,便转而寻求CoreWeave的帮助。
使用英伟达硬件如今成了一种身份象征——标志着使用者在AI领域是认真的。与工程师们谈论这些设备时,我不禁想起有一次看到一群年轻人冒着严寒排起长队,只为购买街头潮牌Supreme的运动鞋。
今年早一点的时候,CoreWeave上市了。文图罗和他的联合发起人如今都成了亿万富翁。该企业具有数十万块GPU,其平台除了为OpenAI提供服务外,还为Meta(元宇宙)和其他主要实验室的模型提供训练支持。
今年夏天,我参观了CoreWeave位于拉斯维加斯郊区的一处设施。这是一栋大型仓库式建筑,周围围着厚厚的栅栏,每隔一段距离就装有监控摄像头。我穿过旋转门,一名穿着防弹背心、腰间别着泰瑟枪的保安上前接待了我。交出手机后,我从自动分发器里拿了两副酸橙绿颜色的耳塞,然后进入了设施内部。
陪同我的有三位CoreWeave的工程师,这些技术达人适应超大规模资本主义的方式,就像达尔文笔下的雀类适应加拉帕戈斯群岛一样。来自公司总部的雅各布·云特身材瘦削、能言善辩,头发梳得一丝不苟。克里斯托弗·康利戴着墨镜、留着胡子,热情地为我讲解设备相关知识,他主要负责硬件方面的工作。肖恩·安德森曾是大学篮球中锋,身高七英尺(约2.13米),穿着一件印有“更多节点”(MOAR NODES)字样的T恤。
他们所说的“节点”,是一个个浅浅的计算设备托盘,每个托盘重约70磅(约31.75千克),装有4块水冷GPU以及一系列别的设备。将18个这样的托盘堆叠起来,再用电缆连接到一个控制单元,就组成了英伟达GB300计算机架。这种机架比冰箱略高一些,成本高达数百万美元。在业务繁忙的年份,一个普通机架的耗电量会超过100户家庭的总耗电量。数十个这样的机架一直延伸到视野尽头。
CoreWeave将这些机架放在白色的金属机柜里,这样既有助于散热,也能减弱噪音。康利打开一个机柜的门,让我查看运行中的机架,一股气流扑面而来。噪音大得惊人,仿佛我打开了一个扫帚间,却发现里面有一台正在运转的喷气式发动机。我看着闪烁的指示灯和旋转的风扇。“耳鸣是这里的职业风险,”康利对着我大喊。
我环顾四周,设施内有数百个一模一样的机柜。我们上方是一条金属走道,走道两侧排列着为计算设备供电的配电装置。我不禁联想到修道院中的修士、兵营里的士兵、牢房中的囚犯。我好奇,什么样的人会自愿在这样的地方工作?“人力资源部门告诉我,我不能再问这类问题了,但我喜欢招聘那些能承受很多痛苦的人,”云特后来说道,“比如耐力运动员这类人。”
CoreWeave没有告诉我那天是哪家客户在使用他们的技术,但云特暗示,我们所看到的这场模型训练规模并不大。他开始详细的介绍机架的配置。我根本听不清他在说什么,只能像在夜总会聊天那样,故作睿智地点着头。即便塞了耳塞,我的耳朵还是开始嗡嗡作响,头也渐渐疼了起来。云特转向我。“有时候,某个客户会一次性占用整个场地好几周,”他大喊道,头发在风扇排出的气流中飘动,“我们把这样的一种情况称为‘英雄级运行’(hero runs)。”
CoreWeave的硬件可以从头开始完整地训练出一个人AI模型。软件研发人员通常在硅谷的工作站上,将一个名为“权重”(weights)的数字文件及海量训练数据上传到数据中心。这些训练数据可以是文本、图像、医疗记录,实际上几乎能是任何内容。在初始设置中,“权重”是随机的,此时的人工智能不具备任何能力。
之后,会让人工智能接触一部分训练数据,并要求它对接下来也许会出现的内容做出预测——比如一个句子中接下来的几个字母。未经训练的人工智能做出的预测肯定是错误的,但至少它能从中学会不该怎么做。“权重”一定要经过调整,才能吸收这一新信息。背后的运算过程十分复杂,尤其依赖一种名为“矩阵乘法”的运算。
1940年,数学家G·H·哈代写道:“美感是第一道考验:丑陋的数学在世界上不会有长久的立足之地。”然而,我们的文明如今正将大量富余资源投入其中的矩阵乘法,却毫无美感可言,就像一个人用锤子往木板上钉钉子一样。它既不优美,也不对称:事实上,在矩阵乘法中,a乘以b并不等于b乘以a。随着矩阵规模逐步扩大,完成这些算术运算需要强大的计算能力。最新的大型语言模型可能包含约一万亿个独立“权重”。要完成这类模型的“英雄级运行”,在大多数情况下要持续数周时间,动用数万个GPU,进行10的24次方次运算——这个数量比宇宙中可观测到的恒星数量还要多。
数据中心必须与当地电力公司合作,才能应对这些训练任务。在CoreWeave的数据中心,流经微芯片的水进入时是室温,流出时却比热水澡的水温还要高。这些水会先在储水箱中冷却,然后再循环回系统中。机房内空气的温度、湿度和颗粒含量也都受到严密监控。“冷凝水是我们的大敌,”康利严肃地说。
所有这些微芯片、电力、风扇、资金、数据、水冷泵和电缆——这一切的存在,都是为了调整“权重”这个小小的数字文件。这一个文件小到可以存放在一个外置硬盘里,但其重要性却不言而喻。开发这个“权重”文件及类似文件所投入的资金,是人类历史上顶级规模的资本投入之一。
当训练完成后,“权重”文件的副本会分发到全国各地的数据中心,用户都能够通过互联网访问这些副本,这样的一个过程被称为“推理”(inference)。用户提出问题,促使AI生成一个个名为“令牌”(tokens)的智能单元。一个“令牌”可能是一小块像素,也可能是一个单词的片段。人工智能要写出一篇大学学期论文,大约需要生成5000个“令牌”,所消耗的电力相当于一台微波炉以上限功率运行约3分钟。随着人工智能要处理的请求越来越复杂——无论是生成视频、音频,还是提供心理咨询——对计算能力的需求将会成倍增长。
再乘以每周使用ChatGPT的8亿多人,数据中心数量激增的现象就不难理解了。如今,ChatGPT的受欢迎程度已超越;年轻人把它简称为“Chat”,就像“Google”(谷歌)代表互联网搜索一样,“Chat”成了人工智能的代名词。我曾与微软的一位数据中心高管交谈,他认为未来我们对AI的需求会像现在对互联网或电力的需求一样,变得不可或缺,而目前的数据中心建设规模可能还不够。“我更担心的是我们建得太少,而不是太多,”这位高管说。
微软是数据中心领域的主要运营商之一,这项业务已成为推动美国经济稳步的增长的主要动力。尽管微软仍在开发操作系统和办公软件,但正是投资的人对数据中心的看好,推动其市值达到约4万亿美元,成为全世界市值第二高的公司。为微软提供微芯片的英伟达公司,则位居全球市值榜首。
要进入微软的数据中心并非易事,难度堪比进入诺克斯堡(美国联邦黄金储备库)。这些设施中正在开发的人工智能价值连城。“以往,要是想偷价值连城的东西,人们会想‘开卡车来运’,”CoreWeave的首席技术官彼得·萨兰基告诉我,“但在这里,有人只要带个U盘进去,就能把OpenAI的全部知识产权都拷贝走。”
不过今年秋天,在打了仿佛有200通电话之后,我终于受邀参观了微软一处正在建设的大型数据中心园区。我承诺不拍照、将手机留在外面、不详细描述内部细节,也不透露该设施在美国的具置。9月,我驱车长途跋涉,来到了一个偏僻之地。这个数据中心周围是农田,该地区至少还有别的三家公司正在建设数据中心。田野里纵横交错地布满了高压电塔的电线,到处都在冒出一个个丑陋的大型盒子。
该园区的外部没有一点微软的标识——甚至连一个标牌都没有。栅栏后面,经过好几个车辆检查站,园区内一片空旷,只有一个角落排列着一排编了号的棚屋。这些棚屋是白色的,窄而高,长度相当于好几个足球场;它们让我想起了小时候在明尼苏达州博览会上看到的牲畜棚。每个棚屋的两侧都排列着柴油发电机和工业空调。
我参观时,那里已有5个棚屋,规划中大约会建10个。到处都是工程车辆:高空作业车、推土机、装载着电缆卷的卡车。有人在我要参观的那间棚屋前做了些绿化,几株小植物在树荫下生长着。
在棚屋内部,我见到了朱迪·普里斯特和史蒂夫·所罗门,两人都是微软高管,他们的职业生涯一直在管理仓库大小的计算机系统。普里斯特是一名电气工程师,毕业于麻省理工学院,眉毛修剪得很精致,一头金色卷发十分惹眼。所罗门是机械工程师,回答我的问题时总是滔滔不绝地讲技术细节。两人似乎都对能参与这场新的工业革命感到兴奋不已。普里斯特兴奋地讲述了她最近一次就医的经历:看完病后,她收到了一份由AI辅助生成的、记录她与医生对话的摘要。所罗门的立体声音响出了点问题,他拍了一张音响背面接口的照片,上传到了Chat(ChatGPT)。他告诉我,人工智能回复了7种可能的故障排除方案。说到这里,他的语气略微有了些变化,在我看来,这表明他在表达某种情绪。“第三种方案管用了,”他说。
穿上钢头靴,看完一场PowerPoint演示后,我通过了一个安检口,进入了核心区域。这个设施比CoreWeave的数据中心更安静、更整洁,空间也更宽敞。数百组一模一样、闪烁着指示灯的服务器和计算设备连接在冷却站旁,嗡嗡作响地运行着,占据了大部分地面空间。用扎带捆扎好的线缆束沿着天花板延伸:有电线、数据线,还有水管和气管。这些线缆连接到更大的线缆束,进而与其他棚屋相连,使所有棚屋的设备能协同工作,形成一台一体化的巨型计算机。仅这5个棚屋,用于计算的区域总面积就等于20个足球场。
普里斯特解释说,一次高级别的模型训练可能会占用总系统长达一个月的时间。我和一名技术人员站在控制中心,监控着电力消耗情况。我们看着功率数值不断飙升——这表明计算机正在处理训练数据;随后功率又降了下来——此时计算机正在将结果写入文件。随着人工智能从一个检查点进入下一个检查点,这种功率的起伏不断重复。在这栋建筑的某个地方,模型正在一直在优化;在这栋建筑的某个地方,计算机正在学习怎么样“思考”。
离开数据中心后,我迫切地想与人交流。沿着公路开了半英里(约0.8千米),我看到一个谷仓的顶部从一处正在建设的数据中心后面露了出来。我驾车穿过一片满是灰色建筑、灌溉渠、电线和翠绿田野的区域,最终抵达了一个尘土飞扬的院子,院子里停满了拖拉机和皮卡车。在那里,我见到了一位第四代苜蓿种植户,他穿着蓝色牛仔裤、格子衬衫,戴着一顶绣有油罐车图案的棒球帽。
这位农民指了指横穿他田地的电线年代铺设的。“我们从始至终觉得这么多东西是个累赘,”他说,“我们大家都认为它们会降低土地价值。”但如今,他表示,能接入变电站成了一件极其划算的事——他的一个邻居称,自己把一块农田卖给了一家数据中心开发商,每英亩(约0.4公顷)的价格超过100万美元,这比农场一辈子能产出的价值还要高。这位农民说,他家也在一点点地出售土地。
农场北边有一座新建的数据中心,东边还有一座正在建设。微软那片广阔的设施占据了整片视野,它就建在他家自1979年起就一直在耕种的一块土地上。他告诉我,自己打算很快搬走——周围的环境已经不适合耕种,甚至不适合人类居住了。
我问这位农民,住在数据中心旁边,有没注意到对环境产生的影响。他说,对供水的影响不大。“说实话,我们用的水可能比他们还多,”他说。(训练一个最先进的人工智能模型所需的水量,比一平方英里(约2.59平方千米)农田一年的用水量还要少。)但电力情况就不一样了:这位农民表示,当地电力公司计划三年内第三次提高电价,最近一次提议的涨幅达到了两位数。最让他痛心的是那些富含养分的表层土壤——他家通过精心的作物轮作,一直养护着这些土壤。“微软调来一台挖掘机,一天之内就把所有土壤都挖走了!”他说,语气像是在谈论一件遗失的传家宝,“足足有6到10英尺(约1.8到3米)厚,全没了。”
我们看着一只黄色的狗站起身,绕着小圈子走了走,然后又回到树荫下睡着了。树的后面,有一座巨大的长方形仓库,把树都比得矮小了。我问这位农民是否用过人工智能。“我用Claude,”他说,“谷歌现在不行了。”
数据中心正开始给美国电网带来非常大压力。1999年,星座能源公司收购了三哩岛核电站唯一一座仍在运行的反应堆,并在之后20年里一直运营该反应堆。2019年,该公司关闭了这座反应堆,认为它在经济上已无利可图。负责管理星座能源公司核电机组的高管布莱恩·汉森为员工举办了一场告别派对。“派对上有食物,但没人想吃,”他说,“气氛就像在参加葬礼。”
或许不久后,三哩岛将再次响起欢庆的派对声。星座能源公司宣布,将于2027年重新启用该设施,并将其更名为克兰清洁能源中心。与微软签订的一份大额合同是促成这一决定的重要的条件。“要是八年前有人告诉我,我们会重新启用这座核电站,我绝不会相信,”汉森说。(该核电站的第二座反应堆曾在1979年发生放射性气体泄漏事故,此次仍将保持关闭状态。)
像汉森这样的能源行业高管,天天都会收到大量要求增加供电的请求。他表示,数据中心“所需的电力规模,可能比我们以往接入电网的任何用户都要大一个数量级。你能想象一下,费城这座城市的电力负荷约为10亿瓦。现在,想象一下要在电网上增加多个10亿瓦规模的数据中心,而且不止一个,而是好多个。”
当一座数据中心投入运营时,零售用电客户通常也要分担电费成本:2025年上半年,美国各电力公司申请的零售电价涨幅总额接近300亿美元。今年春季,电力公司申请的电价涨幅几乎是去年同期的两倍。彭博社的一项分析估计,在数据中心周边地区,过去五年内批发电价上涨了200%以上。而且电价很有可能会持续上涨——发电厂的发电量远远不足以满足需求。谷歌前首席执行官埃里克·施密特表示,美国需要为全国电网新增920亿瓦的电力供应,才能满足数据中心的需求,这相当于再增加92个费城的电力消耗量。如果电力供应不足,美国的人工智能开发者可能会被中东和中国的同行超越,这些地区目前已在推进大型数据中心项目。
数据中心要想实现经济可行性,必须24小时不间断运行。(我参观的那座微软数据中心,每年允许的非计划停机时间仅为5分15秒。)风能、太阳能等依赖天气条件的可再次生产的能源,目前只能满足这类需求的一小部分。核能也无法拯救我们,至少短期内不行;汉森表示,要在美国新建任何大型核反应堆,都需要数年时间。他语气中带着羡慕地告诉我:“中国正在建设26座核反应堆。”
短期内,新建数据中心的电力供应将主要依赖化石燃料。开发商们纷纷在马塞勒斯页岩(阿巴拉契亚地区一个巨大的地下天然气储层)等天然气储量丰富的地区购置土地。今年4月,总部在宾夕法尼亚州的荷马城重建公司宣布,计划将匹兹堡郊外一座已闲置的燃煤电厂改造为美国最大的天然气发电厂,该电厂几乎将专门为数据中心供电,发电量可达约45亿瓦。据一家环保非营利组织称,荷马城发电厂每小时可能向大气中排放多达400万磅(约181.44万千克)二氧化碳,相当于400万辆汽车怠速时的排放量。
据估计,目前地球正以每十年0.3摄氏度的速度变暖,这一速度大约是冰河时代末期的10倍。上一个冰河时代结束后,海平面上升了400英尺(约121.92米)。像荷马城这样的发电厂以及全世界内更多类似设施的建成,将加速这一灾难性进程。而特朗普政府对此的回应是,限制在政府官方沟通中使用“气候平均状态随时间的变化”一词。
数据中心还会造成局部污染。埃隆·马斯克旗下的xAI公司在孟菲斯的博克斯敦(一个以非洲裔美国人为主的社区)附近建造了一座以天然气为动力的数据中心。该地区本就是田纳西州哮喘急诊就诊率最高的地方,自从这座发电厂建成后,会加重哮喘病情的二氧化氮浓度又飙升了9%。富裕地区则试图阻止数据中心的建设。2024年11月,在弗吉尼亚州沃伦顿(华盛顿特区的一个富裕郊区),选民们罢免了支持新建亚马逊数据中心的市议会成员,选举出了反对开发的新一届议会成员。(弗吉尼亚州邻近县的人安·惠勒因支持数据中心建设而失去了职位,她抱怨称,活动人士持有一种“香蕉心态”(BANANA),即“任何地方都一定不可以新建任何设施”(Build Absolutely Nothing Anywhere Near Anyone)。)
未来几年,数据中心建设预计将占美国国内生产总值的2%到3%。19世纪,铁路建设对美国国内生产总值的贡献估计为6%。铁路改变了美国,创造了巨大的财富(尽管分配不均),但当时的铁路建设热潮也催生了历史上顶级规模的投机泡沫之一。随后便爆发了1893年的经济大恐慌:失业率飙升,数百家银行倒闭,民粹主义情绪高涨,动摇了美国的政治格局。
投资公司黑石集团总裁、另类资产管理负责人乔恩·格雷,提到了罗恩·切尔诺所著的约翰·D·洛克菲勒传记。“很多铁路公司都破产了!”他说,“你得努力避免这种问题,因为你根本不知道最终结局会怎样。”黑石集团已发行债券用于建设数据中心;为了尽最大可能避免成为破产的一员,格雷会通过与微软、亚马逊等科技巨头签订15年的租赁协议来对冲风险,这些科技巨头是目前信用评级最高的客户群体之一。通常情况下,除非已有确定的客户,否则黑石集团不会投资建设数据中心。“这不像在迈阿密或迪拜投资公寓,”格雷说。
数据中心持续建设的前提是,在棚屋里安装更多英伟达芯片,就能开发出更先进的人工智能。到目前为止,这一前提已被证明是正确的:最新一代人工智能的性能达到了前所未有的水平。OpenAI的GPT-5甚至能够自主开发其他相对简单的人工智能。然而,“芯片越多,智能越高”并非铁律,研究人员也不完全清楚这种“规模效应”为何会存在。AI领域先驱德米斯·哈萨比斯在谈到规模效应时表示:“我们是不是会遇到瓶颈,这是一个需要实证检验的问题。没人能给出确切答案。”
也有也许会出现某种技术创新,使这种超大规模建设变得不再必要。今年早一点的时候,中国公司深度求索(DeepSeek)公布了一种似乎更高效的人工智能训练模式,消息一出,英伟达的股价应声暴跌,单日市值蒸发近6000亿美元(不过后来股价已回升)。
唐纳德·特朗普已将数据中心建设列为国家优先事项;科技公司高管们在白宫宣布新项目,也渐渐成了一种惯例。但为了迎合特朗普,这些高管可能会夸大其词。在9月的一次白宫晚宴上,马克·扎克伯格表示,未来几年,Meta将在数据中心及相关基础设施上投入6000亿美元。当时麦克风还开着,扎克伯格俯身对特朗普小声说:“抱歉,我还没准备好。我不确定你想让我报哪个数字。”亚马逊全球数据中心运营负责人凯里·珀森告诉我,电力公司对一些新的数据中心开发商提出的供电请求持怀疑态度。“看看这些请求队列中的需求量,再看看建设所需的资金规模,你就会发现,就没有那么多钱,”珀森说。
尽管人工智能拥有种种惊人能力,但它可能会让投入资产的人失望。它或许会成为一种无利可图的商品:Claude、Grok、Gemini和ChatGPT的功能都十分相似,而且技术创新很快就会被竞争对象复制。科技巨头们其实并没有无限的资金:随着微软、Meta等公司在数据中心竞赛中投入巨资,它们的现金储备正在不断减少。投资者的预期可能也不切实际:美国股市的估值比率已接近互联网泡沫时期的水平,风险投资市场也变得过热。“投资者通常不会给一个只有6个人的团队几十亿美元,却连产品都没有。这种情况很罕见,但如今却在发生,”杰夫·贝佐斯最近表示。
话虽如此,也有一定的可能这些炒作并非毫无根据。英伟达首席执行官黄仁勋(我最近出版了他的传记)是世界级计算机科学家,正是他生产的微芯片,让人工智能时代成为可能。“以前,我们每两年才能推出新的芯片,”微软工程师普里斯特说,“现在,每隔几个月就能有新芯片问世。”英伟达目前约占标准普尔500指数市值的8%,这是至少45年来单一股票在该指数中占比最高的水平。黄仁勋能否持续研发出更先进的芯片,关系重大。如果美国人想安享退休生活,英伟达就必须取得成功。
水、电力和土地都是稀缺资源,但正如其名称所示,数据中心最宝贵的“商品”其实是数据。Claude的训练数据来自LibGen(图书馆 genesis),这是一个庞大的盗版电子书库,可通过种子文件下载。今年9月,Claude的开发者Anthropic公司同意向这些书籍的版权持有人支付15亿美元赔偿金,平均每项侵权赔偿约3000美元——这是历史上金额最大的集体诉讼版权侵权和解案。(本刊包括我在内的部分人员也在索赔人之列。)针对OpenAI和英伟达的类似诉讼仍在审理中。
微软并不知道客户会向其数据中心上传什么内容——这一些数据属于客户私有。很难判断AI时代版权侵权的规模,但在我看来,相比之下,Napster(早期音乐共享平台)的侵犯权利的行为就像交换混音磁带一样微不足道。现代人工智能的开发方式,是先收集所有能获取的在线数据——包括音频、视频、几乎所有英文出版物,以及超过30亿个网页——至于后续的法律问题,则留给律师去解决。
但如今,人们开始谈论“数据短缺”的问题。据估计,已建立索引的网络上约有400万亿个单词,但正如OpenAI联合创始人安德烈·卡帕西所指出的,其中大部分都是“毫无价值的垃圾”。高质量文本的获取难度更大。研究人员表示,如果当前趋势持续下去,到2026年至2032年间,人工智能开发者可能会耗尽可用的人类文本数据。由于人工智能聊天机器人是在“回收”现有内容,它们难免会陷入陈词滥调,表达方式也会很快变得乏味。要让它们生成新颖、高质量的文字并非易事——我自己就尝试过。
微软的普里斯特告诉我,她并不担心数据耗尽:除了文本,还有广阔的数据领域等待探索,人工智能开发者才刚刚起步。下一个前沿领域是“世界模型”数据,这一些数据将用于训练机器人。大量视频数据和空间数据将被输入数据中心,用于开发自主机器人。英伟达的黄仁勋也想进军这一个市场,去年他曾在舞台上与两个可移动机器人一同亮相。在洛杉矶,我曾在无人驾驶汽车后面等待过,最近还差点撞上一辆自主配送车。但直到最近一次北京之行,我才真正开始明白机器人革命将会是什么样子。
在中国,机器人随处可见。我在商场里看到它们整理货架、打扫卫生。有一次,我在酒店房间点了外卖,送餐的是一个两英尺高、外形像垃圾桶的轮式机器人,还带着孩童般的声音。我打开门,看到它站在门口,身上装饰着仿管家服装的饰品,用普通话叽叽喳喳地说着什么,我惊讶不已。机器人正面的舱门弹开,一盘面条滑了出来。它又叽叽喳喳地叫了一声。我接过食物,舱门关上,机器人便通过滚轮离开了。我站在原地,手里拿着餐盘,心里不禁想:我以后还会和人类交流吗?♦