更新时间:2026-04-22
点击次数: 狗狗币,狗狗币走势,狗狗币怎么买,狗狗币在哪买,狗狗币价格,狗狗币挖矿,狗狗币官网,狗狗币交易平台,狗狗币钱包,狗狗币钱包下载,狗狗币最新消息,狗狗币注册,狗狗币开户,狗狗币下载网址,狗狗币APP2026年4月17日,Cerebras Systems向美国证监会(SEC)公开提交IPO申请,拟在纳斯达克以代码CBRS上市。根据S-1文件,公司2025年全年营收5.1亿美元,净利润8790万美元,彻底扭转了上一年2.903亿美元营收、4.848亿美元净亏损的局面。此前在2026年2月完成的H轮融资中,Cerebras估值已达到230亿美元,投资方包括Tiger Global、AMD、富达、Benchmark Capital和Altimeter。就在提交IPO申请前两天,The Information报道,OpenAI与Cerebras之间的计算协议规模可能扩展至300亿美元,OpenAI将因此获得Cerebras最多10%的股权认购权证。这家公司正式走向公众视野之前,绝大多数人对它的了解所知并不多。

Cerebras是做什么的?一句话:它造出了人类历史上面积最大的芯片,专门用于AI推理。CEO Andrew Feldman曾声称推理速度比英伟达的GPU快数十倍。
不过,Cerebras究竟比英伟达快多少?这个问题没有单一答案,因为快在推理领域指的是两件不同的事。
另一个维度是系统吞吐量:一块芯片同时服务大量用户时,总共能处理多少请求。英伟达在GTC 2026上引用SemiAnalysis发布的InferenceMAX基准测试,展示Blackwell B200在Llama 3.3 70B上达到每GPU 10000 token/秒的吞吐量。但这个数字和Cerebras的2522 token/秒不可直接对比,因为衡量的不是同一件事:前者是系统并发处理能力,后者是单用户感知速度。
Cerebras官方博客中相对审慎的表述是最高快15倍(2026年4月),或在特定推理场景下引用SemiAnalysis发布的英伟达B200数据进行对比,宣称端到端延迟快21倍(需要说明的是,这组对比中SemiAnalysis只测了英伟达一侧,Cerebras一侧的数据来自公司自身)。
不过英伟达2025年底以200亿美元获得了推理芯片公司Groq的技术授权和核心团队,并在GTC 2026上展示了第一块非GPU推理芯片Groq 3 LPU,已经有产品直接瞄准了Cerebras擅长的高速解码市场。
本文基于Feldman在过去一年里接受的三次深度播客访谈:2025年3月知名风投播客20VC(主持人Harry Stebbings,70分钟长谈)、2025年8月美国科技播客Artisanal Podcast(主持人Andy Price)、2025年12月迪拜GITEX展会现场的Inside GITEX访谈。三次谈话分别侧重芯片竞争的技术与市场格局、Cerebras从白板到量产的十年叙事、以及上市前夕的商业判断,合在一起构成了这家公司迄今为止最完整的自述。Feldman今年62岁,这是他的第五家创业公司,前四家全部成功退出。
Feldman在斯坦福校园里长大。父母都是教授,父亲每周末打网球,六个固定球友轮换,打到最后,有四人拿了诺贝尔奖,一人拿了数学领域最高奖菲尔兹奖。他说这段成长经历给他的,不是傲慢,是好奇心,以及对智识本身有价值的朴素信念。
他在Artisanal Podcast里回忆:两扇门之外的邻居拿了两个诺贝尔奖。我们小时候对他的全部印象,是他在万圣节会给全尺寸三个火枪人巧克力棒。就这些。
这种氛围没有把他推向学术,反而推向了创业。高中时他做T恤,卖进了Nordstrom。毕业之后,他参与了最早一批做硬件交换机和路由器的公司,赶上了互联网基础设施爆发的时代。在他的表述里,做基础设施的人天生应该享受别人开着好车跑在你铺的路上这件事。
这个直觉后来被翻译成了一个关于AI计算的判断:如果你能让推理足够快,新的商业模式就会自发生长出来。他反复举Netflix的例子。网速慢的时候,Netflix靠邮寄DVD活着,再之前,人们还得自己开车去Blockbuster租碟片。宽带普及之后,Netflix变成了电影制片厂,亚马逊也变成了内容制作公司,这些事在拨号上网时代完全不可想象。他相信AI算力的逻辑一模一样:在计算机行业50年的历史中,没有一个例子表明把东西做得更快更便宜之后,市场变小了。市场永远在变大。
Cerebras的五位联合创始人,之前都在Feldman的上一家公司SeaMicro工作。SeaMicro做的是超低功耗微服务器,2012年被AMD以约3.34亿美元收购。在此之前,Feldman还在Force10 Networks担任产品管理副总裁,那家公司后来以8亿美元卖给了戴尔。他从事基础设施创业,已经有完整的成功退出记录。
离开AMD两年之后,这几个人在2015年中重新聚到了一起。Feldman在Artisanal Podcast里描述那个起点很简单:我们在白板上写了两句话:想再次一起工作,想做一件重要的事,不是为了钱。
当时的AI,用他的话说,惨不忍睹。谷歌大脑研究员Quoc Le,斯坦福博士出身,后来参与了大规模语言模型的奠基性工作,而当时他最轰动的成果是用16000个CPU让神经网络自己从YouTube视频里学会了认猫,没有人告诉它什么是猫,它自己发现的。这已经是当时AI研究的最前沿了。手写数字识别是重大进展。整个行业看起来和改变世界毫无关系。
但就在这一年前后,有一次会面改变了他们的判断。Feldman和联合创始人与Sam Altman、Ilya Sutskever、Greg Brockman以及Scott Gray坐在一起谈话,这几个人后来共同创立了OpenAI。当时他们告诉Feldman,距离AGI(通用人工智能)只有几年,他们有一个计划,要造出超级智能。
他在20VC节目中回忆那一刻:你坐在那里,心里想的是:我根本没法理解这件事。
他说,真正的远见者和疯子非常接近。凡尔纳的《海底两万里》和《八十天环游地球》,这些科幻里的想象,最后都被现实低估了。这一次,他选择相信坐在他对面的那几个人是真正的远见者。
这次会面没有直接告诉他该造什么,但坚定了一件事:这个计算需求一定会来,而且会需要一种和现有GPU根本不同的东西。Feldman后来承认自己低估了市场规模,这是我第五家创业公司,第一次在市场规模上犯了严重的低估错误。
第一,AI计算需要大量移动数据。传统处理器的工作方式是数据进来,处理,出去,但AI不同,中间结果需要在节点之间不断传递,这种传输模式是传统架构的噩梦。
第二,推理的内存访问模式根本不同。生成每一个token,也就是AI回答里的每一个词,都需要密集读取内存。Feldman在20VC节目中给了一组具体数字:一个70亿参数的模型,算不上巨大,每个权重16位,生成一个词就需要从内存搬运约140GB的数据,然后生成下一个词再搬一次,再一次,再一次。这个过程对内存带宽的消耗是惊人的。(这组数字与Cerebras官方技术博客中的描述一致。)
想象一个玻璃杯是内存,里面装的可乐是数据,你的嘴巴是算力。你能喝到可乐的速度,取决于吸管的粗细。英伟达GPU的根本问题,就是吸管太细。我们的做法是,把吸管扔掉,直接把杯子举到嘴边倒。
解法是把芯片造得足够大,大到可以在芯片上放下足够多的SRAM。内存分两种,HBM是DRAM(动态随机存取存储器)的一个变体,容量大但读写慢;SRAM(静态随机存取存储器)读写极快,但容量小。Cerebras的方案是:芯片大到能放下44GB的SRAM,容量问题解决了,同时保留SRAM的速度优势。而且由于数据不需要频繁离开芯片,功耗也大幅降低。芯片上最耗电的部件之一就是IO,也就是数据进出芯片的通道。数据留在硅片内部,电就省了。
如果用传统尺寸的芯片装SRAM,要跑一个4000亿参数的模型做推理,可能需要4000块芯片;要跑DeepSeek的6710亿参数模型,可能需要6000到8000块。Feldman说,那是一场管理噩梦。用晶圆级芯片,同样的工作可以放在一块、两块或十块晶圆上完成。
他没有依靠讲故事说服投资人,而是把芯片行业最顶级的人找来,让他们自己判断。名单里有Andy Bechtolsheim,Sun Microsystems联合创始人、Arista Networks创始人,也是1998年第一个给谷歌写支票的人,那张10万美元的支票,后来价值数亿美元。这个级别的人告诉你这件事有意思,是一种完全不同的背书。
他在20VC节目中说:他们知道这个想法的威力。他们不确定我们能不能做到,但他们知道,如果做到了,意味着什么。
技术上,这不只是造一块大芯片的问题。Cerebras需要说服台积电(TSMC)修改光刻工艺的某些步骤,需要发明全新的封装技术,并且从一开始就决定做系统级产品,而不是一块插卡。Feldman说,七年后AMD以50亿美元收购ZT Systems,才开始走做整系统这条路,我们一开始就知道必须这么做。
把芯片做大,听起来简单。但这件事被反复尝试过,没有人成功。Gene Amdahl,Amdahl定律提出者,曾在IBM主持大型机设计,专门创立了一家叫Trilogy的公司来做这件事,失败了。IBM失败了。德州仪器失败了。NSA尝试过,也失败了。
2018年,马斯克曾试图收购Cerebras。Feldman后来在CNBC的采访中说,我们当时以为他是在Tesla的背景下谈这件事。收购没有成功。此后马斯克自己启动了Dojo项目,走同一条路,最终放弃。
晶圆的起点是一片12英寸直径的硅圆片。芯片是从这个圆片上切出来的,就像你妈妈用模具从饼干面团上切饼干一样,切完之后,把边角料掀掉,剩下的就是饼干,也就是芯片。但制造过程中必然会出现缺陷,这些缺陷的分布是随机的,就像你妈妈闭上眼睛,往面团上撒了一把M&M豆。饼干越大,砸到M&M的概率就越高。传统做法是:有缺陷的芯片,要么整块扔掉,要么关掉有问题的部分降级卖,行业术语叫binning。
Cerebras的突破在于,他们把处理器设计成了数十万块完全相同的小单元(tile)。哪块有缺陷,就关掉哪块,旁边预留了冗余单元,随时可以顶上。这个思路来自存储器制造,存储芯片的良率之所以极高,正是因为用了同样的冗余策略。他们把这个策略第一次移植到了处理器芯片上。
Feldman坦言,他们也失败了将近五年。市场没有说不,市场在问什么时候能拿到货。是我们自己做不出来。
他们在洛斯阿尔托斯租了一栋不适合做硬件研发的小楼,在墙上打洞装了冷却设备,开着窗户散热。每个月烧掉数百万美元,反复失败,反复做故障分析,反复重来。每次进董事会,汇报的都是:还没搞定,还没搞定。
投资人的耐心撑住了,原因是他们在评估工程方法论,而不只是看结果。Feldman说,他从未怀疑过团队的执行力,我怀疑的是我自己有没有把他们引向正确的方向。
2019年底到2020年初,系统第一次跑起来了。联合创始人们站在实验室里,对着显示器,谁都没有说话,沉默了半分钟。
他在Artisanal Podcast中说:在70年的计算机历史里,从冯·诺伊曼开始,这件事被无数人尝试过,没有一个人成功。我们做到了。那是我人生中最伟大的几分钟之一。
六七年之后,Cerebras的晶圆良率已经超过了英伟达同类产品(这一说法出自Feldman,尚无独立第三方验证),多个工厂并行运转。
Feldman在全球寻找正在做有意思的AI项目的机构。G42成为Cerebras商业化的核心支点,双方合作训练了阿拉伯语领域最领先的语言模型,还做了基因模型。这个合作带来了数亿美元的设备订单,G42一度占到Cerebras全年营收的87%,Cerebras在G42的项目中部署了数十exaflops的算力。
Feldman在Inside GITEX访谈中说,自己在G42的合作里学到了一种此前不具备的能力:怎么做战略合作伙伴。我们不是一到G42就知道怎么做伙伴的。这需要学习,需要犯错,需要反复磨合。和供应链的配合、制造产能的数倍增长、软件在超大规模集群上的打磨,这些都是和G42合作之后才锻炼出来的肌肉。现在我们可以把同样的能力复制给全球任何一家大客户。
单一客户占比过高,后来成了Cerebras IPO过程中投资者最关注的问题之一。Cerebras随后开始大力扩展客户基础,OpenAI正在成为新的核心。
2025年年中,Feldman谈到与OpenAI的关系时,还只是将其描述为战略伙伴。但后来发生的事情,让这段关系的分量完全不同。
2025年8月,Cerebras展示了OpenAI的开源模型在自己的芯片上运行效率优于传统GPU,两家公司随后开始谈判。2026年1月14日,OpenAI与Cerebras正式宣布多年期计算协议,Cerebras将通过自建和租赁数据中心的方式,向OpenAI提供高达750兆瓦的计算能力,合同期至2028年,协议规模超过100亿美元。这笔合同让此前G42占87%营收的集中度问题有了疏解的出口。
值得一提的是,OpenAI CEO Sam Altman本人就是Cerebras的早期投资人,而OpenAI早在2017年就评估过Cerebras的技术。这三件事放在一起,构成了一段持续将近十年的关系史。
2026年3月,AWS(亚马逊云)成为第一家采用Cerebras芯片的超大规模云服务商。AWS的做法颇为特别:在推理任务中,用自家的Trainium芯片处理理解用户输入这个环节,再交由Cerebras的CS-3芯片负责生成输出这个环节,两者通过高速网络连接,分工协作,据称推理速度是现有方案的5倍以上。服务将通过Amazon Bedrock在2026年下半年向开发者开放。
在20VC节目中被问到为什么要上市时,Feldman的回答很干脆。私募资金现在这么充裕,Anthropic和OpenAI都证明了公司可以在私有市场拿到原本只有上市公司才能拿到的估值。为什么不继续待在私有市场?
Feldman的回答是:他们有信息不对称的优势。我们有技术不对称的优势。竞争对手可以读你的S-1文件,看到你所有的财务数据,但Cerebras的技术壁垒是对手拿着财务数据也追不上的。同时他指出,美国大型企业在采购时,历来偏好和上市公司打交道,这是拿下真正的大客户的前提之一。
到2026年4月IPO申请提交时,Cerebras已经不是一家靠单一客户支撑的公司了。
他在20VC节目中说:2004到2014年,英伟达十年没什么动静,股价平得像一张纸。那个时候他还在扛着,这个人有多硬。那才是真正学习如何成为伟大CEO的时候,不是他们风光的时候,是他们困难的时候。
他把自己定位为职业David,五次创业,每次都选了一个比自己大几千倍的对手。当你赢下来的每一百万美元,都是本来会默认流进市场老大口袋里的钱,这种感觉是最好的回报。解释一下,David来自圣经里大卫与歌利亚的故事。歌利亚是巨人战士,全军都怕他,只有牧羊少年大卫拿着一把弹弓上去,一石头把他打倒了。所以,在商业语境里,David指小公司,Goliath指行业巨头。
但Feldman也拆解了英伟达的护城河构成,其中有些很真实,有些被高估了。
最常被提到的CUDA,Feldman的判断是:在推理领域,并不存在。你可以用10次按键从OpenAI的Nvidia GPU切换到Cerebras,再切到Fireworks,再切到Perplexity。任何一个真正用过AI的人都知道,在推理端没有CUDA锁定可言。他进一步解释,Google用TensorFlow、Meta用PyTorch,事实上已经完成了对CUDA的解耦。今天绝大多数AI代码用PyTorch写,理论上可以编译后跑在任何硬件上。编译器是一个复杂的工程挑战,但它是可以解决的。
这是Feldman作为挑战者的立场。黄仁勋在GTC 2026后接受Stratechery采访时则强调了另一面:CUDA已经20年,安装基础遍布每一朵云、每一家计算机公司。英伟达的护城河不只是编程语言本身,而是围绕它建立的整个软件生态。
真正构成护城河的,Feldman自己也承认,是另一些东西。市场份额领导者本身就是一条护城河,而且是很少被正确讨论的那种。他在20VC节目中举了Intel的例子:Intel之前曾经犯过多次错。结果呢?仍然占有x86市场75%到80%的份额。AMD花了十年才拿到25%到30%。你犯了十年的错,才丢了20%的份额。这就是市场领导地位的护城河有多深。
他承认英伟达的处境更强:所有人都在你的结构里学习、思考AI。你是默认选项,你是所有采购决策的起点。这些都是真实的壁垒。
那五年后的格局呢?他给了一个具体的数字预测:英伟达目前的市场份额接近100%,五年后会降到50%到60%。他认为英伟达在训练领域的优势很强,不会在推理市场上举白旗,但市场总量在膨胀,Cerebras和其他挑战者会切走一块。Feldman的这几期播客都在几个月前。如果按照GTC2026的信息,英伟达可以说在推理上下了非常大的功夫,而且喊出推理之王的口号。所以,市场变化,其实是瞬息万变的。
Feldman对长期竞争格局还有一个更广的判断:芯片公司的企业价值会超过模型公司。他用期权定价的逻辑来解释当下模型公司的高估值,不确定性大,方差大,期权价值就高。但长期来看,市场从投票机变成称重机(这是巴菲特的说法),估值会回归盈利能力。模型公司的领先周期可能只有几个月,你领先四个月,别人领先六个月,来回切换,很难形成持久价值。芯片公司的壁垒在物理层面,半导体行业历来产生过非常大的、持久的公司,苹果和英伟达之所以是地球上最值钱的公司之一,原因就在这里。
他在20VC节目中说了一句对做投资的人意味深长的话:要在硬件领域做投资,你需要像Eric Vishria(Benchmark合伙人,Cerebras的早期投资人)那种水平的判断力。
Feldman反复强调我们是独此一家,在晶圆级芯片这个方向上,Cerebras没有直接竞争对手。但在用非GPU架构做推理这个更大的命题下,赛道从来不缺参赛者。Cerebras提交S-1的春天,这条赛道上至少出现过六个值得关注的名字。
Groq是推理速度的标杆,它的LPU(Language Processing Unit,语言处理单元)也采用片上SRAM方案,和Cerebras在技术路线年圣诞夜,英伟达宣布以200亿美元与Groq达成技术授权协议,创始人Jonathan Ross和大部分核心工程师随即加入英伟达。2026年3月的GTC大会上,黄仁勋展示了Groq 3 LPU,第一块由英伟达发布的非GPU推理芯片,由三星4nm工艺制造,512MB片上SRAM,150TB/s内存带宽,作为Vera Rubin平台的专用解码加速器,预计2026年Q3出货。Groq在名义上仍是独立公司,由新任CEO Simon Edwards领导,GroqCloud推理服务继续运营,但核心技术和团队已被英伟达吸收。从挑战者到被收编,Groq的故事证明了Feldman的一个判断:英伟达开始用资产负债表而非技术来竞争。
Etched走了一条更极端的路。这家2022年由三位哈佛辍学生创立的公司,做的是Transformer专用ASIC,芯片硬件直接固化了Transformer的计算图,矩阵乘法、注意力机制、softmax全部烧进硅里,不支持任何其他架构的模型。他们的Sohu芯片宣称8卡服务器能在Llama 70B上跑出50万token/秒,是8卡H100的20倍以上。2026年1月完成5亿美元融资,Peter Thiel参投,估值50亿美元,累计融资已超6亿美元。但截至2026年3月,Sohu仍未向客户出货,所有性能数据均来自公司自身,没有独立第三方验证。更值得玩味的是,Etched的全部赌注押在Transformer永远是主流架构上,而Feldman 100%确信三到五年内Transformer的地位会动摇。如果Feldman是对的,Etched的芯片将在物理层面无法适配新架构。
SambaNova是另一家值得关注的选手。2017年创立于硅谷,创始人Rodrigo Liang,最新一代SN50芯片采用台积电3nm工艺和可重构数据流单元(RDU)架构,配备三层内存体系(SRAM+HBM+大容量存储),宣称推理性能是竞品的5倍、总拥有成本降至GPU方案的三分之一。2026年2月完成3.5亿美元E轮融资,Intel参投并达成多年合作协议,SoftBank将在日本率先部署SN50。Intel CEO Lip-Bu Tan自2017年起担任SambaNova董事长,此前曾以16亿美元洽购SambaNova未果,转而以投资和联合销售的方式绑定。SN50预计2026年下半年出货。
Positron AI则可能是这个赛道里增长速度最快的初创公司。2023年才成立,总部在内华达州里诺,全公司不到50人。第一代产品Atlas已经在出货,用美国本土制造的芯片,宣称推理延迟是H100的三分之一、功耗也是三分之一。2026年2月以超过10亿美元估值完成2.3亿美元B轮融资,投资方包括Jump Trading和卡塔尔主权基金QIA。下一代自研芯片Asimov计划2026年10月流片、2027年初量产,目标是每芯片2TB以上内存,直指视频推理和超长上下文这类内存密集型工作负载。SemiAnalysis创始人Dylan Patel评价其在内存扩展问题上采取了独特的方法。
Tenstorrent走的是另一条路。传奇芯片架构师Jim Keller(曾主持AMD Zen架构、苹果A4/A5处理器和特斯拉自动驾驶芯片设计)担任CEO,公司以RISC-V指令集和可授权IP为核心,2025年底完成8亿美元融资,估值32亿美元。它没有直接瞄准数据中心推理市场,而是做AI芯片的IP授权商,让三星、LG、现代这样的公司用Tenstorrent的Tensix AI核心和Ascalon RISC-V CPU核心设计自己的定制芯片。Keller自己的定位很明确:有大量市场是英伟达服务不好的。
还有一个名字,不过值得作为警示出现:Graphcore。这家英国公司曾是AI芯片赛道的明星,2020年估值一度接近28亿美元,投资方包括微软和红杉,其IPU(Intelligence Processing Unit)被视为GPU的有力替代。但它始终未能在商业上实现突破。2024年7月,SoftBank以约6亿美元将其收入囊中,不到巅峰估值的四分之一。
2025年初,DeepSeek发布的模型引发全球震动。Feldman谈过对DeepSeek的评价。没有恐慌,也没有轻视:那是专注的工程。他们对更好的兴趣大于对更新的兴趣。从发明角度看有点无聊,从工程角度看极为出色。
有人指责DeepSeek通过蒸馏窃取了OpenAI的成果。Feldman反问:蒸馏说白了就是提炼精华,你觉得提炼精华有错?VC每天干的就是这件事,读一百份材料,抓出最关键的三句话。如果你连提炼都不做,你什么也学不到。再说了,如果用别人模型的输出来训练算偷,那你用别人有版权的文章来训练,岂不是更算偷?你得一碗水端平。
他进一步指出,DeepSeek模型的开源影响力是前所未有的。我很少见到一个开源项目能在这么短的时间内对这个水平的技术社区产生这么大的冲击。通常开源软件的增长路径是从1万用户到10万,到100万,慢慢来。这个模型在业界的冲击是瞬间的、巨大的。
和DeepSeek的讨论自然引出了一个更底层的问题:当前的AI算法到底有多高效?Feldman说,GPU做推理时,利用率很低,多数算力在浪费。不过这个数字需要说明背景:Feldman指的是GPU在生成式推理任务中受限于内存带宽的情况,并非所有GPU工作负载。英伟达在GTC 2026上展示的Dynamo推理框架,正是为了提升GPU在实际推理部署中的利用率。他认为算法效率会持续提升,硬件的性价比也会持续改善,数据中心的PUE(能效比)也在下降,三者叠加,推理成本会大幅下降。
同时他给出了一个100%确定的预测:三到五年内,行业对Transformer的依赖会大幅降低。他不知道替代品是什么,可能是状态模型(state-based models),可能是其他形态,但他确信Transformer有明显的弱点,比如注意力头机制的二次方计算复杂度,人们在拼命想办法克服。Transformer目前是我们手里最好的工具,但它不会是终点。
他在20VC节目中用一个简单的类比来说明为什么当前的神经网络在计算上浪费极大:今天很多模型是全连接的,也就是每一层的每个元素和每个其他元素都连在一起。但实际上有用的连接只占其中一小部分,其余的连接不产生任何有价值的结果,但我们仍然在对它们做数学运算。就像你要学一样东西,有50本相关书籍,你可以全读,也可以只读最重要的3本,甚至只读3本的摘要。问题是一开始你不知道哪3本最重要,而稀疏化(sparsity)、Dropout以及混合专家模型(MoE)等技术,正在尝试解决这个选书的问题。
有人说AI的缩放定律已经到顶了?Feldman不同意。他认为高级机器学习研究者之间对此并没有太多分歧,算法改进的空间依然巨大。OpenAI的o1模型已经证明了推理缩放定律是完全有效的:在推理阶段投入更多计算,答案会更好。
在20VC节目中被问到推理市场究竟有多大时,Feldman给出了一个清晰的等式。
训练是制造AI,推理是使用AI。推理市场有多大 = 使用AI的人数 × 使用频率 × 单次使用的计算量。现在,这三个变量同时在增长。
他认为2024年第四季度是一个转折点。在那之前,AI基本上还是个新鲜玩意儿,ChatGPT不是技术突破,是用户界面的发明,它让更多人能够接触到AI,但大家拿它来玩,不知道线开始,AI变成了工作流。如果你的营销团队不是每人每天用几次大模型,他们就没在好好干活。这种转变不局限于硅谷的技术圈子,Feldman的父亲、他做医生的兄弟,普通人开始真正依赖AI。
五年后训练数据中合成数据和人类数据的比例呢?几乎全是合成的。他用飞行员训练做类比:飞行员大部分时间是在直飞,但训练价值最高的是极端场景,发动机爆了,暴风雪中的紧急降落。模拟器的价值,就是制造大量这种罕见场景的数据。自动驾驶也一样,直行数据我们已经有够了,关键是下雪天的无保护左转。你需要成千上万种变体。这就是合成数据的用武之地,用它来填补那些成本极高或根本无法自然收集的数据空白。
AI行业的能源消耗是一个无法回避的现实。Feldman在Inside GITEX访谈中对此的态度是先承认、再要求回报。
第一件事是承认这是一个高能耗产业。我们消耗大量电力。第二件事是,正因为如此,我们有义务交付足够大的价值。你花了这么多电,你最好用AI找到疾病的疗法,解决一批社会问题。这是一枚硬币的两面,你不能只要好处不要责任。
美国的情况比较特殊。Feldman认为电力总量并不缺,但分布完全不对,电力在尼亚加拉瀑布,但你想建数据中心的地方是光纤好的地方,而那些地方偏偏没有电。更麻烦的是,没有一个全国性的机制来绕过地方法规的阻碍。你想在硅谷建数据中心,得和市政府、既有利益群体一个个谈,这不是一个高效的基础设施决策方式。
一个有趣的现象是,早期的比特币相关公司反而成了AI数据中心建设的先行者。Feldman在20VC节目中提到了TeraWulf和Crusoe这些公司,它们一开始就在低成本电力附近建设大型计算设施,具备了功耗密集型计算的实战经验,现在成了千兆瓦级AI数据中心建设的领导者。这些人肯定不是游客,他们是真正懂数据中心建设的人。
Cerebras 750人的团队里,将近100人曾在他此前的公司工作过。有的人跟他已经三十年了,从上世纪90年代一起做硬件的人,一路跟到了今天的晶圆级芯片。
他在Artisanal Podcast里说:他们为什么留下来?因为有一笔交易,一笔清楚的交易:我帮你找有意思的工作,公平付你薪水,照顾你和你的家庭;你回报我的,是全力以赴。
有人问他,为什么不会像某些AI公司创始人那样,暗中操作、在员工前面先为自己捞好处?
这不是我的价值观。世界其实很简单,就问一个问题:如果我跟Shirley Feldman,也就是我妈,描述我做了这件事,她会为我感到骄傲吗?
这位连续五次创业的CEO也坦然谈自己犯过的错。他提到了一件让他印象深刻的判断失误:2016年,联合创始人兼首席系统架构师JP提出了水冷方案,当时没有其他公司这么做,Feldman拼命反对。一两年之后,Google宣布TPU采用水冷。再后来,英伟达也只卖水冷版本了。我大错特错,JP是对的。
他在20VC节目中说,如果你每天做大量决策,你一定会犯大量错误。你可以主动做错决定,也可以正确的决定。两种错我都犯过。我以为很好的人最后极为出色,我以为极为出色的人却聪明而无法收尾。如果你不准备经常犯错,就不应该坐在大量决策需要做出的位子上。
20VC主持人Harry Stebbings开了个玩笑:作为风险投资人,我从不犯错。
Feldman接话:作为风险投资人,你十次里错九次,只要对的那一次足够好,所有人就忘了你的平均成绩。CEO不一样,我们得大多数时候都对。
招聘这件事,他有一个具体的判断方式。面试最多能看出一个人是不是聪明,但聪明是必要条件,不是充分条件。真正重要的品质,比如抗压能力、协作意愿,很难在一两个小时内判断。他的方法之一是读邮件:给候选人写三封邮件,看他们怎么回。邮件写得紧凑、有条理、清晰简洁,他们的代码大概率也是这样写的。
他对年轻创业者的建议同样不绕弯子:爱上这份工作,找到你信任的人,瞄准真的能帮助某一群客户的事,钱会来的。有人说经验不重要,天真是一种优势?他不同意。如果你做的事涉及制造、供应链、管几百上千人跑一个工程进度,我不认为任何人会一脸认真地说我想要一个没有经验的领导者。说天真是优势的人通常是咨询公司,我们的人对你的行业没有偏见。得了吧,也许对你的行业有一点了解会有帮助。
在Artisanal Podcast中被问到他的独特洞见是什么,他没有给出什么宏观理论,而是说了三件具体的事:了解自己擅长什么,坦然接受自己不擅长的,不怕说我不知道。
在Inside GITEX访谈中被问到十年后Cerebras会达到什么位置,Feldman没有给一个估值数字,给的是三件他想看到的事。
第一,Cerebras的算力被用来找到至少一种影响每年超过100万人的疾病的疗法。
第三,相当比例的人口在不知不觉中使用着Cerebras提供的计算能力,就像今天你用手机不会想到里面的芯片是谁做的一样。
根本原因在于内存架构的差异。GPU使用的HBM读写慢,是推理过程中的根本瓶颈,每生成一个token,一个70亿参数模型需要搬运约140GB数据,频率极高,HBM跟不上。Cerebras的做法是造一块面积是英伟达GPU 56倍的巨型芯片,在芯片上集成44GB的SRAM,消除数据在芯片之间反复传输的损耗。同时,传统芯片因面积大而良率低的问题,Cerebras通过冗余瓷砖技术解决,芯片由数十万块完全相同的小单元组成,有缺陷的关掉,旁边的冗余单元顶上,这是存储器行业几十年的方法,第一次被用在处理器上。。
Feldman认为空间巨大。他100%确信三到五年内行业对Transformer的依赖会大幅降低,可能被状态模型或其他架构替代。当前很多神经网络是全连接的,每个元素和每个其他元素都有连接,其中大量连接毫无价值却仍在消耗算力。混合专家模型(MoE)、稀疏化等技术在尝试解决这个问题,但我们仍处于非常早期。他的判断是:数据、算力、算法三个维度都有巨大改进空间,说我们在所有支柱上都已经走得很远的人是错的。OpenAI开创的o1模型就证明了推理端的缩放定律完全有效,投入更多推理计算,答案确实更好。
电子邮箱: admin@youweb.com
热线电话: 400-123-4567
公司地址: 广东省广州市天河区某某工业区88号