持有英伟达八年|从护城河到推理竞争,再到我怎么思考Right Price
<![CDATA[
我是一个半退休人士,最近花了很多时间做英伟达的调研、构思和写作。一方面是我自己在持续思考护城河和推理竞争的问题,另一方面也是因为评论区不少球友问到了这些问题。
写东西注定众口难调,我只是把我自己思考的一小部分记录下来,肯定有很多不完整和描述不那么精确的地方。读者怎么理解也都合理。
这篇写得很长。觉得长文太长了可以直接关掉,希望能坚持看到最后的球友,能从中得到一些有价值的东西。
Token到底是成本还是收入?大部分人搞错了这个结构
我觉得理解英伟达竞争力的核心,要先想清楚一个底层问题。这个问题大部分人的认知框架就是错的。
Token到底是Cost还是Revenue?
现在几乎所有人都默认Token是Cost——推理成本越低越好,谁能把单位Token的价格压下来谁就赢。DeepSeek出来之后这个声音更大了。
但老黄早就在讲一个完全不同的模型。他在GTC 2026上把Token分成了不同的层次,从最低层的Free到最高层的Ultra、Premium。他给了一个CEO级别的公式:
Revenue = Tokens per Watt × Available Gigawatts
什么意思?未来很多公司本质上就是AI Factory——你也可以叫它Token Factory。你的数据中心,你的固定投入——电力、场地、基础设施——可能已经占了总成本的40%甚至更多。剩下的钱,你要决定买什么样的机器、什么样的算力。
这时候你就要想了:你是买那种虽然便宜、但产出的Token卖不出钱的算力?还是买能产出高质量、高价值Token的算力?
如果你把Token当Cost看,你当然要降成本,这毫无疑问。但如果你把Token当Revenue看,你关心的就不一样了——什么样的Token能给你带来收入?
我举几个例子帮大家感受一下。
Google Gemini的AI Mode,Chrome浏览器里直接问问题,它给你返回答案。Google问你收钱了吗?没有。因为这本质上就是搜索的延伸。它用最轻量级的模型,没有任何深度思考。你会发现速度很快,但你真用过就知道,给出来的答案质量很差。在老黄那个Spectrum里,这就是最底层的Free Tier。Google用自己的TPU做这种推理确实有优势——但这种Token你不会为它付费,Google也会尽量把成本压到最低。
这一层,Token确实就是Cost。
但换个场景。今天你用Claude Code做Coding——不管是Vibe Coding也好,Agent Coding也好——你愿意付费吗?我相信凡是真正在拿AI干活的人,巴不得你给他更多Token、更深的推理、更长的Context Window。因为这东西能帮他实实在在地减轻工作量、完成任务。
拿我自己来说,一般的Claude Pro订阅早就完全不能满足我了。5倍的Max也不行,因为它限制用量。只有到了更高的级别,才能基本覆盖我Coding和深度研究的需求。你想想,如果再往上加一层Ultra,给你更多的Token用量,Context Window更长、深度推理更强——本质上它就是一个月几百美金的程序员。一个月几百美金的程序员你要不要?你当然要。
这时候Token就变成Revenue了。
再说一个更前沿的例子。大家最近都在"养龙虾",都在玩OpenClaw。老黄在GTC 2026的时候讲了一个很重要的判断:我们已经从Inference Scaling(也就是Test Time Scaling)的时代,进入了Agentic Scaling的时代。
未来Agent对Token的消耗量会比现在大得多。但你肯定不希望你的"龙虾"来来回回只是做一些简单的搜索——你希望它能帮你完成实际的任务。要完成任务,你就得给它"喂养料",也就是生成高质量的Token。对于那些真的在用Agent做自动化任务的人来说,这东西能帮他们减少工作量、完成很多实际任务,付费意愿是非常强的。
以后很多人可能都会变成这种人。在不同的Spectrum上,你真正赚钱的就是后续高质量的Token输出——它为你带来的就是Revenue。
所以我今天想说的核心就是:先不要像大多数人那样默认Token是Cost。Token可以是Revenue。
当你理解了Token Cost和Token Revenue这两个模型的区别,很多事情就变得非常Make Sense了。
你的数据中心受能源限制——假如你有一个1GW的数据中心,能量是固定的,你肯定希望用单位能量去产生更多、更好的Token。确实有些方案比英伟达便宜,但如果Token质量不行,后续的维护成本、兼容性等问题你都不考虑吗?你肯定要考虑。
对于英伟达来说,逻辑就很清楚:如果这件事是以Revenue为导向的,你肯定希望你的Revenue Generator在有限的能量下,产出的Token质量越高越好、越能卖出好价钱越好,而不是一味地降低成本。
我觉得大部分人现在对AI的认知可能还停留在简单的问答或搜索阶段,对Token Revenue这个概念没有体感。这也正常。但只要你开始用Claude Code做Coding,只要你开始"养龙虾"跑Agent任务,只要你紧跟着前沿的AI工具在实际干活——你基本就回不去了。你就一定能理解我讲的Token Revenue是什么意思。
"加速计算"这个词,你真的理解了吗?
加速计算(Accelerated Computing)这个词大家听老黄讲了很多遍了。但大家到底真正理解它是什么意思吗?
我认为包括我自己在内,之前对这个词的理解都不够深入。我之前写过CUDA、写过Extreme Co-design,也分析过英伟达的三层护城河。但直到最近听了老黄和Lex Fridman的那期长采访,我才意识到——加速计算这个概念,不能从单一维度或者纯技术的角度去考虑。
它其实是一个非常有意思的、关于Balance的哲学问题。
你不能光去想"加速计算等于CUDA"或者"加速计算等于Extreme Co-design"——你要想的是这个词本身真正的含义,然后反过来推导:为什么要有CUDA的存在?为什么要有Extreme Co-design的存在?
把这两个字拆开看。
"加速"(Accelerate),意味着你必须非常专业化(Specialize)。你要加速一个计算任务,就必须针对特定算法做极致优化。就像CPU什么都能干,但什么都不是最快的。你要快,就需要专用硬件——比如网络芯片,它本质上就是处理网络任务的专用芯片,速度极快、能耗极低。这就是"加速"的含义。
"计算"(Computing),通常是通用的。计算无处不在,所以它的市场——TAM(Total Addressable Market)——天然就非常大。
这两个词单独看,其实是矛盾的。芯片行业60年来一直有这个根本性的trade-off:你要极致的加速,就得做专用芯片(ASIC),但TAM很小;你要通用性,就做CPU,但性能增长越来越慢。
老黄把"Accelerated"和"Computing"放在一起,本质上是在说:英伟达不在这条trade-off线上选一个点——他要把整条线往外推。
怎么推的?
用软件栈实现ASIC级别的加速,但保留通用计算的TAM。
你回头看CUDA为什么存在?它让GPU变成了可编程的加速器,任何开发者都可以写并行计算代码——这解决的是"Computing"的问题,保住通用性。
CUDA-X行业库为什么存在?老黄管这些库叫"皇冠明珠"——几十个针对不同领域深度优化的库,做深度学习的、做推理优化的、做基因组学的、做光刻的。这些库在各自领域的性能不亚于一颗专门做这件事的ASIC——但它是软件,跑在通用硬件上,不需要为每个领域造一颗新芯片。这解决的是"Accelerated"的问题。
再往下,Tensor Core、Transformer Engine这些嵌入在GPU里的专用加速单元——相当于在通用芯片里"嵌入ASIC"。硬件上做特定运算的加速,但整颗芯片仍然是通用可编程的。
而Extreme Co-design则是把这个Balance推到了系统级别——六块芯片从设计第一天就互相定义彼此的规格,从芯片到机架到数据中心作为一个整体来优化。它是在整个系统的维度上,同时追求Accelerated和Computing。
所以你看,CUDA也好、CUDA-X也好、Extreme Co-design也好,它们不是孤立的技术决策——它们全都是在服务同一个哲学:如何在"加速"和"通用"之间找到一个不断往外推的平衡点。
理解了这个,你就理解了为什么ASIC很难打赢英伟达。
ASIC做一件事做到极致,但只能做那一件事。更要命的是,AI模型架构大概每六个月变一次。一颗ASIC从设计到量产需要两到三年——等它出厂的那天,它优化的那个算法可能已经过时了好几代。英伟达的硬件是通用的,软件栈可以快速更新——当MoE架构出现时推出对应的通信优化,当Agentic AI出现时花200亿买Groq。
而且英伟达的研发成本摊在游戏、数据中心、汽车、边缘计算、机器人的巨大installed base上。一个ASIC公司的研发只能摊在单一应用上。经济结构上这就是不可逆的劣势。
唯一值得认真讨论的ASIC是Google TPU。但即便是TPU,也在被迫往"通用"方向演化——Google在做原生PyTorch后端,在开放给Anthropic和Meta等外部客户。因为纯ASIC的TAM太小,养不活持续的研发投入。TPU能活下来是因为背后有Google搜索和广告的利润在交叉补贴。没有这个现金流,任何纯ASIC公司都活不过两个产品周期。
英伟达的护城河是CUDA的Install Base
很多人问英伟达的护城河到底是什么。老黄在最近和Lex Fridman的采访里回答得很直接:英伟达最重要的资产是CUDA计算平台的Install Base。
注意他的用词——英伟达的护城河,是CUDA的Install Base。不是三个人让CUDA成功的,是43,000人用20年时间做到的。
他举了一个X86 CPU的例子。当年有很多计算架构,X86在技术上并不是最优的,也肯定不是最快的。但当时所有PC都用X86架构,所以它就变成了事实上的标准(de facto standard)。Install Base定义了架构,其他一切都是次要的。
今天CUDA就是AI时代的X86。
CUDA不是一个独立的软件——它已经嵌入到了几乎所有AI工具链的最底层。你今天用的主流AI框架、推理引擎、通信库、注意力优化,底层全都依赖CUDA。竞争对手要替代它,不是换一个软件的问题——是要把整个地基换掉,而上面已经盖了二十层楼。
作为后来的竞争者,你第一步必须兼容它。如果你想超越它,你还得从头建立整个生态——库、开发者、工具链——并且让大家装上就能用。
这个护城河是老黄花了至少20年建立起来的。
而且迁移成本不只是代码层面的。一家企业在CUDA上花了两年调优自己的推理管线——混合精度策略、批处理配置、缓存管理——这些经验换到别的平台上全部作废。迁移的真实成本不是改代码,是两年调优知识的归零。
CUDA现在已经到了13.2版本。它不是一个静态的锁定,而是一个持续进化的活平台。竞争对手不仅要追上今天的CUDA,还要追上CUDA明天的进化。
虽然我之前分析过,随着Claude Code这类工具的出现,代码层面的迁移可能会变得更容易。但即便如此——开发者已经非常熟悉CUDA了,CUDA又不收费,上面的应用生态有这么深,英伟达也不是站在原地不动。
假设某一天竞争对手利用AI Agent花半年到一年把所有东西都迁移完——so what?CUDA已经是标准了。你不兼容就是自建体系,那你得说服全世界的开发者放弃一个免费的、他们用了十几年的、持续在更新的标准,来用你的。这个难度大家可以自己体会一下。
推理竞争:三种形态,以及英伟达做了什么
理解了护城河之后,我们来看推理——这是目前市场上最热闹的竞争焦点。
推理其实已经分化成了三种形态,大部分人只看到了第一种。
形态A:简单推理。 用户问一个简单问题,模型跑一次前向传播,输出结果。高度可预测、适合批量处理。TPU做这种推理完全没问题,成本甚至更低。
形态B:深度推理(Test-time Compute)。 用户问复杂问题,模型需要"想"很多步。每一步的输出是下一步的输入,中间可能回溯、验证、搜索不同的推理路径。老黄说得很到位:"推理就是思考,而思考比阅读难得多。"这种工作负载消耗的算力可能是简单推理的10到100倍。
形态C:Agent推理。 Agent不仅要"想",还要"做"——调用工具、查数据、执行代码、跟别的Agent协作、管理长期记忆。
为什么说"推理可以用便宜芯片"这个观点已经过时了?因为形态B和C对专用芯片非常不友好。
深度推理的工作负载极度不均匀。专用芯片为均匀工作负载优化,在这种忽高忽低的异构计算场景下反而变成了瓶颈。GPU的架构天然就能动态分配算力到不同任务上。而且深度推理中的内存访问模式是不可预测的——模型在"想"的过程中自己决定要回看哪些上下文,这种随机访问跟专用芯片的流式数据通路是矛盾的。Agent推理就更复杂了——推理和工具调用之间不断来回切换,需要CPU和GPU之间非常紧密的协同,目前只有英伟达的体系能做到这一点。
市场正在从形态A向形态B和C快速迁移。这部分增量市场,恰恰是英伟达的主场。
英伟达自己做了几个关键动作来应对。
首先是推理分解(Inference Disaggregation)。把推理拆成不同的阶段来看。Prefill阶段——理解用户输入的上下文——需要大规模并行计算,GPU非常擅长。但Decode阶段——逐Token生成输出——是带宽受限的、要求低延迟的工作。GPU在这个阶段其实不是最优解。
所以老黄花了200亿美金收购了Groq。这是英伟达历史上最大的交易。Groq的创始人Jonathan Ross是前Google工程师,TPU的原始发明者之一。
Groq做的东西叫LPU,跟GPU走了一条完全不同的路。GPU用外挂的HBM做存储,Groq用的是片上SRAM——速度快很多,每颗芯片的内存带宽大约是英伟达Rubin GPU的7倍。整个机架的聚合带宽差距更大,大约25倍。在Decode阶段——也就是一个Token一个Token往外吐的那个过程——Groq的效率远远超过GPU。推理能效比GPU高大约10倍。
代价呢?SRAM快但贵且面积大,单颗LPU只有约500MB存储。跑大模型需要几百颗LPU。所以Groq自己独立做不了完整的推理——但跟GPU组合起来就是天作之合。
推理分解的实际工作流程是:用户发请求,Dynamo软件把Prefill阶段路由到Vera Rubin GPU做大规模并行计算,然后把Decode阶段切换到Groq LPU做极致带宽的逐Token生成。深度推理中会多次在GPU和LPU之间来回切换。
结果是GPU+LPU组合实现了比单独用上一代方案高35倍的tokens per watt。
老黄把Groq作为Extreme Co-design体系的一部分,集成到了Vera Rubin的整个系统里。Vera Rubin有不同的配置,Groq在Vera Rubin Ultra里面扮演了非常重要的角色。老黄说了,即使你现在的配置没有Groq,未来他会建议所有数据中心加25%的Groq。
我觉得这次200亿美金的收购太划算了。跟当年69亿买Mellanox是一样的逻辑,也跟当年想买但监管没批的ARM交易是一样的——老黄战略收购的眼光非常准。200亿对英伟达来说,真的算买便宜了。这个deal未来我觉得至少是千亿美金级别的价值。
而且Groq还有一个被大多数人忽视的供应链价值:LPU不用HBM,用的是SRAM。现在HBM供应紧张,Groq芯片甚至可以在老工艺节点上生产,不争抢TSMC先进产能。这给英伟达在供应链上多了一条腿。
有一个点值得特别说一下。TPU跟GPU在同一个维度上竞争——谁做矩阵乘法更便宜。而Groq在一个完全不同的维度上竞争——谁把数据搬得更快。英伟达把Groq收进来之后,同时覆盖了两个维度。这件事情结合推理分解来看,就非常Make Sense了。
Right Price:每个人的定义都不一样
好了,护城河和推理竞争的分析先到这里。接下来说说我最纠结、球友们也最关心的问题——Right Price。
我觉得每个人对Right Price的定义是不一样的。它的核心是基于你对这个生意的了解程度,以及你对英伟达这家公司的了解程度。这是很主观的事情。
但有一点我想先说清楚,是之前交了不少学费才领悟到的:
一个好公司,不代表它就是一个好的投资标的。一个不是那么牛的公司,也不代表它没有投资价值。
这句话大家可以仔细品一品。
我知道球友们肯定希望我给一个具体的数字——什么价钱我觉得贵,什么价钱觉得便宜。说实话这真的挺主观的。大家可以参考一下大道(段永平)的操作——我和大道同时在英伟达190美金附近做了类似的操作。但我们的操作本质是不一样的,这点要提醒大家注意。不过至少有一点是一致的:我们都认为190美金的英伟达不便宜。
什么情况下我会考虑进一步减仓?说实话我也在想要不要像大道那样通过期权来操作。但段永平的作业没那么好抄。虽然他解释得已经非常清楚了——我非常感激大道——但我总觉得自己还没有完全想明白。既然没想明白,我就暂时先不动。我也算是一个满仓主义者,英伟达先放着。
但我觉得核心问题其实不在英伟达本身。
我之前写过一篇关于苹果的文章。Steve Jobs时代的苹果——战略很牛,产品很强,一切都很好。结果互联网泡沫来的时候,苹果股价暴跌60%到70%,甚至跌破它账上的现金。
宏观环境发生剧烈变化的时候,是泥沙俱下的。英伟达当然是现在地球上最牛的公司之一,但再怎么牛也要受宏观的影响。宏观对单个公司的作用力,比公司自身的基本面更大。
现在全球经济的宏观环境挺脆弱的——美国的利率、政治动荡、滞胀的可能性。无论从周期还是结构的角度看,都到了一个非常敏感的时间点。在这个时间点上,大家愿意为英伟达未来可能达到10万亿美金市值、3万亿营收的梦想付多少钱?这是要认真掂量的。
现在的宏观环境和美国1970年代石油危机时期有些相似。那时候有一批Nifty Fifty股票,IBM就是其中之一——大家都觉得它改变世界、改变人类。后来怎么样?2000年互联网泡沫时的思科也可以对比一下。
因为我刚好做过VC,也看过一些一级市场的AI deal,也看到现在AI初创企业一级市场融资新闻,估值及融资金额让我想到之前某某行业疯狂的时候。之前我也讲过前两年有公司做ASIC芯片,速度很快,觉得可以挑战或成为下一个英伟达,投资人给了非常高的估值和投了不少钱。Groq当然没问题最后被英伟达收购了,然后别的项目呢?大部分一级市场的项目可能因为大公司的一个产品功能就被团灭了。
当然所有人都会说this time is different。尤其是你对AI有信仰的话,你总觉得这次不一样。但Howard Marks(Oaktree Capital)讲得好:历史不会简单重复,但历史会押韵。
只要市场情绪对英伟达过于看好,我觉得其实就到了该适度减仓的时候。当我认为宏观环境和资本市场到了一个我没法承受的风险点时,也会考虑做一部分减仓。但确实像大道说的,好公司太难找了,太少太少了。所以我也跟大道继续学习,看怎么能更好地持有英伟达,而不是直接卖出。
能不能拿住英伟达,本质上是你对自己的了解
最后说两句心里话。
如果你持有英伟达让你睡不着觉,或者像之前有球友问我"你是不是不看好英伟达了""你今天还看好吗明天还看好吗"——有这种困扰的话,你真的要想一想,英伟达到底适不适合你。
我也花了很久才搞懂英伟达。买入之后也经历过下跌,刚开始肯定不好受。但越想就越觉得,我对英伟达确实比大部分人了解得深一点,而别的公司我也没怎么看懂,那就放着吧。后来慢慢地,这些数字的波动对我的影响就越来越小了。
但我的这个心态不适合所有人。像大道讲的,我们要理性、想长远。怎么做到理性?怎么做到想长远?这都是需要修炼的。我总觉得所有人都要有这么一个过程。
如果你每天过于关注账上那串上蹿下跳的数字,说明你对这家公司的商业模式、对黄仁勋这个人、对企业文化的理解还不够深。当你真正理解了,这些数字对你的影响自然就少了。如果理解了还有影响,可能说明你确实不太适合持有英伟达。
这也没关系。英伟达在所有公司里面,好像是唯一一个纯粹"卖技术"的——它没有面向消费者的产品,一般人很难理解这家公司。像茅台这种看得见、摸得着的,甚至是银行存款,可能对你更合适。
我在评论区跟一个球友说过,有计算机背景确实对理解英伟达有一点点优势。但有计算机背景不代表你就是一个好的投资人。
作为一个技术型投资人,我自己因为太懂技术,过去犯的错还少吗?交的学费还少吗?投资虽然跟你的知识背景有一定关系,但说实话,没那么大关系。
反而是,如果你自己创过业,知道创业有多难,那你对理解一家公司会有好处。或者你真的管过钱,尤其是管过大钱,那你对投资这件事的理解可能会更深一点。
但如果你既没有创业经历,也没有管过钱,那对Right Business、Right People、Right Price这些东西的理解,确实更有难度。不过话说回来,做过创业或管过大钱的也不代表就是好投资人,绝对不是。投资这件事,真正优秀的企业家或好的投资人其实都是极少的,都需要经历很多修炼。真的很难。
拿我自己来说。技术出身,干到软件架构师,然后转去做投资——在加拿大养老基金做过专业的机构投资,也在VC干过,还有过一些创业经历。你可能会觉得我干了这么多事情不够专注。但反过来说,恰恰是这些不同的经历才让我慢慢找到了感觉——什么是Right Business,什么是Right People,什么是Right Price。
这些感觉不是Day One就有的,是一点一点磨出来的。
就像段永平讲的,他过去在小霸王和步步高的创业经历,对他后来做投资有很大帮助。尤其是那些没办法量化的事情——判断一个人靠不靠谱、一个商业模式好不好、这家公司的文化是什么样的——这些东西没有公式,你必须要有自己的感觉。我是干了这么多不同的事情才找到这些感觉的,不是读几本书就能有的。
大道的很多智慧,说实话理解起来是有难度的。尽管他已经讲得非常简单了——但简单不代表容易。简单绝对不代表容易。往往最简单的,反而是最不容易的。
所以我为什么写这么长的文章?可能在大道眼里,两句话也就总结了。但我还是希望能在投资中作为大家的Thinking Partner,帮大家去分析、解读,看得更清楚一些。如果能帮大家减少一些错误的决策,或者做更多正确的决策,我的目的就达到了。
也不仅仅是因为英伟达本身。我想通过一个大家能理解的视角,来拆解一些原本门槛很高的东西。这也是我写东西的初心。
其实我最近一直在想一个问题:苹果的护城河和英伟达的护城河,到底有什么本质上的不同?两家公司的商业模式差异在哪里?尤其是AI时代来了之后,这两家公司各自会受到什么样的影响?我觉得这个对比非常有意思,也会帮大家更深刻地理解"什么是好生意"这个问题。这个话题太大了,之后有时间再写。
@今日话题 @雪球创作者中心
#英伟达# #美股# #大道无型我有型#
利益相关声明: 本人持有$英伟达(NVDA)$ 八年。以上所有分析均为本人基于公开信息和个人研究做出的判断,不构成任何投资建议。投资有风险,盈亏自负。
版权与原创声明: 本文为原创内容,版权归作者所有。未经授权,禁止转载、摘编、改编或用于任何商业用途。如需转载请联系作者获得授权,并注明出处。近期我已在其他平台发现未经授权的搬运、歪曲解读甚至直接抄袭。你看长文不容易,我写长文更不容易,请尊重原创。
本话题在雪球有30条讨论,点击查看。
雪球是一个投资者的社交网络,聪明的投资者都在这里。
点击下载雪球手机客户端 http://xueqiu.com/xz]]>
#持有英伟达八年从护城河到推理竞争再到我怎么思考Right #Price