Warning: sprintf(): Too few arguments in C:\wwwroot\www.xizhenhl.com\wp-content\themes\covernews\lib\breadcrumb-trail\inc\breadcrumbs.php on line 254

Kimi没有DeepSeek的命

本文来自微信公众号:阑夕,作者:阑夕,头图来自:AI生成

2024

或许你还记得,在并不遥远的2024 年,Kimi是中国AI当红炸子鸡:10亿美金融资、Kimi概念股多次涨停、200万字输入碾压GPT、激进的投流推广策略。

但他们当时获得的曝光度,远超自己的技术影响力。

事实上,那个200万字的模型,后来能用到的人微乎其微。后来了解到,那是个实验性模型,每次运行成本接近 3 位数,完全不具备大规模服务用户的可能性。

那时的技术圈,对 Kimi 是不屑一顾的。

但是靠着200万字的噱头,Kimi还是站住了“长文本”标签和用户心智。

2025

2025 年初,DeepSeek 横空出世,真正靠技术实力成为中国AI技术的代言人。

到了 2025年中,Kimi 已快一年没任何融资的消息。被“唱衰”成为主旋律,员工开始流失,业内基本给这个创业项目判了死刑。

如果你从2025年年中开始,闭关了 9 个月,到2026年3月看到新闻:

  • Kimi 最新估值 1200 亿;

  • Kimi 20 天收入超过去一年;

  • Kimi的模型被3500亿估值的最火AI编程工具Cursor套壳并实锤(你闭关了9个月,所以不知道最火的AI编程工具已经是 Claude Code了,Cursor已成老二)

  • Kimi新模型被承载了互联网20%流量、市值超过 5000 亿Cloudflare引入为主力模型;

  • Kimi新模型成为全球最大独立AI搜索应用Perplexity唯一引入的开源模型和中国模型;

  • Kimi新技术“注意力残差”开始改造深度学习架构10多年来的地基,并得到前OpenAI的联合创始人Andrej Karpathy、OpenAI推理模型之父 Jerry Tworek 以及马斯克称赞;

  • 杨植麟成为英伟达2026 GTC年度大会唯一受邀做演讲的全球独立大模型公司代表……

你很可能会惊掉下巴。

大家说“AI 一天,人间一年”,AI 领域 9 个月确实发生了很多事情。

但归根结底是一件事情,AI技术的范式发生了变化。这个变化最常见、最偷懒的概括是从 Chat 到 Agent。

对全世界的 3000万程序员来说,变化是,最受推崇的工具从Cursor 变成 Claude Code。

对总是率先拥抱新技术的 early adopter 来说,变化是更频繁地打开那个类似 DOS 系统的黑白命令行终端……

对AI公司来说,变化是大家陆续发现:更会聊天的模型,远不如会写代码和调用工具的模型有价值。

最酷的产品从ChatGPT变成Claude Code,最酷的创业公司也从 OpenAI 变成了 Anthropic。

回到 2025 年初的中国市场。

DeepSeek R1 因为复刻并开源了 OpenAI o1 的“深度思考”能力爆火,另一个“通用 Agent”产品 Manus 也横空出世……

彼时的中国AI公司,大多数在忙着复现 DeepSeek R1,推出能“深度思考”的新模型。少数公司意识到 Manus 背后的那个模型,才是更值得花资源“复现”的东西。或者意识到了,但没有分配到足够的资源,或找到方法。

Manus的一个很大的价值,就是可视化呈现了Claude模型的多轮工具调用能力。正如一位大模型公司的技术专家在自己的博客中写到,“绝大多数 Agent 产品,离了 Claude 以后,什么都不是。”

直到 2025年7月,中国第一个主打Agent能力的模型才悄然出现。7月11日,Kimi K2 发布,喊的是 Open Agentic Intelligence。这里显然藏着他们的野心:复现 Claude 模型的 Agent 能力,并开源出去。就像 DeepSeek R1 复现 OpenAI o1并开源出去。

发布 5 天后,7月16日,英国的 Nature 自然杂志发现了这个模型的价值,用“另一个DeepSeek时刻”来形容。

发布10天后,7月21日,Anthropic联合创始人Jack Clark在自己的博客中介绍了 K2,评价称:

在我看来,Kimi 是一款还不错的模型,落后美国最前沿几个月,延续了 DeepSeek 的轨迹。其编码和工具调用分数已足够高,我预计现实中会有人真正用它,因此观察其采用率能折射竞争力。

7 月底,杨植麟在播客专访中,解释了 K2 为什么没有先做“深度思考”,而是在 Agent 需要的编程和工具调用能力上发力。他用“缸中之脑”来形容主打深度思考的模型。对了,杨植麟这篇采访值得多看几遍,他讲了很多技术层面更本质的东西,比如编程和Agent的关系,思考和工具调用的关系。

因为 K2 和后续 K2 Thinking 模型的表现,Kimi 的融资在年底终于续上了,5 亿美金,IDG和几家老股东继续加持。

2026

2026 年春节前后,这个疯狂的大模型发布季,Kimi 是第一个交卷的选手。可能也是让同行们最难受的一个,因为 K2.5万亿参数、图片和视频的多模态理解能力,支持思考和非思考模式。其他创业公司同行发布的都是纯文本模型。有实力把多模态能力融入旗舰模型的,只有大厂的闭源模型。

3月16号,Kimi团队发布了Attention Residuals的技术论文,挑战已有 10 年历史的神经网络底层残差连接机制。OpenAI的联合创始人Andrej Karpathy锐评Kimi“让我们意识到根本没有把Attention is All You Need理解透彻”,要知道,Attention is All You Need就是开启大模型时代的圣杯,哪怕考虑到AI圈的通词膨胀,这个评价也是前所未有的高。据说,论文第一作者是一位仅 17岁的高中生,天才出少年,真是令人感慨。

3月17号,Kimi 模型继年初的 CES 2026 之后,在黄仁勋的 GTC 2026 主旨演讲中再度成为英伟达展示下一代芯片和推理性能的御用模型。

3月18号,作为英伟达的GTC年度大会唯一受邀的中国独立大模型公司代表,杨植麟的现场演讲全是干货,上来就把优化器、注意力机制、残差连接三大核心模块比作有8-11年历史的陈旧技术标准,是继续Scaling的障碍,用新的技术突破表明“每一项基础技术都值得重新思考”。

然后是这几天人尽皆知的“Cursor丑闻”,谁能想到,估值500亿美金的全球最大编程助手Cursor,重磅推出的新一代编程模型Composer 2——跑分超过Claude Opus 4.6——竟然是套的Kimi K2.5的壳⋯⋯

身为Token中介定位的Cursor之所以要发力“自研”,主要还是为了摆脱它对Anthropic和OpenAI的高度依赖,卡脖子这事儿可不分国界,Anthropic也真的曾经断供Windsurf这类编程工具,在既当裁判员又当运动员的环境下,Cursor希望独立自主的心情,完全可以理解。

只是能力和愿景之间的巨大鸿沟,让Cursor选择了抹掉来自Kimi的底座模型名字,靠代笔求融资,事情最后也算是体面收场,Cursor的联合创始人公开道歉,在技术报告中给除了选择 Kimi K2.5 作为底座模型的详细理由,而Kimi官方也回应表示,很高兴Cursor使用Kimi K2.5作为基座,双方通过推理服务商 Fireworks AI 做了技术授权。

根据小道消息, 2026 年春节前后,Kimi 陆续以投前 48 亿美元、60 亿美元、100亿美元的估值完成总额近 20 亿美元的融资,3月份开启的 180 亿美元轮次份额也要排队才能拿到。

这当然也受益于两个同行在港股的超常表现,但更重要的还是靠自己的 K2和后续的模型实际表现,包括前文题库的 Cursor、Cloudflare、Perplexity、黄仁勋、马斯克、马克·安德森、查马斯等不断发来的“金水”,以及K2.5发布后20天收入超过过去一年的财务表现。

一位 Kimi 的朋友在私下聊天里说,制约业务发展的只有算力,现在至少还有 10 倍的需求没有满足。有多少卡,就能有多少收入。据我跟另一个大厂工作的朋友了解,现在有些大厂在编程工具中接入的Kimi模型,甚至要通过预购才能拿到足够的额度。

这 9 个月,Kimi 算是完成了一次逆天改命。

DeepSeek V3不是一天炼成的。其背后的幻方量化基因,决定了他们从 2023 年起就走上了一条与硅谷截然不同的极致能效比之路。在 2023 到 2024 年的大部分时间里,他们游离于主流叙事之外,潜心自研 MLA(多头潜在注意力机制) 与 DeepSeekMoE 架构,试图在有限的算力下压榨出超越物理极限的性能。直到 2025 年成就自己,也给其他AI创业公司带来信心。

所有人都在期待 DeepSeek 的下一代模型继续惊艳全场,但媒体上三番五次的“狼来了”把戏只会消磨大家的注意力。技术突破,哪是那么容易的事情,我们完全有理由更有耐心地等待 DeepSeek 团队的下一个作品。

Kimi K2 也不是一天炼成的。他们实际上跟 DeepSeek R1同一天发布了无人问津的K1.5模型,被OpenAI官方认为是率先复现o1的两个公司之一。他们在被唱衰最厉害的2025年初发布了Moonlight系列小型MoE模型,用来验证下一代二阶优化器技术,并且最终应用到万亿的K2模型上。现在Muon已取代已经用了10年的标准技术Adam,成为Kimi、GLM-5、DeepSeek Engram在内的新模型都开始采用的新标准。

正所谓,“出来混,总要还的。”Kimi 在2024年提前享受了C位和曝光,2026年没再复现该属于自己的流量。

各有各的命。

作为两家几乎同时起步的创业公司,我佩服他们那种从来不认为市场格局已定、相信技术才是最大变量、敢于追逐AGI 的勇气和年轻生猛、战绩可查、永远相信细水长流的力量。

即使站在 2026年3月底这个时间节点看,2022年底开始的这场AI革命也才进行了3年半的时间,一切才刚刚开始。为什么下一个 OpenAI 和 Anthropic 不能是一家中国公司?


本文来自微信公众号:阑夕,作者:阑夕

#Kimi没有DeepSeek的命

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注