当10亿个AI一起模拟未来：李飞飞和Karpathy共同押注的新赛道

本文来自微信公众号：五源资本 5Y Capital ，作者：5Y Research，原文标题：《当10亿个AI一起模拟未来：李飞飞和Karpathy共同押注的新赛道｜5Y Research》

今天这篇研究，我们试着梳理一个我自己非常感兴趣、但仍在学习理解中的AI前沿方向——Multi-Agents模拟预测。

记得2023年“斯坦福小镇”那篇论文刚出来的时候，我专门去跟一作Joon Sung Park的导师Michael S.Bernstein请教过，他当时分享了不少令人印象深刻的发现。但苦于token太贵，成本高到只能当学术实验来做。

跟他聊完之后，我实在太着迷了，就自己亲手搭了一个模拟环境。当时用的是Meta出的一个3D仿真平台Habitat，设计了一个客厅场景——沙发、电视，给里面的角色设定了《老友记》里的人物背景，看他们会做什么。

我当时特别想验证的是：能不能用AI来模拟人性的drama？就是人与人之间那些情绪起伏、猜疑、试探——”我拿出一把刀，虽然也没动，但你已经想跑了”的那种人情推理。结果还真出现了一些有意思的事情，两个虚拟角色自己聊着聊着，还会主动去开电视，后来其中一个居然问另一个：”你觉不觉得我们像是被模拟出来的？”另一个说：”怎么可能。”那个瞬间我觉得特别魔幻。

当然，今天我们再看这个方向，”世界模拟器”要模拟的东西远比drama大得多——群体决策、信息传播、情绪扩散、社会涌现。但回到2023年那个时间点，那次小实验让我切身感受到：这件事是可以做的，AI确实能捕捉到人性中那些非理性的、微妙的部分。

在今天世界模型的版图里，其实缺了一块重要拼图：我们对具身场景的世界模型，已经投入了大量研究；在生物领域也有虚拟细胞，本质上也是那个层面的世界模型。但针对人类社会组织形态，它的“世界模型”是什么？

世界模型做的事情，其实一直没变过：预测一个系统，在受到扰动后，会怎么变化。放在强化学习的语境下，就是”roll out”——在模型里把未来展开很多次，看哪条路径的结果更好，再把好的经验蒸馏回来，变成最优实践。这件事在物理和生物领域已经开始发生了，但在社会科学层面，我们才刚刚起步。

这就是为什么今天Multi-Agent模拟预测，非常值得关注，它不只是一个更快的调研工具，它可能是我们第一次真正有机会，为人类社会建一个可以反复运行的“世界模型”。

我们对这个方向的理解还不够深，写这篇更多是把目前看到的线索做一次整理，也希望能抛砖引玉。今年我们看了不少AI前沿领域，会逐步写成研究分享出来。如果你对这些方向有更深的思考，非常欢迎来交流碰撞，我们随时在线。

当2024年美国大选中，特朗普遭遇刺杀未遂后，一家AI创业公司Aaru的系统里，一大批“虚拟AI选民”迅速倒向了他。

但几个小时后，随着枪手的更多信息浮出水面，许多虚拟选民又改变了主意，重回民主党。在这个系统里，没有电话民调员，也没有传统焦点小组，只有几千个被设定为“像真实选民一样思考和受信息影响”的AI agents，在一个虚拟世界里，实时经历着与我们相同的新闻周期，在30秒到1分半钟内，跑完一轮推演。

Aaru的赌注是，未来最有价值的预测，不再是费时费力地调研一群真人怎么想，而是先造出一个会变化、会传播、会彼此影响的“数字社会”，演练成千上万次，再看最高概率的结果，将走向哪里。

2026年初，Aaru完成了以10亿美元估值的A轮融资，客户包括麦当劳、安永、拜耳、新锐电影公司A24，安永的人说：”这是战略级武器。”

如今硅谷，正在流行一句话：模拟（Simulation）就是人工智能的下一个前沿。

除了Aaru这样的年轻激进派，另一条更具学术分量的路线，也在迅速成形：2023年搞出”斯坦福小镇”、脱胎于斯坦福大学计算机科学系的Simile，也拿到了1亿美元A轮融资，个人投资者名单上赫然写着两个名字：李飞飞和Andrej Karpathy。

Andrej Karpathy在评价Simile时说：预训练大语言模型的本质形态，就是一个在互联网上高度多样化人群的文本上，训练出来的”模拟引擎”——为什么只模拟一个”人”，而不尝试模拟一个群体？

Simile的目标，就是先精仿出，可以代表真实个体、再进一步彼此互动的AI agents，最终把企业调研、财报电话会预演、大选民调，乃至更大尺度的社会推演，都变成计算机可反复运行的实验。

这也是为什么，把眼下这波趋势只叫”AI预测”，已经有些不够了。更准确的说法，或许是Multi-Agents（多智能体）模拟预测。

站在一个乐观派投资人的角度，我们觉得这个赛道卖的甚至不是”预测”，而是”批发价的后悔药”。在真实世界里犯一次错，代价可能很高昂；而在数字世界里犯一千次错，成本可能只是一顿饭钱。如果这个逻辑成立，它改变的不是某个行业的效率，而是整个人类社会”试错”的经济学。

01、

AI预测的“进步曲线”，很像2018年DeepMind破解蛋白质结构

过去2年间，AI在预测方面的表现，发生了翻天覆地的变化。在预测领域，有一个叫Metaculus的国际预测锦标赛，这是一个全球预测赛事，参赛者需要对60个涵盖地缘政治、体育赛事、科技动向等等事件的走向，给出概率判断。

在2025年之前，还没有任何AI，能够在这类赛事上取得名次。但2025年变了，一家名叫Mantic的伦敦初创公司，将其AI预测引擎送上赛场，在超过500名参赛者中取得了第8名，这是AI历史上的最佳战绩。几个月后的秋季杯，Mantic的模型又升级了，名次也更进一步，拿下第4名。

这个进步曲线，让人想起当年DeepMind参加蛋白质结构预测比赛CASP的历史，从最初不起眼的参赛者，到逐渐取得压倒性优势。

并且，Mantic走的还不是Multi-Agents模拟路线。它的CEO Toby Shevlane（曾任Google DeepMind研究科学家），将其描述为一种”脚手架”架构：把多个大语言模型LLM集成编排成一支团队，每个模型各司其职：一个专攻选举数据，一个扫描天气信息，一个处理经济指标，最终协作生成综合预测。”这代表了AI预测中相对直接的一条路径：不模拟人群行为，而是直接让AI阅读和处理海量信息后，输出概率判断。

这意味着，随着基础大模型推理能力的提升，即便是”多LLM集成编排”这种相对直接的路径，也已经能在最顶级的人类预测竞赛中，取得惊人的进步。而比“LLM集成编排”，更前沿的新路线——Multi-Agents模拟预测，正在以更激进的方式发展。

以Simile和Aaru为代表的新公司，是一种方法论的转变：它们不再”计算”未来，而是”模拟”未来，通过构建由成千上万个AI agents组成的微型社会，赋予每个agent人格、记忆和行为逻辑，让它们在虚拟世界中自由交互、演化、博弈，再运行成千上万次“平行宇宙”，观察哪些结果以最高概率，涌现出来。

这个赛道的终极野心，是模拟整个人类社会。

02、

什么是Multi-Agents模拟预测？

要理解这个赛道，首先需要区分三种不同层次”理解未来”的方式。

第一种是传统预测模型：读取历史样本、提取特征、拟合关系、然后对未来做外推，也就是从过去的数据中，发现某种模式，然后向未来延伸。

从2022到2024年间AI预测赛道的第一波热潮，基本都建立在这个范式之上。它的优势是数学上清晰可解释，局限则是：信息维度有限，无法建模人与人之间的交互效应，且它的基本假设是，世界虽然复杂，但仍可以被较稳定地映射成一个结果函数。

第二种是预测市场：比如在2024年美国大选中，声名鹊起的Polymarket。预测市场用真金白银来定价未来事件的概率，参与者用自己的钱投票，由此汇聚的”群体智慧”，往往比单个专家更准确。

但预测市场需要足够的流动性和参与者，且只能回答”会不会发生”这种二元问题，很难回答”为什么”。

第三种，就是我们今天聚焦的Multi-Agents模拟预测。它要做的事情不太一样，它关心的不是单点映射，而是过程生成。

如果把一群带有偏好、记忆、人格、信息摄入路径和社会关系的agents，放进一个环境里，当有新闻、政策、价格变化、广告推广、竞品动作、甚至一场突发事件进入系统后，这些agents会如何反应？他们彼此之间如何传播？哪些情绪会扩散？哪些立场、阵营会形成？最后又会涌现出怎样的宏观结果？

这套思路的雏形，在2023年”斯坦福小镇”的论文里已经很清楚：研究者搭建了一个像素风的虚拟小镇，放入25个AI agents，让它们在其中生活、自发组织活动，所有社交行为都是自然涌现出来的。

“斯坦福小镇”的最初形态，来源：论文：Stanford University：Generative Agents-Interactive Simulacra of Human Behavior

在后续2年间，斯坦福团队进一步将这条路线推向”真实人类模拟”：从25个虚拟角色，扩展到了1052个真实个体的数字孪生。验证结果令人印象深刻，这些数字孪生在多项社会科学测试中，展现出了高度逼真的行为复现能力。

所以，这个赛道表面上看是在做预测，实质上更接近是在给社会建模：把”人怎么想”、”人会怎么选”、”人如何彼此影响”，从过去只能靠问卷、统计和专家判断的软变量，变成一个可以在机器里反复运行的系统。

Simile联合创始人、斯坦福教授Percy Liang，提供了一个理解这个新范式的精准框架。他认为，在AI发展的脉络中，我们已经经历了”预测时代”（训练通用模型来分类文本和图像），还有”推理时代”（让模型解决数学、编程等复杂多步骤问题）。

但现实世界中那些最棘手的问题——”如果我们的组织允许远程办公，生产力会怎样变化？”、”如果我们重新设计三年级数学课程，数百万学生会如何反应？”、”如果医生按照团队成果，而非个人表现来考核，会对医院产生什么影响？”

这些问题的答案，取决于许多人在时间推移中互动的涌现结果。要想回答这些问题，就需要让AI进入模拟时代——”如果当初做了不同选择，会发生什么？”

这是传统预测模型和预测市场都无法触及的维度。所以Polymarket是一种市场型预测，而Multi-Agents模拟预测，是生成型预测。

当然，二者并非不能融合。一个在未来很可能发生的情况是：Multi-Agents模拟预测，负责生成更细腻的机制洞察和条件分布，预测市场负责在真实资本约束下做最后校准。一个像”推演引擎”，一个像”结算引擎”。前者回答”在什么条件下会发生什么”，后者回答”市场最终把概率压到多少”。

不过，Multi-Agents模拟的概念，也并不新鲜，其实在学术界已讨论多年，为什么偏偏在2025、2026年开始升温？最关键的变量是算力成本。

3年前，百万级Agent模拟，还是纯学术幻想，成本高到离谱。今天LLM推理成本已经降了大约50倍，MIT AgentTorch用原型聚类实现了840万Agent模拟，每步成本才0.1-0.2美元。按现在这个成本下降速率，18个月后还会再掉一个数量级。所以我们判断这个赛道的锚点，不是”现在够不够成熟”，而是”成熟的速度有多快”，毕竟你今天觉得不靠谱的场景，明年可能就靠谱了。

对于未来的Multi-Agents模拟预测来说，说个不太严谨但很传神的类比：这东西本质上是一种全新的认知工具。以前人类理解未来，要么靠方程（天气预报、金融模型），要么靠问人（问卷、访谈、焦点小组）。方程处理不了人类的非理性和”传染性”，问人又捕捉不到群体互动产生的二阶效应，比如一条谣言是怎么从三个人变成三百万人的。

而它第一次提供了一种可能：让百万个”有记忆、有人格、会互动”的AI，在虚拟环境里自主演化，然后你站在上帝视角看结果。这已经不是对现有工具的升级，而是一个新品类，有点像望远镜之于天文学，显微镜之于生物学。当然，望远镜刚发明出来的时候，也被当成了好一阵子的”好奇心玩具”。

03、

市场有多大？赛道里都有谁？

如果只把这件事理解成“市场调研的AI替代品”，会低估它很多。

当然，有可能最先被打穿的，确实是市场调研行业。a16z在2025年的一篇研究中指出，全球市场调研行业，每年支出高达1400亿美元，而其中绝大部分都花在了传统方法上：耗时数月的问卷调查、昂贵的焦点小组、以及动辄数百万美元的咨询报告。传统人力密集型咨询巨头如Gartner和McKinsey，都属于这个市场。

用AI模拟，给了企业一条更快、更便宜的捷径。

我们研究了这个赛道30多家创业公司的模式，按照目标的从小到大，大致可以总结3个方向的分化：

数据生成：Claude Code

第一类是AI辅助调研。这类公司用AI来做访谈、调研，通过自动化流程增强原有调研方式，但没有直接用AI替代真实被访者。代表公司是Listen Labs，已完成超过100万次AI主持的真人访谈，2026年1月获得6900万美元B轮融资，估值5亿美元。类似方向的还有Outset、Strella、Conveo等。

第二类用AI合成受访者，用于样本扩充。AI的作用，主要是为了补充小样本和细分人群洞察，典型例子包括Fish.Dog、Evidenza、Synthetic Users、Fairgen等等。它们更接近”用AI补研究”，而不是”用AI模拟社会”。

比如Fish.Dog（原名Ditto），就将”可验证性”作为核心卖点，在一个演示中，它们的虚拟人不只知道”圣何塞人去Costco购物”，而是能说出”我去的是85号公路旁Blossom Hill的那家Costco，然后会顺路去Monterey公路上的墨西哥小超市买香菜，因为价格更好，收银员会自然地切换到西班牙语”，这些数据点都可以打开Google Maps交叉验证。合成调研的标准不应该是”听起来合理”，而应该是”可以被真实世界验证”。

谷歌卫星地图验证：位于圣何塞蒙特雷高速公路旁的加州市场内部，地点、细节与虚拟人物描述一致，这反击了对虚拟人物用于调研的常见批评——“它们不过是语言模型罢了，仅仅是基于训练数据，生成在统计学上看似合理的文本，但其实对现实世界一无所知，也无法提供任何超出普通GPT封装工具所能提供的信息。”；来源：FishDog

Evidenza的野心更大：不只替代问卷，而是用合成数据，去驱动从市场定位、预算分配、媒体组合等等的策略自动化。Evidenza的终极目标是运行数万种策略排列组合，最终输出财务价值最优的方案。

a16z判断的未来市场调研赛道；来源：a16z（2025）

第三类就是Multi-Agents Simulation（多智能体模拟），这也是最具野心的。这些公司试图用AI智能体完全替代真人受访者。

代表公司包括估值10亿美元的Aaru（用公共和私有数据生成智能体，强调速度和规模）、获1亿美元融资的Simile（基于真人深度访谈构建高保真数字孪生，强调精度和可验证性），以及Artificial Societies（构建了超过250万个AI虚拟人的数据库，每次模拟可部署300到5000个互联的虚拟社会，来观察信息传播动态，获YC和Point72 Ventures投资）、Keplar（用认知建模创建消费者数字孪生）、Subconscious（基于1.27亿合成受访者和8亿真实人口数据，训练出来的因果建模平台）等十余家公司。

但Multi-Agents模拟预测的潜在应用，远不止市场调研。数字营销与广告效果预测（全球数字广告市场超7000亿美元）、选举民调与政治咨询、企业战略决策与情景推演、金融市场情绪分析、政策模拟与公共管理等等。

特别是在国家安全与情报领域，AI预测也越来越引起关注。顶尖人类预测（比如兰德公司）的产出极其昂贵且缓慢，而一个可靠的AI预测器，可以同时追踪数百个问题、持续更新判断。前文提到的Mantic，目前主要场景就是国家安全与情报，主要靠G端付费（不过Mantic并不算Multi-Agents，而是多LLM集成编排）。

总之，任何需要理解和预测”人类集体行为”的场景，都是这个赛道的潜在市场，可以说是一整套”事前决策基础设施”。

当然，现在市场还充满分歧，最核心的就是一个根本性问题：虚拟人能否真正替代真人？Multi-Agents Simulation是最激进的押注；而另两类公司，则走了一条更渐进的路线，它们认为AI应该增强、而非取代人类的参与。

这场争论目前远未尘埃落定，但风投已经开始下注。

04、

两条路径：Simile与Aaru的深度解读

目前整个市场里，融资最猛、声量最大的两家公司，是Simile与Aaru，它们有很高的估值、或者有大牛坐镇。

虽然它们俩都属于Multi-Agents Simulation（多智能体模拟）这个最核心、也最具争议的方向，但代表了两条不同的技术路径，理解它们的差异，是理解整个赛道的关键：

4.1、Simile——”先深入理解个体，再构建群体”的学院派路线

Simile的故事要从2023年一篇轰动AI学界的论文说起。那一年，斯坦福大学博士生Joon Sung Park和导师Percy Liang、Michael Bernstein等人，发表了《Generative Agents:Interactive Simulacra of Human Behavior》的论文，也就是”斯坦福小镇”，在这个像素风的虚拟小镇中，放入了25个AI智能体，每个智能体被赋予一段背景故事，咖啡店老板、药房店员、大学生，然后研究者观察它们会做什么。

结果令人惊讶。当其中一个智能体被设定”想要举办一场情人节派对”后，其他智能体开始自发传递邀请、结识新朋友、互相邀约、并在正确的时间出现在正确的地点。没有人编程让它们这样做。所有社交行为都是从”记忆流-反思-规划”这一架构中自然涌现出来的。这篇论文获得了ACM UIST最佳论文奖，也成为AI智能体研究最具影响力的成果之一。

2024年11月，团队将这一架构，从25个虚拟角色，扩展到了1052个真实个体。他们招募了一个在年龄、性别、种族、地区、教育程度和政治倾向上，具有美国代表性的样本，每人接受了长达两小时的深度语音访谈，平均产生约6500词的访谈记录。

然后，这些记录被注入大语言模型，为每个人创建了一个”生成式智能体”——一个可以像那个人一样思考和回答问题的数字孪生。

验证结果令人印象深刻。在社会科学领域最广泛使用的通用社会调查（GSS）上，这些AI智能体，预测真人回答的归一化准确率达到了85%。而作为对照，真人自己两周后，重新回答同样的问题，自身一致性也不过81.25%。

在大五人格测试上，归一化相关性达到0.80。在五项经典社会科学实验的复制中，智能体与真人的实验效应量相关性，高达r=0.98。

更重要的是，基于深度访谈构建的智能体，在各维度上都显著优于仅基于人口统计描述或简短人设的智能体。前者的准确率，领先后两者14到15个百分点。这意味着：你越深入地理解一个人，你创建的数字孪生就越逼真。

从Simile公布的论文来看，它构建一个人（更时髦的说法：蒸馏一个人），基本上是四个视角：心理学家视角（人格、动机、自我决定需求）、行为经济学家视角（财务决策、风险偏好、生活满意度权衡）、政治学家视角（意识形态、政党认同，及其中的矛盾和混合性）、人口学家视角（职业、收入、家庭结构、社会流动性）。

而从数据丰富度上，有三层对比实验，证明了”理解越深，数字孪生越准”这个递进关系：

第一层：人口统计描述（最浅）：仅给出年龄、性别、种族、政治倾向。归一化准确率0.71。

第二层：人设描述（中等）：让参与者写一段自我介绍，包括个人背景、性格和人口统计信息。归一化准确率0.70。

第三层：深度访谈（最深）：2小时的半结构化访谈，采用American Voices Project的访谈脚本，涵盖：人生故事（童年、教育、家庭与关系、重大人生事件）、对当前社会议题的看法（种族、经济等）、社会/政治/个人价值观。归一化准确率0.85。

2026年2月，这支团队走出隐身状态，正式对外亮相。CEO Joon Sung Park，首席科学家Percy Liang（斯坦福计算机科学副教授，”基础模型”一词的提出者，斯坦福基础模型研究中心CRFM的创始人），CPO Michael Bernstein（斯坦福计算机科学副教授），加上负责商业化的CCO Lainie Yallen（Hebbia早期员工，曾帮助将其营收做到15倍增长）。

Simile的产品已经在多个场景中投入使用。比如CVS Health（美国最大的药妆店连锁企业），正在使用Simile构建数十万客户的模拟，用于测试新产品、新店面布局和新概念，CVS Health拥有9000多家门店，一个错误的货架决策成本巨大。

Gallup，这家历史悠久的民调机构，已经在与Simile合作，创建数字人副本，当真人受访者因为各种原因无法联系时，数字人副本可以作为替代。

还有一个神奇的用例是，Simile还可被用于上市公司的财报电话会模拟，你可以输入历次财报电话会的所有数据，并以此构建提问分析师的AI Agents，预测它们在下一次财报会上会问什么问题。Simile声称，平均可以预测到10个提问中的8个，并能模拟CEO和CFO在不同应对策略下的对话走向，企业可以在真正召开财报电话会之前，反复”排练”。

Joon在TBPN播客（最近TBPN被OpenAI收购了）中透露了一个有趣的细节：他自己在参加这次播客采访前，就用Simile模拟了主持人可能的提问方向，以便更好地准备话题。”你们中有几位在网上非常知名，”他说，”所以我们的确可以模拟出，你们的采访将会如何展开。”

这或许是”模拟无处不在”最生动的自证。

Joon Sung Park,co-founder and CEO of Simile；来源：TBPN

4.2、Aaru——速度与规模优先的”商业派”

如果说Simile走的是”先深入理解个体，再构建群体”的学院派路线，Aaru则选择了一条截然不同的道路：不做深度访谈，而是利用人口普查数据、心理特征数据、实时信息流，来快速生成AI Agents。

比如在美国大选民调场景下，Aaru的方法是这样的：使用人口普查数据，复刻不同选区的选民，再给每个智能体，分别赋予数百种人格特征，从个人抱负到家庭关系。再注入实时信息流，这些智能体可以持续”浏览”互联网，就像它们所复刻人类的媒体消费习惯一样，阅读什么报纸、看什么网站和电视台，这有时会导致它们改变偏好。

典型的一次调查，会向大约5000个AI受访者提问，耗时30秒到1.5分钟，成本不到传统人类调查的十分之一。

这种速度优势，在商业场景中极具吸引力。当气泡水品牌Spindrift需要评估苏打水、茶饮、能量饮料和冰沙等新品概念时，Aaru详细构建了目标人群：家庭年收入超过10万美元的25至35岁消费者，不到一周就选出了果茶作为最佳方向。

而Spindrift的传统消费者调研，得出同样结论花了两个月、涉及500人。Spindrift最终推出了一系列非碳酸冰茶新品。

安永也在尝试使用Aaru，来进行高净值客户调研。安永的项目，是要复现一项针对3600名高净值投资者、覆盖30多个市场、历时一年的全球财富研究报告。Aaru在一天之内完成，中位相关度超过90%。

更值得关注的是，在AI模拟与传统调研出现分歧的地方，AI模拟反而更准确地预测了真实行为，比如82%的家族继承人，在传统调研中声称会保留父母的财务顾问，而AI模拟预测的留存率是43%，但现实数据显示，实际留存率只有20%到30%。

人类有时在调研中会说谎，无论是有心的还是无心的，记忆失准，或是在社会压力下，扭曲真实想法。这也是最近几年美国大选中，传统民调机构屡次失败的核心原因，而这正是Aaru的核心价值。

Aaru的产品线已经很丰富，不只服务企业调研，而是拆成了Private、Public、Political Simulations三条线。用户可以配置不同的新闻、事件和信息世界，再去预测不同人群，在特定条件下会如何反应。Aaru的客户已经覆盖了一些财富500强公司、竞选机构和智库。

Aaru的三大产品线；来源：Aaru

如果Aaru的产品在未来能更加成熟，那应用边界就会天然外溢到数字营销、创意测试、产品概念验证、定价策略、客户流失预判、财富管理、财报电话会预演、政策推演、选举民调、议题传播、公关危机测试，甚至更广义的组织行为模拟。

这也是这个赛道真正想卖的：不是”一个更便宜的问卷调研工具”，而是”一个在决策之前，先跑一遍世界的模拟器”。

不过，Aaru目前还不够成功。在政治预测方面，Aaru在2024年美国大选中，公开测试了一轮。在纽约民主党初选中，预测的结果还算准确，但对川普还是哈里斯胜选的最终答案，依然预测错了，当然可能比民调机构的票数误差，要稍微少那么一点。

Aaru最新的虚拟调研：对美国不同政治派系，在”是否支持美国加入以色列对伊朗的战争”这一议题上的态度预测。来源：Aaru

4.3、两条路径的核心差异

Simile和Aaru的路径差异，是一个关于”什么数据才能让AI真正理解人类”的分歧。

Simile认为，你必须深入访谈真人、获取丰富的个体层面数据，才能创建足够逼真的数字孪生。斯坦福的实验在一定程度上证明，基于深度访谈的智能体，要优于仅基于人口统计和性格数据的智能体。

Aaru则认为，你不需要真人参与，行为结果数据和实时信息流，就足以校准模型，他们称之为”ground-truth training”，用真实世界中可测量的行为结果，而非人们自我报告的态度，来做锚点。

在采访中被问及护城河时，Simile联创的回答，揭示了Simile对自身差异化的理解：他们构建的不是超级理性的智能，而是模拟人类”非理性的那一半大脑”——价值观、偏好、品味。

大模型优化的方向，是让AI变得更聪明、更理性；Simile优化的方向是让AI更像人，包括人类的犹豫、矛盾和非理性。

我个人有个判断：现在这两条路径，3-5年后大概率会合流。道理很简单，宏观事件归根结底是无数个人决策的汇总涌现。Simile从”精确理解个体”切入，理论上完全可以往上延展到宏观推演；Aaru从”规模和速度”切入，迟早也需要理解驱动宏观结果的微观行为机制。差别只是从哪一端开始跑、谁先跑通，几年后它们很可能在同一个战场上正面撞上。

05、

护城河是什么？

虽然这个赛道的发展还很早期，但我们也很关心成功的要素会是什么，目前来看至少有四层。

第一层是数据壁垒。尤其对Simile而言，关键不是有多少公开文本，而是有没有经过授权、可持续更新、可做行为校准的深度访谈，也包括购买的二手数据、调研而来的一手数据、真实回应的历史数据等等。像CVS Health那种，有290万条回答、40多万真实人类许可的数据资产，就是别人短期内很难复制的护城河。

第二层是拟人精度。不是让agent”说”得像人，而是让它在问卷、权衡博弈、连续交互里，都能稳定复现真实个体的行为。Stanford那套1052人实验的意义，就是给”数字人到底如何才能像人”，建立一个可以检验的框架。

第三层是多智能体体系构建。让单个agent输出一段像人的文本并不算太难，真正难的是让上千上万agents，在同一个环境里长期运行，不爆内存、不跑偏、不因为小bug产生荒谬行为，同时又保有记忆、目标、约束和关系传播。

第四层是技术与产品的融合能力。这个领域要想成功，不能仅有研究突破，还需要知道怎么把产品化，如何让企业愿意采购。比如Simile反复强调自己的一个优势是，他们的团队同时在模型前沿和产品前沿，而更好的模型，直接意味着更好的结果。

这不是每个AI创业公司都能有的，Simile的团队，是由三位斯坦福AI前沿研究者，加一位商业化操盘手，以及著名的个人投资者李飞飞和Andrej Karpathy。对比之下，Aaru的组合是三个不到20岁的天才少年，加上知名民调专家Frank Luntz等行业顾问，代表了另一种”速度+商业直觉”的风格。两种模式谁能走得更远，现在还远未可知。

我们最关心的瓶颈，说实话不是技术，是验证闭环。这个赛道有个很别扭的特性：你要验证一个预测准不准，得等事情真的发生了才知道。这意味着反馈周期天然很长，数据飞轮转得很慢。更要命的是，这个方向真正的价值是预测”没发生过的事”，比如一项新政策出台后社会怎么反应、一个新产品上线后用户怎么选，而这些”没发生过的事”，你永远没法提前证明模拟是对的。所以谁先设计出更短的验证闭环，谁就拿到了这个赛道的领先武器。

06、

冷水时刻：这个赛道的问题与质疑

整体看好不意味着无视问题。事实上，围绕Multi-Agents模拟预测的质疑声音，同样强烈，这也是迷人的非共识之处。

6.1、选举预测的翻车——最刺眼的压力测试

2024年11月美国大选前，Aaru公开发布了对七个摇摆州的预测，总体预测哈里斯赢下密歇根、内华达、宾州、威斯康星四个关键州而胜选。但实际结果是川普横扫全部七个摇摆州，Aaru的预测大面积失准。

联合创始人Fink为此辩解，AI预测的结果比传统民调误差更低，当然这也是因为传统民调机构错的更离谱，但AI更快更便宜。

可口可乐开放式创新总监Ashlee Adams也坦承，业界对这个方法，能否比真人调研提供更准确的洞见，仍然存有疑虑。

当然这也许是2024年11月，模型技术本身还没有今天这么成熟，别忘了大模型迭代速度非常快。

在2024年美国大选前，有一篇论文主要用GPT-4o（基于多步推理框架V3 Pipeline），进行了美国大选预测，模型给出特朗普268票、哈里斯259票的结果。模型未纳入实时舆情和人口动态变化等因素，这构成了主要局限。虽然最终结果正确，但对特朗普最终的胜选幅度严重低估，并且对一些关键摇摆州预测偏差明显。总体来看，模型存在明显的偏向民主党的系统性偏差，论文也提到了GPT-4o存在自由派倾向，导致对共和党的支持率被系统性低估。来源：USC,Arima,CMU：Will Trump Win in 2024?Predicting the US Presidential Election viaMulti-step Reasoning with Large Language Models

6.2、对合成样本的系统性批判

对AI民调最尖锐、也最有实证支撑的批评，来自民调专家G.Elliott Morris。Morris与民调公司Verasight合作，进行了一项严格的基准测试：为1500名真实美国成年人，创建了一个”数字孪生”（基于性别、年龄、种族、教育程度、收入、居住州、意识形态和党派性），然后要求模型，像那个人一样回答同样的问题。

结果令人警醒。

在总体层面，大模型对川普支持率，和国会通用票选的预测，与真实人口比例的误差，在4到23个百分点之间。即使是表现最好的模型，也高估了川普的反对率。在人口亚群层面，误差进一步放大：关键群体如黑人受访者的误差，高达15个百分点，亚裔及太平洋岛民群体误差，达到惊人的30个百分点。

针对少数族裔的误差很大。来源：Your Polls On ChatGPT，By G.Elliott Morris and the Verasight data team

并且，真实受访者中，有近3%选择了”不知道”（这代表了约800万美国成年人），但AI模型几乎从未给出过这一回答。而人类的不确定性，也是政治态度的重要组成部分。Morris认为，AI之所以消除不确定性，是因为它从根本上，不是被训练来模仿人类大脑的，它是被训练预测文本序列中的下一个词。

所以Morris的结论是：你可以询问一个人对政治问题的感受，你不能对机器人这样做。

这里我想顺便说一个反直觉的事：在Agent模拟这件事上，小模型可能比大模型更好用。经过大量RLHF对齐的大模型，在模拟人类行为时会出现一种”模式坍塌”，也即所有Agent倾向于给出差不多的”正确”回答，把人类群体天然的多样性和非理性给抹平了。

有研究表明，2个真正有差异的Agent，效果能超过16个同质Agent。更小的、对齐程度更低的模型，反而更容易被不同的人物设定所塑造，产生更真实的行为分化。这暗示了一件对投资来说很重要的事：这条赛道的技术路线，和主流”追求更大更强模型”的方向也许是分叉的。它不需要最聪明的模型，它需要最多样的模型。也就是说，大模型公司不太可能顺手就把这事给做了，独立创业公司有自己的生存空间。

6.3、来自Simile团队自身的审慎警示

值得特别关注的是，即便是这个赛道中最具学术严谨性的团队，也在主动呼吁审慎。

Simile的研究者在论文中，明确指出了三类风险：决策者可能在模拟精度不足时错误信任结果；构建智能体所需的访谈数据高度敏感，泄露或篡改可能造成严重声誉伤害；以及模拟已故人员、知情同意管理、智能体被用于欺诈等一系列伦理灰色地带。

所以Simile不向公众开放其智能体库，仅提供受控的研究用API访问。他们还提出了为智能体库中，每个智能体建立审计日志的方案，让参与访谈的个人，可以看到其数字孪生在做什么，并在任何时候撤回授权。

Simile还直言不讳地建议，要”谨慎审视那些，过度声称AI当前预测能力的分析”。

此外，来自达特茅斯学院发表的论文，还提供了另一个令人不安的视角：AI可以大规模腐蚀公众意见调查。在2024年大选前的7次主要全国民调中，只需注入10到52个虚假AI回答，每个成本仅5美分，就有可能翻转民调预测结果。

这意味着一个讽刺性的悖论：用AI模拟取代人类调研，与AI污染人类调研，竟是同一枚硬币的两面。

07、

终局会走向哪里？

Aaru在其白皮书中写道：”两年内，我们将模拟整个地球——从乌克兰的农作物种植方式，到其如何影响伊拉克的石油生产、马六甲海峡的贸易，以及巴尔的摩市长选举。”

Simile CEO Joon Sung Park在采访中则更加直白：”如果我们能创建80亿人的模拟，也就是整个地球，那意味着什么？这就是我们正在走向的未来。”

Joon引用《黑客帝国》中The Oracle（预言先知）的那句话，或许最能捕捉这个赛道的哲学：”你来这里不是为了做决定——你已经做了决定。你来是为了理解这个决定，以及你为什么做了它。”

模拟的价值，不仅在于预测未来，更在于理解当下：创建可以追溯、验证的”社会运行日志”，让我们理解复杂系统为什么会走向某个结果。

当然，对于任何想入局的创业团队来说，我们觉得最该回答的问题不是”能不能模拟百万Agents”，而是”你到底在给谁解决什么问题”。

这个方向目前存在两条完全不同的方向：一种是严肃工具（政策模拟、舆情预测、企业决策辅助），另一种是体验产品（让普通人围观甚至参与Agent社会的演化）。两条路对团队的要求完全不同，混着做大概率两边都做不好。历史上看，真正有持久价值的往往是工具路线（从Bloomberg Terminal到Palantir），但它们的成熟周期都在十年以上。而体验路线容易出圈，但也容易速朽。

此外，在兴奋之余，一个结构性的鸿沟也就在眼前：目前所有的模拟，都建立在大语言模型之上，是在”文本层面”的人类行为模拟。

但人类社会还有大量物理层面的交互：空间移动、物质消耗、身体接触、环境约束。Joon本人也承认这一点：如果要创建整个世界的模拟，就需要”不仅建模人，还要建模环境和整个世界”。

这就需要”世界模型”（World Model）的重大突破，创建一个能够理解和模拟物理世界因果关系的AI。可是世界模型现在仍处于极早期阶段，各大实验室（从Meta的V-JEPA到Google的Genie）都在探索，但距离可用还很遥远。这意味着”模拟80亿人”的宏大愿景，在技术上还需要漫长的等待。

今天的Multi-Agents预测，或许更像是1990年代的互联网：底层技术在快速进步，商业需求真实存在，先行者已经开始赚钱，但距离实现它的终极承诺还很遥远。

这个赛道最大的机遇，不在于能否完美预测未来，而是在真实世界试错之前，先在数字世界中预演一千次。

而它最大的风险，也恰恰在于此：当我们越来越依赖”预演”来做决策时，我们是在更好地理解世界，还是在用一面精美的镜子取代了窗户？

#当10亿个AI一起模拟未来李飞飞和Karpathy共同押注的新赛道

当10亿个AI一起模拟未来：李飞飞和Karpathy共同押注的新赛道

不到半年涌入577亿元，“宁王轮”们抢麻了

好抓马，AI删光2.8万行代码，干崩后台，还编造了一份故障修复报告

一季报后股价创新低，资本市场为何不再看好小米？

发表回复取消回复

Online and off-line Wikipedia

Populære Casinospill Et Differensiert Guide igang Norske hva er verde casino Spillere

Key Features of the Triumph Casino Website

Innskuddsbonuser tower quest 5 Almisse mitt svar bestcasino tilbaketrekning Finn Casino Innskuddsbonus Her Magna Developments

Velg ett nytt casino i vår bh folkeautomaten Casino 10 aktivitetsplan

Online and off-line Wikipedia

Searching for the forgotten heroes of World War Two

‘Somebody threatened to burn the school down’

Trump-Putin: Your toolkit to help understand the story

Business booming for giant cargo planes

王毅分别会见阿联酋总统中国事务特使、日本国际贸易促进协会会长

联合国：袭击试图获取食物援助的加沙平民的行径“令人发指”

韩国总统李在明正式宣誓就职

俄侦查委员会：俄两座桥梁被炸系乌克兰所为

第五届“中菲相知奖”颁奖仪式在马尼拉成功举行

你感兴趣的其他新闻

Online and off-line Wikipedia

Populære Casinospill Et Differensiert Guide igang Norske hva er verde casino Spillere

Key Features of the Triumph Casino Website

Innskuddsbonuser tower quest 5 Almisse mitt svar bestcasino tilbaketrekning Finn Casino Innskuddsbonus Her Magna Developments

Velg ett nytt casino i vår bh folkeautomaten Casino 10 aktivitetsplan

最新文章

图库

阅读更多相关

发表回复 取消回复

你感兴趣的其他新闻

标签云

最新文章

图库

发表回复取消回复