【新智元导读】斯坦福「2026年AI指数报告」重磅出炉!这份432页长文含金量极高:中美AI巅峰对决,差距几乎抹平,缩减至仅2.7%。全球顶尖AI年产95个,基本都聚集在大厂。最残酷的是,22-25岁开发者的就业已被切掉20%。
它给出了一条核心结论:AI的本事涨得飞快;但人类衡量和管好它的能力,却没怎么跟上步伐。
中美AI模型性能差距已基本消失,双方在巅峰对决中频繁易主,目前Anthropic领先优势仅剩2.7%。
报告还指出,AI的进化不仅没有遭遇所谓的「瓶颈」,反而正以史无前例的速度狂飙。
过去一年,全球超90%的顶尖模型,在博士级科学问题、多模态推理、竞赛数学上的表现,追平甚至超Kaiyun体育官方网站 开云登录网站Kaiyun体育官方网站 开云登录网站越了人类。
特别是在代码能力上,SWE-bench的成绩在一年内,从60%飙升至近100%。
与此同时,AI抢饭碗这事儿已经从预测变成了现实,而且最先遭殃的就是当代年轻「打工人」。
全球AI算力3年涨30倍,英伟达独占60%,几乎所有芯片都出自一家台积电
斯坦福把2023年5月以来Arena榜单上的美国第一和中国第一,画在了同一张坐标系里。
更值得说的是过去一年的换位频率。从2025年初开始,两国头部模型已经在Arena上你来我往换了好几次位置。
2025年美国发布了50个「显著模型」,中国紧跟着也发布了30个顶尖大模型。
第一梯队里OpenAI、谷歌、阿里、Anthropic、xAI同台站位,全球TOP 5五五分账。
再往下看到TOP 10,中国机构和企业占了四席,阿里、DeepSeek、清华、字节。
再算上论文发表量、被引数、专利产出量、工业机器人装机量,中国统统全球第一。
去年发布的95个最具代表性的模型里,超过九成都来自产业界,不是学术机构,也不是政府实验室。
PhD级科学问答(GPQA Diamond)、竞赛数学(AIME)、多模态推理(MMMU)这些原本被认为「人类不可超越」的硬骨头,全部被前沿模型啃了下来。
这是一个专门被设计来「难倒AI、偏袒人类专家」的测试,题目由各个领域的顶尖专家提供。
机器人在实验室仿真环境(RLBench)里的操作成功率已经达到89.4%。但搬到真实家庭场景里完成洗碗、叠衣服这类家务,成功率立刻掉到12%。
研究者把这种现象命名为「锯齿前沿」(jagged frontier)。AI能力的分布是凹凸不平的,能拿数学奥赛金牌,却没法稳定地告诉你现在几点。
AI能在数学奥赛拿金牌,但只有一半的概率能看懂模拟时钟。AI在加速,但加速的不是同一个方向。
另外,在智能体任务中,OSWorld测试中,前沿AI实力(66.3%)正逼近人类基线。
然而,在专门评估科研逻辑的PaperArena测试中,最强AI加持的Agent,得分仅39%,只有博士生一半的功力。
AI Index给出的另一个数字是,全球企业AI采用率达到88%。九成的公司已经把AI接进了某个工作流。
2025年全球企业AI投资达到5817亿美元,同比增长130%。其中私募投资3447亿美元,同比增长127.5%。
国别上,美国一骑绝尘。2025年美国私募AI投资2859亿美元。并且一年新增1953家AI创业公司,也是排名第二的10倍以上。
AI能力曲线在加速,背后那条算力曲线年到现在,全球AI算力总量涨了30倍。过去三年里,每年都在翻三倍以上。
英伟达一家的GPU,占据了全世界AI算力的60%以上。亚马逊和谷歌靠自研芯片排在二三位,但加起来也远远追不上英伟达。
而几乎所有这些芯片,都来自一开云网址 kaiyun官方入口家代工厂,台积电。算力曲线越陡,命门就越窄。
全球AI数据中心的总功率已经达到29.6 GW,相当于纽约州在用电高峰时段的全部用电需求。xAI Grok 4一次训练的估算碳排放是72816吨二氧化碳当量,相当于17000辆汽车开一整年的尾气。
数据中心建在哪里,电从哪里来,芯片从哪里产,这三个问题已经变成今年所有AI公司CEO案头最头疼的事。
但渗透速度和国别相关性极强。新加坡61%,阿联酋54%,都跑在美国前面。美国在调查覆盖国家中只排第24位,渗透率28.3%。
报告里另一组数据显示,2025年全球58%的员工在工作中已经开始经常性使用AI。但在中国、印度、尼日利亚、阿联酋、沙特这5个国家,这个比例超过了80%。
AI Index估算,到2026年初,生成式AI工具每年给美国消费者创造1720亿美元的价值。从2025年到2026年,每个用户的中位数价值翻了三倍。
普通人愿意为AI付的钱,远低于AI给他们创造的价值。这中间的剪刀差是现在所有AI公司都在试图弥合的东西。
22到25岁的软件开发者群体,从2024年至今,就业人数下降了大约20%。
更让人担心的是企业问卷的结果。受访高管普遍预期,未来的裁员幅度会比过去几个月还要大。
第一份工作没了,整个职业阶梯就断了一格。这件事的长期影响,现在没人能算清。
自然科学、物理科学、生命科学领域的AI相关论文,2025年同比增长了26%到28%。
具体到应用,今年第一次有AI完整跑通了端到端的天气预报流程。从原始气象观测数据直接吐出温度、风速、湿度的最终预报,中间没有任何传统数值模型介入。
但同一份指数给医疗AI泼了一盆冷水。一份针对500多个临床AI研究的综述发现,将近一半的研究依赖考试题式的数据集,只有5%用了真实临床数据。
AI能减少医生敲键盘的时间,这件事是确定的。AI在真实病人身上的临床价值,目前还有大量问号。
美国有4/5的高中生和大学生现在用AI完成学校作业。但只有一半的中学有AI使用政策,只有6%的老师认为这些政策写得清楚。
最分裂的是美国。只有33%的美国人认为AI会让自己的工作变得更好,全球平均是40%。美国人对本国政府监管AI的信任度,是受访国家里最低的,31%。
研报引用的Pew和Ipsos数据,专家和公众在AI影响就业、医疗、经济这些维度上的观感差距,普遍超过30个百分点,最大的一项达到50个百分点。
模型能力的曲线在飞,算力曲线在飞,投资曲线在飞,采用率曲线在飞。其他全都在原地踏步或者向下。
如果你是这个行业里的人,现在该问的问题不是「未来会怎样」,而是「自己站在哪一条曲线上」。