https://thomwolf.substack.com/p/what-jobs-are-made-of
工作的本质 ---- 断定力、主体性,以及 AI 评测指标的局限性
Thomas Wolf 2025年12月22日
十五年前,也就是 2010 年的冬天,我正处于博士阶段的最后冲刺期,开端摸索学术界以外的世界。我记得在一个创记载严寒的巴黎冬日,参加完一场研发岗亭的面试后乘车返回。到处都是积雪,我坐在严寒的区域通勤火车上,认为既掉望又有些困惑。
我熟悉该行业研发团队应用的大年夜部分对象,并有信念能轻松学会剩下的部分。然而,这似乎并不敷,面试官一向告诉我,他们正在寻找“更有经验”的人。
当时,我并不真正懂得这句话的含义。比拟我能展示的具体常识,他们更看重工作年限,这让我认为极端不公。在我二十出头的时刻,“经验”听起来更像是一个模糊的饰辞,用来拒绝像我如许既有明白才能又欲望进修的申请者。
这种久违的感到比来又回来困扰我了。
看到近期关于初级岗亭雇用萎缩的数据(尤其是软件开辟范畴),我不禁想起了昔时的本身。
斯坦福大年夜学在 2025 年夏季进行的一项分析显示,在 AI 裸露程度最高的职业中,22-25 岁的员工就业人数在 2022 岁尾至 2025 年中期降低了约 6%。而在同一时代,这些职业中资深员工的就业人数却增长了约 6-9%。

🌟履行力或技巧技能:精确完成义务、控制相干对象和办法的才能。
在这个图表上,转折点清楚可见。

从很多技巧指标来看,AI 的才能和普及率都以惊人的速度增长,往往预示着它已达到行业专家或人类专家的程度。
然而,尽管拿了奖牌、尽管初级雇用在降低,宏不雅经济的表示却显得平淡得多。
在全球和行业层面,AI 的影响依然有限,对 GDP 的拉动感化微乎其微。近期有说法称,在那些光鲜的通知布告背后,很多(假如不是大年夜多半)生成式 AI 的试点项目都未能为公司产生持续的价值⁷。此外,在一些模仿真实情况的测试中——例如评估 AI Agent 在真实兼职项目上表示的“长途劳动指数”(Remote Labor Index),即使是今朝最强大年夜的体系(如 ManusAI),成功率也仅为 2.5% 阁下。
模型在评测指标上展示的才能,似乎很难与组织内部正在产生的情况相调和。
对于这种“理论与实践”之间的差距,平日有几种解释:一种是组织惯性,大年夜公司反响慢,遗留体系纷乱,安排艰苦;另一种可能性是,我们还没跨过精确的才能阈值。也许在与人类智能比拟的 AGI 定义和量化测验测验中,拿到接近 60% 的分数照样不敷的。
这些身分可能都发挥了感化。但它们往往偏向于将“工作”仅仅视为一种“义务履行”。
这种定义在我看来是不完全的。在实践中,一份工作很少只是待履行义务的列表,一个同事也极少能被简化为一捆技巧技能的集合。
作为一名始创公司开创人,我有近 50% 的时光花在公司不合阶段的雇用上,这可能是我人生中教训最深的部分。个中一个教训是:在面对大年夜多半申请者和岗亭时,我偏向于寻找三种品德的结合:
🌟常识或断定力:懂得义务为什么重要,以及义务若何适应更广泛的目标、公司价值不雅、文化和偏向。
🌟主体性(Agency)或咀嚼:预判下一步该做什么,该提议什么,不该做什么,什么时刻改变偏向;有时,懂得为什么彻底停止义务才是最佳决定计划。

履行力和技巧常识在评测指标中相对轻易不雅察、测试和衡量。一旦给定义务,核心就是解决它。
断定力和主体性则极难评估。它们往往在非稳态或非衡平的情况下才浮现价值——当问题定义不明白、优先级产生转移,或者精确的做法是质疑义务本身时。这平日是优良的团队成员开端脱颖而出的处所,也日益成为当今企业所处的常态。
经由过程这个视角,我终于懂得了我 2010 年的那排场试。
在以前的三年里,AI 评测指标(Benchmarks)的进步令人赞叹。像 Claude Opus 4.5 如许的模型如今能在 SWE-bench上解决约 75% 的真实世界编程义务;Gemini 3 和 GPT 5 在科学奥林匹克比赛中达到了金牌程度⁴。与此同时,ChatGPT 的周活泼用户已接近 10 亿⁵。
我的面试官不仅在评估我是否会应用他们的对象和办法,他们还在隐性地评估:一旦问题不再被清楚定义时,我会若何表示。
这种对“劳动者”的定义,说清楚明了为什么初级职位起首受到冲击。职业生活早期的角色传统上更侧重于履行。跟着时光的推移,跟着人们经验的增长,他们的供献往往会转向断定力和主体性:定义问题、选择工作内容以及应对模糊性。
AI 体系在“履行”方面的进步远快于其他维度。成果是,履行层的成本变得更低、更薄,从而不成比例地影响了初级岗亭的雇用。
从经久来看,这是令人担心的。断定力和主体性部分源于禀赋,但更多时刻是在履行密集型的工作经验中习得的。假如入门层流掉太快,将会减弱产生将来资深人才的培养管道。
无论是因为相干性照样因果关系,2022 年秋季标记住 ChatGPT 的宣布——那是"大众,"发明 AI 模型真实才能的时刻,也是 AI 机能比赛真正点燃的时刻。这场比赛最初由 OpenAI 和 Anthropic 驱动,随后 Google 以及 xAI、阿里巴巴 (Qwen)、DeepSeek、Mistral 等越来越多的公司也参加了第一梯队。
同样的框架也有助于懂得为什么 AI 的经济影响依然有限,以及主动化更长周期、更广泛义务所面对的挑衅。

AI 才能的限制身分平日不是孤立生成文本或代码的才能,而是难以兼顾大年夜局:将指令适应公司/团队范围的语境、解读模糊的需求、分列优先级、进行基于常识的衡量,以及决定什么才是重要的,甚至决定何时停止义务。
履行力显然很重要。但它几乎从来不是工作的全部。或者,正如 Cursor 的 Ryo Lu 比来写的,履行并不是我们曾经认为的工作中最重要的部分:
----Ryo Lu (@ ryolu_ ) 传统的团队扩大方法已经由时了:
----我们以前习惯于聘请专家——设计师、工程师、产品经理——各司其职,经由过程增长人手来扩大年夜范围。但当 Cursor 能让你在几分钟内将设法主意变成代码时,履行力就不再是瓶颈了。咀嚼和断定力才是。
挑衅在于,断定力和主体性要难衡量得多。平日,它们只有在更广泛的、非静态的背景下才有意义,这说清楚明了为什么它们在评测指标中受到的存眷较少。
然而,它们平日是一个员工在组织中创造价值的核心。假如我们想真正懂得 AI 的经济潜力,我们最终须要超出技巧履行的评估方法,去反应真实工作中跨团队和纵向协作的本质,并承认:极少有工作是仅仅在一个完全静态的情况中遵守一套预设的固定规矩。
AI 时代最终可能会让断定力、咀嚼和主体性占据更高的权重——而这些恰好是工作中最难量化、最难评测、也最难被代替的部分。
回过火看,AI 评测机能与经济影响之间的这种差距,对于 20 岁时的我来说,其实是有一种似曾了解的熟悉感的。
来源:https://weibo.com/2194035935/QjH4Fh95o

发表评论 取消回复