在过去的两年里,关于 AI 的公开讨论大多归结为一个问题:这个模型回答问题有多好?
基准测试。排行榜。推理分数。幻觉率。
这个问题逐渐变成错误的问题——因为更有趣的转变不在于模型 *说话* 有多好,而在于它们能否在团队已经使用的相同工件上 工作。
因此我们进行了一个简单的实验。我们给 AI 提供了更接近现实的东西:数据,而不是谜题、谜语或合成提示。
设置:分析师,而非聊天机器人
想法很简单:将系统视为分析师,而不是聊天机器人。

我们从普通的业务场景中收集了 20 个数据集——每周销售、广告活动结果、流失表、调查导出、库存日志、产品指标。没有特殊格式。没有精心策划的基准包。只是人们每天互相发送的那种杂乱表格。
然后我们要求比总结更难的事情:
“告诉我们这里什么重要。”
不是“描述列。” 分析。
目标是看看 AI 是否能超越对话辅助,像试图得出结论的人一样行事。
我们的预期
我们假设了三个结果:
- 它会生成图表
- 它会叙述趋势
- 它会偶尔产生幻觉
它确实做到了这三件事。但改变我们对这一类别看法的结果却不同。
意外 1:它没有从可视化开始
人类分析师通常遵循熟悉的路径:打开电子表格,清理,制图,然后解释。
该系统并未可靠地反映该顺序。它从 揭示不确定性 开始——关于季节性、跨区域可比性、窗口期间的价格变化以及其他决定图表是否诚实的背景差距的问题。
这种行为符合许多团队现在称之为 数据代理 的系统:能够执行分析工作流中多个步骤的系统,而不仅仅是回答单个提示。
换句话说,它不仅在绘制图表。它还在 形成假设。

意外 2:图表不是最有价值的输出
我们期望图表是主要收益。但它们不是。
最高杠杆的时刻是系统解释 为什么 数字移动时。
来自零售风格文件的示例:一周的收入下降。人类可能停在“某物下降了”。该运行将下降与 转化率下降、移动流量激增 和 特定活动启动 联系起来——然后产生了一个紧凑的解释:低意图访问者稀释了转化率,因为活动带来了更广泛的流量。
那不是神奇的预测。那是 跨信号推理——它重新定义了“AI 分析”应该优化的目标。

意外 3:速度改变了行为,而不仅仅是吞吐量
经典分析工作流程存在摩擦:请求、排队、分析、会议、决策。
当答案在 几秒钟 而不是几天内到达时,人们不仅移动得更快——他们 提出更多问题。更小、更尖锐的问题:
- “昨天发生了什么变化?”
- “为什么 B 区胜过了 A 区?”
- “如果排除周末会怎样?”
瓶颈很少是原始数据量。而是 提问的成本。一旦成本下降,好奇心——以及迭代——就会上升。这彻底改变了团队与数据的关系。

从助手到分析师
聊天机器人帮助你写作。搜索帮助你找到。分析系统应该帮助你 决策。
公司已经在尝试更自主的系统,这些系统协调运营数据和工作流程。我们在较小规模上看到的是相同的方向转变:AI 从 响应 到 解释 再到 引导注意力。
不同于:“这是你要求的图表。”
它变成:“这是值得审视的——以及为什么。”
真正的含义
多年来,BI 文化严重依赖仪表板。仪表板假设用户已经知道要寻找什么、哪个视图重要以及如何阅读变化。
大多数团队失败不是因为他们无法访问数据。而是因为 理解 是昂贵的。
行业问题从来不只是可视化。而是 时间压力下的认知。
这对工作意味着什么
常见的担忧是替代。实验指向了更狭窄的地方。
AI 并没有消除分析师的角色。它取代了 等待、重复的图表组装和机械比较的第一遍。
人类方面保留的是:
- 判断
- 决策
- 沟通
- 只有利益相关者能够提供的背景
工作没有消失。它 向上移动了。
一种不同类别的工具
我们正处于向所谓的 思维基础设施 转变的早期——一种软件,它揭示模式、解释异常、引导注意力并缩短从数据到行动的路径。
下一代分析将不会由最漂亮的默认图表来定义。
它将由团队能多快移动来定义:
数据 → 理解 → 行动

结束语
长期以来,我们根据 AI 是否能像人类一样回答来给 AI 打分。
经过这样的运行,一个更好的测试更简单:
它是否帮助人类更快地理解——并且有足够的可追溯性来信任下一步?
因为持久革命不是听起来聪明的机器。
而是让人们 更具决断力 的机器。
这种转变已经在进行中——悄无声息,就在团队已经拥有的电子表格和导出中。

