返回博客
AI 分析11 分钟阅读

Agentic 数据分析的兴起:为什么语义层是实现可靠 AI 商业智能的关键

为什么“LLM-to-SQL”在企业中会失败,以及智能体架构 + 语义层如何为非技术团队提供受管控、准确且自助式的分析。

Steven Cen, 数据可视化实践者

Steven Cen

数据可视化实践者

分享:
当前与未来通过 Agentic 分析和语义层实现的数据分析工作流对比
语义层 + 智能体架构在不牺牲治理能力的前提下,移除中间环节。

企业数据团队不缺工具——他们缺的是“能保持正确的可访问性”。

大多数组织仍然存在一个熟悉的分裂:

  • 一小部分分析师可以自信地探索数据
  • 其他所有人则排队等待答案、仪表盘或数据导出

Agentic 数据分析是解决这一瓶颈的实用途径,但前提是它必须建立在正确的基础上。

本文解释了核心思想以及使其可靠的架构:智能体架构 + 语义层

引言:数据可访问性危机

公司收集的数据比以往任何时候都多,但大多数员工无法在日常工作中使用它们。

常见的失败模式不是“人们不关心”,而是下面这个工作流:

  1. 经理提出一个问题
  2. 问题在工具、仪表盘、分析师和工程团队之间反复 bouncing
  3. 指标的定义在讨论过程中发生变化
  4. 答案来得太晚,已失去意义
当前与未来通过 Agentic 分析和语义层实现的数据分析工作流对比
当前与未来通过 Agentic 分析和语义层实现的数据分析工作流对比

Agentic 数据分析瞄准了这种痛苦背后的架构:它减少交接环节,同时保持业务含义和治理能力完整。

什么是 Agentic 数据分析?

Agentic 数据分析不是“一个会写 SQL 的聊天机器人”。

它是一个 AI 系统,能够规划、执行、验证和迭代完成多步分析,同时始终锚定在你所在组织的业务定义之上。

从高层次看,一个 Agentic 分析智能体应该能够:

  1. 理解业务意图(而不仅仅是查询语法)
  2. 将复杂问题拆解为更小的分析任务
  3. 使用受管控的业务定义(指标、维度、规则)
  4. 验证结果并处理边界情况
  5. 在后续追问中保持上下文(“按地区拆分”)。

谁在受益:“Amanda 问题”

想象一位经理问:

> “截至 2024 年 9 月,按地区、分支机构和产品类型划分的月收入是多少?我们与目标相比是超出还是落后?”

这个“单个问题”通常会变成一连串请求:

  • 澄清存在哪些数据,它们存放在哪里
  • 对齐指标定义(什么算作收入?)
  • 调查异常情况
  • 将结果转化为可共享的报告
  • 为未来设置监控或警报
一位经理为获得可靠答案而经历的六步旅程
一位经理为获得可靠答案而经历的六步旅程

Agentic 分析让业务用户可以直接提问——系统在后台处理困难的部分——从而消除了来回扯皮。

数据分析的三个时代

将 Agentic 分析视为一种演进而非替代会更有帮助。

数据分析的三个时代:Excel → BI → AI 对话
数据分析的三个时代:Excel → BI → AI 对话

时代 1:Excel 时代

  • 数据消费者:约 1%
  • 释放的价值:“是什么”(基础描述性)
  • 工具:电子表格和手动工作流

时代 2:BI 时代

  • 数据消费者:约 10%
  • 释放的价值:“是什么 & 为什么”(描述性 + 诊断性)
  • 工具:仪表盘、筛选器和可视化层

时代 3:AI 对话时代

  • 数据消费者:90% 以上
  • 释放的价值:“是什么、为什么 & 怎么做”(包含指导性分析)
  • 工具:BI + AI,分析由对话引导

愿景是真实的——但可靠性是障碍。

为什么仅靠 LLM 无法提供可靠的企业分析

在企业环境中,直接“自然语言 → SQL”的方法会在以下几方面可预测地失败:

  1. 缺少业务上下文:“收入”可能有五种不同含义。
  2. 模式不透明:列名很少能自解释。
  3. 连接复杂性:数据仓库有数百张表,且连接逻辑脆弱。
  4. 内嵌规则:转换和排除逻辑存在于代码中,而不是数据库名称中。

这就是为什么组织会得到看起来自信但实则错误的答案。

语义层:可靠性的基础

语义层位于最终用户(以及 AI)与原始数据系统之间,将业务概念映射到技术实现。

它把:

  • “收入”转化为受管控的指标定义
  • “活跃客户”转化为一致的规则
  • “地区”转化为正确的维度映射
语义层的核心组件,实现受管控的分析
语义层的核心组件,实现受管控的分析

强大语义层的核心要素

虽然实现各不相同,但大多数企业级语义层需要:

  1. 跨平台的数据集成
  2. 语义建模(与业务概念匹配的指标 + 维度)
  3. 转换虚拟化 / 下推
  4. 用于一致指标逻辑的计算引擎
  5. 性能优化
  6. 治理能力(RBAC、策略、PII 处理)
  7. 消费集成(API、BI 工具、嵌入式使用场景)

本体论 + 语义层:使意义机器可读

在数据系统中,本体论定义了:

  • 实体(客户、订单、交易)
  • 属性(日期、金额、状态)
  • 关系(订单包含产品)
  • 规则(约束和逻辑)

语义层通常是为分析实现该本体论的最实用方式。

当指标和维度被编码后,智能体就可以进行语义推理:

  • 消除术语歧义(“毛收入 vs 净收入”)
  • 推断分组(“高价值客户”)
  • 保持跨团队定义的一致性

为什么智能体架构 + 语义层优于纯 LLM-to-SQL

与其让 LLM 直接生成原始 SQL,更好的流程是:

  1. 解释意图
  2. 映射到语义层中受管控的指标 / 维度
  3. 使用经过验证的转换(指标层 SQL)
  4. 通过受控的查询服务执行
  5. 返回结果,并允许通过后续问题进行探索
从自然语言到语义的架构,实现可靠的 AI 分析
从自然语言到语义的架构,实现可靠的 AI 分析

此方案避免的常见失败模式

  • 模式幻觉(不存在的表)
  • 错误的连接(特别是多跳和自引用连接)
  • 业务逻辑漂移(错误的筛选器、缺失的排除条件)
  • 查询性能灾难(全表扫描)
  • 安全盲点(权限、PII 泄露)

为什么在实践中效果更好

该组合提供了:

  1. 可信性:共享的指标定义减少跨团队争论
  2. 稳定的性能:优化、可重用的查询计划
  3. 更低的学习成本:用户可以看到意图如何映射到指标
  4. 安全性:RBAC 和治理能力在语义层强制执行
  5. 端到端工作流:查询 → 可视化 → 汇总 → 分享 → 监控

对采用 Agentic 分析的团队的实践指导

如果你正在构建(或采购)Agentic 分析平台,请从这里开始:

1) 首先投资语义层

与业务干系人一起定义指标和维度。AI 无法修复未定义的含义。

2) 优先选择真正的智能体,而不是“与数据聊天”的包装产品

在企业规模下,多步规划、验证和受管控的执行不是可选项。

3) 为持续迭代做规划

语义定义会随着业务的变化而演进。将它们视为产品。

4) 衡量重要的结果

  • 结果是否与优秀分析师产出的结果一致?
  • 周期时间缩短了多少?
  • 有多少用户变成了自助式用户?
  • 多少“解释这个仪表盘”的分析师求助消息消失了?

结论:数据民主化终于变得可行

目标不是取代分析师,而是扩展他们的影响力:

  • 分析师将定义和治理规则编码化
  • 智能体让这些定义可以被所有人访问

当业务用户可以安全地提问和迭代——语义层让回答始终有据可依——数据就不再是瓶颈,而成为竞争优势。

关键要点

  • 直接的 LLM-to-SQL 会在模式、连接、业务规则、性能和安全性上失败。
  • 语义层提供了 AI 所需的含义、治理能力和一致性。
  • 智能体架构将问题转化为多步、经过验证的分析。
  • 它们共同为 90%(而不仅仅是 10%)的用户提供可靠的 AI 商业智能。
Agentic 分析语义层AI 商业智能数据治理本体论自然语言转 SQL分析架构

准备好创建更好的图表了吗?

将这些洞察付诸实践。使用 ChartGen 在几秒钟内生成专业的可视化图表。

免费试用 ChartGen