数据建模在文本转SQL时代已死?Wren AI 如何连接现代商业智能与传统实践

了解为什么在文本转SQL解决方案时代,数据建模比以往任何时候都更加重要。学习 Wren AI 如何利用结构良好、面向业务的数据集,提供准确、直观的洞察——将传统商业智能的最佳实践与前沿自然语言分析相结合。

Howard Chi
Wren AI 联合创始人
更新于
2024年12月21日
2024年12月21日
11
分钟阅读
发布于
2024年12月19日

在 Wren AI 团队,我们从用户那里听到最常见的问题是:“我们可以将 Wren AI 的文本转SQL解决方案直接连接到原始数据吗?既然 AI 可以搞定一切,数据建模是不是就不需要了?” 现代 AI 驱动的工具(如 Wren AI)确实彻底改变了我们与数据交互的方式,但数据建模不再重要的想法是一种误解。恰恰相反,干净、结构良好且面向业务的数据集比以往任何时候都更加重要。没有这个坚实的基础,AI 解决方案将难以将自然语言查询转化为可靠的洞察。

在本文中,我们将解释为什么数据建模在文本转SQL时代并未消亡,强调仅依赖原始数据的局限性,并展示您如何仍能借鉴传统商业智能的最佳实践来优化您的 Wren AI 实施。目标不是消除建模,而是利用建模,以便 Wren AI 能够提供您的业务用户所期望的准确、直观且可操作的分析体验。

前言

数据分析始终是将原始信息转化为可操作洞察的过程。在历史上,这个过程需要专业的数据分析师和 BI 开发人员编写复杂的 SQL 查询、构建语义层并仔细建模数据。近年来,文本转SQL工具应运而生,预示着一个与数据直接、自然语言交互的新时代。

但随着这些技术的进步,一个问题经常出现:数据建模是否已死?毕竟,如果任何人都可以用简单的英语提问并获得答案,为什么还要费力进行复杂的数据建模、构建语义层或预计算指标呢?

现实是,数据建模比以往任何时候都更加关键。尽管 Wren AI 等文本转SQL解决方案为数据消费者提供了一个强大的新界面,但它们建立在坚实、结构良好的数据基础之上时才能发挥最大效用。在本文中,我们将探讨文本转SQL当前的局限性,讨论数据建模为何仍然至关重要,并提供传统 BI 实施中的具体示例。我们还将概述如何利用您现有的建模工作最大化 Wren AI 的效益——确保数据民主化不会以牺牲准确性、一致性和可靠性为代价。

使用 Wren AI 从数据库检索数据

文本转SQL的兴起:为何备受关注?

传统的商业智能(BI)通常涉及专业工具和技能集:数据分析师编写 SQL 查询,BI 开发人员创建仪表板,以及数据工程师管理 ETL/ELT 流水线。这意味着业务用户——产品经理、营销专业人士或销售高管——必须依赖中间人来获取他们所需的洞察。文本转SQL工具应运而生,以应对这一瓶颈,承诺让任何人都能直接与数据交互。

用户只需输入,而无需编写复杂的 SQL 查询

“显示第三季度按产品类别划分的总收入,并突出显示前五大类别。”

文本转SQL工具会解释此请求,将其翻译成 SQL,然后返回结果。

然而,这里有一个关键点:工具必须知道“收入”意味着什么,产品如何与类别关联,Q3 指的是哪个时间范围,以及“前五”意味着什么。如果您的底层数据是一个由命名晦涩的表和列组成的混乱网络,例如 tbl_trx_2023cust_id_numcat_desc_var1 等,文本转SQL引擎将会非常吃力。它可能会误解字段、产生不正确的逻辑,或者无法返回任何有意义的结果。

这正是传统数据建模发挥作用的地方。

为什么数据建模仍然至关重要

1. 澄清业务概念

在传统的商业智能设置中,数据建模将原始源表转化为业务友好的数据集。例如,假设您有一个存储产品销售的事务系统。您的原始数据可能分散在多个表中

  • orders 表包含 order_id, customer_id, product_id, quantity, price
  • products 表包含 product_id, category_id, sku, description
  • categories 表包含 category_id, category_name
  • customers 表包含 customer_id, region, industry

对于数据库管理员或数据工程师来说,这些模式可能很直观。但对于只想了解按产品类别划分的总收入的业务用户来说,这并不直观。在传统的 BI 环境中,数据建模师会

• 逻辑地连接这些表,并创建一个事实表 fact_sales,其关键维度链接到 dim_productsdim_categoriesdim_customers

• 将字段重命名为更友好的名称:使用 product_category 代替 category_name,使用 total_revenue 代替 sum(price*quantity)

• 应用一致的定义:确保“revenue”始终表示 sum(quantity * price),并且产品类别是标准化的。

当您在此基础上添加 Wren AI 这样的文本转SQL解决方案时,这些建模工作可确保用户提问“上季度按产品类别划分的总收入是多少?”时,工具能够轻松地将这些术语映射到定义明确、有意义的字段。

2. 语义层和预计算指标

传统的 BI 实施通常包含语义层或元数据存储库。Looker、Tableau 数据建模或 Power BI 的数据模型等工具允许开发人员预先定义度量(如收入、利润率或流失率)和维度(时间、产品、区域)。通过这样做,终端用户无需理解原始 SQL 或复杂逻辑——他们可以将预定义的度量和属性拖放到仪表板画布上。

在 Wren AI 文本转SQL场景中,这个语义层变得更加关键。用户使用的不是仪表板画布,而是会话界面。当他们要求“月环比收入增长”时,Wren AI 会查找预定义的度量定义以及表达月环比增长如何计算的数据模型。没有这个,文本转SQL系统可能难以正确推断如何计算增长率或比较月份。

3. 预计算和确定性数据集

在传统的 BI 中,数据工程师通常会预先计算某些指标或创建汇总表以加快查询速度。例如,您可以构建一个每日汇总表,按类别和日期存储收入。通过这样做,您可以消除每次有人运行查询时动态重新计算这些总计的需要。

有了 Wren AI,预计算和确定性数据集使得自然语言查询更加准确。想象一下用户问道

“显示我过去三个月的平均订单价值及其变化情况。”

如果您已经预先计算了一个包含平均订单价值每日或每月汇总的表,Wren AI 可以快速准确地响应。如果没有,该工具将不得不从原始事务数据中动态计算逻辑,这会增加歧义或错误的风险——尤其是当原始数据未得到完美建模时。

4. 治理和一致性

一个健全数据模型的重要原则是治理。通过标准化定义和确保一致的命名约定,您可以减少混淆。传统的 BI 项目通常涉及数据治理委员会、命名约定和仔细的文档。这些最佳实践不会随着 Wren AI 的出现而消失——它们变得更加重要。

为什么?因为当有人向 Wren AI 提问时,他们依赖于易于理解的术语。如果一个团队用“收入”表示净销售额减去退货,而另一个团队用“收入”表示总销售额,系统就需要知道使用哪个定义。数据建模和治理确保了这些定义的标准化,创建了一个 Wren AI 可以自信引用的单一事实来源。

借鉴传统 BI:适用于 Wren AI 的示例

让我们考虑一些传统 BI 实施中的典型场景,以及它们如何映射到 Wren AI 的设置。

场景 1:销售报告

传统 BI 方法

  • 数据建模师创建一个 fact_sales 表,包含 date_keyproduct_keycustomer_key 以及度量,如 sales_amountquantity_sold
  • dim_datedim_productdim_customer 表标准化了日期、产品和客户的表示方式。
  • BI 工具引用这些维度和事实来创建显示收入随时间变化、热门产品或热门客户的仪表板。

Wren AI 方法

  • 在连接 Wren AI 之前,请确保您的 fact_salesdim_product 表稳定、定义良好,并包含您业务关心的所有标准指标。
  • 在有利的情况下预计算逻辑:例如,一个 fact_daily_revenue 表,按日期和产品类别汇总总销售额。
  • 准备好这些数据集后,当用户提问“按收入显示上个月排名前五的产品类别”时,Wren AI 可以将“上个月”映射到 date_key 上的过滤器,将“收入”映射到 sales_amount,并将“产品类别”映射到 dim_category 表,从而返回即时、正确的结果。

场景 2:客户细分和流失分析

传统 BI 方法

  • 分析师定义了“流失”的含义:例如,在过去 90 天内没有购买过的客户。
  • 他们创建一个 fact_customer_activity 表,其中包含预计算的标志或指标,用于识别客户每月是否活跃或流失。
  • BI 工具中的报告允许用户按流失状态过滤客户,按区域或行业细分客户,并分析随时间的变化。

Wren AI 方法

  • 将流失定义纳入您的语义模型中。在数据流水线中预计算一个列 churned_customer 作为布尔值或细分标签。
  • 当用户提问“上季度流失的客户数量与前一季度相比如何?”时,Wren AI 可以查找 churned_customer 标志和时间维度以提供准确结果。
  • 没有这个预定义,Wren AI 将不得不猜测流失的含义,从而导致结果不一致或不正确。

场景 3:库存和供应链 KPI

传统 BI 方法

  • 数据工程师构建一个 fact_inventory 表来跟踪库存水平、再订货点和欠单。
  • dim_productdim_supplier 有助于将产品与供应商关联,而 dim_date 提供了时间维度。
  • 分析师在一个单独的汇总表中预计算诸如“stockout_rate”或“average_lead_time”之类的指标。

Wren AI 方法

  • 继续依赖这些预计算和建模良好的表。
  • 例如,如果您有一个 fact_inventory_agg 表,存储每日库存水平和缺货计数,Wren AI 可以立即回答:“上周供应商 X 的缺货率是多少?”
  • 如果您没有定义并预计算“缺货率”(例如,它是 stockout_count / total_items_sold),Wren AI 将不得不尝试从原始表中推断,这可能会导致混淆。

为什么将数据存储在结构化数据库中还不够

一个常见的误解是,如果您的数据已经在关系数据库中,就万事俱备了。但原始的关系模式通常是为事务处理设计的,而不是为商业智能设计的。表可能以复杂的方式规范化,或以开发者友好的术语而非业务术语命名。外键和关系可能存在,但对于非技术用户来说可能不清楚。

Wren AI 的强项是自然语言查询——而不是神奇地从晦涩的模式中推断出您的业务规则。通过将原始表转换为面向业务的数据集,您可以减轻文本转SQL引擎的认知负担。当列和表具有有意义的名称时——例如使用 sales_amount 而不是 col_x56,使用 product_category 而不是 cat_desc_var1——Wren AI 可以更有效地将用户意图映射到数据元素。

此外,在您的转换流水线中预计算逻辑消除了歧义。如果您知道“上季度收入”总是衡量上季度第一天和最后一天之间的销售总额,您可以将这些汇总存储在一个按季度索引的表中。然后,Wren AI 只需将过滤器应用于正确的数据集。这种预计算确保了自助服务用户能够获得准确结果,而无需每次都费力处理定义或原始数据。

最大化 Wren AI 效益的实用技巧

1. 从坚实的 ETL/ELT 基础开始

您的流水线应已将数据提取、转换并加载到组织良好的模式中。花时间重命名列、清理数据异常并连接相关表。就像传统 BI 工具受益于干净、建模的数据一样,Wren AI 也是如此。

2. 实施健壮的语义层

如果您的组织在 Looker 中使用了 LookML,在 Power BI 中使用了数据模型,或在 Tableau 中使用了语义层,同样的原则也适用。以符合您业务的方式定义您的指标、维度和层次结构。例如,将“年度经常性收入 (ARR)”存储在一个单独的指标表中,或将其标记为已知度量。这样,当用户查询时,Wren AI 就可以轻松识别“ARR”。

3. 预计算常用指标

确定您的业务用户经常查询的顶级查询和指标。他们是否经常分析月经常性收入、平均订单价值、流失率或转化率?在您的数据流水线中预计算这些指标。这可能意味着创建按时间段、客户细分或产品类别索引的汇总表。结果是:从 Wren AI 获得更快、更确定的答案。

4. 标准化业务逻辑和术语

数据建模包括强制执行一致的命名约定和文档。确保您有一个数据字典,解释每个指标和维度的含义。这个字典既可以指导技术实施者,也可以在用户与 Wren AI 交互时作为参考。您的术语越一致,Wren AI 就越容易正确解释查询。

5. 根据反馈迭代和改进

首次部署 Wren AI 时,观察用户如何与其交互。他们提出的问题是否与您的模型无法清晰映射?也许您需要添加一个新的语义定义或预计算一个不同的指标。就像传统的 BI 一样,数据模型会随着业务变化而演变。持续改进您的模型可确保 Wren AI 保持准确和有价值。

将传统 BI 转化为自然语言体验

不要将文本转SQL和数据建模视为对立力量,而应将其视为互补关系。传统的 BI 实践——ETL/ELT 流水线、语义层、数据集市和汇总表——为 Wren AI 实现其可访问分析的承诺奠定了基础。

通过建立在经过验证的数据建模技术之上,Wren AI 成为您的下一代 BI 接口,赋能任何人访问经过整理、定义明确的数据。您的分析环境不再是令人困惑的表格集合,而是 Wren AI 可以轻松导航的一系列丰富、有意义的数据集。

数据建模并未消亡,且比以往任何时候都更重要

像 Wren AI 这样的文本转SQL解决方案并未扼杀数据建模;它们提升了其重要性。这些新工具依赖于始终推动有效 BI 的基础工作——干净、结构良好的数据模型、预定义的业务逻辑、语义层和预计算指标。

  • 没有数据建模,Wren AI 将难以处理模糊的术语、不一致的定义和不清晰的关系。
  • 有了数据建模,Wren AI 才能发挥作用,针对您精心准备的数据集将自然语言问题转化为准确的洞察。

换句话说,数据建模并未消亡;它是文本转SQL界面发挥作用必不可少的基础。通过将传统 BI 实施的经验——例如 ETL 流水线、语义层和指标定义——与 Wren AI 的前沿能力相结合,您可以创建无缝、自助服务的分析体验,既用户友好又达到企业级标准。

要点总结

  • 文本转SQL工具在基于建模良好、面向业务的数据之上构建时表现出色。
  • 预计算常用指标,定义一致的业务逻辑,并将数据组织成直观的模式。
  • 借鉴传统 BI 的最佳实践——语义层、数据治理和汇总表——为 Wren AI 提供所需的上下文。
  • 随着业务需求的变化持续改进您的数据模型,确保自然语言查询仍然是获取洞察的可靠途径。

最终,数据建模仍然是指导您的组织从原始信息走向可操作知识的蓝图。通过在这个坚实基础之上利用 Wren AI,您将两者兼顾:传统 BI 的严谨性和可靠性,以及自然语言查询的可访问性和便利性。

如果您还没有尝试过这种语义优先的文本转SQL解决方案的神奇之处,它可以彻底改变您的分析体验,我们邀请您探索 Wren AI 🙌。

您也可以在 GitHub 上的 Wren AI 开源项目 😍中深入了解我们的开源产品,并立即开始构建一个更直观、面向未来的数据环境。

立即使用 AI 为您的数据增能?!

谢谢您!您的提交已收到!
糟糕!提交表单时出错。