虎兴龙:Data Agent落地,为何九成挑战皆是“软件工程”?

温故智新AIGC实验室

TL;DR:

腾讯数据工程专家虎兴龙,以其深厚的实战经验,深度剖析了Data Agent落地中被忽视的软件工程与语义层挑战。他强调,成功的关键在于构建统一语义层、完善Agent运营体系,并呼吁行业警惕盲目乐观,聚焦实际场景,以务实精神推动企业数据智能化的真正跃迁。

AI的浪潮席卷而来,似乎预示着一个触手可及的智能时代,然而在这波汹涌的浪潮之下,暗礁与漩涡亦清晰可见。当无数企业被Data Agent描绘的美好愿景所吸引,憧憬着其轻松上手、即刻见效的魔力时,一位身居腾讯数据工程核心地带的专家,却冷静地指出了背后的隐忧与真相。他就是虎兴龙,一位在腾讯云WeData平台深耕数据治理与智能化的先行者,他以务实的洞察力,撕开了技术原型与实际落地之间的那层“窗户纸”,揭示了Data Agent成功部署中“九成挑战皆为软件工程”的深刻命题。

深度洞察:幻象与现实

初见虎兴龙,他身上散发着一种技术人特有的沉稳与严谨,言语间逻辑清晰,直击要害。在谈及Data Agent落地时,他没有被市面上的喧嚣所迷惑,而是用一个略显残酷的数字开场:“90%的难点源于软件工程。”1 这句话如同一枚深水炸弹,在AI产品原型看似唾手可得的当下,敲响了警钟。

“原型容易,人人现在都能做一个Agent。”虎兴龙语气平和,却充满力量。他直指当前行业普遍存在的“邓宁-克鲁格”效应在AI产品投入初期的映射——初学者因模型表现惊艳而过于乐观,草率投入;而有经验者则可能因曾跌入“坑”中而过于谨慎,错失良机。他以ReAct自主规划的Agent开发模式为例,最初感觉几行代码便能搞定,但在实际落地,尤其是在数据分析这种追求极致准确性的场景中,他发现:

“把Agent比做人,一些组织扁平化强调人的自主性,一些组织强调规范的流水线工作,强调行为一致性。落地过程中其实90%是软件工程,都是在解决行为一致性确定性的问题,可能只有10%是在做prompt、模型调优。”1

这番话揭示了一个深刻的现实:技术酷炫的表象之下,是大量繁琐而基础的工程化工作。一个AI产品,从令人惊艳的原型到能稳定、高效、准确地为企业创造价值的成熟产品,其最大的落差就在于对场景落地复杂度的低估。虎兴龙称之为“TMF”(Technology-Market Fit,技术与市场契合度)的评估与分析,他强调,若初期过于乐观,实施中必然遭遇瓶颈,继而陷入悲观情绪。这不仅是对技术的深刻理解,更是对产业规律的精准把握。

核心破局:统一语义层与AgentOps的基石

在虎兴龙看来,要打破Data Agent落地的僵局,必须有两方面根本性的技术革新:一是数据语义工程的平台化能力,二是完善的Agent运营体系(Agent Ops)。

“Data Agent是Easy的,Data Context是Hard的。”1 这句金句凝练了他对统一语义层重要性的核心认知。他将Agent的交互形态比作数据分析的“新head”,而这个“新head”的正常运作,离不开一个可靠、高性能的“大脑”——数据语义层。他认为,数据工程和数据平台未来不仅仅交付数据内容,更应该交付可被分析的语义。

语义层到底包含了哪些“知识”?虎兴龙条理清晰地列出了四大核心语义:概念(数据业务意义)、数据关系(表间关联、血缘)、指标(计算口径)和维度(观测角度)。他进一步阐述了语义层的四大核心能力,如同构建起一套坚实的数据知识体系:

  • 统一访问接口:方便Agent、BI工具集成调用;
  • MetaRAG:基于语义元数据构建知识库,精准召回数据;
  • 语义建模能力:抽象定义复杂指标并自动生成查询SQL;
  • 自适应加速能力:自动或半自动化地物化加速Agent生成的各种查询请求。1

除了语义层这一“知识库”的建设,虎兴龙还特别强调了Agent Ops的重要性。他指出,目前Agent开发框架发展迅速,但其运营体系却存在不足。一个Data Agent要真正落地并持续进化,监控、评估、迭代是必不可少的闭环。如果缺乏这些机制,“做了几个月后,没法监控、没法评估、没法修改,还没上线就要重构。”1 这番话不仅揭示了技术框架选择和运营体系配套的深远影响,也体现了他作为一名资深工程师对系统全生命周期的深刻思考。

擘画未来:数据智能的融合之路

在Data Agent与数据专业人士角色演变的问题上,虎兴龙的观点是充满远见和人文关怀的。他坚定地认为,Agent不会替代数据工程师和数据科学家,但会替代一部分偏执行的工作。他描绘了一个未来图景:

“数据蕴含着对整个世界的描述和规律,除非人类被机器统治了,否则数据永远是需要人来主导分析的,Agent知识辅助人更高效的完成这项工作。”1

更重要的是,Agent将带来数据工作角色的融合。过去细分的埋点、开发、算法、分析等角色,未来将趋于一体化,复合型人才将脱颖而出,端到端地完成数据分析任务。这种对未来工作模式的预判,彰显了他对技术与社会协同演进的深刻理解。

对于“谁掌握了企业数据的语义数字孪生,谁就掌握了下游所有AI代理行为的主动权”这一观点,虎兴龙表示了高度认同。他指出,通用大模型难以理解企业私域数据集是Data Agent准确性和信任度不足的症结所在。而语义模型正是人与AI共同的“context”。腾讯云WeData正是沿着这一思路,通过统一数据资产平台纳管各类数据,并在其上提供统一语义建模平台,赋能企业进行Data Context Engineering,为Agent构建坚实的语义知识基础。12

这也与腾讯云近年来大力推动的“Data+AI”融合战略不谋而合。腾讯云副总裁、腾讯云大数据产品负责人黄世飞与腾讯云大数据基础产品总经理程彬曾在公开场合多次强调,腾讯云正打造“为AI时代而生的原生一体化Data+AI平台DIaaS(Data Intelligence as a Service)”,旨在让数据智能像水、电、煤一样触手可及3。这正是虎兴龙所引领的技术方向的宏大愿景,通过数据管理、AI算力、治理、安全、模型训练等端到端解决方案,助力企业实现数智化转型。4

面对企业构建统一数据语义层的挑战,虎兴龙给出了切实可行的建议:首先是场景聚焦,例如智能问数、智能分析场景,以指标平台为载体构建指标语义层;其次是解决存量数据治理问题,虽然有AI辅助,但大量的人力投入不可避免。这再次印证了他从实际问题出发,不回避困难的务实作风。1

在专访的最后,虎兴龙为希望构建Data Agent能力的企业数据团队提出了三点核心建议,字字珠玑,掷地有声:

“第一,场景聚焦,搭建可迭代进化的技术框架,避免为了快速做demo,忽略技术选型、技术基建的重要性,否则有可能做了几个月后,没法监控、没法评估、没法修改,还没上线就要重构;第二,语义模型能力是Data Agent的基础支撑,忽略数据语义层的核心能力建设可能导致Agent陷入迭代瓶颈,例如把各种if else、定制化策略、语义知识硬编码到Agent后台,导致无法进行技术升级和迭代;第三、Agent运营体系很重要,监控、标注、评估体系需要配套。”1

这些建议不仅是技术路线的指引,更是经验与智慧的结晶。虎兴龙,这位在AI与大数据前沿深耕多年的专家,不仅是一位技术架构师,更是一位深谙企业痛点、洞察行业趋势的思想者。他的思考,为 Data Agent 从实验室走向真实商业世界,铺就了一条清晰且充满挑战,却又充满希望的路径。

引用


  1. Data Agent 落地挑战:忽略技术框架、语义能力和运营体系,投入可能打水漂·InfoQ·虎兴龙(2025/8/22)·检索日期2025/8/17 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. [PDF] 下一代数智平台建设指南·Tencent Cloud(未知)·检索日期2025/8/17 ↩︎

  3. 腾讯云与Gartner 联合发布“Data+AI”白皮书,各行业领军企业分享最 ...·InfoQ·未知(2025/6/27)·检索日期2025/8/17 ↩︎

  4. 腾讯云大数据:融合Data与AI,加速企业数智化转型与价值释放·腾讯云开发者社区·未知(2025/4/27)·检索日期2025/8/17 ↩︎