AI 时代下阿里云大数据演进与发展

发布时间:2025-08-12 14:36  浏览量:2

导读随着生成式 AI 和大语言模型的蓬勃发展,我们正处在一个技术范式快速变革的时代。传统的以 CPU 为核心、以关系代数为基础、处理结构化数据为主的大数据体系,正面临着前所未有的机遇与挑战。本文将站在阿里云的视角,深入探讨在 AI 时代下,大数据系统为了推动AI转型必须具备哪些核心能力。我们将从算力(Computility)、算法(Algorithm)、数据(Data)和交互(Interface)四个关键维度,系统性地剖析市场的趋势、挑战与机遇,并分享阿里云在此背景下的思考、应对策略与产品演进路径,为相关从业者提供有价值的参考。

主要内容包括以下几个部分:

1. 阿里云大数据及 AI 产品一体化大图

2. 推动 AI 转型:数据系统必须具备的四大能力

3. 总结

分享嘉宾|赵弘扬 阿里巴巴 阿里云高级产品专家

内容校对|郭慧敏

出品社区|DataFun

01

阿里云大数据及 AI 产品一体化大图

在深入探讨演进趋势之前,我们首先鸟瞰一下阿里云大数据与 AI 的产品全景。这套产品体系是构建在阿里云强大的基础设施之上的,该基础设施层包括了计算、网络、存储,承载着百万核级的 GPU 和 EB 级的数据存储,是我们所有上层服务的基石。

1. 计算服务层:核心引擎能力

这是我们技术体系的核心,涵盖了从数据集成、云原生大数据平台、实时计算、开源大数据平台,到人工智能计算平台和智能搜索等一系列强大的引擎服务。

云原生与开源大数据: 我们提供了以 MaxCompute 为代表的云原生大数据平台,支持批处理(Batch)和 OLAP 等多种计算模式。同时,我们也拥抱开源,提供包括 Spark、StarRocks 在内的开源大数据平台服务。我们还构建了基于 Apache Paimon 的湖存储服务,帮助用户更好地管理和维护湖上的元数据、权限及进行数据治理。

实时计算: 以 Flink 为核心,我们提供了业界领先的实时计算能力,它已成为当前实时处理领域的事实标准。

AI 计算与搜索: 除了传统大数据引擎,我们还提供了强大的 AI 计算能力,包括模型分布式训练服务(PAI DLC)和模型推理服务(PAI EAS)。在搜索领域,我们与 Elastic 深度合作,并提供了国内向量搜索的事实标准 Milvus,以应对大模型应用的需求。

2. 平台层:一站式开发与治理

在引擎服务之上,我们构建了两大核心平台,分别面向不同角色的开发者:

DataWorks(大数据开发治理平台): 为大数据从业者提供从数据开发、建模、任务调度、数据血缘、元数据管理到数据治理的全链路服务。平台还集成了智能开发助手(Copilot)等能力,利用智能体提升开发效率。PAI(人工智能开发平台): 为数据科学家和AI开发者提供服务,包括可视化的建模工具、交互式开发环境(DSW)、大模型工具链以及面向特定场景的 Artlab 等,帮助用户高效进行模型训练和开发。

3. 应用场景层:满足多样化业务需求

基于底层的引擎和平台能力,我们支撑着一系列丰富的应用场景,包括传统的数据仓库(Data Warehouse)、数据湖(Data Lake)、湖仓一体(Lakehouse),以及近年来兴起的大模型应用(如 RAG)、MLOps、数据科学(Data Science)、商业智能(BI)和数据可视化(Visualization)等。这些场景化的解决方案,是我们技术能力最终服务于业务价值的体现。

AI 时代的到来,对传统的数据系统提出了全新的要求。我们认为,数据系统必须在算力、算法、数据和交互这四个方面进行系统性的演进和升级,才能有效支撑 AI 的转型。

算力的演进是推动本轮 AI 浪潮最底层的驱动力。一个显著的趋势是,自 2023 年第一季度开始,以 NVIDIA 为代表的 GPU 厂商营收急剧增长,其市场份额反超了传统的 CPU 厂商。这背后映射的是市场对算力需求的根本性变化——算力正从 CPU 全面转向 GPU

这种变化不仅仅影响模型训练场景,而是深刻地改变了整个数据处理领域。过去,我们主要依赖 CPU,通过 SQL 等描述性语言对二维表进行分析和聚合查询。但随着数据密度和模态的日益丰富,传统计算能力已难以为继。

为了应对这一趋势,在过去两年中,我们将 GPU 加速作为一项标准能力,深度集成到所有的数据引擎服务中。无论是 MaxCompute、Flink 还是其他服务,底层都实现了异构算力支持。用户可以根据其计算模态和数据模态,灵活选择使用 CPU 或 GPU 资源。

展望未来,我们认为算力的形态不会仅限于 CPU 和 GPU。阿里云内部已经有了自研的 XPU 等芯片,未来将是 XPU 的时代。面对如此多样和复杂的底层硬件,直接暴露给用户会带来极高的使用门槛。云的价值在此刻凸显无疑——我们可以通过云的抽象能力,将底层的 CPU、GPU、XPU 乃至未来的一切 XPU,统一封装成标准、易用的算力服务。这种“Cloud XPU”的理念,将屏蔽底层硬件的复杂性,是我们未来产品和技术迭代的核心方向。

除了算力,算法范式也在发生深刻变革。过去,数据处理的核心理论基础是关系代数。所有的数据都被抽象成二维表(Relation),通过选择(σ)、投影(π)、连接(⋈)等一系列代数算子进行操作。这种模式在处理结构化数据时非常高效,但面对日益增 M 多的非结构化数据(如音视频、图片、文本)则显得力不从心。

尽管业界在探索新的方式来表达非结构化数据,但目前仍没有一个统一的、能完美表达复杂数据组织形式的方案。因此,我们面临的挑战和机遇是:如何让这些复杂的数据能被一种通用的计算方式所处理、分析和使用。我们将这一演进趋势定义为:从关系代数(Relation-Algebra)走向通用计算(General Computing)

以 MaxCompute 的 Data+AI 实践为例,我们进行了积极的探索。首先,我们扩展了数据的表现形式,使其不再局限于二维表。其次,我们进行了深度的模型抽象,将大量生成式 AI 模型封装为 AI Function。这些函数可以像 CAST函数一样,在 SQL 或 Python 代码中被直接调用,极大地简化了 AI 能力的使用。同时,我们允许用户上传自己的模型,通过我们的训练和推理平台进行调优,以满足特定的业务需求。这一整套 Data+AI 的能力,让数据处理不再局限于传统的关系运算,而是迈向了更加通用和智能的计算范式。

AI 时代,我们处理的生产资料——数据本身,也发生了根本性的变化。数据正从单一的结构化数据,演变为结构化、半结构化、非结构化并存的跨模态(Multimodal)数据。非结构化数据的规模和价值正以前所未有的速度增长,其体量已远超传统结构化数据。

如何有效存储、管理和使用这些多模态数据,是所有数据从业者面临的核心问题。一个常见的痛点是,大量非结构化数据静态存储在对象存储(如 OSS)中,使用时需要反复地在对象存储、高性能文件系统和计算引擎之间来回搬迁,导致了多份数据冗余、高昂的存储和网络成本,以及不稳定的处理延迟。

为了解决这个问题,我们主要通过两种方式来连接和处理多模态数据:

构建统一的湖仓(Lakehouse)架构: 通过支持 Paimon、Hudi、Iceberg、Delta Lake 等多种主流数据湖格式,我们的计算引擎可以直接访问和处理存储在数据湖中的各种数据,实现了“湖”与“仓”的统一。原生支持非结构化数据存储: 我们正在改造引擎自身的存储,使其原生具备存储和管理非结构化数据的能力,并对元数据管理进行相应升级。

通过这两种方式,我们希望计算引擎可以直接“击穿”到底层存储,对非结构化数据进行原地计算,从而避免不必要的数据搬迁,为企业降本增效。

作为直接面向用户的层次,交互(Interface)的体验至关重要。在 AI 时代,我们致力于在两个层面提升交互的灵活性和智能化水平:开发语言的灵活性开发工具的智能化

从 SQL 到多编程语言(Multi-Programming Languages): 过去,SQL 是与数据交互的主要语言。但随着计算模式日趋复杂,单一的 SQL 已无法满足所有需求。为此,我们提供了基于 Python 的分布式开发框架 MaxFrame,并计划支持更多编程语言。我们的目标是让开发者可以在阿里云大数据平台上,使用自己最熟悉的语言,灵活地进行 Data+AI 的开发。从人工到 AI 辅助(AI-Assistant): 我们将 AI 能力深度融入开发工具和数据应用中,从“人适应工具”转变为“AI 辅助人”。赋能开发者(DataWorks Copilot): 我们推出了类似于 Copilot 的智能开发助手,提供 SQL 的自动生成、代码补全、语法纠错、一键测试、性能优化建议、代码注释和自然语言解释等功能,极大地提升了数据开发者的工作效率。赋能分析师(ChatBI): 在数据分析和可视化场景,我们提供了 AI 助手(ChatBI)。用户可以通过自然语言输入分析需求,系统会自动进行问题理解、数据提取、生成 SQL 查询、执行计算,并最终生成可视化的报表。用户还可以基于报表进行多轮的自然语言追问,实现深度的业务洞察。

此外,我们也在探索将 AI Agent 技术应用于数据系统运维,实现性能和效率的自动化优化,让整个数据系统的运行更加智能。

03总结

综上所述,我们认为,在 AI 时代,大数据系统的演进与发展必须紧紧围绕算力(Computility)、算法(Algorithm)、数据(Data)和交互(Interface) 这四个核心维度展开。从算力的异构与云化,到算法的通用化;从数据处理的多模态化,再到交互的智能化与多语言化,这四个方面共同构成了我们应对时代变革、抓住市场机遇的战略蓝图。我们分享的这些思考和实践,未必是唯一的答案,但我们相信,这套以四大支柱为核心的分析框架和演进思路,能够为业界同仁提供有益的借鉴。

以上就是本次分享的内容,谢谢大家。