流湖再进化,腾讯云Setats破解实时处理“不可能三角”

发布时间:2025-06-25 20:08  浏览量:3

刘慈欣在《三体》中提出一个假设,他认为技术的进步不是匀速线型的发展,而是加速甚至会发生“爆炸”现象。人工智能的蓬勃发展催生了各种各样的大模型,尤其是DeepSeek的出现,就像“三体”里描绘的那个奇点时刻,宇宙的所有能量突然在某一瞬间释放。

对于用户而言,虽然大模型应用触手可及,但要想有效利用这些模型,除了要考虑复杂的部署流程,还要考虑大数据的处理能力。因此,如何以Data+AI一体化方式打通数据处理的屏障,以更高效的方式满足特定场景需求,成为数据架构全面进化的最新方向,也是流湖概念再次得到广泛关注的根本原因。

关于“不可能三角”

大数据处理技术已经发展了二十多年,关于实时、离线以及成本之前,一直存在着“不可能三角”,不能同时满足三个条件。以传统Lambda架构为例,长期面临多套存储系统并存、实时与离线计算割裂的难题。

▲腾讯云大数据WeData产品中心总经理 周清

“随着AI在线模型或者实时分析等场景增加,很多企业希望通过流处理的方式来提高数据处理实时性来达成业务价值,但也会导致成本的上升。” 腾讯云大数据WeData产品中心总经理周清认为,虽然大数据领域技术或者概念持续发展和更新,但在数据实时性和成本上一直需要业务去做平衡,如何能低成本做到数据的实时或者准实时,就会是业务上面临的一个问题。

当前主流的数据处理技术分批处理和流处理两类。二者各有特点,有其适用的场景,但在时效性和成本之间存在明显的局限。批处理的最大特点是,架构简单且资源利用率高,但存在小时级延迟。同时,它是全量计算,必须等上游数据全部准备完毕后,才能进行一次完整的处理并生成最终的结果。其优势是按需调度、计算逻辑简单,但劣势是时效性低,需要按需调度资源,无法灵活应对短周期的数据处理需求。流处理虽能实现秒级响应,却面临状态管理复杂、资源占用高、延迟数据处理困难及数据冗余等挑战。一般来说,流处理主要以增量数据为基础,可以通过持续运行的长驻任务来快速处理数据变化,优势是高时效性,能够以秒级甚至亚秒级延迟处理数据变化,适用于对实时性要求高的场景。但这种高时效也带来了运维的复杂性和成本的上升:流处理需要维护本地的中间存储,这种本地存储的方式将增加了资源开销,并且由于本地存储容量有限,通常只能保留一定时间窗口的数据,难以满足所有场景的计算任务需求。

说白了,不管是批处理还是流处理,两类架构在需动态调整处理延迟或执行历史数据回填时,均存在显著局限性。有没有一种方式,在实时性和成本之间找到最 佳平衡点?在实现相对低成本的同时,也能实现秒级、亚秒级或者是一个准实时的状态?企业需要一种区别于传统架构的新型方案,来真正满足业务不同实时性的处理需求!

全新的流湖引擎顺势而生

在腾讯云大数据版图中,有一个实时化分析利器,那就是流计算平台Oceanus。这是基于Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。在Oceanus之上,腾讯云大数据又新推出了一款新的流湖引擎,那就是Setats。

“Setats是腾讯云面向流批增量一体的流湖引擎,一套架构同时支持流、批、增量计算,大幅降低系统成本,并支持数据端到端秒级可见及完整的实时Changelog生成。” 腾讯云大数据流计算Oceanus研发总监高赟,具体介绍了Setats与过往方案的不同之处。

实时数仓是现在常用的系统架构 ,主流的实时数仓一般是基于MPP架构实现,数据一般存储在本地,有自己私有的格式,在数据查询层做了向量化等深度的优化,使得用户在数据查询时也能实现秒级返回,达到实时查询的效果。这套架构可以满足许多场景的需求,但在一些场景下也会存在不足:本地存储的私有化格式,决定了数据的容量和数据的开放性会受到限制,当数据量一旦增加,成本也会增加;同时,私有化的格式使得用户难以通过其它系统来访问数仓中的数据,可能出现数据孤岛。

相应的,湖仓一体架构是实时数仓一个很好的补充方案,主要原理是把数据存储在外部的数据湖上,把湖作为一个外表挂到仓里。采用这种方式处理数据,可以通过一种开放的格式存储在类似于COS这种对象存储或者HDFS分布式存储系统上,存储空间不再受限,同时可以通过仓的查询优化来加速数据的查询。 但传统湖仓一体的最大问题在于对实时场景支持有限:当用户把数据写入后,下游需要基于这个数据进行下一步操作,比如需要对流数据处理进行分析时,传统湖仓一体架构没办法产生数据的增量变化日志,所以就没有办法支持下游流数据的再分析,因此传统湖仓一般只能做到分钟级延迟,在支持下游进一步的流处理场景下,这种延迟根本无法接受。

让低成本实时分析成为可能

所以,从2024年初开始,腾讯云就在探索流湖这一方向。Setats流湖引擎凭借底层自研行列混存与冷热分层技术,实现了高性能、实时数据的合并,这种创新的存储设计,打破了传统大数据架构的壁垒,助力企业在AI时代更高效地挖掘数据价值。

具体而言,Setats流湖引擎可以为用户带来三个业务价值:

1、实现存储层的统一,减少重复存储。Setats 流湖引擎实现了数据湖、实时日志与流计算中间状态统一存储,支持秒级数据可见性、高效主键检索及完整Changelog生成。这一技术突破不仅消除了数据冗余,更让企业能在同一份数据上无缝切换流、批、增量计算模式,端到端延迟降至秒级,解决了同时实现秒级延迟与完整增量日志的行业痛点。

2、解决当前 Flink 实时计算本地状态大小受限的问题,实现统一增量计算。Setats流湖引擎内置状态存储与湖仓统一的设计,彻底解决复杂实时场景流计算中状态本地存储容量受限的问题,同时由于状态与计算分离,避免在作业停止和启动时进行行状态的保存与恢复,加速作业启动速度,使增量小批的执行模式成为了可能,从而实现流 / 批 / 增量统一计算,并为用户提供统一的增量物化视图的接口。

3、统一流场景下所有技术孤岛,为统一计算引擎提供基础。Setats流湖引擎深度兼容Flink生态,支持SQL标准化操作,企业无需重构代码即可平滑迁移,大幅降低技术门槛。

腾讯云流湖引擎Setats现已正式推出,并且已经在实际业务场景中得到验证,比如:在车联网数据分析场景中,需要对车机信号进行维护(车机信号是汽车上报的传感器信息,如:温度、开关状态等),基于Setats流湖引擎,用户实现了数据的统一存储目标,车况监控响应速度提升30%,存储与计算资源成本下降33%,同时,Setats流湖引擎支持列更新,可以让数据分批上报。更重要的是,Setats流湖引擎还实现了稀疏数据场景的定制优化,在性能上实现了倍数级提升,数据治理效率显著提高,可支撑业务规模化快速扩张。

准确来讲,Setats流湖引擎不受行业限制,可满足游戏、出行、教育和电商等任意场景的实时数据分析、用户画像推荐、实时数据大盘的可视化需求。

另外,腾讯云大数据团队计划后续将Setats流湖引擎中的统一存储能力进行开源,和广大开发者一起共建流湖引擎社区,包括会有增量计算的延展计划。相信,通过腾讯云和更多开发者的一起努力, Setats流湖引擎会把实时处理带入到一个新高度。

结语

在AI技术创新浪潮下,大数据的底层架构也在加速迭代。满足未来数据处理需求的技术架构到底什么样?腾讯云大数据团队在流湖领域的创新,可以说是取得了开创性成果。统一存储引擎,简化大数据架构,降低总体成本,这些概念本身很常见,但真正实现这些目标,还有更多可探索的空间,需要从业务实践中去总结经验和智慧。总结来说,腾讯云推出的Setats流湖引擎,把大数据处理推向智能化创新时代,Setats与多模态元数据目录、Serverless资源调度等技术深度协同,构建起覆盖数据治理、AI开发、资源管理的全栈能力,让企业在一体化环境中通过数据分析、机器学习到LLM应用开发的完整链路,加速挖掘数据价值,实现Data+AI时代的范式跃迁。

转自:IT168企业级频道