本论坛聚集数据怎么快速入湖入库,缩短剖析全体时延,社区有根据delta、hudi、iceberg的开源计划,处理在传统数仓场景下数据从入库到剖析全体时延伸的事例。
个人简介:邵赛赛,腾讯大数据专家,数据湖研制担任人,Apache社区member,Spark及Livy项目PMC。
个人简介:金澜涛,现在上任于 eBay 我国研制中心,从事核算渠道根底架构研制作业。超越 9 年一线大数据渠道研制经历,是多个 Apache 开源项目的活泼贡献者。屡次在Databricks举办的全球性Spark Summit进行共享。
议题介绍:完成了 ACID 的传统数据库一般都有行级更新和删去的功用。而数据仓库往往由于缺少 ACID 支撑,没有办法进行杂乱的行级更新和删去操作。前期 eBay 的数据仓库是根据某个商业数仓渠道,该产品具有行级跨表更新和删去功用。现在 eBay 现已将数仓渠道搬迁到开源软件。为了保存事务对更新删去功用的需求,削减搬迁本钱,个人会运用 Delta Lake 来完成 行级跨表更新和删去语法,本议题便是介绍这一过程中的各种趟坑经历。
个人简介:轿车之家实时核算渠道担任人,长时间从事实时核算与 OLAP 方面的渠道建造作业,致力于为企业来供给大规模、高效、安稳的核算与查询服务。
讲演议题介绍:本次共享将介绍怎么根据Apache Iceberg构建湖仓一体架构,将数据可见性提升至分钟级;从多维剖析的视点来讨论引进Apache Iceberg带来的收益,以及未来还有哪些收益能够等待。
听众收益:了解怎么根据 Flink + Iceberg 构建分钟级推迟数据湖,并结合现有查询引擎完成高效的剖析查询。
个人简介:李少锋,阿里云技能专家,Apache Hudi PMC成员及Committer;现在首要担任DLA Hudi内核研制及产品化作业。
讲演议题介绍:介绍怎么样才干处理Hudi在阿里云DLA数据湖剖析落地面对的应战,以及针对Hudi内核来优化以满意海量数据实时入湖;
个人简介:2015年硕士结业于中南大学软件学院,曾在思科,星环科技参加分布式实时核算引擎的研制,2020年参加腾讯数据湖研制组,现在首要参加腾讯下一代实时数据湖剖析产品的研制作业。
1. 了解新一代数据湖技能Apache Iceberg 是怎么与Flink 相结合打造实时入湖的数据链路
个人简介:胡争(子毅),现在首要担任Apache Flink数据湖计划的规划和研制作业,是Apache Iceberg及Apache Flink项目的长时间活泼贡献者。一起也是Apache HBase PMC成员,合著有《HBase原理与实践》。
讲演议题介绍:根底设施云服务化渐渐的变成了被广泛认可的技能趋势,那么将数据湖和数仓云化会碰到哪些应战呢?本次共享,咱们将一起来讨论阿里云Flink团队在构建Flink+Iceberg云原生数据湖服务收成的一些最佳实践。咱们将测验答复以下问题:
2. 为什么Flink+Iceberg构建的数据湖能处理这些痛点?有哪些技能优势?
听众收益:了解Flink+Iceberg数据湖处理的痛点问题、中心优势以及适用的场景。