Community Over Code Asia 2025DataOps专题:SeaTunnel社区出品并将带来多个分享!


本次 CommunityOverCode Asia 2025 的 DataOps 专题,将给大家带来 Apache 社区建设和发展的最新资讯和前沿实践,现在就一起来看看吧

专题介绍

本专题聚焦 Apache 生态系统中最具创新性和最前沿的项目。该专题汇聚了来自 Apache DolphinScheduler、Apache Airflow、Apache SeaTunnel、Apache Flume、Apache Sqoop、Apache Griffin、Apache Atlas 以及其他与 DataOps 相关的项目的领先专家和贡献者,探索数据操作、自动化和编排的最新进展。无论您是经验丰富的数据专业人员还是刚刚入门的新手,这个专题都为每个人提供了有价值的内容,包括数据管道、ETL、编排、数据质量、元数据等多个主题的会话。在 ApacheCon 上,加入我们一起深入探索 DataOps 领域的精彩世界。

出品人

郭炜
白鲸开源 CEO,Apache 基金会成员,Apache 孵化器导师,现任中国通信学会开源技术委员会委员,中国软件行业协会智能应用服务分会副主任委员,全球中小企业创业联合会副会长,TGO 鲲鹏会北京分会会长,虎啸十年 杰出数字技术人物,Apache DolphinScheduler 项目管理委员会委员、Apache SeaTunnel 导师,ClickHouse 华人社区发起人。毕业于北京大学,大数据领域工作 20 余年,IBM、Teradata 资深架构师,前易观 CTO,万达电商数据部总经理,联想研究院大数据总监,中金大数据架构师,对大数据前沿领域研究做出过卓越贡献。

聂励峰
白鲸开源 COO,Apache SeaTunnel PMC & Apache DolphinScheduler Committer、2023 中国开源先锋 33 人之心尖上的开源人物,ClickHouse 中国社区志愿者组长。

议程亮点

7 月 27 日 14:00 – 16:45

  1. 演讲主题:SeaTunnel 架构分析与 Cloudberry 集成实践
  • 分享时间:7 月 27 日 14:00 – 14:30
  • 议题介绍:

在本场会议中,我们将深入探讨 Apache SeaTunnel,这一专为实现跨异构数据源大规模数据集无缝同步而设计的高性能分布式数据集成平台。与会者将深入了解 SeaTunnel 的核心架构,包括其模块化插件系统、基于 Spark 和 Flink 的统一抽象层,以及从 V1 到 V2 的演进历程,其中包含增强的可扩展性和引擎无关设计。我们将深入探讨高级功能,如动态分片策略、数据采样技术,以及针对基于字符串的分区进行优化处理,以实现高效的数据分布。

本次会议还将展示与 Cloudberry 的实际集成案例,演示 SeaTunnel 的 JDBC 基于连接器如何简化双向数据工作流,同时强调性能考量。最后,我们将讨论未来优化计划,包括通过 gpfdist 协议利用 Cloudberry 的并行处理能力进行大规模数据迁移的方案。本次演讲适合希望优化数据集成工作流、打破数据孤岛并充分释放现代数据生态系统潜力的数据工程师和架构师。

  • 演讲嘉宾:

Hongyu Chen|SeaTunnel Contributor and Data Integration R&D Engineer at NetEase

网易数据集成研发工程师,拥有四年大规模数据传输系统经验。参与 Apache SeaTunnel 项目,专精于为企业级 ETL 挑战构建高性能数据集成解决方案。专业领域涵盖分布式系统、数据处理引擎及管道架构。

  1. 演讲议题:Apache Hop|大型语言模型、图数据库与电子表格的无缝集成
  • 分享时间:7 月 27 日 14:30-15:00
  • 议题介绍:
    在本场会议中,我将探讨如何利用 Apache Hop 实现大型语言模型(LLMs)、图数据库与电子表格的无缝集成。本课程专为初学者设计——尤其是目前仍需手动创建或更新数据的用户——我将重点讲解构建自动化工作流的核心要点,这些工作流可大幅减少重复性任务。

您将学习设计数据管道的最佳实践,利用关键插件,并优化复杂数据流,所有这些都围绕 Apache Hop 的下一代功能展开。发现这种灵活的集成方法如何为机器学习项目和数据管理开辟新途径,超越传统 ETL 工具的局限性。

加入我们,解锁数据工作流中的更高效率与创新。

  • 演讲嘉宾:

Koji Annoura|UTI,Inc. CTO

拥有超过 40 年的全栈开发经验。自 2009 年起一直从事敏捷软件开发工作,并于 2009 年在日本创立了“Neo4j 用户组东京”。自 2021 年起还创立了“Apache Hop 用户组日本”。参与了多家公司和团队的敏捷转型,并参与了敏捷和 Scrum 的实施。是《MacOS X Server实用指南》的作者之一。

  1. 演讲议题:现代化文本向量数据 ETL 方案:基于 Apache SeaTunnel 与 Amazon Bedrock 的实践
  • 分享时间:7 月 27 日 15:00-15:30

  • 议题介绍:
    在企业智能升级的浪潮中,信息检索正从“关键词匹配”向“语义理解”转变。基于倒排索引的传统搜索引擎依赖于字符串级别的匹配,这使得难以捕捉用户查询背后的真实意图。这限制了搜索体验的有效性、推荐准确性、客户服务响应以及基于知识的问答系统的智能性。例如,在电子商务平台上,当用户搜索“适合夏季的白色连衣裙”时,仅匹配产品标题或类别中关键词的系统很难理解“适合夏季”的完整语义含义,这可能涉及面料、风格等多个维度。类似的挑战也存在于财务文档搜索、智能客服、知识图谱关联等场景中。
    为解决此问题,我们计划构建基于向量检索的语义搜索系统。核心目标是实时将业务数据中的文本字段转换为语义向量,将其写入支持近似最近邻(ANN)向量搜索的数据库,并实现语义级信息检索。通过使用 SeaTunnel 的 OpenSearch Sink 插件,我们可以在 SeaTunnel 的转换阶段调用 Amazon Bedrock 的文本嵌入 Embedding 模型,将原始文本字段转换为高维密集向量,同时保留关联的 ID、标签和元数据以供下游存储。

  • 演讲嘉宾:

Xin Zhang|Amazon Web Services, Solution Architect

亚马逊云科技(AWS)解决方案架构师,负责基于AWS云平台的解决方案咨询与设计;在系统架构、数据仓库及实时计算等领域的研发与架构实践方面拥有丰富经验。

  1. 演讲议题:Apache Gravitino 多集群管理最佳实践
  • 分享时间:7 月 27 日 15:45-16:15

  • 议题介绍:
    Apache Gravitino 统一管理了 Data 和 AI 的元数据,特别是在管理云上和云下多集群的场景中,可以非常好的发挥 Gravitino 统一元数据后,带来的数据在云上和云下无感知迁移和使用、大数据集群丝滑滚动升级、统一公有云和私有化部署的大数据集群的权限系统。 在本次的分享中,除了介绍 Apache Gravitino 在多集群管理中的诸多特性之外,还讲分享海内外用户的 Apache Gravitino 最佳实践。

  • 演讲嘉宾:

Xun Liu|Apache Gravitino PMC

拥有二十年的软件开发经验,过去十年一直致力于大数据和AI领域的相关研发。Apache 软件基金会成员及孵化器导师,曾在 Apache 孵化多个开源项目,并担任 Apache Gravitino PMC 和 Hadoop & Zeppelin committer。

  1. 演讲议题:Apache SeaTunnel MCP 介绍与演示
  • 分享时间:7 月 27 日 16:15-16:45
  • 议题介绍:
    Apache SeaTunnel 的模型上下文协议(MCP)服务器。该服务器可访问您的 Apache SeaTunnel RESTful API V2 实例及其周边生态系统。
  • 演讲嘉宾:

Haicheng Zhang|Aisino Big Data Development Engineer Development Team Leader

一位喜欢折腾的从业者。

点击下方二维码或文末【阅读原文】进行扫码购票

数量有限,快来参与吧

更多赞助席位虚位以待,联系我们:
linda@segmentfault.com

本文由 白鲸开源 提供发布支持!