Google Cloud Dataflow
实时生成的数据来自站点、便携应用程序、IoT设备和工作岗位。对于所有组织来说,捕获、处理和分析这些数据都很重要。然而,这些框架中的数据有时仅对下游框架的分析或有效使用有所帮助。这就是Dataflow的作用!Dataflow被用于处理和推进集群或流数据的使用案例,例如分析、人工智能或数据仓库。
Dataflow是一个无服务器、快速、实用的服务,支持流和批处理。它使用开源Apache Shaft库编写处理位置,提供可移植性。通过自动化基础架构供应和群集管理,它消除了数据设计团队的功能以上的负担。
Google Cloud Dataflow
Google Cloud Dataflow是云端数据处理服务,既支持批处理也支持实时数据流应用程序。它使开发人员能够设置处理管道,以协调、准备和分析大数据索引,例如在 Web 分析或大数据分析应用程序中发现的索引。
Cloud Dataflow旨在为整个分析管道带来 MapReduce 为一种计算类型的单个批处理位置所带来的快速并行执行风格。它在某种程度上基于 MillWheel 和 FlumeJava,这是两个 Google 开发的编程框架,专注于大规模数据摄取和低延迟处理。
使用 Dataflow 的逐步说明
您可以使用云控制台 UI、gcloud CLI 或应用程序接口创建 Dataflow 工作岗位。有许多选项可供使用。
- Dataflow 模板提供多种预构建模板,并提供创建自定义模板的选项!然后,您可以轻松地将它们与组织中的其他人共享。
-
Dataflow SQL 允许您利用 SQL 技能从 BigQuery Web UI 开发流水线。您可以将 Pub/Sub 中的流数据与云存储中的文件或 BigQuery 中的表相结合,将结果编写到 BigQuery 中,并构建用于可视化的实时仪表板。
-
借助 Dataflow 接口中的 Vertex 人工智能笔记本,您可以使用最新的数据科学和人工智能技术构建和部署数据管道。
Dataflow 行内监控允许您直接访问任务度量,以帮助调试管道的步骤和工作人员级别。
功能
垂直自动缩放
根据使用情况动态调整分配给每个工作者的计算容量。垂直自动缩放与水平自动缩放紧密结合,可以无缝地按最适合管道需求的方式缩放工作人员。
私有 IP 地址
关闭公共 IP 允许您更好地保护数据处理基础设施。通过不使用 Dataflow 工作者的公共 IP 地址,您还可以减少占用 Google Cloud 项目配额的公共 IP 地址的数量。
智能诊断
设备的亮点包括:
- 基于 SLO 的信息管道用于管理。
-
职业观察力为用户提供了一种分析工作流程并识别瓶颈的视觉方式。
-
自动建议以确定和调整性能和可用性问题。
数据流 VPC 服务控件
数据流与 VPC 服务控件的集成通过改进您减轻数据泄露风险的能力来提供额外的数据处理环境安全性。
流引擎
流引擎将计算从状态容量中分离,将管道执行的部分移出专用 VM 并移到 Dataflow 服务后端,从根本上改善了自动缩放和数据延迟。
内联监控
数据流内联监控使您可以直接访问工作指标,以帮助调试批次和流媒体管道。在步骤和专家级别上观察图表的可见性,并设置警报以满足旧数据和高系统延迟等情况。
水平自动缩放
水平自动缩放允许 Dataflow 支持自动选择运行工作所需的适当数量的工作程序实例。Dataflow 服务还可以在运行时动态重新分配更多或更少的工作程序实例,以适应您工作的特点。
实时变更数据捕获
可靠同步或复制异构数据源中的数据,以控制流处理分析。可扩展的 Dataflow 模板与 Datastream 集成,将数据从分布式存储复制到 BigQuery、PostgreSQL 或 Cloud Spanner。Apache Pillar 的Debezium 连接器提供了一个开源选项,用于摄入来自 MySQL、PostgreSQL、SQL Server 和 Db2 的数据更改。
Dataflow SQL
Dataflow SQL 允许您使用自己的技能,从 BigQuery 网络界面开发流 Dataflow 管道。可以将来自 Pub/Sub 的流数据与分布式存储中的文件或 BigQuery 中的表合并,在 BigQuery 中将结果写入,并使用 Google Sheets 或其他 BI 工具构建实时仪表板。
笔记本集成
从 Vertex Artificial Intelligence 笔记本开始逐步开发 Dataflow 管道,并使用 Dataflow 运行器进行发送。通过在 REPL 工作流中分析管道图表逐步编写 Apache Pillar 管道。通过 Google 的 Vertex Artificial Intelligence,笔记本允许您在最新的数据科学和机器学习环境中编写管道。
灵活的资源调度(FlexRS)
Dataflow FlexRS 使用先进的调度技术、Dataflow Mix 服务和抢占式虚拟机(VM)实例和传统 VM 的组合,从而降低批处理成本。
数据流程模板
数据流模板可以方便地与同事共享你的管道,并跨组织利用许多谷歌提供的模板来执行简单但有用的数据处理任务。这包括用于流分析用例的 Change Information Capture 模板。使用 Flex 模板,您可以从任何 Dataflow 管道创建模板。
好处
快速流式数据分析
Dataflow 通过降低数据延迟,启用了快速、简便的流数据管道开发。
简化运营和管理
Dataflow 的无服务器方法消除了数据工程任务的运营负载,使团队能够专注于编程而不是管理服务器集群。
减少总拥有成本
资源自动缩放与成本优化的集群处理能力相结合,意味着 Dataflow 提供几乎无限的能力来处理您的季节性和峰值工作,而不会过度支出。
结论
对于需要为下游系统(如分析、人工智能或数据仓库)进行处理和改进的群体或流数据,Dataflow 是一个绝佳的选择。例如:Dataflow 将流数据用于研究 Cloud 的 Vertex 人工智能和 TensorFlow Expanded(TFX),以实现预测分析、欺诈检测、实时个性化和其他高级分析用例。