每日归档: 2025年2月10日
DataStream API DataStream API 是 Flink 的核心层 API,一个 Flink 程序,其实就是对 DataStream 做各种转换。具体来说,代码基本上都由以下几部分构成: 创建一个执 […]
Flink 算子与并行度 Flink 数据并行 每一个算子(Operator)可以包含一个或多个子任务(Operator Subtask),这些子任务在不同的线程、不同的物理机或不同的容器中完全独立地执行。比如 ma […]
Flink On K8s Flink K8S部署 # Flink Kubernetes Operator # 在 Kubernetes 集群上安装证书管理器以启用添加 Webhook 组件(每个 Kubernetes […]
Flink On Yarn 资源管理层面 Resource Manager: 管理整个集群资源,相当于 Master,后续简称 RM。 Node Manager: 管理所在节点的资源,相当于 Worker,后续简称 […]
Flink 什么是flink flink是一个分布式 ,高性能 ,随时可用的以及准确的流处理计算框架 , flink可以对无界数据(流处理)和有界数据(批处理)进行有状态计算(flink天生支持状态计算)的分布式 , […]
一站制造项目回顾 01:项目需求 目标:掌握项目业务需求 这个项目属于哪个行业? 为什么要做这个项目? 这个项目的目的是什么? 实施 项目行业:工业互联网大数据 项目名称:加油站服务商数据运营管理平台 中石化,中石油 […]
实战示例-统计分析 呼叫中心事实指标需求分析 -- 建库 create database if not exists one_make_dwb; -- 建表 -- 创建呼叫中心 | 来电受理事实表 drop tabl […]
实战示例-维度建模 行政地区维度构建 -- 建库 create database if not exists one_make_dws; -- 建维度表 -- 区域粒度【乡镇】 create external tab […]
实战示例-库表准备 Hive建表语法 CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name ( col1Name col1T […]
实战示例-数据准备 Oracle数据导入 Oracle数据库部署 ### Oracle数据库部署Docker docker pull registry.cn-hangzhou.aliyuncs.com/helowin […]
SparkSQL 优化器、流程、HIVE、案例 Catalyst优化器 总结 catalyst的各种优化细节非常多,大方面的优化点有2个 谓词下推(Predicate Pushdown)\断言下推:将逻辑判断 提前到 […]
SparkSQL 函数定义 无论Hive还是SparkSQL分析处理数据时,往往需要使用函数,SparkSQL模块本身自带很多实现公共功能的函数,在pyspark.sql.functions中 SparkSQL与Hi […]
SparkSQL DataFrame 写出与JDBC DataFrame 数据写出 # coding:utf8 from pyspark.sql import SparkSession from pyspark.sq […]
SparkSQL DataFrame 操作 DataFrame支持两种风格进行编程,分别是: DSL风格 DSL称之为:领域特定语言。其实就是指DataFrame的特有API DSL风格意思就是以调用API的方式来处 […]
SparkSQL DataFrame DataFrame的组成 DataFrame是一个二维表结构,那么表格结构就有无法绕开的三个点: 行 列 表结构描述 比如,在MySQL中的一张表: 由许多行组成 数据也被分成多 […]