2025年2月10日 – 堂-DayDayUP

待续。。。

DataStream API DataStream API 是 Flink 的核心层 API，一个 Flink 程序，其实就是对 DataStream 做各种转换。具体来说，代码基本上都由以下几部分构成：创建一个执 […]

5. DataStream API

Flink 算子与并行度 Flink 数据并行每一个算子（Operator）可以包含一个或多个子任务（Operator Subtask），这些子任务在不同的线程、不同的物理机或不同的容器中完全独立地执行。比如 ma […]

Flink On K8s Flink K8S部署 # Flink Kubernetes Operator # 在 Kubernetes 集群上安装证书管理器以启用添加 Webhook 组件（每个 Kubernetes […]

Flink On Yarn 资源管理层面 Resource Manager：管理整个集群资源，相当于 Master，后续简称 RM。 Node Manager：管理所在节点的资源，相当于 Worker，后续简称 […]

Flink 什么是flink flink是一个分布式 ,高性能 ,随时可用的以及准确的流处理计算框架 , flink可以对无界数据（流处理）和有界数据（批处理）进行有状态计算（flink天生支持状态计算）的分布式 , […]

一站制造项目回顾 01：项目需求目标：掌握项目业务需求这个项目属于哪个行业？为什么要做这个项目？这个项目的目的是什么？实施项目行业：工业互联网大数据项目名称：加油站服务商数据运营管理平台中石化，中石油 […]

实战示例-统计分析呼叫中心事实指标需求分析 -- 建库 create database if not exists one_make_dwb; -- 建表 -- 创建呼叫中心 | 来电受理事实表 drop tabl […]

实战示例-维度建模行政地区维度构建 -- 建库 create database if not exists one_make_dws; -- 建维度表 -- 区域粒度【乡镇】 create external tab […]

实战示例-库表准备 Hive建表语法 CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name ( col1Name col1T […]

实战示例-数据准备 Oracle数据导入 Oracle数据库部署 ### Oracle数据库部署Docker docker pull registry.cn-hangzhou.aliyuncs.com/helowin […]

SparkSQL 优化器、流程、HIVE、案例 Catalyst优化器总结 catalyst的各种优化细节非常多，大方面的优化点有2个谓词下推(Predicate Pushdown)\断言下推:将逻辑判断提前到 […]

SparkSQL 函数定义无论Hive还是SparkSQL分析处理数据时，往往需要使用函数，SparkSQL模块本身自带很多实现公共功能的函数，在pyspark.sql.functions中 SparkSQL与Hi […]

SparkSQL DataFrame 写出与JDBC DataFrame 数据写出 # coding:utf8 from pyspark.sql import SparkSession from pyspark.sq […]

SparkSQL DataFrame 操作 DataFrame支持两种风格进行编程，分别是： DSL风格 DSL称之为：领域特定语言。其实就是指DataFrame的特有API DSL风格意思就是以调用API的方式来处 […]

SparkSQL DataFrame DataFrame的组成 DataFrame是一个二维表结构，那么表格结构就有无法绕开的三个点：行列表结构描述比如，在MySQL中的一张表：由许多行组成数据也被分成多 […]