2025 年 – 第 2 页 – 堂-DayDayUP

Flink 什么是flink flink是一个分布式 ,高性能 ,随时可用的以及准确的流处理计算框架 , flink可以对无界数据（流处理）和有界数据（批处理）进行有状态计算（flink天生支持状态计算）的分布式 , […]

1. Flink

一站制造项目回顾 01：项目需求目标：掌握项目业务需求这个项目属于哪个行业？为什么要做这个项目？这个项目的目的是什么？实施项目行业：工业互联网大数据项目名称：加油站服务商数据运营管理平台中石化，中石油 […]

实战示例-统计分析呼叫中心事实指标需求分析 -- 建库 create database if not exists one_make_dwb; -- 建表 -- 创建呼叫中心 | 来电受理事实表 drop tabl […]

实战示例-维度建模行政地区维度构建 -- 建库 create database if not exists one_make_dws; -- 建维度表 -- 区域粒度【乡镇】 create external tab […]

实战示例-库表准备 Hive建表语法 CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name ( col1Name col1T […]

实战示例-数据准备 Oracle数据导入 Oracle数据库部署 ### Oracle数据库部署Docker docker pull registry.cn-hangzhou.aliyuncs.com/helowin […]

SparkSQL 优化器、流程、HIVE、案例 Catalyst优化器总结 catalyst的各种优化细节非常多，大方面的优化点有2个谓词下推(Predicate Pushdown)\断言下推:将逻辑判断提前到 […]

SparkSQL 函数定义无论Hive还是SparkSQL分析处理数据时，往往需要使用函数，SparkSQL模块本身自带很多实现公共功能的函数，在pyspark.sql.functions中 SparkSQL与Hi […]

SparkSQL DataFrame 写出与JDBC DataFrame 数据写出 # coding:utf8 from pyspark.sql import SparkSession from pyspark.sq […]

SparkSQL DataFrame 操作 DataFrame支持两种风格进行编程，分别是： DSL风格 DSL称之为：领域特定语言。其实就是指DataFrame的特有API DSL风格意思就是以调用API的方式来处 […]

SparkSQL DataFrame DataFrame的组成 DataFrame是一个二维表结构，那么表格结构就有无法绕开的三个点：行列表结构描述比如，在MySQL中的一张表：由许多行组成数据也被分成多 […]

SparkSQL 初识 SparkSQL 是Spark的一个模块, 用于处理海量结构化数据限定: 结构化数据处理 SparkSQL是非常成熟的海量结构化数据处理框架.学习SparkSQL主要在2个点: Spark […]

共享变量与Spark 内核调度广播变量 # coding:utf8 # 示例代码-引出广播变量 import time from pyspark import SparkConf, SparkContext if […]

Spark 案例分析 # jeiba 测试 # conda install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba # coding=utf-8 # imp […]

RDD持久化 RDD的数据是过程数据 RDD之间进行相互迭代计算(Transformation的转换),当执行开启后,新RDD的生成,代表老RDD的消失。这个特性可以最大化的利用资源,老旧RDD没用了就从内存中清 […]

SparkCore RDD算子算子：分布式集合对象上的API称之为算子算子分类： Transformation（转换）：将RDD从一个类型转换成另一个类型，返回一个新的RDD Action（动作）：对RDD进行计 […]