Flink 什么是flink flink是一个分布式 ,高性能 ,随时可用的以及准确的流处理计算框架 , flink可以对无界数据(流处理)和有界数据(批处理)进行有状态计算(flink天生支持状态计算)的分布式 , […]
每年归档: 2025年
一站制造项目回顾 01:项目需求 目标:掌握项目业务需求 这个项目属于哪个行业? 为什么要做这个项目? 这个项目的目的是什么? 实施 项目行业:工业互联网大数据 项目名称:加油站服务商数据运营管理平台 中石化,中石油 […]
实战示例-统计分析 呼叫中心事实指标需求分析 -- 建库 create database if not exists one_make_dwb; -- 建表 -- 创建呼叫中心 | 来电受理事实表 drop tabl […]
实战示例-维度建模 行政地区维度构建 -- 建库 create database if not exists one_make_dws; -- 建维度表 -- 区域粒度【乡镇】 create external tab […]
实战示例-库表准备 Hive建表语法 CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name ( col1Name col1T […]
实战示例-数据准备 Oracle数据导入 Oracle数据库部署 ### Oracle数据库部署Docker docker pull registry.cn-hangzhou.aliyuncs.com/helowin […]
SparkSQL 优化器、流程、HIVE、案例 Catalyst优化器 总结 catalyst的各种优化细节非常多,大方面的优化点有2个 谓词下推(Predicate Pushdown)\断言下推:将逻辑判断 提前到 […]
SparkSQL 函数定义 无论Hive还是SparkSQL分析处理数据时,往往需要使用函数,SparkSQL模块本身自带很多实现公共功能的函数,在pyspark.sql.functions中 SparkSQL与Hi […]
SparkSQL DataFrame 写出与JDBC DataFrame 数据写出 # coding:utf8 from pyspark.sql import SparkSession from pyspark.sq […]
SparkSQL DataFrame 操作 DataFrame支持两种风格进行编程,分别是: DSL风格 DSL称之为:领域特定语言。其实就是指DataFrame的特有API DSL风格意思就是以调用API的方式来处 […]
SparkSQL DataFrame DataFrame的组成 DataFrame是一个二维表结构,那么表格结构就有无法绕开的三个点: 行 列 表结构描述 比如,在MySQL中的一张表: 由许多行组成 数据也被分成多 […]
SparkSQL 初识 SparkSQL 是Spark的一个模块, 用于处理海量结构化数据 限定: 结构化数据处理 SparkSQL是非常成熟的 海量结构化数据处理框架.学习SparkSQL主要在2个点: Spark […]
共享变量与Spark 内核调度 广播变量 # coding:utf8 # 示例代码-引出广播变量 import time from pyspark import SparkConf, SparkContext if […]
Spark 案例分析 # jeiba 测试 # conda install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba # coding=utf-8 # imp […]
RDD持久化 RDD的数据是过程数据 RDD之间进行相互迭代计算(Transformation的转换),当执行开启后,新RDD的生成,代表老RDD的消失。 这个特性可以最大化的利用资源,老旧RDD没用了 就从内存中清 […]
SparkCore RDD算子 算子:分布式集合对象上的API称之为算子 算子分类: Transformation(转换):将RDD从一个类型转换成另一个类型,返回一个新的RDD Action(动作):对RDD进行计 […]