SparkCore RDD SparkCore简介 Spark Core是Spark的核心组件,它提供了分布式数据集的基本操作和计算模型。Spark Core是Spark的核心组件,它提供了分布式数据集的基本操作和计 […]
每年归档: 2025年
部署安装Spark集群 PySpark环境安装 conda create -n spark24 python=3.7 conda init powershell conda activate spark24 cond […]
认识Spark Spark是什么 定义:Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。 统一分析引擎? Spark是一款分布式内存计算的统一分析引擎 […]
SparkConfiguration Spark 提供了三个地方来设置配置参数: Spark properties 控制着绝大多数的参数设置, 一般可以通过 SparkConf 对象来进行设置, 又或者是通过 Jav […]
Hive on Spark -- hive默认引擎是mr,执行job时可以看到上面日志,HIVE2后已经建议使用tez/spark计算引擎。 -- set hive.execution.engine=mr; SET […]
cdh6.3.2 Spark 多版本共存 # 一 部署Spark客户端 # 1.1 部署spark3客户端 tar -zxvf spark-3.3.1-bin-3.0.0-cdh6.3.2.tgz -C /opt/c […]
CDH6.3.2 升级spark参考 # 软件版本:jdk-1.8、maven-3.8.6、scala-2.12.15 、spark-3.3.4 # 说明:maven 和 scala 请不要改变小版本,如果要改变,请 […]
远程访问cdh spark集群 # 下载hadoop https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.3.6/hadoop-3.3 […]
在线教育项目回顾 01:在线教育项目需求 - **目标**:掌握在线教育项目需求 - **实施** - **常规的需求**:通过对数据进行数据分析处理,得到一些指标,来反映一些事实,支撑运营决策 - **行业**:在 […]
在线教育仓库示例-学生出勤看板 总结需求: 第一类: 指标: 计算 出勤人数, 出勤率, 迟到人数, 迟到率 涉及维度: 时间维度: 年 月 天 上午 下午 晚自习 班级维度: 学生维度: 涉及表: course_t […]
在线教育仓库示例-意向客户看板 建模 指标和维度 指标:意向客户量是单位时间内新增的意向客户量(包含线上线下),以天为单位显示。 维度: 时间维度:年、月、天、小时 数据来源:线上线下 客户属性:新客户、老客户 地区 […]
在线教育仓库示例-访问与咨询看板-增量 数据准备 CREATE TABLE web_chat_ems_2024_10 LIKE web_chat_ems_2019_07; INSERT into web_chat_e […]
在线教育仓库示例-访问与咨询看板 建模分析 提取指标维度 根据主题的需求,我们可以看出,包含的指标有一些是可以提取合并的: 地区独立访客热力图、总访问客户量、时间段访问客户量趋势、来源渠道访问量占比、搜索来源访问量占 […]
DataX 批量处理 安装DataX 下载地址:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz 源码地址:https://githu […]
Sqoop常用操作 # kube-42 数据准备 oss tidb生产库数据导入至测试tidb库 # 工具准备 cd /usr/local/src wget https://download.pingcap.org/ […]