2025年2月10日 – 第 2 页

SparkSQL 初识 SparkSQL 是Spark的一个模块, 用于处理海量结构化数据限定: 结构化数据处理 SparkSQL是非常成熟的海量结构化数据处理框架.学习SparkSQL主要在2个点: Spark […]

8. SparkSQL 初识

共享变量与Spark 内核调度广播变量 # coding:utf8 # 示例代码-引出广播变量 import time from pyspark import SparkConf, SparkContext if […]

Spark 案例分析 # jeiba 测试 # conda install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba # coding=utf-8 # imp […]

RDD持久化 RDD的数据是过程数据 RDD之间进行相互迭代计算(Transformation的转换),当执行开启后,新RDD的生成,代表老RDD的消失。这个特性可以最大化的利用资源,老旧RDD没用了就从内存中清 […]

SparkCore RDD算子算子：分布式集合对象上的API称之为算子算子分类： Transformation（转换）：将RDD从一个类型转换成另一个类型，返回一个新的RDD Action（动作）：对RDD进行计 […]

SparkCore RDD SparkCore简介 Spark Core是Spark的核心组件，它提供了分布式数据集的基本操作和计算模型。Spark Core是Spark的核心组件，它提供了分布式数据集的基本操作和计 […]

部署安装Spark集群 PySpark环境安装 conda create -n spark24 python=3.7 conda init powershell conda activate spark24 cond […]

认识Spark Spark是什么定义：Apache Spark是用于大规模数据（large-scala data）处理的统一（unified）分析引擎。统一分析引擎？ Spark是一款分布式内存计算的统一分析引擎 […]

SparkConfiguration Spark 提供了三个地方来设置配置参数: Spark properties 控制着绝大多数的参数设置, 一般可以通过 SparkConf 对象来进行设置, 又或者是通过 Jav […]

Hive on Spark -- hive默认引擎是mr，执行job时可以看到上面日志，HIVE2后已经建议使用tez/spark计算引擎。 -- set hive.execution.engine=mr; SET […]

cdh6.3.2 Spark 多版本共存 # 一部署Spark客户端 # 1.1 部署spark3客户端 tar -zxvf spark-3.3.1-bin-3.0.0-cdh6.3.2.tgz -C /opt/c […]

CDH6.3.2 升级spark参考 # 软件版本：jdk-1.8、maven-3.8.6、scala-2.12.15 、spark-3.3.4 # 说明：maven 和 scala 请不要改变小版本，如果要改变，请 […]

远程访问cdh spark集群 # 下载hadoop https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.3.6/hadoop-3.3 […]