SparkSQL 初识 SparkSQL 是Spark的一个模块, 用于处理海量结构化数据 限定: 结构化数据处理 SparkSQL是非常成熟的 海量结构化数据处理框架.学习SparkSQL主要在2个点: Spark […]
每日归档: 2025年2月10日
共享变量与Spark 内核调度 广播变量 # coding:utf8 # 示例代码-引出广播变量 import time from pyspark import SparkConf, SparkContext if […]
Spark 案例分析 # jeiba 测试 # conda install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba # coding=utf-8 # imp […]
RDD持久化 RDD的数据是过程数据 RDD之间进行相互迭代计算(Transformation的转换),当执行开启后,新RDD的生成,代表老RDD的消失。 这个特性可以最大化的利用资源,老旧RDD没用了 就从内存中清 […]
SparkCore RDD算子 算子:分布式集合对象上的API称之为算子 算子分类: Transformation(转换):将RDD从一个类型转换成另一个类型,返回一个新的RDD Action(动作):对RDD进行计 […]
SparkCore RDD SparkCore简介 Spark Core是Spark的核心组件,它提供了分布式数据集的基本操作和计算模型。Spark Core是Spark的核心组件,它提供了分布式数据集的基本操作和计 […]
部署安装Spark集群 PySpark环境安装 conda create -n spark24 python=3.7 conda init powershell conda activate spark24 cond […]
认识Spark Spark是什么 定义:Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。 统一分析引擎? Spark是一款分布式内存计算的统一分析引擎 […]
SparkConfiguration Spark 提供了三个地方来设置配置参数: Spark properties 控制着绝大多数的参数设置, 一般可以通过 SparkConf 对象来进行设置, 又或者是通过 Jav […]
Hive on Spark -- hive默认引擎是mr,执行job时可以看到上面日志,HIVE2后已经建议使用tez/spark计算引擎。 -- set hive.execution.engine=mr; SET […]
cdh6.3.2 Spark 多版本共存 # 一 部署Spark客户端 # 1.1 部署spark3客户端 tar -zxvf spark-3.3.1-bin-3.0.0-cdh6.3.2.tgz -C /opt/c […]
CDH6.3.2 升级spark参考 # 软件版本:jdk-1.8、maven-3.8.6、scala-2.12.15 、spark-3.3.4 # 说明:maven 和 scala 请不要改变小版本,如果要改变,请 […]
远程访问cdh spark集群 # 下载hadoop https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.3.6/hadoop-3.3 […]