部署安装Spark集群 PySpark环境安装 conda create -n spark24 python=3.7 conda init powershell conda activate spark24 cond […]
大数据-Spark
23 篇
认识Spark Spark是什么 定义:Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。 统一分析引擎? Spark是一款分布式内存计算的统一分析引擎 […]
SparkConfiguration Spark 提供了三个地方来设置配置参数: Spark properties 控制着绝大多数的参数设置, 一般可以通过 SparkConf 对象来进行设置, 又或者是通过 Jav […]
Hive on Spark -- hive默认引擎是mr,执行job时可以看到上面日志,HIVE2后已经建议使用tez/spark计算引擎。 -- set hive.execution.engine=mr; SET […]
cdh6.3.2 Spark 多版本共存 # 一 部署Spark客户端 # 1.1 部署spark3客户端 tar -zxvf spark-3.3.1-bin-3.0.0-cdh6.3.2.tgz -C /opt/c […]
CDH6.3.2 升级spark参考 # 软件版本:jdk-1.8、maven-3.8.6、scala-2.12.15 、spark-3.3.4 # 说明:maven 和 scala 请不要改变小版本,如果要改变,请 […]
远程访问cdh spark集群 # 下载hadoop https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.3.6/hadoop-3.3 […]