大数据-Spark

23 篇

大数据-Spark–感谢B站【黑马程序员】的免费教学视频

部署安装Spark集群 PySpark环境安装 conda create -n spark24 python=3.7 conda init powershell conda activate spark24 cond […]

2. 部署安装Spark集群

认识Spark Spark是什么定义：Apache Spark是用于大规模数据（large-scala data）处理的统一（unified）分析引擎。统一分析引擎？ Spark是一款分布式内存计算的统一分析引擎 […]

SparkConfiguration Spark 提供了三个地方来设置配置参数: Spark properties 控制着绝大多数的参数设置, 一般可以通过 SparkConf 对象来进行设置, 又或者是通过 Jav […]

Hive on Spark -- hive默认引擎是mr，执行job时可以看到上面日志，HIVE2后已经建议使用tez/spark计算引擎。 -- set hive.execution.engine=mr; SET […]

cdh6.3.2 Spark 多版本共存 # 一部署Spark客户端 # 1.1 部署spark3客户端 tar -zxvf spark-3.3.1-bin-3.0.0-cdh6.3.2.tgz -C /opt/c […]

CDH6.3.2 升级spark参考 # 软件版本：jdk-1.8、maven-3.8.6、scala-2.12.15 、spark-3.3.4 # 说明：maven 和 scala 请不要改变小版本，如果要改变，请 […]

远程访问cdh spark集群 # 下载hadoop https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.3.6/hadoop-3.3 […]