Hive on Spark
-- hive默认引擎是mr,执行job时可以看到上面日志,HIVE2后已经建议使用tez/spark计算引擎。
-- set hive.execution.engine=mr;
SET hive.execution.engine=spark;
select count(*) from t_bike_ca_trip_etl where year='2017' and month='01';
Copy
CDH在yarn上运行程序乱码
1. linux的环境变量设置字符集
vi /etc/profile
export LANG=zh_CN.UTF-8
2. 修改mapreduce的环境变量
CM界面yarn配置(mapred-site.xml)搜索
mapreduce.map.java.opts
-Djava.net.preferIPv4Stack = true -Dfile.encoding=utf-8 -Duser.language=zh
mapreduce.reduce.java.opts
-Djava.net.preferIPv4Stack = true -Dfile.encoding=utf-8 -Duser.language=zh
yarn.app.mapreduce.am.command-opts
-Djava.net.preferIPv4Stack = true -Dfile.encoding=utf-8 -Duser.language=zh
3. 修改spark字符集
CM界面spark配置搜索spark-default.conf,添加:
spark.driver.extraJavaOptions = -Dfile.encoding=utf-8
spark.executor.extraJavaOptions = -Dfile.encoding=utf-8
4. 重启服务
Copy