Sqoop Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Po […]
每年归档: 2025年
Oozie Oozie英文翻译为:驯象人。一个基于工作流引擎的开源框架,由Cloudera公司贡献给Apache,提供对Hadoop MapReduce、Pig Jobs的任务调度与协调。Oozie需要部署到Java […]
CDH 集成 Kerberos与Sentry Kerberos 安装部署见大数据入门篇 # 所有节点安装sasl工具,impala启用kerberos时需要sasl工具,如已安装请忽略 yum -y install […]
CDH平台部署 大数据发行版本主要有Apache官方社区版本,cloudera推出的CDH商业版本,还有Hortonworks推出的HDP商业免费版本,HDP版本已被cloudera收购。 Apache官方社区版本: […]
数据仓库基本概念 数据仓库与数据集市 一、数据仓库的定义和特点 数据仓库(Data Warehouse, DWH)是一种面向主题的、集成的、不可变的数据集合,用于支持管理决策。数据仓库的核心特征包括: 面向主题:数据 […]
DeepSeek-R1 本地部署 Nvidia显卡管理 nvidia-smi ## 1.查看显卡信息 # 由于测试环境使用的是NVIDIA的显卡,这里直接通过lspci命令即可查询具体显卡信息 lspci | gre […]
数据仓库项目架构 数据仓库 数据仓库是一个用于存储和管理大量数据的系统,它可以帮助企业更好地理解其业务数据,从而做出更好的决策。数据仓库项目架构通常包括以下几个部分: 1. 数据源:数据仓库的数据来源,可以是各种业务 […]
shell 处理sql脚本常用 # 获取今天的日期 date date +%Y%m%d # 指定日期获取内容 -d或--date= # 获取指定日期的年月日格式输出 date -d "2024-10-29& […]
rclone 对象存储同步工具 # 安装 curl -O https://downloads.rclone.org/rclone-current-linux-amd64.zip unzip rclone-curren […]
Hive的索引与优化 Hive的索引 索引的作用: 加快查询的效率 为什么索引可以提升查询效率呢? hive索引是在 分区 分桶优化基础上, 又提供一种新的优化手段, 如果分区 和分桶受限, 可以尝试使用索引的方式来 […]
DataX 同步工具 https://github.com/alibaba/DataX/tree/master https://datax-opensource.oss-cn-hangzhou.aliyuncs.co […]
Anolis OS 8.9 K8S部署 # 系统ios镜像下载 https://mirrors.openanolis.cn/anolis/8.9/isos/GA/x86_64/AnolisOS-8.9-x86_64- […]
PXC operator 杂记 # docker镜像相关 docker pull docker.jintdev.com/wuyutang/publicimages/percona/percona-xtradb-clu […]
MySQL 5.7常用配置示例 # cat my.cnf # For advice on how to change settings please see # http://dev.mysql.com/doc/re […]
Tiup 本地部署 # 下载并安装 TiUP: curl --proto '=https' --tlsv1.2 -sSf https://tiup-mirrors.pingcap.com/inst […]
Hadoop 安全配置 引用: https://blog.csdn.net/cl939974883/article/details/140337597 一、安装libcrypto.so库 当使用Kerberos对Ha […]