在线教育项目回顾 01:在线教育项目需求 - **目标**:掌握在线教育项目需求 - **实施** - **常规的需求**:通过对数据进行数据分析处理,得到一些指标,来反映一些事实,支撑运营决策 - **行业**:在 […]
大数据数仓实践
在线教育仓库示例-学生出勤看板 总结需求: 第一类: 指标: 计算 出勤人数, 出勤率, 迟到人数, 迟到率 涉及维度: 时间维度: 年 月 天 上午 下午 晚自习 班级维度: 学生维度: 涉及表: course_t […]
在线教育仓库示例-意向客户看板 建模 指标和维度 指标:意向客户量是单位时间内新增的意向客户量(包含线上线下),以天为单位显示。 维度: 时间维度:年、月、天、小时 数据来源:线上线下 客户属性:新客户、老客户 地区 […]
在线教育仓库示例-访问与咨询看板-增量 数据准备 CREATE TABLE web_chat_ems_2024_10 LIKE web_chat_ems_2019_07; INSERT into web_chat_e […]
在线教育仓库示例-访问与咨询看板 建模分析 提取指标维度 根据主题的需求,我们可以看出,包含的指标有一些是可以提取合并的: 地区独立访客热力图、总访问客户量、时间段访问客户量趋势、来源渠道访问量占比、搜索来源访问量占 […]
DataX 批量处理 安装DataX 下载地址:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz 源码地址:https://githu […]
Sqoop常用操作 # kube-42 数据准备 oss tidb生产库数据导入至测试tidb库 # 工具准备 cd /usr/local/src wget https://download.pingcap.org/ […]
Sqoop Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Po […]
Oozie Oozie英文翻译为:驯象人。一个基于工作流引擎的开源框架,由Cloudera公司贡献给Apache,提供对Hadoop MapReduce、Pig Jobs的任务调度与协调。Oozie需要部署到Java […]
CDH 集成 Kerberos与Sentry Kerberos 安装部署见大数据入门篇 # 所有节点安装sasl工具,impala启用kerberos时需要sasl工具,如已安装请忽略 yum -y install […]
CDH平台部署 大数据发行版本主要有Apache官方社区版本,cloudera推出的CDH商业版本,还有Hortonworks推出的HDP商业免费版本,HDP版本已被cloudera收购。 Apache官方社区版本: […]
数据仓库基本概念 数据仓库与数据集市 一、数据仓库的定义和特点 数据仓库(Data Warehouse, DWH)是一种面向主题的、集成的、不可变的数据集合,用于支持管理决策。数据仓库的核心特征包括: 面向主题:数据 […]
数据仓库项目架构 数据仓库 数据仓库是一个用于存储和管理大量数据的系统,它可以帮助企业更好地理解其业务数据,从而做出更好的决策。数据仓库项目架构通常包括以下几个部分: 1. 数据源:数据仓库的数据来源,可以是各种业务 […]
shell 处理sql脚本常用 # 获取今天的日期 date date +%Y%m%d # 指定日期获取内容 -d或--date= # 获取指定日期的年月日格式输出 date -d "2024-10-29& […]
rclone 对象存储同步工具 # 安装 curl -O https://downloads.rclone.org/rclone-current-linux-amd64.zip unzip rclone-curren […]