大数据面试要点3

it2023-05-28  72

项目经验:

Hadoop 四个插哨

hdfs参数调优: NameNode有一个工作线程池,用来处理datanode的心跳

yarn优化 (1)单个任务的最大物理内存8G (2)yarn上可使用的内存总量:8G HDFS空盘闲置率在70%之下

Flume优化: Flume的内存配置为4G(flume-env.sh) FileChannel优化: 配置多路径,增大Flume的吞吐量 checkpointDir和backupCheckpointDir也尽量配置在不同硬盘对应的目录中 保证checkpoint坏掉后,可以快速使用backupCheckpointDir恢复数据

Sink小文件处理: hdfs.rollInterval、hdfs.rollSize、hdfs.rollCount

ODS采用的压缩格式 snappy+orc 压缩比1:10左右

dwd层: 数据清洗 (1)空值去除 (2)核心字段无意义的数据 (3)敏感信息脱敏 (4)业务数据进行维度退化和降维 (5)用户行为和业务表进行数据一致性处理

分析过哪些指标(一分钟至少说出30个指标) 1 离线指标 网站流量指标 独立访问数UV 页面访客数PV 流量质量指标类 跳出率 平均页面访问时长 人均页面访问数 2 购物车类指标 加入购物车次数 加入购物车买家次数 加入购物车商品数 购物车支付转化率 3 下单类指标 下单笔数 下单金额 下单买家数 浏览下单转化率 4 支付类指标 支付金额 支付买家数 支付商品数 浏览-支付买家转化率 下单-支付金额转化率 下单-支付买家数转换率 5 交易类指标 交易成功订单数 交易成功金额 交易成功买家数 交易成功商品数 交易失败订单数 交易失败订单金额 交易失败买家数 交易失败商品数 退款总订单量 退款金额 退款率 6 市场营销活动指标 新增访问人数 新增注册人数 广告投资回报率 UV订单转化率 7 风控类指标 买家评价数 买家上传图片数 买家评价率 买家好评率 买家差评率 物流平均配送时间 8 投诉类指标 发起投诉数 投诉率 撤销投诉(申诉数) 9 商品类指标 产品总数 SKU数 SPU数 上架商品SKU数 上架商品SPU数 上架商品数

数仓中的文件存储格式: TextFile:稳定性,速度慢 ORC:快,列式存储,压缩比例高,占用磁盘空间少

写过那些shell脚本: 集群启动停止脚本:【hadoop,Flume,kafka,Zookeeper】 Sqoop和数仓之间导入导出脚本 数仓层级之间的数据导入脚本

最新回复(0)