大数据面试要点3

it2023-05-28 116

项目经验：

Hadoop 四个插哨

hdfs参数调优： NameNode有一个工作线程池，用来处理datanode的心跳

yarn优化（1）单个任务的最大物理内存8G （2）yarn上可使用的内存总量：8G HDFS空盘闲置率在70%之下

Flume优化： Flume的内存配置为4G(flume-env.sh) FileChannel优化：配置多路径，增大Flume的吞吐量 checkpointDir和backupCheckpointDir也尽量配置在不同硬盘对应的目录中保证checkpoint坏掉后，可以快速使用backupCheckpointDir恢复数据

Sink小文件处理： hdfs.rollInterval、hdfs.rollSize、hdfs.rollCount

ODS采用的压缩格式 snappy+orc 压缩比1：10左右

dwd层：数据清洗（1）空值去除（2）核心字段无意义的数据（3）敏感信息脱敏（4）业务数据进行维度退化和降维（5）用户行为和业务表进行数据一致性处理

分析过哪些指标（一分钟至少说出30个指标） 1 离线指标网站流量指标独立访问数UV 页面访客数PV 流量质量指标类跳出率平均页面访问时长人均页面访问数 2 购物车类指标加入购物车次数加入购物车买家次数加入购物车商品数购物车支付转化率 3 下单类指标下单笔数下单金额下单买家数浏览下单转化率 4 支付类指标支付金额支付买家数支付商品数浏览-支付买家转化率下单-支付金额转化率下单-支付买家数转换率 5 交易类指标交易成功订单数交易成功金额交易成功买家数交易成功商品数交易失败订单数交易失败订单金额交易失败买家数交易失败商品数退款总订单量退款金额退款率 6 市场营销活动指标新增访问人数新增注册人数广告投资回报率 UV订单转化率 7 风控类指标买家评价数买家上传图片数买家评价率买家好评率买家差评率物流平均配送时间 8 投诉类指标发起投诉数投诉率撤销投诉(申诉数) 9 商品类指标产品总数 SKU数 SPU数上架商品SKU数上架商品SPU数上架商品数

数仓中的文件存储格式： TextFile：稳定性，速度慢 ORC:快，列式存储，压缩比例高，占用磁盘空间少

写过那些shell脚本：集群启动停止脚本：【hadoop,Flume,kafka,Zookeeper】 Sqoop和数仓之间导入导出脚本数仓层级之间的数据导入脚本

最新回复(0)