1.1.如何进行版本滚动升级与回退;
2.1.broker间数据迁移; 2.2.broker内部磁盘间数据迁移;
3.1.生产者流量限制; 3.2.消费者流量限制; 3.3.follower副本同步leader副本流量限制;
4.1.1.网络 网络入流量、网络出流量、网络丢包、网络重传、交换机。
4.1.2.磁盘 磁盘write、磁盘read、磁盘ioutil、磁盘iowait、磁盘存储空间、磁盘坏盘、磁盘坏块/坏道。
4.1.3.CPU CPU空闲率/负载
4.1.4.内存 内存使用率
4.1.5.缓存命中率 Linux的PageCache缓存命中率,详细内容请阅读下面这篇文章:https://blog.csdn.net/yangyijun1990/article/details/105341785
4.2.1.broker级别: broker进程、broker出/入流量、broker连接数、broker网络空闲率、broker生产延时、broker消费延时、broker生产请求数、broker消费请求数、broker上分布leader个数、broker上分布副本个数、broker请求队列
4.2.2.topic级别: topic副本缺失、topic出/入流量、topic消费者消费延迟记录、topic分区leader切换
4.2.3.用户级别 用户出/入流量、用户出/入流量被限制时间;
4.2.4.服务日志 对server端打印的错误日志进行监控告警;
4.3.1.生产者客户端
维度:客户端ID、客户端IP、topic名称、集群名称、brokerIP;指标:连接数、io等待时间、生产流量大小、生产记录数、请求次数、请求延时、发送错误/重试次数等;4.3.2.消费者客户端
维度:客户端ID、客户端IP、topic名称、集群名称、消费组、brokerIP、topic分区指标:连接数、io等待时间、消费流量大小、消费记录数、消费延时、topic分区消费延迟记录等4.4.1.zookeeper的进程监控; 4.4.2.zookeeper的leader切换; 4.4.3.zookeeper服务的错误日志监控;
5.1.业务资源物理隔离(分资源组,不同资源组之间物理隔离),不同业务互不影响;
我们根据业务和用途的不同,对集群进行了归类。主要分为以下几类:
日志集群;监控集群;计费集群;商业化集群;非商业化集群;7.1.topic扩容分区; 7.2.集群节点扩容broker(新broker上线); 7.3.集群缩容(节点下线);
8.1.开发自动负载均衡程序采集metrics指标,生成副本迁移计划,并执行迁移; 8.2.broker间负载均衡、broker内部多块磁盘间负载均衡;
9.1.生产者权限认证; 9.2.消费者权限认证; 9.3.指定迁移数据目录安全认证;
10.1.跨机架容灾; 10.2.跨集群容灾; 10.3.跨机房容灾;
11.1.服务参数优化; 11.2.生产参数优化; 11.3.消费参数优化; 11.4.服务器内核参数优化;
12.1.采用SSD固态硬盘代替HDD(机械盘); 12.2.采用更大内存服务器,比如256GB及以上; 12.3.配置更高的网络带宽,比如 10Gb/s及以上;
集群个数、节点个数、存储大小、用户个数、topic个数、分区个数、副本个数、消费组个数、生产延时、消费延时、生产流量、消费流量、数据可靠性/完整性;
14.1.集群配置管理; 14.2.集群滚动重启;
15.1.无生产/消费的topic从集群中清理掉; 15.2.消费延迟较高的topic分区监控告警,并让相应的消费方检查延迟较大原因及解决措施;
16.1.生产mock; 16.2.消费mock;
17.1.上线broker添加域名到broker的映射; 17.2.下线broker剔除域名与broker的映射;
18.1.根据性能测试结果评估broker节点个数及分区个数;
请阅读文章:https://blog.csdn.net/yangyijun1990/article/details/106698084
1.1.如何获取元数据; 1.2.添加分区后如何感知; 1.3.分区leader切换后如何感知; 1.4.数据如何存储; 1.5.如果acks被设置为-1,则如何进行回调判断所有follower都已经收到数据;
1.1.如何获取元数据; 1.2.添加分区后如何感知; 1.3.分区leader切换后如何感知; 1.4.添加新的消费者实例如何均衡; 1.5.如何检索消息;
3.1.不带指定数据目录的迁移(broker间数据迁移); 3.2.带指定数据目录的迁移(broker间数据迁移及broker内部数据目录迁移);
13.1.broker、topic、user配置动态管理;
14.1.isr列表收缩; 14.2.isr列表扩展;
15.1.日志目录结构; 15.2.日志内容格式;
1.1.当需要终止迁移任务时,无法终止迁移任务;【当前我们已经完成源码改造,实现了终止迁移新特性】
1.2.只能串行迁移,不能同时提交多个迁移任务;【当前我们已经完成源码改造,实现了并发副本迁移】
1.3.当topic分区数据量巨大时,数据迁移变得漫长且对broker对io产生巨大压力,影响到来集群稳定性;【当前我们已经完成源码改造,实现了增量副本迁移】