在某些应用安全场景需要结合进程级网络连接、流入流出流量等数据直接分析出进程的异常。例如,在内网主机上是否存在持续恶意外传敏感数据的现象、在网络监控时发现服务器大量带宽被占用但不清楚由系统具体哪个进程占用。为此都需要获取更细粒度的进程级网络流量数据直接锁定异常服务。
在Linux系统中都有相应开源工具采集网络连接、进程、流量等信息,像netstat命令查看主机网络连接信息,一般包括最基本的五元组信息(源地址、目标地址、源端口、目标端口、协议号);ps命令采集进程信息,包括pid, user, exe, cmdline等;iftop命令获取网卡的实时流量数据。
同时在linux /proc目录下可直接读取主机级网络流量数据,例如/proc/net/snmp提供了主机各层IP、ICMP、ICMPMsg、TCP、UDP详细数据,/proc/net/netstat文件InBcastPkts、 OutBcastPkts、InOctets、OutOctets字段能获取主机的收发包数、收包字节数据。
但很可惜没有一个细粒度进程级流入流出网络流量数据。为此,本文旨在分享实现一种统计Linux进程级网络流量方式。
涉及linux /proc目录下网络状态文件/proc/net/tcp、/proc/net/udp,进程文件描述符目录/proc/pid/fd。
以tcp的状态文件为例/proc/net/tcp:
sl local_address rem_address st tx_queue rx_queue tr tm->when retrnsmt uid timeout inode 6: 0100007F:22B8 00000000:0000 0A 00000000:00000000 00:00000000 00000000 0 0 623457565 1 ffff88004f918740 750 0 0 2 -1重点关注网络连接五元组+连接状态+inode号,分别在第2、3(local_address)、4(st)、11列(inode)。
第2、3列分别是主机字节序ip:port ,例如"0100007F:22B8" -> “10.93.122.33:8888”
第4列是网络连接状态信息,状态字段含义如下:
常见网络状态如0A,01 分别代表某进程正监听和已建立连接状态。
第11列是inode号,代表Linux系统中的一个文件系统对象包括文件、目录、设备文件、socket、管道等的元信息。如图中623457565是某进程监听socket(状态0A)的inode号。
/proc/pid/fd目录是进程所有打开的文件信息,其中0、1、2表示标准输入、输出、错误,网络连接是以socket:开头的文件描述符,其中[]号内的是socket对应inode号,这样可以和网络状态文件/proc/net/tcp下的inode号可对应起来。
以pid:30168进程为例,该进程监听8888(0x22B8)端口,在/proc/30168/fd目录下显示文件描述符是3、5代表的是sokcet连接,对应inode号分别是623457565、623457729。
ls -l /proc/30168/fd lrwx------ 1 root root 64 Oct 30 10:46 0 -> /dev/pts/0 lrwx------ 1 root root 64 Oct 30 10:47 1 -> /dev/pts/0 lrwx------ 1 root root 64 Oct 30 10:46 2 -> /dev/pts/0 lrwx------ 1 root root 64 Oct 30 10:47 3 -> socket:[623457565] lrwx------ 1 root root 64 Oct 30 10:47 4 -> anon_inode:[eventpoll] lrwx------ 1 root root 64 Oct 30 10:48 5 -> socket:[623457729]再从/proc/net/tcp过滤22B8,可以发现有两条记录,状态分别为"0A",“01”,inode号是623457565, 623457729,与前面30168进程fd目录下的inode号一致,就可找到这连接归属的进程。
cat /proc/net/tcp |grep 22B8 6: 00000000:22B8 00000000:0000 0A 00000000:00000000 00:00000000 00000000 0 0 623457565 1 ffff8811f2fd1740 100 0 0 10 0 13: 0100007F:22B8 0100007F:ED2C 01 00000000:00000000 00:00000000 00000000 0 0 623457729 1 ffff8810880e1740 20 4 30 10 -1根据上述文件信息可以从/proc/net/tcp建立起网络连接五元组->inode的映射, 再从/proc/pid/fd建立起连接inode ->进程的映射。
这样通过inode号作为桥梁关联起系统内的进程与网络连接的信息。
为了实时获取网络连接流量在linux主机上使用开源libpcap库来抓取网络报文。
整个实现流程图如下包含以下5个关键步骤。
抓包 使用抓包Libpcap库获取到网络报文packet结构。
解析报文 解析出packet的五元组(源地址、目标地址、源端口、目标端口、协议号)信息和当前报文的流量大小。
缓存更新 在ConnInodeHash缓存查找五元组组成的key对应的inode号,如果不存在,重新读取/proc/net/tcp与udp,刷新ConnInodeHash缓存,建立起新连接与inode的映射; 并重新读取/proc/pid/fd目录对所有文件描述符遍历,过滤出以socket:开头的连接,刷新InodeProcessHash缓存,重新建立inode与进程的映射。
hash查找 根据查找到inode号在InodeProcessHash缓存查找相应进程pid。
统计流量 根据报文地址,判断当前连接方向,累加进程流入、流出数据。
通过对Linux主机抓包,结合网络状态文件、进程文件描述符实现一种细粒度的进程级网络流量采集方式。利用Linux文件inode号作为桥梁,关联出进程、网络连接的映射关系。
本文的实现方式可以按进程维度统计接收/发送的总量/平均值等各维度数据,也可以扩展按网络连接维度统计流量数据,这些在主机流量安全分析、网络监控排查等场景方面可作为重要依据。
本文介绍的流量统计方式是一种通用的实现方式,但持续使用libpcap抓包对主机性能有较明显损耗; 滴滴云的主机安全团队研发了一种更高效的实现方式,主机上服务无任何感知能力,目前已在数万台主机上稳定运行,下篇文章进行详细分析,敬请期待。