import pandas as pd import matplotlib.pyplot as plt #第一步 导入Pandas并准备画图环境 complaints = pd.read_csv(‘311-service-requests.csv’) #第二步 查看数据列属性 complaints[:0] #第三步 选择某一列并查看前5个元素 complaints[‘Complaint Type’][:5] #第四步 选择多列并查看前5列 complaints[[‘Complaint Type’,‘Borough’]][:5] #第五步 下面将分析出最常见的热线电话,也就是在“Complaint Type”列中出现次数最多的值。 complaint_counts = complaints[‘Complaint Type’].value_counts() complaint_counts[:10] #第六步 画出常用的电话类型直方图,如图2-4所示。 complaint_counts[:10].plot(kind=‘bar’) #第七步 如果我们想要分析哪一个区的噪声投诉最多,也就是寻找“Compplaint Type”字段的值为“Noise-Street/Sidewalk”的记录,该怎么二做呢? #这里我们构造一个bool序列 is_noise = complaints[‘Complaint Type’]==“Noise - Street/Sidewalk” is_noise[:5] #第八步 使用这个bool序列来选择数据中的对应记录 noise_complaints = complaints[is_noise] noise_complaints[:3] #第九步 统计Borough列中哪个值出现次数最多。 noise_complaints[‘Borough’].value_counts() #第十步 计算噪声投诉占总数的百分比 noise_complaint_counts = noise_complaints[‘Borough’].value_counts() complaint_counts = complaints[‘Borough’].value_counts() percent = noise_complaint_counts / complaint_counts * 100 percent #第十一步 画出噪声投诉最多的区域 percent.plot(kind=‘bar’)