6.1 读写文本格式的数据
读取数据函数的选项可分为以下几大类:
索引: 将一个或多个列当做返回的DataFrame处理,以及是否从文件、用户获 取列名。类型推断和数据转换:包括用户定义值的转换、和自定义的缺失值标记列表 等。日期解析:包括组合功能,比如将分散在多个列中的日期时间信息组合成结果 中的单个列。迭代:支持对大文件进行逐块迭代。不规整数据问题:跳过一些行、页脚、注释或其他一些不重要的东西(比如由 成千上万个逗号隔开的数值数据)。
逐块读取文本文件
读大文件之前,先设置最大的显示行数:
pd
.options
.display
.max_rows
= 10
如果只想读取几行,而不是读取整个文件,通过nrows进行指定即可:
pd
.read_csv
('examples/ex6.csv', nrows
=5)
逐块读取文件,可指定chunksize(行数):
chunker
= pd
.read_csv
('ch06/ex6.csv', chunksize
= 1000)