第6章 数据加载,存储与文件格式

it2024-11-25  30

6.1 读写文本格式的数据

读取数据函数的选项可分为以下几大类:

索引: 将一个或多个列当做返回的DataFrame处理,以及是否从文件、用户获 取列名。类型推断和数据转换:包括用户定义值的转换、和自定义的缺失值标记列表 等。日期解析:包括组合功能,比如将分散在多个列中的日期时间信息组合成结果 中的单个列。迭代:支持对大文件进行逐块迭代。不规整数据问题:跳过一些行、页脚、注释或其他一些不重要的东西(比如由 成千上万个逗号隔开的数值数据)。

逐块读取文本文件

读大文件之前,先设置最大的显示行数: pd.options.display.max_rows = 10 如果只想读取几行,而不是读取整个文件,通过nrows进行指定即可: pd.read_csv('examples/ex6.csv', nrows=5) 逐块读取文件,可指定chunksize(行数): chunker = pd.read_csv('ch06/ex6.csv', chunksize = 1000)
最新回复(0)