两个numpy.nan是不相等的。
import numpy as np print(np.nan == np.nan) # False print(np.nan != np.nan) # True numpy.isnan(x, *args, **kwargs) Test element-wise for NaN and return result as a boolean array. import numpy as np x = np.array([1, 1, 8, np.nan, 10]) print(x) # [ 1. 1. 8. nan 10.] y = np.isnan(x) print(y) # [False False False True False] z = np.count_nonzero(y) print(z) # 1Python 原生的数据类型相对较少, bool、int、float、str等。这在不需要关心数据在计算机中表示的所有方式的应用中是方便的。然而,对于科学计算,通常需要更多的控制。为了加以区分 numpy 在这些类型名称末尾都加了“_”。
下表列举了常用 numpy 基本类型。
类型备注说明bool_ = bool88位布尔类型int8 = byte8位整型int16 = short16位整型int32 = intc32位整型int_ = int64 = long = int0 = intp64位整型uint8 = ubyte8位无符号整型uint16 = ushort16位无符号整型uint32 = uintc32位无符号整型uint64 = uintp = uint0 = uint64位无符号整型float16 = half16位浮点型float32 = single32位浮点型float_ = float64 = double64位浮点型str = unicode = str0 = unicode Unicode 字符串datetime64 日期时间类型timedelta64 表示两个时间之间的间隔numpy 的数值类型实际上是 dtype 对象的实例。
class dtype(object): def __init__(self, obj, align=False, copy=False): pass每个内建类型都有一个唯一定义它的字符代码,如下:
字符对应类型备注bboolean'b1'isigned integer'i1', 'i2', 'i4', 'i8'uunsigned integer'u1', 'u2' ,'u4' ,'u8'ffloating-point'f2', 'f4', 'f8'ccomplex floating-point mtimedelta64表示两个时间之间的间隔Mdatetime64日期时间类型Oobject S(byte-)stringS3表示长度为3的字符串UUnicodeUnicode 字符串Vvoid import numpy as np a = np.dtype('b1') print(a.type) # <class 'numpy.bool_'> print(a.itemsize) # 1 a = np.dtype('i1') print(a.type) # <class 'numpy.int8'> print(a.itemsize) # 1 a = np.dtype('i2') print(a.type) # <class 'numpy.int16'> print(a.itemsize) # 2 a = np.dtype('i4') print(a.type) # <class 'numpy.int32'> print(a.itemsize) # 4 a = np.dtype('i8') print(a.type) # <class 'numpy.int64'> print(a.itemsize) # 8 a = np.dtype('u1') print(a.type) # <class 'numpy.uint8'> print(a.itemsize) # 1 a = np.dtype('u2') print(a.type) # <class 'numpy.uint16'> print(a.itemsize) # 2 a = np.dtype('u4') print(a.type) # <class 'numpy.uint32'> print(a.itemsize) # 4 a = np.dtype('u8') print(a.type) # <class 'numpy.uint64'> print(a.itemsize) # 8 a = np.dtype('f2') print(a.type) # <class 'numpy.float16'> print(a.itemsize) # 2 a = np.dtype('f4') print(a.type) # <class 'numpy.float32'> print(a.itemsize) # 4 a = np.dtype('f8') print(a.type) # <class 'numpy.float64'> print(a.itemsize) # 8 a = np.dtype('S') print(a.type) # <class 'numpy.bytes_'> print(a.itemsize) # 0 a = np.dtype('S3') print(a.type) # <class 'numpy.bytes_'> print(a.itemsize) # 3 a = np.dtype('U3') print(a.type) # <class 'numpy.str_'> print(a.itemsize) # 12Python 的浮点数通常是64位浮点数,几乎等同于 np.float64。
NumPy和Python整数类型的行为在整数溢出方面存在显着差异,与 NumPy 不同,Python 的int 是灵活的。这意味着Python整数可以扩展以容纳任何整数并且不会溢出。
Machine limits for integer types.
class iinfo(object): def __init__(self, int_type): pass def min(self): pass def max(self): pass import numpy as np ii16 = np.iinfo(np.int16) print(ii16.min) # -32768 print(ii16.max) # 32767 ii32 = np.iinfo(np.int32) print(ii32.min) # -2147483648 print(ii32.max) # 2147483647Machine limits for floating point types.
class finfo(object): def _init(self, dtype): import numpy as np ff16 = np.finfo(np.float16) print(ff16.bits) # 16 print(ff16.min) # -65500.0 print(ff16.max) # 65500.0 print(ff16.eps) # 0.000977 ff32 = np.finfo(np.float32) print(ff32.bits) # 32 print(ff32.min) # -3.4028235e+38 print(ff32.max) # 3.4028235e+38 print(ff32.eps) # 1.1920929e-07在 numpy 中,我们很方便的将字符串转换成时间日期类型 datetime64(datetime 已被 python 包含的日期时间库所占用)。
datatime64是带单位的日期时间类型,其单位如下:
日期单位代码含义时间单位代码含义Y年h小时M月m分钟W周s秒D天ms毫秒--us微秒--ns纳秒--ps皮秒--fs飞秒--as阿托秒注意:
1秒 = 1000 毫秒(milliseconds) 1毫秒 = 1000 微秒(microseconds) 从字符串创建 datetime64 类型时,默认情况下,numpy 会根据字符串自动选择对应的单位。 import numpy as np a = np.datetime64('2020-03-01') print(a, a.dtype) # 2020-03-01 datetime64[D] a = np.datetime64('2020-03') print(a, a.dtype) # 2020-03 datetime64[M] a = np.datetime64('2020-03-08 20:00:05') print(a, a.dtype) # 2020-03-08T20:00:05 datetime64[s] a = np.datetime64('2020-03-08 20:00') print(a, a.dtype) # 2020-03-08T20:00 datetime64[m] a = np.datetime64('2020-03-08 20') print(a, a.dtype) # 2020-03-08T20 datetime64[h] 从字符串创建 datetime64 类型时,可以强制指定使用的单位。 import numpy as np a = np.datetime64('2020-03', 'D') print(a, a.dtype) # 2020-03-01 datetime64[D] a = np.datetime64('2020-03', 'Y') print(a, a.dtype) # 2020 datetime64[Y] print(np.datetime64('2020-03') == np.datetime64('2020-03-01')) # True print(np.datetime64('2020-03') == np.datetime64('2020-03-02')) #False由上例可以看出,2019-03 和 2019-03-01 所表示的其实是同一个时间。 事实上,如果两个 datetime64 对象具有不同的单位,它们可能仍然代表相同的时刻。并且从较大的单位(如月份)转换为较小的单位(如天数)是安全的。
从字符串创建 datetime64 数组时,如果单位不统一,则一律转化成其中最小的单位。 import numpy as np a = np.array(['2020-03', '2020-03-08', '2020-03-08 20:00'], dtype='datetime64') print(a, a.dtype) # ['2020-03-01T00:00' '2020-03-08T00:00' '2020-03-08T20:00'] datetime64[m] 使用arange()创建 datetime64 数组,用于生成日期范围。 import numpy as np a = np.arange('2020-08-01', '2020-08-10', dtype=np.datetime64) print(a) # ['2020-08-01' '2020-08-02' '2020-08-03' '2020-08-04' '2020-08-05' # '2020-08-06' '2020-08-07' '2020-08-08' '2020-08-09'] print(a.dtype) # datetime64[D] a = np.arange('2020-08-01 20:00', '2020-08-10', dtype=np.datetime64) print(a) # ['2020-08-01T20:00' '2020-08-01T20:01' '2020-08-01T20:02' ... # '2020-08-09T23:57' '2020-08-09T23:58' '2020-08-09T23:59'] print(a.dtype) # datetime64[m] a = np.arange('2020-05', '2020-12', dtype=np.datetime64) print(a) # ['2020-05' '2020-06' '2020-07' '2020-08' '2020-09' '2020-10' '2020-11'] print(a.dtype) # datetime64[M]为了允许在只有一周中某些日子有效的上下文中使用日期时间,NumPy包含一组“busday”(工作日)功能。
numpy.busday_offset(dates, offsets, roll='raise', weekmask='1111100', holidays=None, busdaycal=None, out=None) First adjusts the date to fall on a valid day according to the roll rule, then applies offsets to the given dates counted in valid days.参数roll:{'raise', 'nat', 'forward', 'following', 'backward', 'preceding', 'modifiedfollowing', 'modifiedpreceding'}
'raise' means to raise an exception for an invalid day.'nat' means to return a NaT (not-a-time) for an invalid day.'forward' and 'following' mean to take the first valid day later in time.'backward' and 'preceding' mean to take the first valid day earlier in time. 将指定的偏移量应用于工作日,单位天('D')。计算下一个工作日,如果当前日期为非工作日,默认报错。可以指定 forward 或 backward 规则来避免报错。(一个是向前取第一个有效的工作日,一个是向后取第一个有效的工作日) import numpy as np # 2020-07-10 星期五 a = np.busday_offset('2020-07-10', offsets=1) print(a) # 2020-07-13 a = np.busday_offset('2020-07-11', offsets=1) print(a) # ValueError: Non-business day date in busday_offset a = np.busday_offset('2020-07-11', offsets=0, roll='forward') b = np.busday_offset('2020-07-11', offsets=0, roll='backward') print(a) # 2020-07-13 print(b) # 2020-07-10 a = np.busday_offset('2020-07-11', offsets=1, roll='forward') b = np.busday_offset('2020-07-11', offsets=1, roll='backward') print(a) # 2020-07-14 print(b) # 2020-07-13可以指定偏移量为 0 来获取当前日期向前或向后最近的工作日,当然,如果当前日期本身就是工作日,则直接返回当前日期。
numpy.is_busday(dates, weekmask='1111100', holidays=None, busdaycal=None, out=None) Calculates which of the given dates are valid days, and which are not. 返回指定日期是否是工作日。 import numpy as np # 2020-07-10 星期五 a = np.is_busday('2020-07-10') b = np.is_busday('2020-07-11') print(a) # True print(b) # False 统计一个 datetime64[D] 数组中的工作日天数。 import numpy as np # 2020-07-10 星期五 begindates = np.datetime64('2020-07-10') enddates = np.datetime64('2020-07-20') a = np.arange(begindates, enddates, dtype='datetime64') b = np.count_nonzero(np.is_busday(a)) print(a) # ['2020-07-10' '2020-07-11' '2020-07-12' '2020-07-13' '2020-07-14' # '2020-07-15' '2020-07-16' '2020-07-17' '2020-07-18' '2020-07-19'] print(b) # 6 自定义周掩码值,即指定一周中哪些星期是工作日。 import numpy as np # 2020-07-10 星期五 a = np.is_busday('2020-07-10', weekmask=[1, 1, 1, 1, 1, 0, 0]) b = np.is_busday('2020-07-10', weekmask=[1, 1, 1, 1, 0, 0, 1]) print(a) # True print(b) # False numpy.busday_count(begindates, enddates, weekmask='1111100', holidays=[], busdaycal=None, out=None) Counts the number of valid days between begindates and enddates, not including the day of enddates. 返回两个日期之间的工作日数量。 import numpy as np # 2020-07-10 星期五 begindates = np.datetime64('2020-07-10') enddates = np.datetime64('2020-07-20') a = np.busday_count(begindates, enddates) b = np.busday_count(enddates, begindates) print(a) # 6 print(b) # -6导入 numpy。
import numpy as npnumpy 提供的最重要的数据结构是ndarray,它是 python 中list的扩展。
array()和asarray()都可以将结构数据转化为 ndarray,但是array()和asarray()主要区别就是当数据源是ndarray 时,array()仍然会 copy 出一个副本,占用新的内存,但不改变 dtype 时 asarray()不会。
def asarray(a, dtype=None, order=None): return array(a, dtype, copy=False, order=order) array()和asarray()都可以将结构数据转化为 ndarray import numpy as np x = [[1, 1, 1], [1, 1, 1], [1, 1, 1]] y = np.array(x) z = np.asarray(x) x[1][2] = 2 print(x,type(x)) # [[1, 1, 1], [1, 1, 2], [1, 1, 1]] <class 'list'> print(y,type(y)) # [[1 1 1] # [1 1 1] # [1 1 1]] <class 'numpy.ndarray'> print(z,type(z)) # [[1 1 1] # [1 1 1] # [1 1 1]] <class 'numpy.ndarray'> array()和asarray()的区别。(array()和asarray()主要区别就是当数据源是ndarray 时,array()仍然会 copy 出一个副本,占用新的内存,但不改变 dtype 时 asarray()不会。) import numpy as np x = np.array([[1, 1, 1], [1, 1, 1], [1, 1, 1]]) y = np.array(x) z = np.asarray(x) w = np.asarray(x, dtype=np.int) x[1][2] = 2 print(x,type(x),x.dtype) # [[1 1 1] # [1 1 2] # [1 1 1]] <class 'numpy.ndarray'> int32 print(y,type(y),y.dtype) # [[1 1 1] # [1 1 1] # [1 1 1]] <class 'numpy.ndarray'> int32 print(z,type(z),z.dtype) # [[1 1 1] # [1 1 2] # [1 1 1]] <class 'numpy.ndarray'> int32 print(w,type(w),w.dtype) # [[1 1 1] # [1 1 2] # [1 1 1]] <class 'numpy.ndarray'> int32 更改为较大的dtype时,其大小必须是array的最后一个axis的总大小(以字节为单位)的除数 import numpy as np x = np.array([[1, 1, 1], [1, 1, 1], [1, 1, 1]]) print(x, x.dtype) # [[1 1 1] # [1 1 1] # [1 1 1]] int32 x.dtype = np.float # ValueError: When changing to a larger dtype, its size must be a divisor of the total size in bytes of the last axis of the array.给函数绘图的时候可能会用到fromfunction(),该函数可从函数中创建数组。
def fromfunction(function, shape, **kwargs): 通过在每个坐标上执行一个函数来构造数组。 import numpy as np def f(x, y): return 10 * x + y x = np.fromfunction(f, (5, 4), dtype=int) print(x) # [[ 0 1 2 3] # [10 11 12 13] # [20 21 22 23] # [30 31 32 33] # [40 41 42 43]] x = np.fromfunction(lambda i, j: i == j, (3, 3), dtype=int) print(x) # [[ True False False] # [False True False] # [False False True]] x = np.fromfunction(lambda i, j: i + j, (3, 3), dtype=int) print(x) # [[0 1 2] # [1 2 3] # [2 3 4]]在机器学习任务中经常做的一件事就是初始化参数,需要用常数值或者随机值来创建一个固定大小的矩阵。
结构数组,首先需要定义结构,然后利用np.array()来创建数组,其参数dtype为定义的结构。
在使用 numpy 时,你会想知道数组的某些信息。很幸运,在这个包里边包含了很多便捷的方法,可以给你想要的信息。
numpy.ndarray.ndim用于返回数组的维数(轴的个数)也称为秩,一维数组的秩为 1,二维数组的秩为 2,以此类推。numpy.ndarray.shape表示数组的维度,返回一个元组,这个元组的长度就是维度的数目,即 ndim 属性(秩)。numpy.ndarray.size数组中所有元素的总量,相当于数组的shape中所有元素的乘积,例如矩阵的元素总量为行与列的乘积。numpy.ndarray.dtype ndarray 对象的元素类型。numpy.ndarray.itemsize以字节的形式返回数组中每一个元素的大小。 class ndarray(object): shape = property(lambda self: object(), lambda self, v: None, lambda self: None) dtype = property(lambda self: object(), lambda self, v: None, lambda self: None) size = property(lambda self: object(), lambda self, v: None, lambda self: None) ndim = property(lambda self: object(), lambda self, v: None, lambda self: None) itemsize = property(lambda self: object(), lambda self, v: None, lambda self: None) import numpy as np a = np.array([1, 2, 3, 4, 5]) print(a.shape) # (5,) print(a.dtype) # int32 print(a.size) # 5 print(a.ndim) # 1 print(a.itemsize) # 4 b = np.array([[1, 2, 3], [4, 5, 6.0]]) print(b.shape) # (2, 3) print(b.dtype) # float64 print(b.size) # 6 print(b.ndim) # 2 print(b.itemsize) # 8在ndarray中所有元素必须是同一类型,否则会自动向下转换,int->float->str。
import numpy as np a = np.array([1, 2, 3, 4, 5]) print(a) # [1 2 3 4 5] b = np.array([1, 2, 3, 4, '5']) print(b) # ['1' '2' '3' '4' '5'] c = np.array([1, 2, 3, 4, 5.0]) print(c) # [1. 2. 3. 4. 5.]6.1 什么是numpy?
numpy是python中基于数组对象的科学计算库。 提炼关键字,可以得出numpy以下三大特点: 拥有n维数组对象; 拥有广播功能(后面讲到); 拥有各种科学计算API,任你调用;6.2 如何安装numpy?
因为numpy是一个python库,所以使用python包管理工具pip或者conda都可以安装。 安装python后,打开cmd命令行,输入: pip install numpy6.3 什么是n维数组对象?
n维数组(ndarray)对象,是一系列同类数据的集合,可以进行索引、切片、迭代操作。 numpy中可以使用array函数创建数组: import numpy as np np.array([1,2,3]) # array([1, 2, 3])6.4 如何区分一维、二维、多维?
判断一个数组是几维,主要是看它有几个轴(axis)。 一个轴表示一维数组,两个轴表示二维数组,以此类推。 每个轴都代表一个一维数组。 比如说,二维数组第一个轴里的每个元素都是一个一维数组,也就是第二个轴。 一维数组一个轴: [1, 2, 3] 二维数组两个轴: [[0, 1, 2], [3, 4, 5]] 三维数组三个轴: [[[0, 1, 2], [3, 4, 5]], [[6, 7, 8], [9, 10, 11]]] 以此类推n维数组。6.5 以下表达式运行的结果分别是什么?
(提示: NaN = not a number, inf = infinity) 0 * np.nan np.nan == np.nan np.inf > np.nan np.nan - np.nan 0.3 == 3 * 0.1 print(0 * np.nan) print(np.nan == np.nan) print(np.inf > np.nan) print(np.nan - np.nan) print(0.3 == 3 * 0.1) # nan # False # False # nan # False6.6 将numpy的datetime64对象转换为datetime的datetime对象。
dt64 = np.datetime64('2020-02-25 22:10:10')【知识点:时间日期和时间增量】
如何将numpy的datetime64对象转换为datetime的datetime对象? import numpy as np import datetime dt64 = np.datetime64('2020-02-25 22:10:10') dt = dt64.astype(datetime.datetime) print(dt, type(dt)) # 2020-02-25 22:10:10 <class 'datetime.datetime'> 2020-02-25 22:10:10 <class 'datetime.datetime'>6.7 给定一系列不连续的日期序列。填充缺失的日期,使其成为连续的日期序列。
dates = np.arange('2020-02-01', '2020-02-10', 2, np.datetime64)【知识点:时间日期和时间增量、数学函数】
如何填写不规则系列的numpy日期中的缺失日期? import numpy as np dates = np.arange('2020-02-01', '2020-02-10', 2, np.datetime64) print(dates) # ['2020-02-01' '2020-02-03' '2020-02-05' '2020-02-07' '2020-02-09'] out = [] for date, d in zip(dates, np.diff(dates)): out.extend(np.arange(date, date + d)) fillin = np.array(out) output = np.hstack([fillin, dates[-1]]) print(output) # ['2020-02-01' '2020-02-02' '2020-02-03' '2020-02-04' '2020-02-05' # '2020-02-06' '2020-02-07' '2020-02-08' '2020-02-09']6.8 如何得到昨天,今天,明天的的日期
【知识点:时间日期】
(提示: np.datetime64, np.timedelta64) yesterday = np.datetime64('today', 'D') - np.timedelta64(1, 'D') today = np.datetime64('today', 'D') tomorrow = np.datetime64('today', 'D') + np.timedelta64(1, 'D') print ("Yesterday is " + str(yesterday)) print ("Today is " + str(today)) print ("Tomorrow is "+ str(tomorrow)) # Yesterday is 2020-09-13 # Today is 2020-09-14 # Tomorrow is 2020-09-156.9 创建从0到9的一维数字数组。
【知识点:数组的创建】
如何创建一维数组? import numpy as np arr = np.arange(10) print(arr) # [0 1 2 3 4 5 6 7 8 9] [0 1 2 3 4 5 6 7 8 9]6.10 创建一个元素全为True的 3×3 数组。
【知识点:数组的创建】
如何创建一个布尔数组? import numpy as np arr = np.full([3, 3], True, dtype=np.bool) print(arr) # [[ True True True] # [ True True True] # [ True True True]]6.11 创建一个长度为10并且除了第五个值为1的空向量
【知识点:数组的创建】
(提示: array[4]) Z = np.zeros(10) Z[4] = 1 print(Z) # [0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]6.12 创建一个值域范围从10到49的向量
【知识点:创建数组】
(提示: np.arange) Z = np.arange(10,50) print(Z) # [10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49]6.13 创建一个 3x3x3的随机数组
【知识点:创建数组】
(提示: np.random.random)
Z = np.random.random((3,3,3)) print(Z) # [[[0.9656547 0.98794518 0.97311304] [0.70795913 0.48301228 0.99415693] [0.88059252 0.36213986 0.09431051]] [[0.19983998 0.27391144 0.75292906] [0.19717369 0.97399681 0.84519249] [0.1990827 0.75098517 0.49597504]] [[0.59227295 0.13609747 0.278576 ] [0.0652865 0.30666851 0.44145043] [0.28980157 0.64063686 0.13204375]]]6.14 创建一个二维数组,其中边界值为1,其余值为0
【知识点:二维数组的创建】
(提示: array[1:-1, 1:-1]) Z = np.ones((10,10)) Z[1:-1,1:-1] = 0 print(Z) # [[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.] [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.] [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.] [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.] [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.] [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.] [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.] [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.] [1. 0. 0. 0. 0. 0. 0. 0. 0. 1.] [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]]6.15 创建长度为10的numpy数组,从5开始,在连续的数字之间的步长为3。
【知识点:数组的创建与属性】
如何在给定起始点、长度和步骤的情况下创建一个numpy数组序列? import numpy as np start = 5 step = 3 length = 10 a = np.arange(start, start + step * length, step) print(a) # [ 5 8 11 14 17 20 23 26 29 32]6.16 将本地图像导入并将其转换为numpy数组。
【知识点:数组的创建与属性】
如何将图像转换为numpy数组? import numpy as np from PIL import Image img1 = Image.open('test.jpg') a = np.array(img1) print(a.shape, a.dtype) # (959, 959, 3) uint8