实际上,列表和元组,都是一个可以放置任意数据类型的有序集合。
在Go等绝大多数语言中,集合中的数据必须一致。不过,对于Python的列表和元组来说,并无此要求:
l = [1, 2, 'hello', 'world'] # 列表中同时含有int和string类型的元素
print(l)
# [1, 2, 'hello', 'world']
tup = ('jason', 22) # 元组中同时含有int和string类型的元素
print(tup)
# ('jason', 22)
列表元组最主要的区别:
列表和元组最重要的区别就是,列表是动态的、可变的,而元组是静态的、不可变的。这样的差异,势必会影响两者存储方式。我们可以来看下面的例子:
l = [1, 2, 3]
print(l.__sizeof__())
# 64
t = (1, 2, 3)
print(t.__sizeof__())
# 48
事实上,由于列表是动态的,所以它需要存储指针,来指向对应的元素(上述例子中,对于 int 型,8 字节)。另外,由于列表可变,所以需要额外存储已经分配的长度大小(8 字节),这样才可以实时追踪列表空间的使用情况,当空间不足时,及时分配额外空间。
l = []
l.__sizeof__() # 空列表的存储空间为40字节
# 40
l.append(1)
l.__sizeof__()
# 72 // 加入了元素1之后,列表为其分配了可以存储4个元素的空间 (72 - 40)/8 = 4
l.append(2)
l.__sizeof__()
# 72 // 由于之前分配了空间,所以加入元素2,列表空间不变
l.append(3)
l.__sizeof__()
# 72 // 同上
l.append(4)
l.__sizeof__()
# 72 // 同上
l.append(5)
l.__sizeof__()
# 104 // 加入元素5之后,列表的空间不足,所以又额外分配了可以存储4个元素的空间 (104-72)/8 = 4
上面的例子,大概描述了列表空间分配的过程。我们可以看到,为了减小每次增加 / 删减操作时空间分配的开销,Python 每次分配空间时都会额外多分配一些,这样的机制(over-allocating)保证了其操作的高效性:增加 / 删除的时间复杂度均为 O(1)。
但是对于元组,情况就不同了。元组长度大小固定,元素不可变,所以存储空间固定。
通过列表和元组存储方式的差异,可以得出结论:元组要比列表更轻量级一些。
所以总体来说,元组的性能速度也要略优于列表。
另外,Python 会在后台,对静态数据做一些资源缓存(resource caching)。通常来说,因为垃圾回收机制的存在,如果一些变量不被使用了,Python 就会回收它们所占用的内存,返还给操作系统,以便其他变量或其他应用使用。
但是对于一些静态变量,比如元组,如果它不被使用并且占用空间不大时,Python 会暂时缓存这部分内存。这样,下次我们再创建同样大小的元组时,Python 就可以不用再向操作系统发出请求,去寻找内存,而是可以直接分配之前缓存的内存空间,这样就能大大加快程序的运行速度。
下面的例子,是计算初始化一个相同元素的列表和元组分别所需的时间。我们可以看到,元组的初始化速度,要比列表快近 5 倍。
python3 -m timeit 'x=[1, 2, 3, 4, 5, 6]'
10000000 loops, best of 3: 0.114 usec per loop
python3 -m timeit 'x=(1, 2, 3, 4, 5, 6)'
10000000 loops, best of 3: 0.0238 usec per loop
from timeit import timeit, repeat
timeit('x=(1,2,3,4,5,6)') # 0.011310500000000445
timeit('x=[1,2,3,4,5,6]') # 0.0449458000000007
timeit('x=(1,2,3,4,5,6)', number=20000000) # 0.2132706000000013
timeit('x=[1,2,3,4,5,6]', number=20000000) # 0.9008333000000022
repeat('x=(1,2,3,4,5,6)', number=20000000, repeat=5)
# [0.21257529999999747, 0.21248109999999087, 0.21260350000000017, 0.21276050000000168, 0.2131894999999986]
repeat('x=[1,2,3,4,5,6]', number=20000000, repeat=5)
# [0.9011461999999995, 0.8965812000000142, 0.9034017999999833, 0.9041421000000014, 0.903326700000008]
但如果是索引操作的话,两者的速度差别非常小,几乎可以忽略不计。
python3 -m timeit -s 'x=[1, 2, 3, 4, 5, 6]' 'y=x[3]'
10000000 loops, best of 3: 0.04 usec per loop
python3 -m timeit -s 'x=(1, 2, 3, 4, 5, 6)' 'y=x[3]'
10000000 loops, best of 3: 0.0334 usec per loop
当然,如果你想要增加、删减或者改变元素,那么列表显然更优。对于元组,你必须得通过新建一个元组来完成。
def get_location():
...
return (longitude, latitude)
viewer_owner_id_list = [] # 里面的每个元素记录了这个viewer一周内看过的所有owner的id
records = queryDB(viewer_id) # 索引数据库,拿到某个viewer一周内的日志
for record in records:
viewer_owner_id_list.append(record.id)
总的来说,列表和元组都是有序的,可以存储任意数据类型的集合,区别主要在于下面这两点。
想创建一个空的列表,我们可以用下面的 A、B 两种方式,请问它们在效率上有什么区别吗?我们应该优先考虑使用哪种呢?可以说说你的理由。
# 创建空列表
# option A
empty_list = list()
# option B
empty_list = []
区别主要在于list()是一个function call,Python的function call会创建stack,并且进行一系列参数检查的操作,比较expensive,反观[]是一个内置的C函数,可以直接被调用,因此效率高。
基于Nginx+Supervisord+uWSGI+Django1.11.1+Python3.6.5构建