优化算法时间复杂度
算法的时间复杂度对程序的执行效率影响最大,在Python中可以通过选择合适的数据结构来优化时间复杂度,如list和set查找某一个元素的时间复杂度分别是O(n)和O(1)。不同的场景有不同的优化方式,总得来说,一般有分治,分支界限,贪心,动态规划等思想。
减少冗余数据
如用上三角或下三角的方式去保存一个大的对称矩阵。在0元素占大多数的矩阵里使用稀疏矩阵表示。
合理使用copy与deepcopy
对于dict和list等数据结构的对象,直接赋值使用的是引用的方式。而有些情况下需要复制整个对象,这时可以使用copy包里的copy和deepcopy,这两个函数的不同之处在于后者是递归复制的。效率也不一样:(以下程序在ipython中运行)
importcopya=range()%timeit-n10copy.copy(a)#运行10次copy.copy(a)%timeit-n10copy.deepcopy(a)10loops,bestof3:1.55msperloop10loops,bestof3:msperloop
timeit后面的-n表示运行的次数,后两行对应的是两个timeit的输出,下同。由此可见后者慢一个数量级。
使用dict或set查找元素
pythondict和set都是使用hash表来实现(类似c++11标准库中unordered_map),查找元素的时间复杂度是O(1)
a=range()s=set(a)d=dict((i,1)foriina)%timeit-n0ind%timeit-n0ins0loops,bestof3:43.5nsperloop0loops,bestof3:49.6nsperloop
dict的效率略高(占用的空间也多一些)。
合理使用生成器(generator)和yield
%timeit-na=(iforiinrange())%timeit-nb=[iforiinrange()]loops,bestof3:1.54msperlooploops,bestof3:4.56msperloop
使用()得到的是一个generator对象,所需要的内存空间与列表的大小无关,所以效率会高一些。在具体应用上,比如set(iforiinrange())会比set([iforiinrange()])快。
但是对于需要循环遍历的情况:
%timeit-n10forxin(iforiinrange()):pass%timeit-n10forxin[iforiinrange()]:pass10loops,bestof3:6.51msperloop10loops,bestof3:5.54msperloop
后者的效率反而更高,但是如果循环里有break,用generator的好处是显而易见的。yield也是用于创建generator:
defyield_func(ls):foriinls:yieldi+1defnot_yield_func(ls):return[i+1foriinls]ls=range(0)%timeit-n10foriinyield_func(ls):pass%timeit-n10foriinnot_yield_func(ls):pass10loops,bestof3:63.8msperloop10loops,bestof3:62.9msperloop
对于内存不是非常大的list,可以直接返回一个list,但是可读性yield更佳(人个喜好)。
python2.x内置generator功能的有xrange函数、itertools包等。
优化循环
循环之外能做的事不要放在循环内,比如下面的优化可以快一倍:
a=range(0)size_a=len(a)%timeit-nforiina:k=len(a)%timeit-nforiina:k=size_aloops,bestof3:sperlooploops,bestof3:sperloop
优化包含多个判断表达式的顺序
对于and,应该把满足条件少的放在前面,对于or,把满足条件多的放在前面。如:
a=range()%timeit-n[iforiinaif10i20ori]%timeit-n[iforiinaifiori20]%timeit-n[iforiinaifi%2==0andi]%timeit-n[iforiinaifiandi%2==0]loops,bestof3:sperlooploops,bestof3:sperlooploops,bestof3:sperlooploops,bestof3:56.1sperloop
使用join合并迭代器中的字符串
In[1]:%%timeit...:s=...:foriina:...:s+=i...:0loops,bestof3:59.8sperloopIn[2]:%%timeits=.join(a)...:loops,bestof3:11.8sperloop
join对于累加的方式,有大约5倍的提升。
选择合适的格式化字符方式
s1,s2=ax,bx%timeit-nabc%s%s%(s1,s2)%timeit-nabc{0}{1}.format(s1,s2)%timeit-nabc+s1+s2loops,bestof3:nsperlooploops,bestof3:nsperlooploops,bestof3:nsperloop
三种情况中,%的方式是最慢的,但是三者的差距并不大(都非常快)。(个人觉得%的可读性最好)
不借助中间变量交换两个变量的值
In[3]:%%timeit-n0a,b=1,2....:c=a;a=b;b=c;....:0loops,bestof3:nsperloopIn[4]:%%timeit-n0a,b=1,2a,b=b,a....:0loops,bestof3:86nsperloop
使用a,b=b,a而不是c=a;a=b;b=c;来交换a,b的值,可以快1倍以上。
使用ifis
a=range(0)%timeit-n[iforiinaifi==True]%timeit-n[iforiinaifiisTrue]loops,bestof3:sperlooploops,bestof3:sperloop
使用ifisTrue比if==True将近快一倍。
使用级联比较xyz
x,y,z=1,2,3%timeit-n0ifxyz:pass%timeit-n0ifxyandyz:pass0loops,bestof3:nsperloop0loops,bestof3:nsperloop
xyz效率略高,而且可读性更好。
while1比whileTrue更快
defwhile_1():n=while1:n-=1ifn=0:breakdefwhile_true():n=whileTrue:n-=1ifn=0:breakm,n=0,0%timeit-nwhile_1()%timeit-nwhile_true()loops,bestof3:3.69msperlooploops,bestof3:5.61msperloop
while1比whiletrue快很多,原因是在python2.x中,True是一个全局变量,而非关键字。
使用**而不是pow
%timeit-n0c=pow(2,20)%timeit-n0c=2**200loops,bestof3:nsperloop0loops,bestof3:16.9nsperloop
**就是快10倍以上!
使用cProfile,cStringIO和cPickle等用c实现相同功能(分别对应profile,StringIO,pickle)的包
importcPickleimportpicklea=range(0)%timeit-nx=cPickle.dumps(a)%timeit-nx=pickle.dumps(a)loops,bestof3:1.58msperlooploops,bestof3:17msperloop
由c实现的包,速度快10倍以上!
使用最佳的反序列化方式
下面比较了eval,cPickle,json方式三种对相应字符串反序列化的效率:
importjsonimportcPicklea=range(0)s1=str(a)s2=cPickle.dumps(a)s3=json.dumps(a)%timeit-nx=eval(s1)%timeit-nx=cPickle.loads(s2)%timeit-nx=json.loads(s3)loops,bestof3:16.8msperlooploops,bestof3:2.02msperlooploops,bestof3:sperloop
可见json比cPickle快近3倍,比eval快20多倍。
使用C扩展(Extension)
目前主要有CPython(python最常见的实现的方式)原生API,ctypes,Cython,cffi三种方式,它们的作用是使得Python程序可以调用由C编译成的动态链接库,其特点分别是:
CPython原生API:通过引入Python.h头文件,对应的C程序中可以直接使用Python的数据结构。实现过程相对繁琐,但是有比较大的适用范围。
ctypes:通常用于封装(wrap)C程序,让纯Python程序调用动态链接库(Windows中的dll或Unix中的so文件)中的函数。如果想要在python中使用已经有C类库,使用ctypes是很好的选择,有一些基准测试下,python2+ctypes是性能最好的方式。
Cython:Cython是CPython的超集,用于简化编写C扩展的过程。Cython的优点是语法简洁,可以很好地兼容numpy等包含大量C扩展的库。Cython的使得场景一般是针对项目中某个算法或过程的优化。在某些测试中,可以有几百倍的性能提升。
cffi:cffi的就是ctypes在pypy(详见下文)中的实现,同进也兼容CPython。cffi提供了在python使用C类库的方式,可以直接在python代码中编写C代码,同时支持链接到已有的C类库。
使用这些优化方式一般是针对已有项目性能瓶颈模块的优化,可以在少量改动原有项目的情况下大幅度地提高整个程序的运行效率。
并行编程
因为GIL的存在,Python很难充分利用多核CPU的优势。但是,可以通过内置的模块multiprocessing实现下面几种并行模式:
多进程:对于CPU密集型的程序,可以使用multiprocessing的Process,Pool等封装好的类,通过多进程的方式实现并行计算。但是因为进程中的通信成本比较大,对于进程之间需要大量数据交互的程序效率未必有大的提高。
多线程:对于IO密集型的程序,multiprocessing.dummy模块使用multiprocessing的接口封装threading,使得多线程编程也变得非常轻松(比如可以使用Pool的map接口,简洁高效)。
分布式:multiprocessing中的Managers类提供了可以在不同进程之共享数据的方式,可以在此基础上开发出分布式的程序。
不同的业务场景可以选择其中的一种或几种的组合实现程序性能的优化。
终级大杀器:PyPy
PyPy是用RPython(CPython的子集)实现的Python,根据