本文转载自微信公众号《Python爬虫与数据挖掘》,可通过以下二维码关注。转载本文请联系Python爬虫与数据挖掘公众号。前言在今天的知识点之前,你了解线程、进程和协程吗?我们先来一个初步的了解。线程CPU的调度单位简单来说就是程序中的末端执行者,相当于小弟的位置。有人说python中的线程是鸡肋。这是因为有了GIL,但又不只是鸡肋。毕竟在进行io操作的时候还是挺管用的,但是在进行计算的时候就差强人意了。下面看一下线程的具体使用:1、导入线程模块:importthreadingast2。线程使用tt=t.Thread(group=None,target=None,name=None,args=(),kwargs={},name='',daemon=None)group:线程组,必须是Nonetarget:运行函数args:传入函数的参数元组kwargs:传入函数的参数字典name:线程名daemon:线程是否与主线程一起退出以及退出的返回值(守护线程)Thread方法还有以下方法:tt.start():激活线程,tt.getName():获取线程名称tt.setName():设置线程名称tt.name:获取或设置线程名称tt.is_alive():确定线程是否活跃tt.isAlive():判断线程是否活跃tt.setDaemon()设置为守护线程(默认:False)tt.isDaemon():判断是否为守护线程tt.ident:获取线程的标识符。该属性只有在调用了start()方法后才有效tt.join():一个一个执行每个线程,执行完毕后继续执行tt.run():还有自动执行线程对象t的方法:t.active_count():返回正在运行的线程数t.enumerate():返回正在运行的线程列表t.current_thread().getName()获取当前线程的名称t.TIMEOUT_MAX设置t的全局超时时间让我们看一看:3.创建线程创建线程可以使用Thread方法,也可以通过重写thread类的run方法来实现。线程可以分为单线程和多线程。1、使用Thread方法创建:1、单线程defxc():foryinrange(100):print('running'+str(y))tt=t.Thread(target=xc,args=())#method加入线程tt.start()#启动线程tt.join()#等待子线程结束2.多线程defxc(num):print('Run:'+str(num))c=[]foryinrange(100):tt=t.Thread(target=xc,args=(y,))tt.start()#启动线程c.append(tt)#创建列表并添加线程forxinc:x.join()#等待子线程结束2.重写线程类方法1.单线程classXc(t.Thread):#inheritThreadclassdef__init__(self):super(Xc,self).__init__()defrun(self):#rewriterunmethodforyinrange(100):print('running'+str(y))x=Xc()x.start()#启动线程x.join()#等待子线程结束也可以这样写this:Xc().run()效果同上2.多线程classXc(t.Thread):#继承Thread类def__init__(self):super(Xc,self).__init__()defrun(self,num):#重写run方法print('Run:'+str(num))x=Xc()foryinrange(10):x.run(y)#Run4.为什么读锁需要加锁吗?读到这里你就会知道:多线程在运行时同时访问一个对象会造成资源抢占,所以我们要对其进行约束,所以需要给他加一个锁来锁住他,这是一个同步锁。要了解解锁,我们必须先创建锁。线程中有两种锁:Lock和RLock。1、Lock的使用方法:#acquirelock当无法获取到锁时,默认进入阻塞状态,设置超时时间,一直持续,直到获取到锁。非阻塞时,禁止设置超时。如果超时后仍未获取到锁,则返回False。Lock.acquire(blocking=True,timeout=1)#释放锁,上锁的锁会被设置为解锁。如果调用解锁,将抛出RuntimeError异常。Lock.release()互斥,同步数据,解决多线程安全问题:n=10lock=t.Lock()defxc(num):lock.acquire()print('run+:'+str(num+n))print('Run-:'+str(num-n))lock.release()c=[]foryinrange(10):tt=t.Thread(target=xc,args=(y,))tt.start()c.append(tt)forxinc:x.join()看起来是这样组织的,输出也是先+再-。Lock在一个线程中多次使用同一个资源会造成死锁。死锁问题:n=10lock1=t.Lock()lock2=t.Lock()defxc(num):lock1.acquire()print('run+:'+str(num+n))lock2.acquire()print('Run-:'+str(num-n))lock2.release()lock1.release()c=[]foryinrange(10):tt=t.Thread(target=xc,args=(y,))tt.start()c.append(tt)forxinc:x.join()2.相对于Lock,RLock可以递归,支持同一线程多次请求同一资源,允许同一线程多次加锁,但acquire和release必须成对出现。使用递归锁解决死锁:n=10lock1=t.RLock()lock2=t.RLock()defxc(num):lock1.acquire()print('run+:'+str(num+n))lock2.acquire()print('Run-:'+str(num-n))lock2.release()lock1.release()c=[]foryinrange(10):tt=t.Thread(target=xc,args=(y,))tt.start()c.append(tt)forxinc:x.join()这时候输出变量就只剩下组织了,不再随意抢占资源了。关于线程锁,也可以用with来更方便:#with上下文管理,锁对象支持上下文管理withlock:#with表示自动打开和释放锁foriinrange(10):#在锁期间,其他人不能workprint(i)#上面和下面是等价的iflock.acquire(1):#如果加锁成功就继续工作,如果加锁不成功则wait,1表示exclusiveforiinrange(10):#期间lock期间,其他线程做不到Liveprint(i)lock.release()#释放锁3.条件锁等待通过,Condition(lock=None),可以传入lock或者Rlock,默认Rlock,使用方法:Condition.acquire(*args)获取锁Condition.wait(timeout=None)等待通知,timeout设置超时时间Condition.notify(num)唤醒指定数量的等待线程,没有等待线程不有任何操作Condition.notify_all()唤醒所有等待线程或notifyAll()defww(c):withc:print('init')c.wait(timeout=5)#设置等待超时时间5print('end')defxx(c):withc:print('nono')c.notifyAll()#唤醒所有线程print('start')c.notify(1)#唤醒一个线程print('21')c=t.Condition()#创建条件t.Thread(target=ww,args=(c,)).start()t.Thread(target=xx,args=(c,)).start()这样就可以在等待的时候在唤醒函数中唤醒存在于其他函数中的其他线程.5.信号量信号量可以分为有界信号量和无解信号量。下面详细看看它们的用法:1.有界信号量不允许超出初始值范围使用release,否则抛出ValueError异常。#构造方法。value是初始信号量。如果value小于0,则抛出ValueError异常b=t.BoundedSemaphore(value=1)#获取信号量时,计数器减1,即_value的值减1。如果_value的值为0,它将被阻塞。获取返回TrueBoundedSemaphore.acquire(blocking=True,timeout=None)#释放信号量,计数器加1。即_value的值加1,超过初始化值会抛出异常ValueError。BoundedSemaphore.release()#Semaphore,当前的信号量BoundedSemaphore._value在多次release后可以看到报错。第二,无界信号量不检查释放上限,它只是一个简单的加减计数器。可以看出,虽然多了一个release,但是没有问题,信号量的个数也没有限制。6、事件线程间通信是通过线程设置的信号标志(flag)的False或True来操作的。常用的方法有:event.set()flag设置为Trueevent.clear()flag设置为Falseevent.is_set()flag是否为True,如果event.isSet()==False,线程将被阻塞;flag为True时设置等待时间,None为无限等待。等到返回True,没有等到超时就返回FalseeFlagprint('clear')ifnum>=5:e.wait(timeout=1)#等待信号flag为truee.set()print('Start')ife.isSet():#Ifthesignalflagistrueclearflage.clear()print('stop')ifnum==10:e.wait(timeout=3)e.clear()print('exit')breaknum+=1time.sleep(2)ff(1)setdelay之后可以看到效果还是挺明显的,我们让他做什么他就做什么。7.local可以为每个线程创建自己的变量(线程局部变量),它们的值都在当前调用它的线程中,以字典的形式存在。下面看一下:l=t.local()#创建一个线程局部变量defff(num):l.x=100#设置l变量的x方法的值为100foryinrange(num):l.x+=3#改变值print(str(l.x))foryinrange(10):t.Thread(target=ff,args=(y,)).start()#开始执行线程那么,变量的x方法是否可以设置为全局变量?我们看一下:可以看出他报错了。报错的原因是这个类中没有属性x。我们可以简单理解为局部变量只接受local。8、Timer设置一个计时计划,可以在指定的时间内重复执行某个方法。他的使用方法是:t.Timer(num,func,*args,**kwargs)#在指定的时间内再次重启程序来看看:deff():print('start')globalt#防止引起线程累加导致最终程序退出tt=t.Timer(3,f)tt.start()f()从而达到每三秒执行一次f函数的效果。小结通过对线程的全面分析,我们明白了线程的重要性,可以将我们复杂的问题简单化。对于喜欢玩爬虫的朋友来说可以说是相当有用了。这篇文章基本上涵盖了线程的所有概念,希望对大家有所帮助。
