Linux自旋锁Spinlock，教你如何死锁Ubuntu

时间：2023-03-12 09:39:08 科技观察

背景由于多处理器环境下某些资源的限制，有时需要互斥，此时需要引入锁的概念，只有获得锁的任务可以访问该资源。由于多线程的核心是CPU的时间片，同一时刻只能有一个任务获取锁。当内核发生资源访问冲突时，通常有两种处理方式：一种是原地等待，另一种是挂起当前进程，调度其他进程执行（休眠）自旋锁。自旋锁是内核中提供的一种比较常见的锁。机制上，自旋锁是一种解决资源冲突的“原地等待”方式。即一个线程获取自旋锁后，另一个线程期望获取自旋锁，但是如果获取不到，就只能原地“自旋”（忙等待）。由于自旋锁的忙等待特性，注定了它在使用场景上的局限——自旋锁不应该被长时间持有（消耗CPU资源）。自旋锁的优点自旋锁不会切换线程状态，会一直处于用户态，即线程一直处于活动状态；不会导致线程进入阻塞状态，减少不必要的上下文切换，执行速度快。非自旋锁在无法获取到锁时会进入阻塞状态，从而进入内核态。当获取到锁后，需要从内核态中恢复，需要进行线程上下文切换。（线程阻塞后进入内核（Linux）调度状态，会导致系统在用户态和内核态之间来回切换，严重影响锁的性能）。linux内核实现中自旋锁的使用经常会遇到这样的场景：共享数据被中断上下文和进程上下文访问，如何保护？如果只有进程上下文访问，那么可以考虑使用信号量或互斥量的锁机制，但是现在中断上下文也涉及到，那些能导致睡眠的锁就不能用了。这时候可以考虑使用自旋锁。在中断上下文中，不允许sleep，所以这里需要的是一个不会造成sleep-spinlock的锁。换句话说，中断上下文使用锁，自旋锁是首选。使用自旋锁，有两种定义锁的方式：动态：spinlock_tlock；自旋锁初始化（&锁）；静态：DEFINE_SPINLOCK（锁）；使用步骤自旋锁的使用非常简单：我们需要先申请自旋锁才能访问关键资源；获取不到锁就自旋，获取到锁就进入临界区；当自旋锁被释放时，在这个锁上自旋的任务可以获得锁并进入临界区，而退出临界区的任务必须释放自旋锁。使用示例staticspinlock_tlock;staticintflage=1;spin_lock_init(&lock);staticinthello_open(structinode*inode,structfile*filep){spin_lock(&lock);if(flage!=1){spin_unlock(&lock);return-EBUSY;}flage=0;spin_unlock(&lock);return0;}staticinthello_release(structinode*inode,structfile*filep){flage=1;return0;}补充中断上下文不能sleep的原因有：1.中断处理过程中，不应发生进程切换，因为在中断上下文中，唯一能打断当前中断处理程序的是更高优先级的中断，它不会被进程打断，如果它在中断上下文中休眠，就没有办法唤醒它，因为所有wake_up_xxx是针对某个进程而言的，在中断上下文中，没有进程的概念，也没有task_struct（softirq和tasklet也是如此），所以它真的休眠了，比如调用一个会导致阻塞的例程，内核几乎肯定会死掉.2.schedule()在切换进程时保存当前进程上下文（CPU寄存器的值、进程的状态、栈中的内容），以便以后恢复进程。中断发生后，内核会先保存当前被中断的进程上下文（调用中断处理程序后恢复）；但在中断处理程序中，CPU寄存器的值肯定发生了变化（最重要的程序计数器PC，堆栈SP等），如果此时由于休眠或阻塞操作调用schedule()，则保存的进程上下文为不是当前进程上下文。所以schedule()不能在中断处理程序中调用。3、内核中的schedule()函数进来的时候判断是否处于中断上下文中：if(unlikely(in_interrupt()))BUG();因此，强行调用schedule()的结果是一个内核BUG。4、中断处理程序会使用被中断的进程内核栈，但不会对其产生任何影响，因为处理程序用完后会彻底清除它使用的那部分栈，恢复被中断前的原貌.5.在中断上下文中，内核不能被抢占。所以如果你休眠，内核必须挂起。自旋锁的死锁自旋锁不是递归的，等待已经获得的锁会导致死锁。自旋锁可以用在中断上下文中，但是想象一个场景：一个线程获取锁，但是被一个中断处理程序打断，中断处理程序也获取了锁（但是之前已经加锁了，获取不到，只能自旋)，中断无法退出，线程中后面释放锁的代码无法执行，导致死锁。（如果确认中断不会访问与线程相同的锁，则无所谓）。1、考虑如下场景（内核抢占场景）：(1)进程A在系统调用中访问共享资源R(2)进程B在系统调用中也访问共享资源R什么原因导致冲突？假设A在访问共享资源R的过程中发生了中断，中断以更高的优先级唤醒了正在休眠的B。当中断返回现场时，发生进程切换，B开始执行，并通过系统调用访问R。如果没有锁保护，两个线程会进入临界区，导致程序执行错误。OK，让我们加一个自旋锁，看看它是如何工作的：A在进入临界区之前获得了自旋锁。同理，A在访问共享资源R的过程中产生中断，中断唤醒休眠的优先级更高的。B、B在访问临界区之前仍然会尝试获取自旋锁。这时，因为A进程持有自旋锁，B进程进入永久自旋……如何破解呢？Linux内核很简单，自旋锁是在A进程中获取的，禁止在本CPU上抢占（上面的永久自旋只发生在本CPU的进程抢占本CPU当前进程的场景）。如果A和B运行在不同的CPU上，那么情况会更简单：虽然A进程持有自旋锁，B进程进入自旋状态，但是因为运行在不同的CPU上，所以A进程会继续执行，会很快释放掉自旋锁并释放B进程的自旋状态。2、考虑如下场景（中断上下文场景）：运行在CPU0上的进程A在一次系统调用中访问了共享资源R。在CPU1上运行的进程B在系统调用期间也访问共享资源。资源R外设P的中断处理程序也访问了共享资源R。在这样的场景下，使用自旋锁是否可以保护访问共享资源R的临界区？我们假设CPU0上的进程A持有自旋锁并进入临界区。此时外设P发生中断事件，调度到CPU1上执行。好像没什么问题。在CPU1上执行的handler会在CPU0上为进程A等待一段时间，临界区锁后会立即释放自旋，但是如果外设P的中断事件调度到CPU0上执行会怎样呢？CPU0上的进程A在持有自旋锁的同时被中断上下文抢占，抢占它的CPU0上的处理程序在进入临界区之前，仍然会尝试获取自旋锁。悲剧发生了。CPU0上P外设的中断处理程序会一直进入自旋状态。这时CPU1上的进程B在试图持有自旋锁时必然会失败。导致进入自旋状态。为了解决此类问题，linux内核采用了这样一种方法：如果涉及到中断上下文的访问，则需要结合使用自旋锁来禁止本CPU上的中断。3.考虑以下场景（bottomhalf场景）linux内核提供了丰富的bottomhalf机制。虽然属于中断上下文，但还是略有不同。我们可以简单修改一下上面的场景：外设P在中断处理程序中不访问共享资源R，而是在设备的下半部访问。使用自旋锁+禁止本地中断当然可以达到保护共享资源的效果，但是用大锤杀鸡好像有点大材小用了。这时候disablebottomhalf就够了。4、中断上下文之间的竞争同一个中断处理程序在单核和多核上不会并行执行，这是linux内核的特点。如果不同的中断处理程序需要使用自旋锁来保护共享资源，对于新内核（不区分快处理程序和慢处理程序），所有处理程序都禁用中断，因此使用自旋锁不需要关闭中断的配合。下半部分分为softirq和tasklet。同一个softirq会在不同的CPU上并发执行。因此，如果在某个驱动的softirq的handler中访问了某个全局变量，则需要用自旋锁来保护这个全局变量。无需配合disableCPUinterrupt或bottomhalf。Tasklet更简单，因为同一个tasklet不会同时运行在多个CPU上。自旋锁的实现原理数据结构中首先定义了一个spinlock_t数据类型，它本质上是一个整型值（对该值的操作需要保证原子性），该值表示自旋锁是否可用。它在初始化期间设置为1。当线程想要持有锁时，调用spin_lock函数。该函数将自旋锁的整数值减1，然后进行判断。如果等于0，表示可以获得自旋锁。如果为负数，说明其他线程持有锁，本线程需要自旋。spinlock_t在内核中的数据类型定义如下：通用（适用于各种arch）自旋锁使用类型名称spinlock_t，各种arches定义了它们自己的structraw_spinlock。听起来是个好主意和命名，直到linux实时树(PREEMPT_RT)挑战自旋锁。自旋锁的命名约定定义如下：rtlinux时自旋锁可能被抢占（配置PREEMPT_RT）（实际底层可能使用支持PI（优先级反转）的mutext）。raw_spinlock，即使配置了PREEMPT_RT，也一定是顽强自旋arch_spinlock。自旋锁与架构有关。ARM架构系统的arch_spin_lock接口实现了同样的加锁。这里只是一个典型的用于分析的API。其他的可以自己学。.我们选择arch_spin_lock，它的ARM32代码如下：staticinlinevoidarch_spin_lock(arch_spinlock_t*lock){unsignedlongtmp;u32newval;arch_spinlock_tlockval;prefetchw(&lock->slock);－－－－－－－－－（0）__asm____volatile__("1:ldrex%0,[%3]\n"－－－－－－－－－（1）"add%1,%0,%4\n"－－－－－－－－（2）"strex%2,%1,[%3]\n"－－－－－－－－（3）"teq%2,#0\n"－－－－－－－－－－－（4）"bne1b":"=&r"(lockval),"=&r"(newval),"=&r"(tmp):"r"(&lock->slock),"I"(1<tickets.owner);－－－－(7)}smp_mb();－－－－－－－－－－－－（8)}(0)preloadingcache相关的操作，主要是为了性能考虑（1)lockval=lock->slock（如果lock->slock没有被其他处理器独占，则标记当前执行处理器对lock->slock地址的独占访问；否则不受影响）(2)newval=lockval+(1<slock](如果当前执行处理器不独占访问lock->slock的地址，则不存储，将1返回到温度；如果当前处理器有exclusivelock->slockmemoryaccess,writethememory,return0totemp,cleartheexclusiveflag)lock->tickets.next=lock->tickets.next+1(4)检查是否有写入成功lockval.tickets.next(5)初始化时lock->tickets.owner和lock->tickets.next均为0，假设第一次执行arch_spin_lock，lockval=*lock,lock->tickets。next++，lockval.tickets.next等于lockval.tickets.owner，获得自旋锁；自旋锁没有被释放，第二次执行时，lock->tickets.owner=0,lock->tickets.next=1，复制到lockval后，lockval.tickets.next!=lockval.tickets.owner,wfe会被执行等待自旋锁释放被唤醒，lock->tickets.owner++,lockval.tickets.owner会在自旋锁释放时执行重新赋值（6）暂时中断挂起execution如果自旋锁当前状态为locked，则调用wfe进入waiting状态。更具体的细节请参考ARMWFI和WFE指令中的描述。(7)其他CPU唤醒本CPU的执行，说明owner发生了变化，将新的owner赋值给lockval，然后继续判断自旋锁的状态，即返回step5。(8)关于memorybarrier的操作，详见memorybarrier中的描述。释放锁staticinlinevoidarch_spin_unlock(arch_spinlock_t*lock){smp_mb();lock->tickets.owner++;-----------------(0)dsb_sev();----------------------------------(1)}(0)lock->tickets.owner加1，向下A唤醒-upprocessor会检查该值是否等于自己的lockval.tickets.next，lock->tickets.owner代表可以获取自旋锁的processor，lock->tickets.next给你的自旋锁是可以获取自旋锁的所有者；当处理器获取到自旋锁时，会先读取lock->tickets.next与lock->tickets.owner进行比较，并将lock->tickets.next加1，下一个处理器会获取到lock->tickets。next与当前处理器不一致。两个处理器都与lock->tickets.owner进行比较。只有一个处理器是平等的。当自旋锁释放时，添加lock->tickets.owner1计算，因此，先申请自旋锁multiprocessorlock->tickets.nextvalueupdate，自然先拿到自旋锁（1）执行sev指令，wakeupwfe正在等待的处理器自旋锁，导致deadlockinstance死掉锁的两种情况1）拥有自旋锁的进程A在内核态被阻塞，内核调度B进程。正好B进程也需要获取自旋锁。这时B只能自旋。这时候抢占已经关闭，A进程不会被调度，B会一直自旋，造成死锁。2）进程A有自旋锁。当中断到来时，CPU执行中断函数和中断处理函数。中断处理函数需要获取自旋锁才能访问共享资源。这时候无法获取到锁，只能自旋，造成死锁。如何避免死锁如果在中断处理函数中也获得了自旋锁，则驱动程序需要在持有自旋锁时禁用中断；自旋锁必须在尽可能短的时间内保持；避免一个获取锁的函数调用其他的也尽量获取这个锁的函数，否则代码会死锁；无论是信号量还是自旋锁，都不允许锁拥有者第二次获取锁。如果尝试这样做，系统将挂起；锁的顺序规则以相同的顺序获取锁；如果必须获取本地锁和属于内核中更中心位置的锁，则应首先获取自己的本地锁；如果我们有信号量和自旋锁的组合，则必须首先获取信号量；在持有自旋锁的同时调用（这可能导致睡眠）是一个严重的错误。死锁的例子因为自旋锁的持有时间很短，所以没有直观的现象。下面是一个会导致死锁的例子。运行条件虚拟机：vmware操作系统：Ubuntu14配置：将虚拟机的处理数设置为1，否则不会出现死锁原则对于单CPU，带自旋锁的任务不要调度会导致休眠的函数，否则会死锁会导致死锁。步骤：进程A打开()字符设备后，相应的内核函数会申请一个自旋锁。这时候自旋锁是空闲的。当应用自旋锁时，进程A立即进入sleep()函数进入睡眠；在休眠期间，自旋锁一直为进程A所有；当进程B运行时，进程B执行open函数，相应的内核函数也会申请自旋锁。此时自旋锁为进程A所有，因此进程B进入自旋状态；因为此时抢占关闭，系统陷入僵局。驱动代码如下：#include#include#include#include#include#包括#includestaticintmajor=250;staticintminor=0;staticdev_tdevno;staticstructcdevcdev;staticstructclass*cls;staticstructdevice*test_device;staticspinlock_tlock;staticintflage=1;#defineDEAD1staticinthello_open(structinode*inode,structfile*filep){spin_lock(&lock);if(flage!=1){spin_unlock(&lock);return-EBUSY;}flage=0;#ifDEAD#elifspin_unlock(&lock);#endifreturn0;}staticinthello_release(structinode*inode,structfile*filep){flage=1;#ifDEADspin_unlock(&lock);#endifreturn0;}staticstructfile_operationshelo_ops={.open=hello_open,.release=hello_release,};staticinthello_init(void){intresult;interror;printk("hello_init\n");result=register_chrdev(major,"hello",&hello_ops);if(result<0){printk("register_chrdevfail\n");returnresult;}devno=MKDEV(major,minor);cls=class_create(THIS_MODULE,"helloclass");if(IS_ERR(cls)){unregister_chrdev(major,"hello");returnresult;}test_device=device_create(cls,NULL,devno,NULL,"test");if(IS_ERR(test_device)){class_destroy(cls);unregister_chrdev(major,"hello");returnresult;}spin_lock_init(&lock);return0;}staticvoidhello_exit(void){printk("hello_exit\n");device_destroy(cls,devno);class_destroy(cls);unregister_chrdev(major,"hello");return;}module_init(hello_init);module_exit(hello_exit);MODULE_LICENSE("GPL");测试过程如下：#include#include#include#includemain(){intfd;fd=open("/dev/test",O_RDWR);if(fd<0){perror("openfail\n");return;}sleep(20);close(fd);printf("openok\n");}测试步骤:编译加载内核makeinsmodhello.ko运行进程Agcctest.c-oa./a新开一个终端，运行进程Bgcctest.c-ob./b注意一定要在进程A还没有退出的时候运行程B本文转载自微信公众号“一口Linux”，可通过以下二维码关注。转载本文请联系易口Linux公众号。

上一篇：Windows10的努力：市场份额逼近Windows7将成第一大桌面系统

下一篇：iOS开发人员必备：四种后端服务工具

Linux自旋锁Spinlock，教你如何死锁Ubuntu相关文章