在手机客户端,尤其是Android应用的开发过程中,我们经常会碰到“硬件加速”这个词。由于操作系统将底层软硬件封装的很好,上层的软件开发人员往往对硬件加速的底层原理了解甚少,不知道底层原理的含义,所以经常会出现一些误解,比如硬件加速是通过特殊算法实现页面渲染加速,还是通过硬件提高CPU/GPU运算速度来实现渲染加速。本文试图从底层硬件原理到上层代码实现来简单介绍一下硬件加速技术。上层实现基于Android6.0。了解硬件加速对App开发的意义对于App开发者来说,简单了解硬件加速的原理和上层API的实现,然后在开发过程中充分利用硬件加速提升页面性能。以Android为例,圆角矩形按钮的实现通常有两种选择:使用PNG图片;使用代码(XML/Java)来实现。两个选项的简要比较如下。页面渲染背景知识在渲染页面时,绘制的元素必须先转换为矩阵像素(即多维数组的形式,类似于Android中的Bitmap)才能显示在显示器上。一个页面是由各种基本元素组成的,如圆形、圆角矩形、线段、文本、矢量图形(常由贝塞尔曲线组成)、位图等。元素绘制,尤其是动画绘制,往往涉及插值、缩放、旋转、透明度变化,动画转场,毛玻璃模糊,甚至3D变换,物理运动(比如游戏中常见的抛物线运动),多媒体文件解码(主要在台式机上有应用,移动设备一般不使用GPU进行解码)等操作。绘图过程往往需要浮点运算,逻辑比较简单,但数据量巨大。CPU和GPU结构比较CPU(CentralProcessingUnit,中央处理器)是计算机设备的核心设备,用来执行程序代码,软件开发人员对此很熟悉;GPU(GraphicsProcessingUnit,图形处理单元)主要用于处理图形计算,通常所说的“显卡”的核心部件就是GPU。下面是CPU和GPU的结构对比图。其中:黄色的Control是控制器,用来协调和控制整个CPU的运行,包括取指令,控制其他模块的运行等;绿色的ALU(ArithmeticLogicUnit)是算术逻辑单元,用于数学和逻辑运算;OrangeCache和DRAM分别是cache和RAM,都是用来存储信息的。从结构图中可以看出,CPU的控制器比较复杂,ALU数量较少。因此,CPU擅长各种复杂的逻辑运算,但不擅长数学,尤其是浮点运算。以8086为例,100多条汇编指令中绝大部分是逻辑指令,数学计算主要涉及16位的加、减、乘、除、移位运算。一次整数和逻辑运算一般需要1到3个机器周期,而浮点运算需要转化为整数计算,一次运算可能要耗费数百个机器周期。更简单的CPU甚至只有加法指令,减法用补加实现,乘法用累加实现,除法用减法循环实现。现代CPU一般都有硬件浮点单元(FPU),但主要适用于数据量不大的场合。CPU是串行结构。以计算100个数为例。对于CPU的一个核,一次只能计算两个数的和,结果是逐渐累积的。与CPU不同,GPU旨在执行大量数学运算。从结构图中可以看出,GPU的控制器比较简单,但是包含了大量的ALU。GPU中的ALU采用并行设计,浮点单元较多。硬件加速的主要原理是将CPU不擅长的图形计算通过底层软件代码转化为GPU专用的指令,由GPU完成。扩展:很多电脑中的GPU都有自己独立的显存;如果没有独立显存,则采用共享内存的形式,从内存中划分出一块区域作为显存。显存可以存储GPU指令等信息。并联结构示例:级联加法器为了便于理解,这里从底层电路结构的角度来举例说明。下图是一个加法器,对应实际的数字电路结??构。A、B为输入,C为输出,A、B、C为总线。以32位CPU为例,每条总线实际上由32条线组成,每条线用不同的电压来表示二进制的0。或者1。clock是时钟信号线,可以输入特定的电压信号每个固定的时钟周期。每当一个时钟信号到来时,A和B的和就会输出到C。现在我们要计算8个整数的和。对于CPU的串行结构,代码写起来很简单,就是用for循环把所有的数一个一个相加。串行结构只有一个加法器,需要7次求和运算;每个部分和计算完后,必须传送到加法器的输入端进行下一次计算。整个过程至少消耗十几个机器周期。对于并行结构,常见的设计是级联加法器,如下图所示,其中所有时钟连接在一起。当输入端A1~B4准备好8个要相加的数据后,经过3个时钟周期,求和运算完成。如果数据量越大,级联层次越大,并行结构的优势就更加明显。由于电路的限制,通过提高时钟频率和减小时钟周期来提高运算速度并不容易。并行结构通过增加电路规模和并行处理来实现更快的操作。但是并行结构不容易实现复杂的逻辑,因为同时考虑多个分支的输出结果,协调同步处理的过程非常复杂(有点像多线程编程)。GPU并行计算示例假设我们有以下图像处理任务,将每个像素值加1。GPU并行计算方式简单粗暴。如果资源允许,可以为每个像素开启一个GPU线程,由它进行加1操作。数学运算量越大,这种并行方式的性能优势越明显。Android中的硬件加速在Android中,大多数应用程序界面都是使用常规View构建的(除了游戏、视频、图像和其他可能直接使用OpenGLES的应用程序)。根据Android6.0原生系统的Java层代码,对View的软硬件加速渲染做了一些分析比较。DisplayListDisplayList是一个基本的绘图元素,包括元素原有的属性(位置、大小、角度、透明度等),对应Canvas的drawXxx()方法(如下图所示)。信息传递过程:Canvas(JavaAPI)—>OpenGL(C/C++Lib)—>驱动—>GPU。在Android4.1及以上版本中,DisplayList支持属性。如果View的某些属性发生变化(如Scale、Alpha、Translate),只需要将属性更新到GPU即可,无需生成新的DisplayList。RenderNode一个RenderNode包含若干个DisplayList,通常一个RenderNode对应一个View,包括View本身及其子View的所有DisplayList。Android绘图流程(Android6.0)以下是AndroidView的完整绘图流程图,主要是通过阅读源码和调试得到的。虚线箭头表示递归调用。从ViewRootImpl.performTraversals到PhoneWindow.DecroView.drawChild是每次遍历View树的固定流程。首先根据标志位判断是否需要重新布局并执行布局;然后执行Canvas创建等操作开始绘图。如果不支持或关闭硬件加速,则使用软件绘制,生成的Canvas是Canvas.class的对象;如果支持硬件加速,则生成一个DisplayListCanvas.class对象;两者的isHardwareAccelerated()方法返回的值分别为false或true,View根据这个值判断是否使用硬件加速。View中的draw(canvas,parent,drawingTime)-draw(canvas)-onDraw-dispachDraw-drawChild递归路径(以下简称Draw路径)调用了Canvas.drawXxx()方法,用于软件中实际绘制渲染;用于在硬件加速时构建DisplayList。View中的updateDisplayListIfDirty-dispatchGetDisplayList-recreateChildDisplayList递归路径(以下简称DisplayList路径)只有在硬件加速时才会通过。用于遍历View树绘制过程中更新DisplayList属性,快速跳过需要重建DisplayList。看法。在Android6.0中,与DisplayList相关的API仍然被标记为“@hide”不可访问,表示不成熟,可能会在后续版本中开放。在硬件加速的情况下,绘制过程执行完成后,构造DisplayList,然后通过ThreadedRenderer.nSyncAndDrawFrame()使用GPU将DisplayList绘制到屏幕上。纯软件渲染VS硬件加速(Android6.0)下面结合几个具体场景具体分析一下硬件加速前后的流程和加速效果。场景一,不管加速与否,都会遍历View树,走Draw路径。硬件加速后,Draw路径不做实际的绘制工作,只构建DisplayList。复杂的绘图计算任务由GPU分担,已经达到了较大的加速效果。场景二,设置前后TextView的大小和位置不会发生变化,不会触发重新布局。软件绘制时,TextView所在的区域就是脏区。由于TextView有透明区域,在遍历View树的过程中,大部分与脏区重叠的View都要重绘,包括重叠的兄弟节点及其父节点(详见下文介绍),以及与脏区重叠的View不需要绘制在draw(canvas,parent,drawingTime)方法中,判断直接返回。硬件加速后,View树也需要遍历,但只有TextView及其各层父节点需要重建DisplayList,走Draw路径,其他View直接走DisplayList路径,其余的工作交给GPU。页面越复杂,两者的性能差距就越明显。场景三,软件需要为每一帧做大量的绘制工作,很容易导致动画卡顿。硬件加速后,动画过程直接按照DisplayList路径更新DisplayList的属性,可以大大提高动画流畅度。在场景4中,两者的性能差距更为明显。简单修改透明度,软件绘图还是需要大量的工作;硬件加速后,一般直接更新RenderNode的属性,不触发invalidate,不遍历View树(除了少数View可能对Alpha有特殊响应,在onSetAlpha()中返回true,代码如下).publicclassView{//...publicvoidsetAlpha(@FloatRange(from=0.0,to=1.0)floatalpha){ensureTransformationInfo();if(mTransformationInfo.mAlpha!=alpha){mTransformationInfo.mAlpha=alpha;if(onSetAlpha((int)(alpha*255))){//...invalidate(true);}else{//...mRenderNode.setAlpha(getFinalAlpha());//...}}}protectedbooleanonSetAlpha(intalpha){return错误的;}//...}软件绘图刷新逻辑介绍实际阅读源码和实验,得到通常的软件绘图刷新逻辑:默认情况下,View的clipChildren属性为true,即绘制区域每个View不能超出其父View的范围。如果将一个页面根布局的clipChildren属性设置为false,子View可以超出父View的绘图区域。当一个View触发invalidate,没有播放动画或触发layout时:当clipChildren为true时,脏区会在ViewRoot中转化为一个Rect,刷新时逐层判断。当View与脏区重叠时,再重绘。如果一个View超出了父View的范围,覆盖了脏区,但是它的父View没有覆盖到脏区,那么子View不会重绘。当clipChildren为false时,ViewGroup.invalidateChildInParent()会将脏区扩展到它的整个区域,因此所有与该区域重叠的View都将被重绘。对于完全不透明的View,标志位PFLAG_DIRTY会被自己设置,标志位PFLAG_DIRTY_OPAQUE会被其父View设置。在draw(canvas)方法中,只有View重绘自己。对于一个可能有透明区域的View,它自己和父View都会设置标志位PFLAG_DIRTY。至此,硬件加速相关的内容就介绍完了。这里简单总结一下:CPU更擅长复杂的逻辑控制,而GPU更擅长数学运算,得益于大量的ALU和并行结构设计。页面由各种基本元素(DisplayList)组成,渲染时需要进行大量的浮点运算。在硬件加速的情况下,CPU用于控制复杂的绘制逻辑,建立或更新DisplayList;GPU用于完成图形计算和渲染DisplayList。在硬件加速条件下,刷新界面,尤其是播放动画时,CPU只重建或更新必要的DisplayList,进一步提高渲染效率。要达到相同的效果,请尝试使用更简单的DisplayList以获得更好的性能(Shape而不是Bitmap等)。参考资料及延伸阅读GPU——并行计算工具的“心脏”GPU工作原理Matlab的GPU加速处理器架构介绍:了解CPU的基本工作原理CPU的内部架构和工作原理什么是异构多处理系统,为什么需要异构多处理系统Android应用UI硬件加速渲染DisplayList构建过程分析Android应用UI硬件加速渲染DisplayList渲染过程分析AndroidChoreographer源码分析AndroidProjectButter分析
