骁龙X GPU架构细节公布：性能超67％功耗低62％-融党建互动平台

　　高通骁龙处理器一直拥有极其强大的GPU性能，常被调侃为“买GPU送CPU”，但官方对于GPU架构的技术细节一直讳莫如深，每次只说支持XX技术、性能提升XX。

骁龙X GPU架构细节公布：性能超67％功耗低62％

　　到了最新的骁龙X Elite/Plus系列处理器上，或许是为了更好地对标Intel、AMD，高通空前大方地公开了Adreno X1 GPU的底层细节，顶级型号为Adreno X1-85。

　　Adreno X1是专门针对Windows PC设计的，图形接口完整支持DirectX 12.1(Shader Model 6.7/DirectML)、DirectX 11、Vulkan 1.3、OpenCL 3.0，都有原生驱动支持。

　　FP32单精度浮点性能最高4.6TFlops(每秒4.6万亿次计算)，像素填充率最高72Gp/s(每秒720亿次)。

　　如此详细的架构图对于高通GPU来说似乎还是第一次，可以看到分为6个着色处理器(SP)，整体共计1536个FP32 ALU，可以通俗地表达为1536个核心，最高频率1.5GHz。

　　粗暴地按照核心数计算，这相当于GTX 1660 Ti，或者说三个Arc A770，或者说四分之三个RX 7600。

　　渲染前端模块支持每时钟周期2个三角形和光栅化处理、双向LRZ(地分辨率深度测试)、基于图像的可变着色率(VSR Tie2)。

　　还有专门用于分箱(binning)的前端模块，与渲染同步运行。

　　6个SP对应6个渲染后端，每时钟周期最多48个像素、96个fragment(用于MSAA抗锯齿)。

　　另外还有GMU，也就是GPU管理单元，完整支持虚拟化(最多8个虚拟机)，还有电源管理的作用。

　　细看SP部分，也就是SIMD着色处理器，属于核心执行模块，分为两个uSPTP(微型着色与纹理流水线)。

　　整个SP，分布着256个FP32 ALU(单精度浮点算术逻辑单元)，支持FP32/16、INT32/16、BF16数据类型，支持DP4ACC指令(四路INT8点积)，以及512个FP16 ALU(半精度浮点算术逻辑单元)，支持FP16、INT16、BF16数据类型。

　　此外，还有32个32位EFU(基本功能单元)、384KB GPR(通用寄存器)、指令缓存、本地缓冲、载入/存储单元、纹理流水线和纹理缓存、GMEM单元，等等。

　　GPU内还集成了384KB集群缓存(每两个SP共享128KB)、1MB一体化二级缓存、6MB系统级缓存(即三级缓存)，还有一些其他较小的缓存，用于着色器指令、本地纹理数据等。

　　GMEM是个特殊功能单元，也就是高带宽的本地GPU显存，容量3MB，带宽达2TB/s，与系统内存完全异步。

　　而且，它不仅仅是缓存，还可以全部或部分灵活地用于色彩与景深缓存、通用本地内存，无论是图形渲染还是通用计算都可以使用。

　　它可以让GPU大大减少对系统内存的依赖，降低对延迟和带宽的需求，还有着超高的性能与能效。

　　FlexRender弹性渲染技术也值得一提，可以由驱动控制，针对每一个不同的表面动态切换不同的渲染模式，提升性能的同时尽可能降低功耗。

　　具体分为三种模式：

　　一是Direct Mode，PC标准渲染方式，兼容性最好。

　　二是Binned Mode，将每一帧画面切分为不同的区块(Tile)，每一个都都会进入GMEM，可尽可能减少数据移动，提高能效。

　　三是Bined Direct Mode，前述两种方式的混合。

　　软件方面，高通承诺每月升级GPU驱动，Adreno控制面板可调节性能和各项功能，而在兼容性方面已经是数百款流行的Windows应用，已测试的游戏均可查询，还有丰富的开发工具。

　　高通声称，Adreno X1对比酷睿Ultra的锐炫核显，同等功耗下性能领先最多67％，同等行下功耗低最多62％！

　　对比锐龙9 7040系列中的Radeon 780M更是性能、能效都遥遥领先。

　　在流行的3A游戏中，官方列出了9款，都基本持平或者优于Intel锐炫核显，优势项目包括《地平线：零之曙光》、《火箭联盟》等。

骁龙X GPU架构细节公布：性能超67％功耗低62％