欢迎光临
我们一直在努力

骁龙X GPU架构细节公布:性能超67% 功耗低62%

  高通骁龙处理器一直拥有极其强大的GPU性能,常被调侃为“买GPU送CPU”,但官方对于GPU架构的技术细节一直讳莫如深,每次只说支持XX技术、性能提升XX。

骁龙X GPU架构细节公布:性能超67% 功耗低62%

  到了最新的骁龙X Elite/Plus系列处理器上,或许是为了更好地对标Intel、AMD,高通空前大方地公开了Adreno X1 GPU的底层细节,顶级型号为Adreno X1-85。

  Adreno X1是专门针对Windows PC设计的,图形接口完整支持DirectX 12.1(Shader Model 6.7/DirectML)、DirectX 11、Vulkan 1.3、OpenCL 3.0,都有原生驱动支持。

  FP32单精度浮点性能最高4.6TFlops(每秒4.6万亿次计算),像素填充率最高72Gp/s(每秒720亿次)。

  如此详细的架构图对于高通GPU来说似乎还是第一次,可以看到分为6个着色处理器(SP),整体共计1536个FP32 ALU,可以通俗地表达为1536个核心,最高频率1.5GHz。

  粗暴地按照核心数计算,这相当于GTX 1660 Ti,或者说三个Arc A770,或者说四分之三个RX 7600。

  渲染前端模块支持每时钟周期2个三角形和光栅化处理、双向LRZ(地分辨率深度测试)、基于图像的可变着色率(VSR Tie2)。

  还有专门用于分箱(binning)的前端模块,与渲染同步运行。

  6个SP对应6个渲染后端,每时钟周期最多48个像素、96个fragment(用于MSAA抗锯齿)。

  另外还有GMU,也就是GPU管理单元,完整支持虚拟化(最多8个虚拟机),还有电源管理的作用。

  细看SP部分,也就是SIMD着色处理器,属于核心执行模块,分为两个uSPTP(微型着色与纹理流水线)。

  整个SP,分布着256个FP32 ALU(单精度浮点算术逻辑单元),支持FP32/16、INT32/16、BF16数据类型,支持DP4ACC指令(四路INT8点积),以及512个FP16 ALU(半精度浮点算术逻辑单元),支持FP16、INT16、BF16数据类型。

  此外,还有32个32位EFU(基本功能单元)、384KB GPR(通用寄存器)、指令缓存、本地缓冲、载入/存储单元、纹理流水线和纹理缓存、GMEM单元,等等。

  GPU内还集成了384KB集群缓存(每两个SP共享128KB)、1MB一体化二级缓存、6MB系统级缓存(即三级缓存),还有一些其他较小的缓存,用于着色器指令、本地纹理数据等。

  GMEM是个特殊功能单元,也就是高带宽的本地GPU显存,容量3MB,带宽达2TB/s,与系统内存完全异步。

  而且,它不仅仅是缓存,还可以全部或部分灵活地用于色彩与景深缓存、通用本地内存,无论是图形渲染还是通用计算都可以使用。

  它可以让GPU大大减少对系统内存的依赖,降低对延迟和带宽的需求,还有着超高的性能与能效。

  FlexRender弹性渲染技术也值得一提,可以由驱动控制,针对每一个不同的表面动态切换不同的渲染模式,提升性能的同时尽可能降低功耗。

  具体分为三种模式:

  一是Direct Mode,PC标准渲染方式,兼容性最好。

  二是Binned Mode,将每一帧画面切分为不同的区块(Tile),每一个都都会进入GMEM,可尽可能减少数据移动,提高能效。

  三是Bined Direct Mode,前述两种方式的混合。

  软件方面,高通承诺每月升级GPU驱动,Adreno控制面板可调节性能和各项功能,而在兼容性方面已经是数百款流行的Windows应用,已测试的游戏均可查询,还有丰富的开发工具。

  高通声称,Adreno X1对比酷睿Ultra的锐炫核显,同等功耗下性能领先最多67%,同等行下功耗低最多62%!

  对比锐龙9 7040系列中的Radeon 780M更是性能、能效都遥遥领先。

  在流行的3A游戏中,官方列出了9款,都基本持平或者优于Intel锐炫核显,优势项目包括《地平线:零之曙光》、《火箭联盟》等。

未经允许不得转载:融党建互动平台 » 骁龙X GPU架构细节公布:性能超67% 功耗低62%