或许是显卡市场实在给的太多了,连Intel都想进场分一杯羹了。在其2021年架构日演讲中,英特尔透露其首款性能游戏GPUArc“Alchemist”基于台积电N6硅制造节点(6nm)构建。 与AMD用于其当前RDNA2GPU的N7(7纳米)相比,TSMCN6是一个更先进的节点,它利用EUV(极紫外)光刻技术,除了功率改进外,晶体管密度提高了18%。台积电业务发展高级副总裁KevinZhang博士表示:“凭借N6,台积电在性能、密度和功率效率之间实现了最佳平衡,非常适合现代GPU。”那么是什么给予了Intel入场的勇气呢? 首先从硬件方面,Arc“Alchemist”独立GPU实现了XeHPG(高性能游戏)图形架构,并提供完整的DirectX12Ultimate兼容性,就像AMDGPU上的计算单元和NVIDIA上的流式多处理器一样,英特尔为XeHPG设计了一个可扩展的分层计算硬件结构。它从Xe-core开始,就是一个不可分割的计算构建块,包含16个256位矢量引擎和1024位矩阵引擎。结合基本的加载/存储硬件和L1缓存。这里的向量单元与执行单元可以互换,Xe-core包含其中的16个。RerSlice是四个Xe核心、四个光线追踪单元的集合;和其他常见的固定功能硬件,包括几何管道、光栅化管道、采样器和像素后端。光线追踪单元包含用于边界框相交、光线遍历和三角形相交的固定功能硬件。 从渲染切片向上移动一个级别,我们看到一个全局调度处理器和GPU的内存结构,它以L2缓存开始。这是英特尔可以扩展其GPU的地方。6纳米“炼金术士”芯片具有八个共享内存子系统和全局调度的渲染切片。英特尔可以通过切换整个渲染切片,甚至单个Xe内核来创建变体。每个Xe核心16个EU,每个渲染切片4个Xe核心和8个渲染切片,我们达到了512个执行单元,或4,096个可编程着色器。 鉴于XeHPG是为TSMCN6(6nm)硅制造节点设计的,英特尔声称其性能/瓦特比基于英特尔自己的10nmSuperFin节点(例如DG1IrisXeMAX)构建的XeLP解决方案提高了50%。作为性能独立的GPU,“炼金术士”享有更大的功率预算,因此可用硬件以更高的频率运行。尽管在Intel的介绍中没有提到,但广泛报道称“Alchemist”(或DG2)具有256位宽的GDDR6内存接口,目前尚未确定内存大小,但考虑到市场上可用的内存速度(14Gbps、16Gbps和18Gbps),内存带宽最终可能会在448GB/s到576GB/s之间,同时还配备多达512个1024位矩阵内核,由XeMatrix扩展“Alchemist”支持,预计将成为AI处理的强力手段。 硬件看完再来看软件,Intel在本周早些时候的技术展示中还表示,它正在开发一种AI加速的超级采样技术。该公司称其为XeSS(XeSuperSampling)。它可能与Xe同名,因为它计划将该技术扩展到其基于XeLP的iGPU和入门级IrisXeMAX独立GPU。 Intel声称XeSS将4K帧渲染时间减少了一半。从各方面来看,1440p似乎是顶级Arc“Alchemist”SKU的目标用例。XeSS将使4K成为可能(即,显示分辨率设置为4K,以较低的分辨率渲染,通过AI加速的超级采样恢复细节)。该公司透露,XeSS将使用一种基于神经网络的时间放大技术,该技术结合了运动矢量。在渲染管道中,XeSS位于大多数后处理阶段之前,类似于AMDFSR。 虽然AMD的FSR技术完全基于着色器,但英特尔算法可以使用XMX硬件单元(英特尔XeHPG中的新功能)或DP4a指令(几乎在所有现代AMD和NVIDIAGPU上都可用)。XMX代表XeMatrixExtensions,基本上是NVIDIA的TensorCores的Intel版本,用于加速矩阵数学,用于许多与AI相关的任务。IntelXeSSSDK将于本月以开源形式提供,使用XMX硬件,DP4a版本将在“今年晚些时候”提供。 和其他两家差不多,N家有RTX+DLSS,A家有Ryzen+FSR,以后I家可能就是Arc+XeSS,同样都是掌握核心与科技,你看好哪家呢?