一种互连系统栅栏机构的制作方法

专利查询3月前  29


一种互连系统栅栏机构


背景技术:

1.图形处理单元(gpu)是高度线程化的机器,其中并行执行程序的数百个线程以实现高吞吐量。gpu中的基于贴片(tile)的渲染架构在某些三维(3d)游戏工作负载中提供显著的存储器带宽节省。gpu通常使用存储器屏障(barrier)(或栅栏(fence)操作)来执行图形驱动器与下层gpu硬件组件之间的同步。栅栏操作使gpu对在操作之前和操作之后发布(issue)的存储器操作强制执行(enforce)排序约束(ordering constraint)。
附图说明
2.为了可详细地理解本实施例的上述特征所采用的方式,可通过参考实施例来得到对上文简要概述的实施例的更特定描述,所述实施例中的一些在附图中示出。然而,要注意,附图仅示出了典型的实施例,并且因此不应被认为是对其范围的限制。
3.图1是根据实施例的处理系统的框图;图2a-2d示出了由本文中描述的实施例提供的计算系统和图形处理器;图3a-3c示出了由实施例提供的附加图形处理器和计算加速器架构的框图;图4是根据一些实施例的图形处理器的图形处理引擎的框图;图5a-5b示出了根据实施例的包括在图形处理器核中采用的处理元件的阵列的线程执行逻辑;图6示出了根据实施例的附加执行单元;图7是示出根据一些实施例的图形处理器指令格式的框图;图8是根据另一实施例的图形处理器的框图;图9a和图9b示出了根据一些实施例的图形处理器命令格式和命令序列;图10示出了根据一些实施例的数据处理系统的示例性图形软件架构;图11a-11d示出了根据实施例的集成电路封装组装件;图12是示出根据实施例的示例性片上系统集成电路的框图;图13a和图13b是示出附加示例性图形处理器的框图;图14示出了根据一个实施例的托管栅栏机构的计算装置;图15示出了图形处理单元的一个实施例;图16示出了计算系统架构的一个实施例;图17示出了计算系统架构的另一实施例;图18示出了图形处理单元的另一实施例;以及图19是示出用于执行栅栏操作的过程的一个实施例的流程图。
具体实施方式
4.在实施例中,栅栏机构被实现成生成栅栏操作以在多gpu-中央处理单元(cpu)连接的系统中按照存储器数据生产者(producer)或数据消费者(consumer)实现数据排序。
5.系统概述
图1是根据实施例的处理系统100的框图。系统100可用于单处理器台式计算机系统、多处理器工作站系统或具有大量处理器102或处理器核107的服务器系统中。在一个实施例中,系统100是并入在供移动、手持式或嵌入式装置中(诸如在带有到局域或广域网的有线或无线连接性的物联网(iot)装置内)使用的片上系统(soc)集成电路内的处理平台。
6.在一个实施例中,系统100可包括以下各项、与以下各项耦合或者被集成在以下各项内:基于服务器的游戏平台;游戏控制台,包括游戏和媒体控制台、移动游戏控制台、手持式游戏控制台或在线游戏控制台。在一些实施例中,系统100是以下各项的一部分:移动电话、智能电话、平板计算装置或诸如带有低内部存储容量的膝上型计算机之类的移动因特网连接的装置。处理系统100还可包括以下各项、与以下各项耦合或者被集成在以下各项内:可穿戴装置,诸如智能手表可穿戴装置;智能眼镜(smart eyewear)或服装,其用增强现实(ar)或虚拟现实(vr)特征来被增强以提供视觉、音频或触觉输出,以补充现实世界视觉、音频或触觉体验或者以其它方式提供文本、音频、图形、视频、全息图像或视频、或者触觉反馈;其它增强现实(ar)装置;或者其它虚拟现实(vr)装置。在一些实施例中,处理系统100包括电视或机顶盒装置,或者是电视或机顶盒装置的一部分。在一个实施例中,系统100可包括以下各项、与以下各项耦合或者被集成在以下各项内:自动驾驶交通工具,诸如公共汽车、牵引车拖车、汽车、摩托车或电动自行车、飞机或滑翔机(或其任何组合)。自动驾驶交通工具可使用系统100来处理在交通工具周围感测到的环境。
7.在一些实施例中,一个或多个处理器102各自包括一个或多个处理器核107以处理指令,所述指令在被执行时,执行用于系统或用户软件的操作。在一些实施例中,一个或多个处理器核107中的至少一个处理器核被配置成处理特定指令集109。在一些实施例中,指令集109可促进复杂指令集计算(cisc)、精简指令集计算(risc)或经由超长指令字(vliw)的计算。一个或多个处理器核107可处理不同指令集109,所述指令集109可包括用于促进对其它指令集的仿真的指令。处理器核107还可包括其它处理装置,诸如数字信号处理器(dsp)。
8.在一些实施例中,处理器102包括高速缓冲存储器104。取决于架构,处理器102可具有单个内部高速缓存或多个级别的内部高速缓存。在一些实施例中,在处理器102的各种组件之间共享高速缓冲存储器。在一些实施例中,处理器102还使用外部高速缓存(例如,3级(l3)高速缓存或末级高速缓存(llc))(未示出),其可在使用已知高速缓存一致性技术的处理器核107之间被共享。寄存器堆106可另外被包括在处理器102中,并且可包括用于存储不同类型的数据的不同类型的寄存器(例如,整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器)。一些寄存器可以是通用寄存器,而其它寄存器可特定于处理器102的设计。
9.在一些实施例中,一个或多个处理器102与一个或多个接口总线110耦合,以在处理器102与系统100中的其它组件之间传送通信信号,诸如地址、数据或控制信号。接口总线110在一个实施例中可以是处理器总线,诸如某一版本的直接媒体接口(dmi)总线。然而,处理器总线不限于dmi总线,并且可包括一个或多个外设组件互连总线(peripheral component interconnect bus)(例如,pci、pci express)、存储器总线或其它类型的接口总线。在一个实施例中,(一个或多个)处理器102包括集成的存储器控制器116和平台控制器集线器130。存储器控制器116促进存储器装置与系统100的其它组件之间的通信,而平台控制器集线器(pch)130经由本地i/o总线提供到i/o装置的连接。
10.存储器装置120可以是动态随机存取存储器(dram)装置、静态随机存取存储器(sram)装置、闪速存储器装置、相变存储器装置或具有适合性能以充当进程存储器的某一其它存储器装置。在一个实施例中,存储器装置120可作为用于系统100的系统存储器进行操作,以存储数据122和指令121以供在一个或多个处理器102执行应用或进程时使用。存储器控制器116还与可选的外部图形处理器118耦合,所述外部图形处理器118可与处理器102中的一个或多个图形处理器108进行通信以执行图形和媒体操作。在一些实施例中,可由加速器112协助图形、媒体和/或计算操作,所述加速器112是可被配置成执行图形、媒体或计算操作的专门集合的协处理器。例如,在一个实施例中,加速器112是用于优化机器学习或计算操作的矩阵乘法加速器。在一个实施例中,加速器112是光线追踪加速器,其可被用于与图形处理器108协同执行光线追踪操作。在一个实施例中,可使用外部加速器119来替代加速器112或与加速器112协同。
11.在一些实施例中,显示装置111可连接到(一个或多个)处理器102。显示装置111可以是如在移动电子装置或膝上型装置中的内部显示装置或者经由显示接口(例如,displayport等)附连的外部显示装置中的一个或多个。在一个实施例中,显示装置111可以是头戴式显示器(hmd),诸如供在虚拟现实(vr)应用或增强现实(ar)应用中使用的立体显示装置。
12.在一些实施例中,平台控制器集线器130使得外设能经由高速i/o总线连接到存储器装置120和处理器102。i/o外设包括但不限于音频控制器146、网络控制器134、固件接口128、无线收发器126、触摸传感器125、数据存储装置124(例如,非易失性存储器、易失性存储器、硬盘驱动器、闪速存储器、nand、3d nand、3d xpoint等)。数据存储装置124可经由存储接口(例如,sata)或经由诸如外设组件互连总线(例如,pci、pci express)之类的外设总线进行连接。触摸传感器125可包括触摸屏传感器、压力传感器或指纹传感器。无线收发器126可以是wi-fi收发器、蓝牙收发器或诸如3g、4g、5g或长期演进(lte)收发器之类的移动网络收发器。固件接口128能够实现与系统固件通信,并且可以是例如统一可扩展固件接口(uefi)。网络控制器134可能够实现到有线网络的网络连接。在一些实施例中,高性能网络控制器(未示出)与接口总线110耦合。在一个实施例中,音频控制器146是多通道高清晰度音频控制器。在一个实施例中,系统100包括用于将传统(legacy)(例如,个人系统2(ps/2))装置耦合到系统的可选的传统i/o控制器140。平台控制器集线器130还可连接到一个或多个通用串行总线(usb)控制器142连接输入装置,诸如键盘和鼠标143组合、相机144或其它usb输入装置。
13.将领会的是,示出的系统100是示例性的而非限制性的,因为以不同方式配置的其它类型的数据处理系统也可被使用。例如,存储器控制器116和平台控制器集线器130的实例可被集成到分立的外部图形处理器(诸如,外部图形处理器118)中。在一个实施例中,平台控制器集线器130和/或存储器控制器116可在一个或多个处理器102的外部。例如,系统100可包括外部存储器控制器116和平台控制器集线器130,其可被配置为与(一个或多个)处理器102通信的系统芯片组内的存储器控制器集线器和外设控制器集线器。
14.例如,可使用电路板(“滑板(sled)”),将诸如cpu、存储器和其它组件之类的组件放置在所述滑板上,其被设计用于增加的热性能。在一些实施例中,诸如处理器的处理组件位于滑板的顶侧上,而诸如dimm之类的近存储器位于滑板的底侧上。作为通过此设计提供
的增强气流的结果,组件可比在典型系统中更高的频率和功率水平操作,由此增加性能。此外,滑板被配置成与机架中的功率和数据通信缆线盲配对,从而增强它们被快速移除、升级、重新安装和/或替换的能力。类似地,位于滑板上的各个组件(诸如处理器、加速器、存储器和数据存储驱动器)被配置成由于它们与彼此增加的间距而容易被升级。在说明性实施例中,组件另外包括硬件证明特征以证实其确实性(authenticity)。
15.数据中心可利用单个网络架构(“组构(fabric)”),所述单个网络架构支持包括以太网和全路径(omni-path)的多个其它网络架构。滑板可经由光纤被耦合到交换机,所述光纤提供比典型双绞线缆线(例如,类别5、类别5e、类别6等)更高的带宽和更低的时延。由于高带宽、低时延互连和网络架构,数据中心可使用在物理上解聚的池资源(诸如存储器、加速器(例如,gpu、图形加速器、fpga、asic、神经网络和/或人工智能加速器等)以及数据存储驱动器),并且在按需求基础上将它们提供到计算资源(例如,处理器),使得计算资源能访问池化资源(pooled resource),如同池化资源是本地的那样。
16.电力供应或电源可将电压和/或电流提供到本文中描述的系统100或任何组件或系统。在一个示例中,电力供应包括用于插入到壁装电源插座的ac到dc(交流到直流)适配器。此类ac电力可以是可再生能源(例如,太阳能)电源。在一个示例中,电源包括dc电源,诸如外部ac到dc转换器。在一个示例中,电源或电力供应包括无线充电硬件以经由接近充电场进行充电。在一个示例中,电源可包括内部电池、交流供应、基于运动的电力供应、太阳能供应或燃料电池源。
17.图2a-2d示出了由本文中描述的实施例提供的计算系统和图形处理器。与本文中任何其它附图的元件具有相同参考标号(或名称)的图2a-2d的元件可以以与本文中其它地方所描述的方式类似的任何方式操作或起作用,但不限于这样。
18.图2a是具有一个或多个处理器核202a-202n、集成存储器控制器214和集成图形处理器208的处理器200的实施例的框图。处理器200可包括另外的核,所述另外的核多达并且包括由虚线框表示的另外的核202n。处理器核202a-202n中的每个处理器核包括一个或多个内部高速缓存单元204a-204n。在一些实施例中,每个处理器核还可访问一个或多个共享高速缓存单元206。内部高速缓存单元204a-204n和共享高速缓存单元206表示处理器200内的高速缓冲存储器层级。高速缓冲存储器层级可包括每个处理器核内的至少一级的指令和数据高速缓存,以及一级或多级的共享中间级高速缓存,诸如2级(l2)、3级(l3)、4级(l4)或其它级的高速缓存,其中在外部存储器前的最高级的高速缓存被分类为llc。在一些实施例中,高速缓存一致性逻辑维持各种高速缓存单元206与204a-204n之间的一致性。
19.在一些实施例中,处理器200还可包括系统代理核210和一个或多个总线控制器单元216的集合。一个或多个总线控制器单元216管理外设总线的集合,诸如一个或多个pci或pci express总线。系统代理核210提供用于各种处理器组件的管理功能性。在一些实施例中,系统代理核210包括一个或多个集成存储器控制器214以管理对各种外部存储器装置(未示出)的访问。
20.在一些实施例中,处理器核202a-202n中的一个或多个处理器核包括对同时多线程的支持。在此类实施例中,系统代理核210包括用于在多线程的处理期间协调和操作核202a-202n的组件。系统代理核210可另外包括功率控制单元(pcu),所述功率控制单元(pcu)包括用于调节处理器核202a-202n和图形处理器208的功率状态的逻辑和组件。
21.在一些实施例中,处理器200另外包括用于执行图形处理操作的图形处理器208。在一些实施例中,图形处理器208与包括一个或多个集成存储器控制器214的系统代理核210和共享高速缓存单元206的集合耦合。在一些实施例中,系统代理核210还包括用于将图形处理器输出驱动到一个或多个耦合的显示器的显示控制器211。在一些实施例中,显示控制器211还可以是经由至少一个互连与图形处理器耦合的单独模块,或者可被集成在图形处理器208内。
22.在一些实施例中,基于环的互连单元212被用于耦合处理器200的内部组件。然而,可使用备选互连单元,诸如点对点互连、交换互连或其它技术,包括本领域中公知的技术。在一些实施例中,图形处理器208经由i/o链路213与环形互连212耦合。
23.示例性i/o链路213表示多个种类的i/o互连中的至少一个,包括促进各种处理器组件与诸如edram模块的高性能嵌入式存储器模块218之间的通信的封装上i/o互连。在一些实施例中,处理器核202a-202n中的每个处理器核和图形处理器208可使用嵌入式存储器模块218作为共享末级高速缓存。
24.在一些实施例中,处理器核202a-202n是执行相同指令集架构的同质核(homogenous core)。在另一实施例中,处理器核202a-202n在指令集架构(isa)方面是异质的(heterogeneous),其中处理器核202a-202n中的一个或多个处理器核执行第一指令集,而其它核中的至少一个核执行第一指令集的子集或不同指令集。在一个实施例中,处理器核202a-202n在微架构方面是异质的,其中具有相对更高功耗的一个或多个核与具有更低功耗的一个或多个功率核耦合。在一个实施例中,处理器核202a-202n在计算能力方面是异质的。另外,处理器200可在一个或多个芯片上被实现,或者被实现为除其它组件外还具有示出的组件的soc集成电路。
25.图2b是根据本文中描述的一些实施例的图形处理器核219的硬件逻辑的框图。与本文中任何其它附图的元件具有相同参考标号(或名称)的图2b的元件可以以与本文中其它地方所描述的方式类似的任何方式操作或起作用,但不限于这样。有时被称为核切片(core slice)的图形处理器核219可以是模块化图形处理器内的一个或多个图形核。图形处理器核219是示例性的一个图形核切片,并且如本文中所描述的图形处理器可包括基于目标功率和性能包络(performance envelope)的多个图形核切片。每个图形处理器核219可包括与也称为子切片的多个子核221a-221f耦合的固定功能块230,所述多个子核221a-221f包括通用和固定功能逻辑的模块化块。
26.在一些实施例中,固定功能块230包括几何/固定功能流水线231,所述几何/固定功能流水线231可例如在更低性能/或更低功率图形处理器实现中由图形处理器核219中的所有子核共享。在各种实施例中,几何/固定功能流水线231包括3d固定功能流水线(例如,下述的如图3和图4中的3d流水线312)、视频前端单元、线程派生器(thread spawner)和线程分派器(thread dispatcher)以及管理统一返回缓冲器(unified return buffer)(例如,如下所述的在图4中的统一返回缓冲器418)的统一返回缓冲器管理器。
27.在一个实施例中,固定功能块230还包括图形soc接口232、图形微控制器233和媒体流水线234。图形soc接口232提供图形处理器核219与片上系统集成电路内的其它处理器核之间的接口。图形微控制器233是可编程子处理器,其可被配置成管理图形处理器核219的各种功能,包括线程分派、调度和抢占(pre-emption)。媒体流水线234(例如,图3和图4的
媒体流水线316)包括用于促进包括图像和视频数据的多媒体数据的解码、编码、预处理和/或后处理的逻辑。媒体流水线234经由对子核221a-221f内的计算或采样逻辑的请求来实现媒体操作。
28.在一个实施例中,soc接口232使得图形处理器核219可与通用应用处理器核(例如,cpu)和/或soc内的其它组件通信,所述soc内的其它组件包括诸如共享末级高速缓冲存储器、系统ram和/或嵌入式片上或封装上dram的存储器层级元件。soc接口232还可能够实现与soc内的固定功能装置(诸如,相机成像流水线)的通信,并且能够实现全局存储器原子的使用和/或实现全局存储器原子,所述全局存储器原子可在图形处理器核219与soc内的cpu之间被共享。soc接口232还能够实现用于图形处理器核219的功率管理控制,并且能够实现图形核219的时钟域与soc内的其它时钟域之间的接口。在一个实施例中,soc接口232能够实现接收来自命令流转化器(command streamer)和全局线程分派器的命令缓冲器(command buffer),所述命令缓冲器被配置成向图形处理器内的一个或多个图形核中的每个图形核提供命令和指令。命令和指令可在要执行媒体操作时被分派到媒体流水线234,或者在要执行图形处理操作时被分派到几何和固定功能流水线(例如,几何和固定功能流水线231、几何和固定功能流水线237)。
29.图形微控制器233可被配置成执行用于图形处理器核219的各种调度和管理任务。在一个实施例中,图形微控制器233可在子核221a-221f内的执行单元(eu)阵列222a-222f、224a-224f内的各种图形并行引擎上执行图形和/或计算工作负载调度。在此调度模型中,在包括图形处理器核219的soc的cpu核上执行的主机软件可将工作负载提交给多个图形处理器门铃(graphic processor doorbell)中的一个,这调用在适当图形引擎上的调度操作。调度操作包括确定接下来要运行哪个工作负载,向命令流转化器提交工作负载、对在引擎上运行的现有工作负载进行抢占、监测工作负载的进展、以及在工作负载完成时通知主机软件。在一个实施例中,图形微控制器233还可促进用于图形处理器核219的低功率或空闲状态,从而为图形处理器核219提供独立于操作系统和/或系统上的图形驱动器软件跨低功率状态转变来对图形处理器核219内的寄存器进行保存和恢复的能力。
30.图形处理器核219可具有多于或少于示出的子核221a-221f,多达n个的模块化子核。对于n个子核的每个集合,图形处理器核219还可包括共享功能逻辑235、共享和/或高速缓冲存储器236、几何/固定功能流水线237以及用于加速各种图形和计算处理操作的另外的固定功能逻辑238。共享功能逻辑235可包括与图4的共享功能逻辑420相关联的逻辑单元(例如,采样器、数学和/或线程间通信逻辑),所述逻辑单元可由图形处理器核219内的每n个子核共享。共享和/或高速缓冲存储器236可以是用于图形处理器核219内的n个子核221a-221f的集合的末级高速缓存,并且还可充当可由多个子核访问的共享存储器。几何/固定功能流水线237可代替固定功能块230内的几何/固定功能流水线231而被包括并且可包括相同或类似的逻辑单元。
31.在一个实施例中,图形处理器核219包括另外的固定功能逻辑238,其可包括供图形处理器核219使用的各种固定功能加速逻辑。在一个实施例中,另外的固定功能逻辑238包括供在仅位置着色中使用的另外的几何流水线。在仅位置着色中,存在两个几何流水线:几何/固定功能流水线237、231内的完全几何流水线;以及剔除流水线(cull pipeline),其是可被包括在另外的固定功能逻辑238内的另外的几何流水线。在一个实施例中,剔除流水
线是完全几何流水线的裁减版本(trimmed down version)。完全流水线和剔除流水线可执行相同应用的不同实例,每个实例具有单独的上下文。仅位置着色可隐藏被丢弃三角形的长剔除运行,使得在一些实例中能更早完成着色。例如并且在一个实施例中,另外的固定功能逻辑238内的剔除流水线逻辑可执行与主应用并行的位置着色器,并且一般比完全流水线更快生成关键结果,因为剔除流水线仅对顶点的位置属性进行提取(fetch)并着色,而不向帧缓冲器执行像素的栅格化和渲染。剔除流水线可使用生成的关键结果来计算用于所有三角形的可见性信息,而不考虑那些三角形是否被剔除。完全流水线(其在此实例中可被称为重放流水线)可消耗可见性信息以跳过被剔除的三角形,以仅对最终被传递到栅格化阶段的可见三角形进行着色。
32.在一个实施例中,另外的固定功能逻辑238还可包括诸如固定功能矩阵乘法逻辑之类的机器学习加速逻辑,以用于包括针对机器学习训练或推理的优化的实现。
33.在每个图形子核221a-221f内包括执行资源的集合,其可被用于响应于图形流水线、媒体流水线或着色器程序的请求而执行图形、媒体和计算操作。图形子核221a-221f包括多个eu阵列222a-222f、224a-224f、线程分派和线程间通信(td/ic)逻辑223a-223f、3d(例如,纹理)采样器225a-225f、媒体采样器206a-206f、着色器处理器227a-227f及共享本地存储器(slm)228a-228f。eu阵列222a-222f、224a-224f各自包括多个执行单元,所述多个执行单元是能够为图形、媒体或计算操作(包括图形、媒体或计算着色器程序)服务而执行浮点和整数/定点逻辑运算的通用图形处理单元。td/ic逻辑223a-223f执行用于子核内的执行单元的本地线程分派和线程控制操作,并且促进在子核的执行单元上执行的线程之间的通信。3d采样器225a-225f可将纹理或其它3d图形有关数据读取到存储器中。3d采样器可基于配置的样本状态和与给定纹理相关联的纹理格式以不同方式读取纹理数据。媒体采样器206a-206f可基于与媒体数据相关联的类型和格式来执行类似的读取操作。在一个实施例中,每个图形子核221a-221f可交替包括统一3d和媒体采样器。在子核221a-221f中的每个子核内的执行单元上执行的线程可利用每个子核内的共享本地存储器228a-228f,以使得在线程群组内执行的线程能使用片上存储器的公共池来执行。
34.图2c示出了包括布置到多核群组240a-240n中的图形处理资源的专用集合的图形处理单元(gpu)239。尽管仅提供了单个多核群组240a的细节,但将领会的是,其它多核群组240b-240n可被配备有图形处理资源的相同或类似集合。
35.如所示出的,多核群组240a可包括图形核243的集合、张量核244的集合和光线追踪核245的集合。调度器/分派器241调度和分派图形线程以供在各种核243、244、245上执行。寄存器堆242的集合存储在执行图形线程时由核243、244、245使用的操作数值。这些寄存器可包括例如用于存储整数值的整数寄存器、用于存储浮点值的浮点寄存器、用于存储打包数据元素(整数和/或浮点数据元素)的向量寄存器及用于存储张量/矩阵值的贴片寄存器。在一个实施例中,贴片寄存器被实现为向量寄存器的组合集合。
36.一个或多个组合的1级(l1)高速缓存和共享存储器单元247在每个多核群组240a内本地地存储图形数据,诸如纹理数据、顶点数据、像素数据、光线数据、包围体积数据等。一个或多个纹理单元247还可被用于执行纹理操作,诸如纹理映射和采样。由多核群组240a-240n的全部或其子集共享的2级(l2)高速缓存253存储用于多个并发图形线程的图形数据和/或指令。如所示出的,l2高速缓存253可跨多个多核群组240a-240n被共享。一个或
多个存储器控制器248将gpu 239耦合到存储器249,所述存储器249可以是系统存储器(例如,dram)和/或专用图形存储器(例如,gddr6存储器)。
37.输入/输出(i/o)电路系统250将gpu 239耦合到一个或多个i/o装置252,诸如数字信号处理器(dsp)、网络控制器或用户输入装置。片上互连可被用于将i/o装置252耦合到gpu 239和存储器249。i/o电路系统250的一个或多个i/o存储器管理单元(iommu)251将i/o装置252直接耦合到系统存储器249。在一个实施例中,iommu 251管理页表的多个集合,以将虚拟地址映射到系统存储器249中的物理地址。在此实施例中,i/o装置252、(一个或多个)cpu 246和(一个或多个)gpu 239可共享相同虚拟地址空间。
38.在一个实现中,iommu 251支持虚拟化。在此情况下,它可管理页表的第一集合以将客户/图形虚拟地址映射到客户/图形物理地址,并且管理页表的第二集合以将客户/图形物理地址映射到系统/主机物理地址(例如,在系统存储器249内)。页表的第一和第二集合中的每个的基址可被存储在控制寄存器中并且在上下文切换时被换出(例如,使得新的上下文被提供有对页表的相关集合的访问)。尽管在图2c中未被示出,但多核群组240a-240n和/或核243、244、245中的每个可包括转译后备缓冲器(tlb),以对客户虚拟到客户物理转译、客户物理到主机物理转译以及客户虚拟到主机物理转译进行高速缓存。
39.在一个实施例中,cpu 246、gpu 239和i/o装置252被集成在单个半导体芯片和/或芯片封装上。示出的存储器249可被集成在相同芯片上,或者可经由片外(off-chip)接口被耦合到存储器控制器248。在一个实现中,存储器249包括gddr6存储器,所述gddr6存储器共享与其它物理系统级存储器相同虚拟地址空间,但是基础原理不限于此特定实现。
40.在一个实施例中,张量核244包括特别设计成执行矩阵运算的多个执行单元,所述矩阵运算是用于执行深度学习操作的基础计算操作。例如,同时矩阵乘法运算可被用于神经网络训练和推理。张量核244可使用各种操作数精度来执行矩阵处理,所述各种操作数精度包括单精度浮点(例如,32位)、半精度浮点(例如,16位)、整数字(16位)、字节(8位)和半字节(4位)。在一个实施例中,神经网络实现提取每个经渲染的场景的特征,潜在地组合来自多个帧的细节,以构造高质量的最终图像。
41.在深度学习实现中,可调度并行矩阵乘法工作以供在张量核244上执行。神经网络的训练特别要求大量的矩阵点积运算。为了处理n x n x n矩阵相乘的内积公式,张量核244可包括至少n个点积处理元素。在矩阵相乘开始前,一个完整矩阵被加载到贴片寄存器,并且在n个周期的每个周期,第二矩阵的至少一列被加载。每个周期,有被处理的n个点积。
42.取决于特定实现,可以以不同精度存储矩阵元素,所述不同精度包括16位字、8位字节(例如,int8)和4位半字节(例如,int4)。可为张量核244指定不同精度模式以确保最高效的精度被用于不同工作负载(例如,诸如可容许量化到字节和半字节的推理工作负载)。
43.在一个实施例中,光线追踪核245对于实时光线追踪和非实时光线追踪实现二者均使光线追踪操作加速。特别地,光线追踪核245包括光线遍历(ray traversal)/交叉电路系统,以用于使用包围体积层级(bounding volume hierarchy)(bvh)来执行光线遍历并且标识封闭在bvh体积之内的图元与光线之间的交叉。光线追踪核245还可包括用于执行深度测试和剔除(例如,使用z缓冲器或类似布置)的电路系统。在一个实现中,光线追踪核245与本文中描述的图像去噪技术协同执行遍历和交叉操作,其至少一部分可在张量核244上被执行。例如,在一个实施例中,张量核244实现深度学习神经网络以执行由光线追踪核245生
成的帧的去噪。然而,(一个或多个)cpu 246、图形核243和/或光线追踪核245还可实现去噪和/或深度学习算法的全部或一部分。
44.另外,如上所述,可采用去噪的分布式方法,其中gpu 239在通过网络或高速互连耦合到其它计算装置的计算装置中。在该实施例中,互连的计算装置共享神经网络学习/训练数据来改进速度,利用该速度整个系统学习对不同类型的图像帧和/或不同的图形应用执行去噪。
45.在一个实施例中,光线追踪核245处理所有bvh遍历和光线-图元交叉,从而避免图形核243以每光线数千个指令而过载。在一个实施例中,每个光线追踪核245包括用于执行包围盒测试(例如,对于遍历操作)的专用电路系统的第一集合和用于执行光线-三角形交叉测试(例如,交叉已被遍历的光线)的专用电路系统的第二集合。因此,在一个实施例中,多核群组240a可仅仅启动光线探头,并且光线追踪核245独立执行光线遍历和交叉并且将命中(hit)数据(例如,命中、无命中(no hit)、多次命中等)返回到线程上下文。在光线追踪核245执行遍历和交叉操作的同时,其它核243、244被释放以执行其它图形或计算工作。
46.在一个实施例中,每个光线追踪核245包括用于执行bvh测试操作的遍历单元和执行光线-图元交叉测试的交叉单元。交叉单元生成“命中”、“无命中”或“多次命中”响应,交叉单元将该响应提供到适当的线程。在遍历和交叉操作期间,其它核(例如,图形核243和张量核244)的执行资源被释放以执行其它形式的图形工作。
47.在下述的一个特定实施例中,使用了混合栅格化/光线追踪方法,其中在图形核243与光线追踪核245之间分布工作。
48.在一个实施例中,光线追踪核245(和/或其它核243、244)包括对诸如microsoft的directx光线追踪(dxr)之类的光线追踪指令集的硬件支持,所述dxr包括dispatchrays命令以及光线-生成、最接近-命中、任何-命中和未命中(miss)着色器,这些能够实现对每个对象指派纹理和着色器的独特集合。由光线追踪核245、图形核243和张量核244可支持的另一光线追踪平台是vulkan 1.1.85。然而,注意本发明的基础原理不限于任何特定光线追踪isa。
49.一般而言,各种核245、244、243可支持光线追踪指令集,所述光线追踪指令集包括用于光线生成、最接近命中、任何命中、光线-图元交叉、每图元和层级包围盒构造、未命中、访问及异常(exception)的指令/功能。更特定地说,一个实施例包括光线追踪指令以执行以下功能:光线生成
ꢀ–ꢀ
可为每个像素、样本或其它用户定义的工作指派执行光线生成指令。
50.最接近命中
ꢀ–ꢀ
可执行最接近命中指令,以用场景内的图元来定位光线的最接近交叉点。
51.任何命中
ꢀ‑ꢀ
任何命中指令标识场景内的图元与光线之间的多个交叉,潜在地标识新的最接近交叉点。
52.交叉
ꢀ‑ꢀ
交叉指令执行光线-图元交叉测试并且输出结果。
53.每图元包围盒构造
ꢀ‑ꢀ
此指令围绕给定图元或图元的群组构建包围盒(例如,在构建新的bvh或其它加速数据结构时)。
54.未命中
ꢀ–ꢀ
指示光线未命中场景的指定区域或场景内的所有几何。
55.访问
ꢀ–ꢀ
指示光线将遍历的子代体积(children volume)。
56.异常
ꢀ‑ꢀ
包括各种类型的异常处理程序(例如,针对各种误差状况而被调用)。
57.图2d是根据本文中描述的实施例的可被配置为图形处理器和/或计算加速器的通用图形处理单元(gpgpu)270的框图。gpgpu 270可经由一个或多个系统和/或存储器总线与主机处理器(例如,一个或多个cpu 246)和存储器271、272互连。在一个实施例中,存储器271是可与一个或多个cpu 246共享的系统存储器,而存储器272是专用于gpgpu 270的装置存储器。在一个实施例中,装置存储器272和gpgpu 270内的组件可被映射到一个或多个cpu 246可访问的存储器地址中。可经由存储器控制器268来促进对存储器271和272的访问。在一个实施例中,存储器控制器268包括内部直接存储器存取(dma)控制器269,或者可包括逻辑以执行在其它情况下将由dma控制器执行的操作。
58.gpgpu 270包括多个高速缓冲存储器,包括l2高速缓存253、l1高速缓存254、指令高速缓存255和共享存储器256,该共享存储器256的至少一部分也可被分区为高速缓冲存储器。gpgpu 270还包括多个计算单元260a-260n。每个计算单元260a-260n包括向量寄存器261、标量寄存器262、向量逻辑单元263和标量逻辑单元264的集合。计算单元260a-260n还可包括本地共享存储器265和程序计数器266。计算单元260a-260n可与常量高速缓存267耦合,该常量高速缓存267可被用于存储常量数据,所述常量数据是在gpgpu 270上执行的内核或着色器程序的运行期间将不改变的数据。在一个实施例中,常量高速缓存267是标量数据高速缓存,并且经高速缓存的(cached)数据可被直接提取到标量寄存器262中。
59.在操作期间,一个或多个cpu 246可将命令写入已被映射到可访问地址空间中的gpgpu 270中的寄存器或存储器中。命令处理器257可从寄存器或存储器读取命令,并且确定将在gpgpu 270内如何处理那些命令。然后线程分派器258可被用于将线程分派到计算单元260a-260n,以执行那些命令。每个计算单元260a-260n可独立于其它计算单元执行线程。另外,每个计算单元260a-260n可被独立配置用于有条件的计算,并且可有条件地将计算的结果输出到存储器。在提交的命令完成时,命令处理器257可中断一个或多个cpu 246。
60.图3a-3c示出了由本文中描述的实施例提供的另外的图形处理器和计算加速器架构的框图。与本文中任何其它图的元件具有相同参考标号(或名称)的图3a-3c的元件可以以与本文中其它地方所描述的方式类似的任何方式操作或起作用,但不限于这样。
61.图3a是图形处理器300的框图,该图形处理器300可以是分立的图形处理单元,或者可以是与多个处理核集成的图形处理器,或诸如但不限于存储器装置或网络接口的其它半导体装置。在一些实施例中,图形处理器经由到图形处理器上的寄存器的存储器映射i/o接口并且利用被放置到处理器存储器中的命令进行通信。在一些实施例中,图形处理器300包括用于访问存储器的存储器接口314。存储器接口314可以是到本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存和/或到系统存储器的接口。
62.在一些实施例中,图形处理器300还包括用于将显示输出数据驱动到显示装置318的显示控制器302。显示控制器302包括用于一个或多个覆盖平面的硬件,以用于显示和组合用户接口元素或视频的多个层。显示装置318可以是内部或外部显示装置。在一个实施例中,显示装置318是头戴式显示装置,诸如虚拟现实(vr)显示装置或增强现实(ar)显示装置。在一些实施例中,图形处理器300包括视频编解码器引擎306以将媒体编码成一个或多个媒体编码格式、从一个或多个媒体编码格式将媒体解码、或者在一个或多个媒体编码格式之间对媒体进行转码,所述编码格式包括但不限于运动图像专家组(mpeg)格式(诸如,
mpeg-2)、高级视频编码(avc)格式(诸如,h.264/mpeg-4 avc、h.265/hevc)、开放媒体联盟(aomedia)vp8、vp9以及电影与电视工程师协会(smpte)421m/vc-1和联合图像专家组(jpeg)格式(诸如,jpeg)以及运动jpeg(mjpeg)格式。
63.在一些实施例中,图形处理器300包括用于执行二维(2d)栅格化器操作(包括例如位边界块传送)的块图像传送(blit)引擎304。然而,在一个实施例中,使用图形处理引擎(gpe)310的一个或多个组件来执行2d图形操作。在一些实施例中,gpe 310是用于执行包括三维(3d)图形操作和媒体操作的图形操作的计算引擎。
64.在一些实施例中,gpe 310包括用于执行3d操作的3d流水线312,所述3d操作诸如使用作用于3d图元形状(例如,矩形、三角形等)的处理功能来渲染三维图像和场景。3d流水线312包括可编程和固定功能元件,所述可编程和固定功能元件在元件内执行各种任务和/或派生(spawn)到3d/媒体子系统315的执行线程。虽然3d流水线312可被用于执行媒体操作,但gpe 310的实施例还包括特别用于执行媒体操作(诸如,视频后处理和图像增强)的媒体流水线316。
65.在一些实施例中,媒体流水线316包括固定功能或可编程逻辑单元以代替或者代表视频编解码器引擎306来执行一个或多个专用媒体操作,诸如视频解码加速、视频去交织和视频编码加速。在一些实施例中,媒体流水线316另外包括线程派生单元以派生用于在3d/媒体子系统315上执行的线程。派生的线程在3d/媒体子系统315中包括的一个或多个图形执行单元上执行用于媒体操作的计算。
66.在一些实施例中,3d/媒体子系统315包括用于执行由3d流水线312和媒体流水线316派生的线程的逻辑。在一个实施例中,流水线将线程执行请求发送到3d/媒体子系统315,所述3d/媒体子系统315包括线程分派逻辑,所述线程分派逻辑用于将各种请求仲裁(arbitrate)并分派到可用线程执行资源。执行资源包括用于处理3d和媒体线程的图形执行单元的阵列。在一些实施例中,3d/媒体子系统315包括用于线程指令和数据的一个或多个内部高速缓存。在一些实施例中,子系统还包括共享存储器,所述共享存储器包括寄存器和可寻址存储器,以在线程之间共享数据并且存储输出数据。
67.图3b示出了根据本文中描述的实施例的具有拼贴(tiled)架构的图形处理器320。在一个实施例中,图形处理器320包括图形处理引擎集群322,所述图形处理引擎集群322在图形引擎贴片310a-310d内具有图3a的图形处理引擎310的多个实例。每个图形引擎贴片310a-310d可经由贴片互连323a-323f的集合而被互连。每个图形引擎贴片310a-310d还可经由存储器互连325a-325d被连接到存储器模块或存储器装置326a-326d。存储器装置326a-326d可使用任何图形存储器技术。例如,存储器装置326a-326d可以是图形双倍数据率(gddr)存储器。存储器装置326a-326d在一个实施例中是高带宽存储器(hbm)模块,其可与其相应图形引擎贴片310a-310d一起在管芯上。在一个实施例中,存储器装置326a-326d是堆叠存储器装置,其可被堆叠在其相应图形引擎贴片310a-310d之上。在一个实施例中,如图11b-11d中进一步详细描述的,每个图形引擎贴片310a-310d和相关联存储器326a-326d驻留在单独的小芯片上,所述小芯片被接合到基础管芯或基础衬底。
68.图形处理引擎集群322可与片上或封装上组构互连324连接。组构互连324可能够实现在图形引擎贴片310a-310d与诸如视频编解码器306和一个或多个复制引擎304的组件之间的通信。复制引擎304可被用于将数据移出以下各项、将数据移入以下各项以及在以下
各项之间移动数据:存储器装置326a-326d和在图形处理器320外的存储器(例如,系统存储器)。组构互连324还可被用于互连图形引擎贴片310a-310d。图形处理器320可以可选地包括用于能够实现与外部显示装置318的连接的显示控制器302。图形处理器还可被配置为图形或计算加速器。在加速器配置中,可省略显示控制器302和显示装置318。
69.图形处理器320可经由主机接口328连接到主机系统。主机接口328可能够实现在图形处理器320、系统存储器和/或其它系统组件之间的通信。主机接口328可例如是pci express总线或另一类型的主机系统接口。
70.图3c示出了根据本文中描述的实施例的计算加速器330。计算加速器330可包括与图3b的图形处理器320的架构类似性并且被优化用于计算加速。计算引擎集群332可包括计算引擎贴片340a-340d的集合,其包括被优化用于并行或基于向量的通用计算操作的执行逻辑。在一些实施例中,计算引擎贴片340a-340d不包括固定功能图形处理逻辑,虽然在一个实施例中,计算引擎贴片340a-340d中的一个或多个计算引擎贴片可包括用于执行媒体加速的逻辑。计算引擎贴片340a-340d可经由存储器互连325a-325d连接到存储器326a-326d。存储器326a-326d和存储器互连325a-325d可以是与在图形处理器320中类似的技术,或者可以是不同的。图形计算引擎贴片340a-340d还可经由贴片互连323a-323f的集合被互连,并且可与组构互连324连接和/或通过组构互连324被互连。在一个实施例中,计算加速器330包括可被配置为装置范围高速缓存的大的l3高速缓存336。计算加速器330还可以以与图3b的图形处理器320类似的方式经由主机接口328连接到主机处理器和存储器。
71.图形处理引擎图4是根据一些实施例的图形处理器的图形处理引擎410的框图。在一个实施例中,图形处理引擎(gpe)410是图3a中示出的gpe 310的某一版本,并且还可表示图3b的图形引擎贴片310a-310d。与本文中任何其它图的元件具有相同参考标号(或名称)的图4的元件可以以与本文中其它地方所描述的方式类似的任何方式操作或起作用,但不限于这样。例如,示出了图3a的3d流水线312和媒体流水线316。媒体流水线316在gpe 410的一些实施例中是可选的,并且可未被显式地包括在gpe 410内。例如并且在至少一个实施例中,单独的媒体和/或图像处理器被耦合到gpe 410。
72.在一些实施例中,gpe 410与命令流转化器403耦合或者包括该命令流转化器403,该命令流转化器403将命令流提供到3d流水线312和/或媒体流水线316。在一些实施例中,命令流转化器403与存储器耦合,所述存储器可以是系统存储器,或内部高速缓冲存储器和共享高速缓冲存储器中的一个或多个。在一些实施例中,命令流转化器403接收来自存储器的命令,并且将命令发送到3d流水线312和/或媒体流水线316。命令是从存储用于3d流水线312和媒体流水线316的命令的环形缓冲器提取的指令(directive)。在一个实施例中,环形缓冲器可另外包括存储批量的多个命令的批量命令缓冲器。用于3d流水线312的命令还可包括对在存储器中存储的数据(诸如但不限于用于3d流水线312的顶点和几何数据和/或用于媒体流水线316的图像数据和存储器对象)的引用。3d流水线312和媒体流水线316通过经由相应流水线内的逻辑执行操作或者通过将一个或多个执行线程分派到图形核阵列414来处理命令和数据。在一个实施例中,图形核阵列414包括图形核(例如,(一个或多个)图形核415a、(一个或多个)图形核415b)的一个或多个块,每个块包括一个或多个图形核。每个图形核包括:图形执行资源的集合,其包括用于执行图形和计算操作的通用和图形特定执行
逻辑;以及固定功能纹理处理和/或机器学习和人工智能加速逻辑。
73.在各种实施例中,3d流水线312可包括用于通过处理指令并且将执行线程分派到图形核阵列414来处理一个或多个着色器程序(诸如,顶点着色器、几何着色器、像素着色器、片段着色器、计算着色器或其它着色器程序)的固定功能和可编程逻辑。图形核阵列414提供执行资源的统一块以供在处理这些着色器程序中使用。图形核阵列414的(一个或多个)图形核415a-415b内的多用途执行逻辑(例如,执行单元)包括对各种3d api着色器语言的支持,并且可执行与多个着色器相关联的多个同时执行线程。
74.在一些实施例中,图形核阵列414包括用于执行媒体功能(诸如,视频和/或图像处理)的执行逻辑。在一个实施例中,执行单元包括通用逻辑,该通用逻辑可编程以除图形处理操作外还执行并行通用计算操作。该通用逻辑可与在图1的(一个或多个)处理器核107或如图2a中的核202a-202n内的通用逻辑并行或结合地执行处理操作。
75.由在图形核阵列414上执行的线程生成的输出数据可将数据输出到在统一返回缓冲器(urb)418中的存储器。urb 418可存储用于多个线程的数据。在一些实施例中,urb 418可被用于在图形核阵列414上执行的不同线程之间发送数据。在一些实施例中,urb 418可另外被用于在图形核阵列上的线程与在共享功能逻辑420内的固定功能逻辑之间的同步。
76.在一些实施例中,图形核阵列414是可缩放的,使得该阵列包括可变数量的图形核,这些图形核各自基于gpe 410的目标功率和性能水平而具有可变数量的执行单元。在一个实施例中,执行资源是动态可缩放的,使得可按需启用或禁用执行资源。
77.图形核阵列414与共享功能逻辑420耦合,该共享功能逻辑420包括在图形核阵列中的图形核之间共享的多个资源。在共享功能逻辑420内的共享功能是硬件逻辑单元,所述硬件逻辑单元将专用补充功能性提供到图形核阵列414。在各种实施例中,共享功能逻辑420包括但不限于采样器421、数学422和线程间通信(itc)423逻辑。另外,一些实施例在共享功能逻辑420内实现一个或多个高速缓存425。
78.至少在其中对给定专用功能的需求不足以包括在图形核阵列414内的情况下,实现共享功能。相反,该专用功能的单个实例化被实现为在共享功能逻辑420中的独立实体,并且在图形核阵列414内的执行资源之间被共享。在图形核阵列414之间被共享并且包括在图形核阵列414内的功能的精确集合跨实施例而变化。在一些实施例中,由图形核阵列414广泛使用的共享功能逻辑420内的特定共享功能可被包括在图形核阵列414内的共享功能逻辑416内。在各种实施例中,图形核阵列414内的共享功能逻辑416可包括共享功能逻辑420内的一些或全部逻辑。在一个实施例中,可在图形核阵列414的共享功能逻辑416内重复共享功能逻辑420内的全部逻辑元件。在一个实施例中,排除了共享功能逻辑420以有利于图形核阵列414内的共享功能逻辑416。
79.执行单元图5a-5b示出了根据本文中描述的实施例的线程执行逻辑500,其包括在图形处理器核中采用的处理元件的阵列。与本文中任何其它附图的元件具有相同参考标号(或名称)的图5a-5b的元件可以以本文中其它地方所描述的方式类似的任何方式操作或起作用,但不限于这样。图5a-5b示出了线程执行逻辑500的概述,该线程执行逻辑500可代表利用图2b的每个子核221a-221f示出的硬件逻辑。图5a代表通用图形处理器内的执行单元,而图5b代表可在计算加速器内使用的执行单元。
80.如在图5a中所示出的,在一些实施例中,线程执行逻辑500包括着色器处理器502、线程分派器504、指令高速缓存506、包括多个执行单元508a-508n的可缩放执行单元阵列、采样器510、共享本地存储器511、数据高速缓存512和数据端口514。在一个实施例中,可缩放执行单元阵列可通过基于工作负载的计算要求来启用或禁用一个或多个执行单元(例如,执行单元508a、508b、508c、508d到508n-1和508n中的任何执行单元)来动态地进行缩放。在一个实施例中,被包括的组件经由链接到组件中的每个组件的互连组构被互连。在一些实施例中,线程执行逻辑500包括通过指令高速缓存506、数据端口514、采样器510和执行单元508a-508n中的一个或多个到存储器(诸如,系统存储器或高速缓冲存储器)的一个或多个连接。在一些实施例中,每个执行单元(例如,508a)是独立可编程通用计算单元,其能执行多个同时硬件线程,同时为每个线程并行处理多个数据元素。在各种实施例中,执行单元508a-508n的阵列是可缩放的,以包括任何数量的各个执行单元。
81.在一些实施例中,执行单元508a-508n主要被用于执行着色器程序。着色器处理器502可处理各种着色器程序,并且经由线程分派器504分派与着色器程序相关联的执行线程。在一个实施例中,线程分派器包括用于对来自图形和媒体流水线的线程发起请求进行仲裁并且在执行单元508a-508n中的一个或多个执行单元上实例化所请求的线程的逻辑。例如,几何流水线可将顶点、曲面细分或几何着色器分派到线程执行逻辑以用于处理。在一些实施例中,线程分派器504还可处理来自在执行的着色器程序的运行时间线程派生请求。
82.在一些实施例中,执行单元508a-508n支持指令集,所述指令集包括对许多标准3d图形着色器指令的本机支持,使得来自图形库(例如,direct 3d和opengl)的着色器程序以最小的转换被执行。执行单元支持顶点和几何处理(例如,顶点程序、几何程序、顶点着色器)、像素处理(例如,像素着色器、片段着色器)和通用处理(例如,计算和媒体着色器)。执行单元508a-508n中的每个执行单元能进行多发布单指令多数据(simd)执行,并且多线程操作在面临更高时延存储器访问时能够实现高效的执行环境。每个执行单元内的每个硬件线程具有专用高带宽寄存器堆和相关联的独立线程状态。执行是对能进行整数、单精度和双精度浮点运算、simd分支能力、逻辑运算、超越运算和其它杂项运算的流水线的每时钟多发布。在等待来自存储器或共享功能之一的数据时,执行单元508a-508n内的依赖性逻辑促使在等待的线程进行休眠,直到所请求的数据已被返回为止。当在等待的线程正在休眠时,硬件资源可专用于处理其它线程。例如,在与顶点着色器操作相关联的延迟期间,执行单元可执行用于像素着色器、片段着色器或另一类型的着色器程序(包括不同顶点着色器)的操作。各种实施例可应用于:通过作为使用simd的备选方案或者除使用simd之外还使用单指令多线程(simt)来使用执行。对simd核或操作的引用也可应用于simt或者应用于与simt组合的simd。
83.执行单元508a-508n中的每个执行单元对数据元素的阵列进行操作。数据元素的数量是“执行大小”或指令的通道的数量。执行通道是用于指令内的数据元素访问、掩蔽(masking)和流控制的执行的逻辑单元。通道的数量可独立于特定图形处理器的物理算术逻辑单元(alu)或浮点单元(fpu)的数量。在一些实施例中,执行单元508a-508n支持整数和浮点数据类型。
84.执行单元指令集包括simd指令。各种数据元素可作为打包数据类型存储在寄存器中,并且执行单元将基于元素的数据大小来处理各种元素。例如,在对256位宽向量进行操
作时,向量的256位被存储在寄存器中,并且执行单元对作为四个单独的54位打包数据元素(四字(qw)大小数据元素)、八个单独的32位打包数据元素(双字(dw)大小数据元素)、十六个单独的16位打包数据元素(字(w)大小数据元素)或三十二个单独的8位数据元素(字节(b)大小数据元素)的向量进行操作。然而,不同向量宽度和寄存器大小是可能的。
85.在一个实施例中,一个或多个执行单元可被组合成具有线程控制逻辑(507a-507n)的融合的执行单元509a-509n,所述线程控制逻辑(507a-507n)对于融合的eu是公共的。多个eu可被融合成eu群组。融合的eu群组中的每个eu可被配置成执行单独的simd硬件线程。融合的eu群组中eu的数量可根据实施例而变化。另外,可每eu执行各种simd宽度,包括但不限于simd8、simd16和simd32。每个融合的图形执行单元509a-509n包括至少两个执行单元。例如,融合的执行单元509a包括第一eu 508a、第二eu 508b以及线程控制逻辑507a,该线程控制逻辑507a对第一eu 508a和第二eu 508b是公共的。线程控制逻辑507a控制在融合的图形执行单元509a上执行的线程,允许融合的执行单元509a-509n内的每个eu使用公共指令指针寄存器来执行。
86.线程执行逻辑500中包括一个或多个内部指令高速缓存(例如,506)以对用于执行单元的线程指令进行高速缓存。在一些实施例中,包括一个或多个数据高速缓存(例如,512)以在线程执行期间对线程数据进行高速缓存。在执行逻辑500上执行的线程还可在共享本地存储器511中存储显式管理的数据。在一些实施例中,包括采样器510以提供3d操作的纹理采样和媒体操作的媒体采样。在一些实施例中,采样器510包括专用纹理或媒体采样功能性,以在向执行单元提供采样的数据前在采样过程期间处理纹理或媒体数据。
87.在执行期间,图形和媒体流水线经由线程派生和分派逻辑向线程执行逻辑500发送线程发起请求。一旦几何对象的群组已被处理并且栅格化成像素数据,着色器处理器502内的像素处理器逻辑(例如,像素着色器逻辑、片段着色器逻辑等)便被调用于进一步计算输出信息,并且使结果被写入到输出表面(例如,颜色缓冲器、深度缓冲器、模板缓冲器等)。在一些实施例中,像素着色器或片段着色器计算要跨栅格化对象内插的各种顶点属性的值。在一些实施例中,着色器处理器502内的像素处理器逻辑然后执行应用编程接口(api)供应的像素或片段着色器程序。为了执行着色器程序,着色器处理器502经由线程分派器504向执行单元(例如,508a)分派线程。在一些实施例中,着色器处理器502使用采样器510中的纹理采样逻辑来访问存储在存储器中的纹理映射中的纹理数据。对纹理数据和输入几何数据的算术运算为每个几何片段计算像素颜色数据,或者丢弃一个或多个像素而不进行进一步处理。
88.在一些实施例中,数据端口514提供存储器访问机制,以便线程执行逻辑500将经处理的数据输出至存储器以用于在图形处理器输出流水线上进一步处理。在一些实施例中,数据端口514包括或者耦合到一个或多个高速缓冲存储器(例如,数据高速缓存512)来对数据进行高速缓存以用于经由数据端口的存储器访问。
89.在一个实施例中,执行逻辑500还可包括光线追踪器505,所述光线追踪器505可提供光线追踪加速功能性。光线追踪器505可支持包括用于光线生成的指令/功能的光线追踪指令集。该光线追踪指令集可与由图2c中的光线追踪核245支持的光线追踪指令集类似或不同。
90.图5b示出了根据实施例的执行单元508的示例性内部细节。图形执行单元508可包
括指令提取单元537、通用寄存器堆阵列(grf)524、架构寄存器堆阵列(arf)526、线程仲裁器522、发送单元530、分支单元532、simd浮点单元(fpu)534的集合以及在一个实施例中包括专用整数simd alu 535的集合。grf 524和arf 526包括与可在图形执行单元508中是活动的每个同时硬件线程相关联的通用寄存器堆和架构寄存器堆的集合。在一个实施例中,在arf 526中维持每线程架构状态,而在线程执行期间使用的数据被存储在grf 524中。每个线程的执行状态(包括用于每个线程的指令指针)可被保持在arf 526中的线程特定寄存器中。
91.在一个实施例中,图形执行单元508具有这样的架构,该架构是同时多线程(smt)和细粒度交错多线程(imt)的组合。该架构具有模块化配置,可在设计时基于每执行单元的寄存器的数量和同时线程的目标数量来对所述模块化配置进行微调,其中执行单元资源跨用于执行多个同时线程的逻辑被划分。可由图形执行单元508执行的逻辑线程的数量不限于硬件线程的数量,并且多个逻辑线程可被指派到每个硬件线程。
92.在一个实施例中,图形执行单元508可共同发布多个指令,所述多个指令各自可以是不同的指令。图形执行单元线程508的线程仲裁器522可将指令分派给发送单元530、分支单元532或(一个或多个)simd fpu 534中的一个以用于执行。每个执行线程可访问grf 524内的128个通用寄存器,其中每个寄存器可存储32个字节,其可作为32位数据元素的simd 8元素向量访问。在一个实施例中,每个执行单元线程可访问grf 524内的4千字节,虽然实施例不限于此,并且在其它实施例中可提供更多或更少的寄存器资源。在一个实施例中,图形执行单元508被分区成可独立执行计算操作的七个硬件线程,虽然每执行单元的线程的数量还可根据实施例而变化。例如,在一个实施例中支持多达16个硬件线程。在其中七个线程可访问4千字节的实施例中,grf 524可存储总共28千字节。在16个线程可访问4千字节的情况下,grf 524可存储总共64千字节。灵活的寻址模式可允许对寄存器一起进行寻址以有效地构建更宽的寄存器或者表示跨步矩形块数据结构(strided rectangular block data structure)。
93.在一个实施例中,经由通过消息传递发送单元530执行的“发送”指令来分派存储器操作、采样器操作和其它较长时延系统通信。在一个实施例中,将分支指令分派给专用分支单元532以促进simd发散和最终收敛。
94.在一个实施例中,图形执行单元508包括一个或多个simd浮点单元((一个或多个)fpu)534以执行浮点运算。在一个实施例中,(一个或多个)fpu 534还支持整数计算。在一个实施例中,(一个或多个)fpu 534可simd执行多达m个数量的32位浮点(或整数)运算,或者simd执行多达2m个16位整数或16位浮点运算。在一个实施例中,(一个或多个)fpu中的至少一个提供扩展的数学能力以支持高吞吐量超越数学函数和双精度54位浮点。在一些实施例中,还存在8位整数simd alu 535的集合,并且该组8位整数simd alu 535可被特别地优化以执行与机器学习计算相关联的操作。
95.在一个实施例中,图形执行单元508的多个实例的阵列可在图形子核分组(例如,子切片)中被实例化。为了可缩放性,产品架构师可选定每子核分组的执行单元的确切数量。在一个实施例中,执行单元508可跨多个执行通道执行指令。在另外的实施例中,在图形执行单元508上执行的每个线程是在不同的通道上被执行的。
96.图6示出了根据实施例的另外的执行单元600。执行单元600可以是供在例如如图
3c中的计算引擎贴片340a-340d中使用的计算优化的执行单元,但不被限制为这样。执行单元600的变体还可用于如图3b中的图形引擎贴片310a-310d中。在一个实施例中,执行单元600包括线程控制单元601、线程状态单元602、指令提取/预提取单元603和指令解码单元604。执行单元600另外包括寄存器堆606,所述寄存器堆606存储可被指派到执行单元内的硬件线程的寄存器。执行单元600另外包括发送单元607和分支单元608。在一个实施例中,发送单元607和分支单元608可与图5b的图形执行单元508的发送单元530和分支单元532类似地操作。
97.执行单元600还包括计算单元610,所述计算单元610包括多个不同类型的功能单元。在一个实施例中,计算单元610包括alu单元611,所述alu单元611包括算术逻辑单元的阵列。alu单元611可被配置成执行64位、32位和16位整数和浮点运算。整数和浮点运算可同时被执行。计算单元610还可包括脉动阵列612和数学单元613。脉动阵列612包括可用于以脉动方式执行向量或其它数据并行操作的数据处理单元的宽度w和深度d的网络。在一个实施例中,脉动阵列612可被配置成执行矩阵运算,诸如矩阵点积运算。在一个实施例中,脉动阵列612支持16位浮点运算及8位和4位整数运算。在一个实施例中,脉动阵列612可被配置成加速机器学习操作。在此类实施例中,脉动阵列612可被配置有对bfloat 16位浮点格式的支持。在一个实施例中,可包括数学单元613来以高效和比alu单元611更低功率的方式执行数学运算的特定子集。数学单元613可包括可在由其它实施例提供的图形处理引擎的共享功能逻辑中找到的数学逻辑的变体(例如,图4的共享功能逻辑420的数学逻辑422)。在一个实施例中,数学单元613可被配置成执行32位和64位浮点运算。
98.线程控制单元601包括用于控制执行单元内线程的执行的逻辑。线程控制单元601可包括用于开始、停止和抢占执行单元600内线程的执行的线程仲裁逻辑。线程状态单元602可用于为被指派在执行单元600上执行的线程存储线程状态。在执行单元600内存储线程状态能够实现在线程变为阻塞或空闲时那些线程的快速抢占。指令提取/预提取单元603可从更高级别执行逻辑的指令高速缓存(例如,如图5a中的指令高速缓存506)提取指令。指令提取/预提取单元603还可基于当前在执行的线程的分析来发布对要被加载到指令高速缓存中的指令的预提取请求。指令解码单元604可被用于解码要由计算单元执行的指令。在一个实施例中,指令解码单元604可被用作次级解码器以将复杂指令解码成组成的微操作(constituent micro-operation)。
99.执行单元600另外包括可由在执行单元600上执行的硬件线程使用的寄存器堆606。可跨用于执行在执行单元600的计算单元610内的多个同时线程的逻辑来划分寄存器堆606中的寄存器。可由图形执行单元600执行的逻辑线程的数量不限于硬件线程的数量,并且多个逻辑线程可被指派到每个硬件线程。寄存器堆606的大小可基于支持的硬件线程的数量跨实施例而变化。在一个实施例中,寄存器重命名可被用于动态地将寄存器分配到硬件线程。
100.图7是示出根据一些实施例的图形处理器指令格式700的框图。在一个或多个实施例中,图形处理器执行单元支持具有采用多种格式的指令的指令集。实线框示出了一般被包括在执行单元指令中的组成部分,而虚线包括可选的或者仅被包括在指令的子集中的组成部分。在一些实施例中,描述和示出的指令格式700是宏指令,因为它们是供应给执行单元的指令,而与一旦指令被处理由指令解码生产的微操作相反。
101.在一些实施例中,图形处理器执行单元本机地支持采用128位指令格式710的指令。基于所选择的指令、指令选项和操作数的数量,64位压缩指令格式730可用于一些指令。本机128位指令格式710提供对所有指令选项的访问,而采用64位格式730,一些选项和操作被限制。采用64位格式730的可用的本机指令随实施例而变化。在一些实施例中,使用索引字段713中索引值的集合来部分地压缩指令。执行单元硬件基于索引值来引用压缩表的集合,并且使用压缩表输出来重构采用128位指令格式710的本机指令。可使用指令的其它大小和格式。
102.对于每种格式,指令操作码712定义执行单元要执行的操作。执行单元跨每个操作数的多个数据元素并行执行每个指令。例如,响应于相加指令,执行单元跨表示纹理元素或图片元素的每个颜色通道来执行同时加法运算。默认情况下,执行单元跨操作数的所有数据通道来执行每个指令。在一些实施例中,指令控制字段714能够实现对诸如通道选择(例如,断定(predication))和数据通道次序(例如,搅混(swizzle))之类的某些执行选项的控制。对于采用128位指令格式710的指令,执行大小字段716限制将被并行执行的数据通道的数量。在一些实施例中,执行大小字段716不可供64位压缩指令格式730中使用。
103.一些执行单元指令具有多达三个操作数,这三个操作数包括两个源操作数src0 720、src1 722和一个目的地718。在一些实施例中,执行单元支持双目的地指令,其中目的地中的一个是隐含的。数据操纵指令可具有第三源操作数(例如,src2 724),其中指令操作码712确定源操作数的数量。指令的最后源操作数可以是利用指令传递的立即(例如,硬编码的)值。
104.在一些实施例中,128位指令格式710包括访问/地址模式字段726,该访问/地址模式字段726指定例如使用直接寄存器寻址模式还是间接寄存器寻址模式。在使用直接寄存器寻址模式时,由指令中的位来直接提供一个或多个操作数的寄存器地址。
105.在一些实施例中,128位指令格式710包括访问/地址模式字段726,该访问/地址模式字段726指定指令的地址模式和/或访问模式。在一个实施例中,访问模式被用于定义指令的数据访问对齐。一些实施例支持包括16字节对齐的访问模式和1字节对齐的访问模式的访问模式,其中访问模式的字节对齐确定指令操作数的访问对齐。例如,当处于第一模式中时,指令可将字节对齐的寻址用于源操作数和目的地操作数,并且当处于第二模式中时,指令可将16字节对齐的寻址用于所有源操作数和目的地操作数。
106.在一个实施例中,访问/地址模式字段726的地址模式部分确定指令要使用直接寻址还是间接寻址。在使用直接寄存器寻址模式时,指令中的位直接提供一个或多个操作数的寄存器地址。在使用间接寄存器寻址模式时,可基于指令中的地址立即字段和地址寄存器值来计算一个或多个操作数的寄存器地址。
107.在一些实施例中,基于操作码712位字段对指令进行分组,以简化操作码解码740。对于8位操作码,4、5和6位允许执行单元确定操作码的类型。所示出的精确操作码分组仅是示例。在一些实施例中,移动和逻辑操作码群组742包括数据移动和逻辑指令(例如,移动(mov)、比较(cmp))。在一些实施例中,移动和逻辑群组742共享五个最高有效位(msb),其中移动(mov)指令采用0000xxxxb的形式,并且逻辑指令采用0001xxxxb的形式。流控制指令群组744(例如调用、跳(jmp))包括采用0010xxxxb(例如,0x20)形式的指令。杂项指令群组746包括指令的混合,包括采用0011xxxxb(例如,0x30)形式的同步指令(例如等待、发送)。并行
数学指令群组748包括采用0100xxxxb(例如,0x40)的形式的逐组成部分的算术指令(例如,加、乘(mul))。并行数学群组748跨数据通道并行执行算术运算。向量数学群组750包括采用0101xxxxb(例如,0x50)形式的算术指令(例如,dp4)。向量数学群组对向量操作数执行诸如点积计算的算术。示出的操作码解码740在一个实施例中可用于确定执行单元的哪个部分将被用于执行解码的指令。例如,一些指令可被指定为将由脉动阵列执行的脉动指令。诸如光线追踪指令(未示出)的其它指令可被路由到执行逻辑的切片或分区内的光线追踪核或光线追踪逻辑。
108.图形流水线图8是图形处理器800的另一实施例的框图。与本文中任何其它附图的元件具有相同参考标号(或名称)的图8的元件可以以与本文中其它地方所描述的方式类似的任何方式操作或起作用,但不限于这样。
109.在一些实施例中,图形处理器800包括几何流水线820、媒体流水线830、显示引擎840、线程执行逻辑850和渲染输出流水线870。在一些实施例中,图形处理器800是包括一个或多个通用处理核的多核处理系统内的图形处理器。通过对一个或多个控制寄存器(未示出)的寄存器写入或者经由通过环形互连802发布至图形处理器800的命令来控制图形处理器。在一些实施例中,环形互连802将图形处理器800耦合到其它处理组件,诸如其它图形处理器或通用处理器。来自环形互连802的命令由命令流转化器803解译,该命令流转化器803将指令供应至几何流水线820或媒体流水线830的各个组件。
110.在一些实施例中,命令流转化器803指导顶点提取器805的操作,该顶点提取器805从存储器读取顶点数据,并执行由命令流转化器803提供的顶点处理命令。在一些实施例中,顶点提取器805将顶点数据提供给顶点着色器807,该顶点着色器807对每个顶点执行坐标空间变换和照明操作。在一些实施例中,顶点提取器805和顶点着色器807通过经由线程分派器831向执行单元852a-852b分派执行线程来执行顶点处理指令。
111.在一些实施例中,执行单元852a-852b是具有用于执行图形和媒体操作的指令集的向量处理器的阵列。在一些实施例中,执行单元852a-852b具有附连的l1高速缓存851,所述l1高速缓存851对于每个阵列是特定的,或者在阵列之间被共享。高速缓存能被配置为数据高速缓存、指令高速缓存或被分区以在不同分区中含有数据和指令的单个高速缓存。
112.在一些实施例中,几何流水线820包括曲面细分组件以执行3d对象的硬件加速的曲面细分。在一些实施例中,可编程外壳着色器(programmable hull shader)811配置曲面细分操作。可编程域着色器817提供曲面细分输出的后端评估。曲面细分器813在外壳着色器811的指导下进行操作,并且含有专用逻辑以基于作为到几何流水线820的输入而提供的粗略几何模型来生成详细的几何对象的集合。在一些实施例中,如果未使用曲面细分,则可绕过曲面细分组件(例如,外壳着色器811、曲面细分器813和域着色器817)。
113.在一些实施例中,完整几何对象可由几何着色器819经由分派给执行单元852a-852b的一个或多个线程来处理,或者可直接行进至裁剪器(clipper)829。在一些实施例中,几何着色器对整个几何对象进行操作,而不是如在图形流水线的先前阶段中对顶点或顶点的补片(patch)进行操作。如果曲面细分被禁用,则几何着色器819接收来自顶点着色器807的输入。在一些实施例中,几何着色器819可由几何着色器程序编程以在曲面细分单元被禁用时执行几何曲面细分。
114.在栅格化前,裁剪器829处理顶点数据。裁剪器829可以是具有裁剪和几何着色器功能的可编程裁剪器或固定功能裁剪器。在一些实施例中,渲染输出流水线870中的栅格化器和深度测试组件873分派像素着色器以将几何对象转换成逐像素表示。在一些实施例中,像素着色器逻辑被包括在线程执行逻辑850中。在一些实施例中,应用可绕过栅格化器和深度测试组件873,并且经由流出单元823访问未栅格化的顶点数据。
115.图形处理器800具有允许数据和消息在处理器的主要组件之间传递的互连总线、互连组构或某种其它互连机构。在一些实施例中,执行单元852a-852b和相关联的逻辑单元(例如,l1高速缓存851、采样器854、纹理高速缓存858等)经由数据端口856互连,以执行存储器访问并且与处理器的渲染输出流水线组件进行通信。在一些实施例中,采样器854、高速缓存851、858和执行单元852a-852b各自具有单独的存储器访问路径。在一个实施例中,纹理高速缓存858还可被配置为采样器高速缓存。
116.在一些实施例中,渲染输出流水线870含有栅格化器和深度测试组件873,该栅格化器和深度测试组件873将基于顶点的对象转换成相关联的基于像素的表示。在一些实施例中,栅格化器逻辑包括用于执行固定功能三角形和线栅格化的窗口化器(windower)/掩蔽器单元。相关联的渲染高速缓存878和深度高速缓存879在一些实施例中也是可用的。像素操作组件877对数据执行基于像素的操作,尽管在一些实例中,与2d操作相关联的像素操作(例如,带有混合(blending)的位块图像传送)由2d引擎841执行,或者在显示时由显示控制器843使用覆盖显示平面代替。在一些实施例中,共享l3高速缓存875对于全部图形组件是可用的,从而允许在不使用主系统存储器的情况下共享数据。
117.在一些实施例中,图形处理器媒体流水线830包括媒体引擎837和视频前端834。在一些实施例中,视频前端834接收来自命令流转化器803的流水线命令。在一些实施例中,媒体流水线830包括单独的命令流转化器。在一些实施例中,视频前端834在将命令发送至媒体引擎837之前处理媒体命令。在一些实施例中,媒体引擎837包括线程派生功能性来派生线程,以便经由线程分派器831分派到线程执行逻辑850。
118.在一些实施例中,图形处理器800包括显示引擎840。在一些实施例中,显示引擎840在处理器800的外部,并且经由环形互连802或某一其它互连总线或组构与图形处理器耦合。在一些实施例中,显示引擎840包括2d引擎841和显示控制器843。在一些实施例中,显示引擎840含有能独立于3d流水线操作的专用逻辑。在一些实施例中,显示控制器843与显示装置(未示出)耦合,该显示装置可以是系统集成的显示装置(如在膝上型计算机中),或者可以是经由显示装置连接器附连的外部显示装置。
119.在一些实施例中,几何流水线820和媒体流水线830可配置成基于多个图形和媒体编程接口执行操作,并且不特定于任何一个应用编程接口(api)。在一些实施例中,用于图形处理器的驱动器软件将特定于特定图形或媒体库的api调用转换成可由图形处理器处理的命令。在一些实施例中,为全部来自khronos group的开放图形库(opengl)、开放计算语言(opencl)和/或vulkan图形和计算api提供支持。在一些实施例中,还可为来自微软公司的direct3d库提供支持。在一些实施例中,可支持这些库的组合。还可为开源计算机视觉库(opencv)提供支持。如果可进行从未来api的流水线到图形处理器的流水线的映射,则具有兼容3d流水线的未来api也将被支持。
120.图形流水线编程
图9a是示出根据一些实施例的图形处理器命令格式900的框图。图9b是示出根据实施例的图形处理器命令序列910的框图。图9a中的实线框示出了一般被包括在图形命令中的组成部分,而虚线包括可选的或者被仅包括在图形命令的子集中的组成部分。图9a的示例性图形处理器命令格式900包括用于标识命令的客户端902、命令操作代码(操作码)904和数据906的数据字段。一些命令中还包括子操作码905和命令大小908。
121.在一些实施例中,客户端902指定处理命令数据的图形装置的客户端单元。在一些实施例中,图形处理器命令解析器检查每个命令的客户端字段以调节命令的进一步处理,并且将命令数据路由到适当的客户端单元。在一些实施例中,图形处理器客户端单元包括存储器接口单元、渲染单元、2d单元、3d单元和媒体单元。每个客户端单元具有处理命令的对应处理流水线。一旦由客户端单元接收到命令,客户端单元便读取操作码904和子操作码905(如果子操作码905存在的话),以确定要执行的操作。客户端单元使用数据字段906中的信息来执行命令。对于一些命令,预期显式命令大小908来指定命令的大小。在一些实施例中,命令解析器基于命令操作码来自动确定至少一些命令的大小。在一些实施例中,经由双字的倍数来对齐命令。可使用其它命令格式。
122.图9b中的流程示出了示例性图形处理器命令序列910。在一些实施例中,以图形处理器的实施例为特征的数据处理系统的软件或固件使用所示出的命令序列的版本来设定、执行和终止图形操作的集合。仅出于示例的目的示出并描述了样本命令序列,因为实施例不限于这些特定命令或此命令序列。另外,命令可作为命令序列中的批量命令被发布,使得图形处理器将至少部分并发地处理命令的序列。
123.在一些实施例中,图形处理器命令序列910可以以流水线转储清除命令(pipeline flush command)912开始,以促使任何活动的图形流水线完成该流水线的当前未决命令。在一些实施例中,3d流水线922和媒体流水线924不并发地操作。执行流水线转储清除以促使活动的图形流水线完成任何未决命令。响应于流水线转储清除,图形处理器的命令解析器将暂停命令处理,直至活动的绘图引擎完成未决操作并且相关的读取高速缓存失效。可选地,可将渲染高速缓存中标记为“脏”的任何数据转储清除到存储器。在一些实施例中,流水线转储清除命令912可被用于流水线同步,或者在将图形处理器置于低功率状态前被使用。
124.在一些实施例中,在命令序列要求图形处理器在流水线之间显式地切换时,使用流水线选择命令913。在一些实施例中,除非上下文要为两个流水线发布命令,否则在发布流水线命令前,在执行上下文内仅要求一次流水线选择命令913。在一些实施例中,紧接经由流水线选择命令913的流水线切换之前,要求流水线转储清除命令912。
125.在一些实施例中,流水线控制命令914配置图形流水线以用于操作,并且被用于对3d流水线922和媒体流水线924进行编程。在一些实施例中,流水线控制命令914配置活动的流水线的流水线状态。在一个实施例中,流水线控制命令914被用于流水线同步,并且在处理一批命令前从活动的流水线内的一个或多个高速缓冲存储器中清除数据。
126.在一些实施例中,返回缓冲器状态命令916被用于为相应流水线配置返回缓冲器的集合以写入数据。一些流水线操作要求分配、选择或配置一个或多个返回缓冲器,在处理期间这些操作将中间数据写入到所述一个或多个返回缓冲器。在一些实施例中,图形处理器还使用一个或多个返回缓冲器来存储输出数据并且执行跨线程通信。在一些实施例中,返回缓冲器状态916包括选择要用于流水线操作的集合的返回缓冲器的大小和数量。
127.命令序列中的剩余命令基于用于操作的活动流水线而不同。基于流水线确定920,将命令序列定制到以3d流水线状态930开始的3d流水线922或者从媒体流水线状态940开始的媒体流水线924。
128.用于配置3d流水线状态930的命令包括3d状态设置命令,所述3d状态设置命令用于在处理3d图元命令之前要配置的顶点缓冲器状态、顶点元素状态、恒定颜色状态、深度缓冲器状态以及其它状态变量。至少部分基于使用中的特定3d api来确定这些命令的值。在一些实施例中,如果将不使用某些流水线元件,则3d流水线状态930命令还能够选择性地禁用或绕过那些元件。
129.在一些实施例中,3d图元932命令被用于提交要由3d流水线处理的3d图元。经由3d图元932命令传递到图形处理器的命令和相关联的参数被转发到图形流水线中的顶点提取功能。顶点提取功能使用3d图元932命令数据来生成顶点数据结构。顶点数据结构被存储在一个或多个返回缓冲器中。在一些实施例中,3d图元932命令被用于经由顶点着色器对3d图元执行顶点操作。为处理顶点着色器,3d流水线922将着色器执行线程分派到图形处理器执行单元。
130.在一些实施例中,经由执行934命令或事件来触发3d流水线922。在一些实施例中,寄存器写入触发命令执行。在一些实施例中,经由命令序列中的“go”或“kick”命令来触发执行。在一个实施例中,使用流水线同步命令来触发命令执行以转储清除通过图形流水线的命令序列。3d流水线将执行3d图元的几何处理。一旦操作完成,所得到的几何对象便被栅格化,并且像素引擎对所得到的像素进行上色。对于那些操作,还可包括用于控制像素着色和像素后端操作的另外的命令。
131.在一些实施例中,在执行媒体操作时,图形处理器命令序列910沿着媒体流水线924路径。一般而言,用于媒体流水线924的编程的特定使用和方式取决于要执行的媒体或计算操作。可在媒体解码期间将特定媒体解码操作卸载到媒体流水线。在一些实施例中,还可绕过媒体流水线,并且可使用由一个或多个通用处理核提供的资源来全部或部分地执行媒体解码。在一个实施例中,媒体流水线还包括用于通用图形处理器单元(gpgpu)操作的元件,其中图形处理器被用于使用计算着色器程序来执行simd向量运算,所述计算着色器程序与图形图元的渲染不是显式相关的。
132.在一些实施例中,以与3d流水线922类似的方式对媒体流水线924进行配置。将用于配置媒体流水线状态940的命令的集合分派或放置到在媒体对象命令942之前的命令队列中。在一些实施例中,用于媒体流水线状态940的命令包括用于配置媒体流水线元件的数据,所述媒体流水线元件将被用于处理媒体对象。这包括用于配置媒体流水线内的视频解码和视频编码逻辑的数据,诸如编码和解码格式。在一些实施例中,用于媒体流水线状态940的命令还支持使用到含有一批状态设置的“间接”状态元素的一个或多个指针。
133.在一些实施例中,媒体对象命令942将指针供应到媒体对象以便由媒体流水线处理。媒体对象包括存储器缓冲器,所述存储器缓冲器含有要处理的视频数据。在一些实施例中,在发布媒体对象命令942之前,所有媒体流水线状态必须是有效的。一旦配置了流水线状态,并且将媒体对象命令942排队,便经由执行命令944或等效执行事件(例如,寄存器写入)来触发媒体流水线924。然后可通过由3d流水线922或媒体流水线924提供的操作对来自媒体流水线924的输出进行后处理。在一些实施例中,以与媒体操作类似的方式配置和执行
gpgpu操作。
134.图形软件架构图10示出了根据一些实施例的用于数据处理系统1000的示例性图形软件架构。在一些实施例中,软件架构包括3d图形应用1010、操作系统1020和至少一个处理器1030。在一些实施例中,处理器1030包括图形处理器1032和一个或多个通用处理器核1034。图形应用1010和操作系统1020各自在数据处理系统的系统存储器1050中执行。
135.在一些实施例中,3d图形应用1010含有一个或多个着色器程序,该一个或多个着色器程序包括着色器指令1012。着色器语言指令可采用高级着色器语言,诸如direct3d的高级着色器语言(hlsl)或opengl着色器语言(glsl)等等。应用还包括采用适合由通用处理器核1034执行的机器语言的可执行指令1014。应用还包括由顶点数据定义的图形对象1016。
136.在一些实施例中,操作系统1020是来自微软公司的microsoft
®ꢀ
windows
®
操作系统、专有的类unix操作系统或使用linux内核的变体的开源类unix操作系统。操作系统1020可支持图形api 1022,诸如direct3d api、opengl api或vulkan api。direct3d api在使用中时,操作系统1020使用前端着色器编译器1024来将采用hlsl的任何着色器指令1012编译成更低级着色器语言。编译可以是即时(jit)编译或者应用可执行着色器预编译。在一些实施例中,在3d图形应用1010的编译期间将高级着色器编译成低级着色器。在一些实施例中,以中间形式(诸如,由vulkan api使用的标准可移植中间表示(spir)的版本)提供着色器指令1012。
137.在一些实施例中,用户模式图形驱动器1026含有用于将着色器指令1012转换成硬件特定表示的后端着色器编译器1027。opengl api在使用中时,将采用glsl高级语言的着色器指令1012传递到用户模式图形驱动器1026以用于编译。在一些实施例中,用户模式图形驱动器1026使用操作系统内核模式功能1028来与内核模式图形驱动器1029通信。在一些实施例中,内核模式图形驱动器1029与图形处理器1032通信以分派命令和指令。
138.ip核实现至少一个实施例的一个或多个方面可由存储在机器可读介质上的代表性代码来实现,该代表性代码表示和/或定义诸如处理器的集成电路内的逻辑。例如,机器可读介质可包括表示处理器内的各种逻辑的指令。在由机器读取时,指令可促使机器制作逻辑以执行本文中描述的技术。称为“ip核”的此类表示是用于集成电路的逻辑的可重复使用单元,该可重复使用单元可作为对集成电路的结构进行描述的硬件模型而被存储在有形机器可读介质上。可将硬件模型供应至各种客户或制造设施,所述客户或制造设施将硬件模型加载在制造集成电路的制作机器上。可制作集成电路,使得电路执行与本文中描述的实施例中的任何实施例相关联的所描述的操作。
139.图11a是示出根据实施例的可被用于制造集成电路以执行操作的ip核开发系统1100的框图。ip核开发系统1100可被用于生成可被并入到更大的设计中或被用于构造整个集成电路(例如,soc集成电路)的模块化、可重复使用设计。设计设施1130可生成采用高级编程语言(例如,c/c++)的ip核设计的软件仿真1110。软件仿真1110可被用于使用仿真模型1112来设计、测试和验证ip核的行为。仿真模型1112可包括功能、行为和/或时序仿真。然后可从仿真模型1112创建或合成寄存器传送级(rtl)设计1115。rtl设计1115是对硬件寄存器
之间的数字信号流进行建模的集成电路的行为的抽象,包括使用建模的数字信号执行的相关联的逻辑。除rtl设计1115外,还可创建、设计或合成处于逻辑级或晶体管级的较低级设计。因此,初始设计和仿真的特定细节可变化。
140.可由设计设施将rtl设计1115或等效物进一步合成为硬件模型1120,该硬件模型1120可采用硬件描述语言(hdl)或物理设计数据的某种其它表示。可进一步对hdl进行仿真或测试以验证ip核设计。可使用非易失性存储器1140(例如,硬盘、闪速存储器或任何非易失性存储介质)来存储ip核设计以用于递送到第三方制作设施1165。备选的是,可通过有线连接1150或无线连接1160(例如,经由因特网)来传送ip核设计。制作设施1165然后可制作至少部分基于ip核设计的集成电路。制作的集成电路可被配置成执行根据本文中描述的至少一个实施例的操作。
141.图11b示出了根据本文中描述的一些实施例的集成电路封装组装件1170的截面侧视图。集成电路封装组装件1170示出了如本文中描述的一个或多个处理器或加速器装置的实现。封装组装件1170包括连接到衬底1180的硬件逻辑1172、1174的多个单元。逻辑1172、1174可至少部分地以可配置逻辑或固定功能性逻辑硬件实现,并且可包括本文中描述的(一个或多个)处理器核、(一个或多个)图形处理器或其它加速器装置中的任何装置的一个或多个部分。逻辑1172、1174的每个单元可在半导体管芯内被实现,并且经由互连结构1173与衬底1180耦合。互连结构1173可被配置成在逻辑1172、1174与衬底1180之间路由电信号,并且可包括互连,该互连诸如但不限于凸块(bump)或柱。在一些实施例中,互连结构1173可被配置成路由电信号,诸如,例如与逻辑1172、1174的操作相关联的输入/输出(i/o)信号和/或功率或接地信号。在一些实施例中,衬底1180是环氧基层压衬底(epoxy-based laminate substrate)。在其它实施例中,衬底1180可包括其它合适类型的衬底。封装组装件1170可经由封装互连1183被连接到其它电气装置。封装互连1183可被耦合到衬底1180的表面,以将电信号路由到其它电气装置,诸如主板、其它芯片组或多芯片模块。
142.在一些实施例中,逻辑1172、1174的单元与桥1182电耦合,该桥1182被配置成在逻辑1172、1174之间路由电信号。桥1182可以是为电信号提供路线(route)的密集互连结构。桥1182可包括由玻璃或合适的半导体材料构成的桥衬底。可在桥衬底上形成电路由部件(electrical routing feature),以在逻辑1172、1174之间提供芯片到芯片连接。
143.虽然示出了逻辑1172、1174的两个单元和桥1182,但是本文中描述的实施例可包括在一个或多个管芯上的更多或更少逻辑单元。由于当逻辑被包括在单个管芯上时可排除桥1182,因此可通过零个或多于零个桥来连接一个或多个管芯。备选的是,可通过一个或多个桥来连接多个管芯或逻辑单元。另外,在其它可能配置(包括三维配置)中可将多个逻辑单元、管芯和桥连接在一起。
144.图11c示出了包括连接到衬底1180(例如,基础管芯)的硬件逻辑小芯片的多个单元的封装组装件1190。如本文中描述的图形处理单元、并行处理器和/或计算加速器可由单独制造的多样化的硅小芯片构成。在此上下文中,小芯片是至少部分封装的集成电路,其包括可与其它小芯片被组装到更大封装中的逻辑的不同单元。带有不同ip核逻辑的小芯片的多样化集合可被组装到单个装置中。另外,可使用有源中介层(interposer)技术将小芯片集成到基础管芯或基础小芯片中。本文中描述的概念能够实现gpu内的不同形式的ip之间的互连和通信。可使用不同工艺技术来制造并且在制造期间构成ip核,这避免了将多个ip
(特别是在带有若干特点(flavors)ip的大的soc上)汇聚到相同制造工艺的复杂性。能够实现多个工艺技术的使用改进了推向市场的时间,并且提供了创建多个产品sku的有成本效益的方式。另外,解聚的ip更易于独立地被功率选通,在给定工作负载上不在使用中的组件可被断电,从而降低总体功率消耗。
145.硬件逻辑小芯片可包括专用硬件逻辑小芯片1172、逻辑或i/o小芯片1174和/或存储器小芯片1175。硬件逻辑小芯片1172和逻辑或i/o小芯片1174可至少部分地用可配置逻辑或固定功能性逻辑硬件实现,并且可包括(一个或多个)处理器核、(一个或多个)图形处理器、并行处理器或本文中描述的其它加速器装置中的任何的一个或多个部分。存储器小芯片1175可以是dram(例如,gddr、hbm)存储器或高速缓冲(sram)存储器。
146.每个小芯片可被制作为单独的半导体管芯,并且经由互连结构1173与衬底1180耦合。互连结构1173可被配置成在各种小芯片与衬底1180内的逻辑之间路由电信号。互连结构1173可包括互连,诸如但不限于凸块或柱。在一些实施例中,互连结构1173可被配置成路由电信号,诸如,例如与逻辑、i/o和存储器小芯片的操作相关联的输入/输出(i/o)信号和/或功率或接地信号。
147.在一些实施例中,衬底1180是环氧基层压衬底。在其它实施例中,衬底1180可包括其它合适类型的衬底。封装组装件1190可经由封装互连1183被连接到其它电气装置。封装互连1183可被耦合到衬底1180的表面,以将电信号路由到其它电气装置,诸如主板、其它芯片组或多芯片模块。
148.在一些实施例中,逻辑或i/o小芯片1174和存储器小芯片1175可经由桥1187被电耦合,该桥1187被配置成在逻辑或i/o小芯片1174与存储器小芯片1175之间路由电信号。桥1187可以是为电信号提供路由的密集互连结构。桥1187可包括由玻璃或合适的半导体材料构成的桥衬底。可在桥衬底上形成电路由部件,以在逻辑或i/o小芯片1174与存储器小芯片1175之间提供芯片到芯片连接。桥1187还可被称为硅桥或互连桥。例如,在一些实施例中,桥1187是嵌入式多管芯互连桥(emib)。在一些实施例中,桥1187可只是从一个小芯片到另一小芯片的直接连接。
149.衬底1180可包括用于i/o 1191、高速缓冲存储器1192和其它硬件逻辑1193的硬件组件。组构1185可被嵌入在衬底1180中以能够实现在各种逻辑小芯片与衬底1180内的逻辑1191、1193之间的通信。在一个实施例中,i/o 1191、组构1185、高速缓存、桥和其它硬件逻辑1193可被集成到基础管芯中,该基础管芯被层叠在衬底1180之上。
150.在各种实施例中,封装组装件1190可包括由组构1185或一个或多个桥1187互连的更少或更多数量的组件和小芯片。封装组装件1190内的小芯片可按在3d或2.5d布置来进行布置。一般而言,桥结构1187可被用于促进在例如逻辑或i/o小芯片与存储器小芯片之间的点到点互连。组构1185可被用于将各种逻辑和/或i/o小芯片(例如,小芯片1172、1174、1191、1193)与其它逻辑和/或i/o小芯片互连。在一个实施例中,衬底内的高速缓冲存储器1192可充当用于封装组装件1190的全局高速缓存、分布式全局高速缓存的一部分或者充当用于组构1185的专用高速缓存。
151.图11d示出了根据实施例的包括可互换小芯片1195的封装组装件1194。可互换小芯片1195可被组装到一个或多个基础小芯片1196、1198上的标准化槽中。基础小芯片1196、1198可经由桥互连1197被耦合,该桥互连1197可类似于本文中描述的其它桥互连,并且可
例如是emib。存储器小芯片还可经由桥互连被连接到逻辑或i/o小芯片。i/o和逻辑小芯片可经由互连组构通信。基础小芯片可各自支持采用标准化格式的一个或多个槽以用于逻辑或i/o或存储器/高速缓存中的一个。
152.在一个实施例中,可将sram和功率递送电路制作到基础小芯片1196、1198中的一个或多个基础小芯片中,所述基础小芯片1196、1198可使用相对于堆叠在基础小芯片之上的可互换小芯片1195不同的工艺技术来被制作。例如,可使用更大的工艺技术来制作基础小芯片1196、1198,而可使用更小的工艺技术来制作可互换小芯片。可互换小芯片1195中的一个或多个可互换小芯片可以是存储器(例如,dram)小芯片。可基于针对使用封装组装件1194的产品的功率和/或性能,为封装组装件1194选择不同存储器密度。另外,可基于针对产品的功率和/或性能,在组装时选择带有不同数量的类型的功能单元的逻辑小芯片。另外,可将含有不同类型的ip逻辑核的小芯片插入到可互换小芯片槽中,能够实现可混合并匹配不同技术ip块的混合处理器设计。
153.示例性片上系统集成电路图12-13示出了根据本文中描述的各种实施例的可使用一个或多个ip核来制作的示例性集成电路以及相关联的图形处理器。除了所示出的内容外,还可包括其它逻辑和电路,包括另外的图形处理器/核、外设接口控制器或通用处理器核。
154.图12是示出了根据实施例的可使用一个或多个ip核来制作的示例性片上系统集成电路1200的框图。示例性集成电路1200包括一个或多个应用处理器1205(例如,cpu)、至少一个图形处理器1210,并且可另外包括图像处理器1215和/或视频处理器1220,以上处理器中的任何处理器可以是来自相同或多个不同设计设施的模块化ip核。集成电路1200包括外设或总线逻辑,所述外设或总线逻辑包括usb控制器1225、uart控制器1230、spi/sdio控制器1235和i2s/i2c控制器1240。另外,集成电路可包括耦合到高清晰度多媒体接口(hdmi)控制器1250和移动工业处理器接口(mipi)显示接口1255中的一个或多个的显示装置1245。可通过包括闪速存储器和闪速存储器控制器的闪速存储器子系统1260来提供存储。可经由存储器控制器1265提供存储器接口以便访问sdram或sram存储器装置。一些集成电路另外包括嵌入式安全引擎1270。
155.图13a-13b是示出了根据本文中描述的实施例的供soc内使用的示例性图形处理器的框图。图13a示出了根据实施例的可使用一个或多个ip核来制作的片上系统集成电路的示例性图形处理器1310。图13b示出了根据实施例的可使用一个或多个ip核来制作的片上系统集成电路的另外的示例性图形处理器1340。图13a的图形处理器1310是低功率图形处理器核的示例。图13b的图形处理器1340是更高性能图形处理器核的示例。图形处理器1310、1340中的每个图形处理器可以是图12的图形处理器1210的变体。
156.如图13a中所示出的,图形处理器1310包括顶点处理器1305和一个或多个片段处理器1315a-1315n(例如,1315a、1315b、1315c、1315d到1315n-1和1315n)。图形处理器1310可经由单独的逻辑执行不同着色器程序,使得顶点处理器1305被优化以执行用于顶点着色器程序的操作,而一个或多个片段处理器1315a-1315n执行用于片段或像素着色器程序的片段(例如,像素)着色操作。顶点处理器1305执行3d图形流水线的顶点处理阶段,并且生成图元和顶点数据。(一个或多个)片段处理器1315a-1315n使用由顶点处理器1305生成的图元和顶点数据来生产在显示装置上显示的帧缓冲(framebuffer)。在一个实施例中,(一个
或多个)片段处理器1315a-1315n被优化以执行如opengl api中提供的片段着色器程序,所述片段着色器程序可被用于执行与如针对在direct 3d api中提供的像素着色器程序类似的操作。
157.图形处理器1310另外包括一个或多个存储器管理单元(mmu)1320a-1320b、(一个或多个)高速缓存1325a-1325b和(一个或多个)电路互连1330a-1330b。一个或多个mmu 1320a-1320b为图形处理器1310(包括为顶点处理器1305和/或(一个或多个)片段处理器1315a-1315n)提供虚拟地址到物理地址映射,这些处理器除了引用在一个或多个高速缓存1325a-1325b中存储的顶点或图像/纹理数据之外还可引用在存储器中存储的顶点或图像/纹理数据。在一个实施例中,一个或多个mmu 1320a-1320b可与系统内的其它mmu同步,所述其它mmu包括与图12的一个或多个应用处理器1205、图像处理器1215和/或视频处理器1220相关联的一个或多个mmu,使得每个处理器1205-1220可参与到共享或统一的虚拟存储器系统中。根据实施例,一个或多个电路互连1330a-1330b使得图形处理器1310能够经由soc的内部总线或者经由直接连接来与soc内的其它ip核通过接口连接。
158.如图13b所示出的,图形处理器1340包括图13a的图形处理器1310的一个或多个mmu 1320a-1320b、(一个或多个)高速缓存1325a-1325b和(一个或多个)电路互连1330a-1330b。图形处理器1340包括提供统一的着色器核架构的一个或多个着色器核1355a-1355n(例如,1355a、1355b、1355c、1355d、1355e、1355f直到1355n-1和1355n),在该统一的着色器核架构中单个核或类型或核可执行全部类型的可编程着色器代码,所述可编程着色器代码包括用于实现顶点着色器、片段着色器和/或计算着色器的着色器程序代码。存在的着色器核的确切数量可在实施例和实现之间变化。另外,图形处理器1340包括:核间任务管理器1345,该核间任务管理器1345充当用于将执行线程分派给一个或多个着色器核1355a-1355n的线程分派器;以及用于为基于贴片的渲染加速拼贴操作(tiling operation)的拼贴单元(tiling unit)1358,在该基于贴片的渲染中,用于场景的渲染操作在图像空间中被细分,例如以利用场景内的局部空间相干性或优化内部高速缓存的使用。
159.图14示出了根据一个实施例的托管栅栏机构1410的计算装置1400。计算装置1400表示通信和数据处理装置,其包括或表示(但不限于)智能语音命令装置、智能个人助理、家庭/办公自动化系统、家用电器(例如,洗衣机、电视机等)、移动装置(例如,智能电话、平板计算机等)、游戏装置、手持式装置、可穿戴装置(例如,智能手表、智能手环(smart bracelet)等)、虚拟现实(vr)装置、头戴式显示器(hmd)、物联网(iot)装置、膝上型计算机、台式计算机、服务器计算机、机顶盒(例如,基于因特网的有线电视机顶盒等)、基于全球定位系统(gps)的装置、汽车信息娱乐(automotive infotainment)装置等。
160.在一些实施例中,计算装置1400包括任何数量和类型的其它智能装置或与任何数量和类型的其它智能装置一起工作或嵌入任何数量和类型的其它智能装置或促进任何数量和类型的其它智能装置,所述其它智能装置诸如(但不限于)自主机器或人工智能代理,诸如机械代理或机器、电子代理或机器、虚拟代理或机器、机电代理或机器等。自主机器或人工智能代理的示例可包括(但不限于)机器人、自主车辆(例如,自动驾驶汽车、自动飞行飞机、自动航行船等)、自主设备(自动操作施工车辆、自动操作医疗设备等)等。此外,“自主车辆”不限于汽车,而是它们可包括任何数量和类型的自主机器,诸如机器人、自主设备、家用自主装置等,并且与这样的自主机器有关的任何一个或多个任务或操作可与自主驾驶可
互换地引用。
161.此外,例如,计算装置1400可包括计算机平台,所述计算机平台托管诸如将计算装置1400的各种硬件和/或软件组件集成在单个芯片上的片上系统(“soc”或“soc”)的集成电路(“ic”)。例如,计算装置1400包括具有一个或多个处理器的数据处理装置,所述一个或多个处理器包括(但不限于)共同位于公共半导体封装上的中央处理单元1412和图形处理单元1414。
162.如图所示,在一个实施例中,计算装置1400可包括任何数量和类型的硬件和/或软件组件,所述硬件和/或软件组件诸如(但不限于)图形处理单元(“gpu”或简单地“图形处理器”)1414、图形驱动器(也称为“gpu驱动器”、“图形驱动器逻辑”、“驱动器逻辑”、用户模式驱动器(umd)umd、用户模式驱动器框架(umdf)umdf、或简单地“驱动器”)1416、中央处理单元(“cpu”或简单地“应用处理器”)1412、存储器1408、网络装置、驱动器等,以及(一个或多个)输入/输出(i/o)源1404,所述输入/输出(i/o)源诸如触摸屏、触摸面板、触摸板、虚拟或常规键盘、虚拟或常规鼠标、端口、连接器等。计算装置1400可包括充当计算装置1400的硬件和/或物理资源与用户之间的接口的操作系统(os)1406。
163.要领会,对于某些实现,比上述示例更少或更多配备的系统可能是优选的。因此,计算装置1400的任何配置可取决于诸如价格约束、性能要求、技术改进或其它情况之类的众多因素而从实现到实现变化。
164.实施例可被实现为以下项中的任何项或其组合:使用母板互连的一个或多个微芯片或集成电路、硬连线逻辑、由存储器装置存储并由微处理器执行的软件、固件、专用集成电路(asic)和/或现场可编程门阵列(fpga)。作为示例,像“逻辑”、“模块”、“组件”、“引擎”、“电路系统”、“元件”和“机构”的术语可包括软件、硬件、固件和/或其组合。
165.在一个实施例中,如图所示,栅栏机构1410可由图形处理单元(“gpu”或简单地“图形处理器”)1414或图形处理器1414的固件托管或是其一部分;例如,栅栏机构1410可嵌入图形处理器1414的处理硬件或实现为其一部分。在另一实施例中,栅栏机构1410可由与计算装置1400的诸如麦克风、扬声器等之类的(一个或多个)i/o源1404通信的存储器1408来托管。在另一实施例中,栅栏机构1410可以是操作系统1406的一部分或由其托管。在又一实施例中,栅栏机构1410可由图形驱动器1416托管或促进。在又一实施例中,栅栏机构1410可由中央处理单元(“cpu”或简单地“应用处理器”)1412托管或是其一部分;例如,栅栏机构1410可以以栅栏组件1420的形式嵌入应用处理器1412的处理硬件或实现为其一部分。
166.例如,栅栏机构1410的元件可由一个或多个模拟或数字电路、逻辑电路、可编程处理器、可编程控制器、gpu、数字信号处理器(dsp)、专用集成电路(asic)、可编程逻辑装置(pld)和/或现场可编程逻辑装置(fpld)来实现。
167.预期,该新颖技术不限于软件实现或硬件实现,并且如将在本文档中进一步描述的,该新颖技术可在软件、硬件、固件或其任何组合中应用和实现。因此,进一步预期实施例不限于栅栏机构1410的某个实现或托管,并且栅栏机构1410的一个或多个部分或组件可被采用或实现为硬件、软件、固件或其任何组合。此外,如本文中所使用的,短语“通信中”包括其变型涵盖直接通信和/或通过一个或多个中间组件的间接通信,并且不要求直接物理(例如,有线)通信和/或持续通信,而是另外包括以周期性间隔、预定间隔、非周期性间隔和/或一次性事件的选择性通信。
168.计算装置1400可托管(一个或多个)网络接口装置以提供对诸如lan、广域网(wan)、城域网(man)、个域网(pan)、蓝牙、云网络、移动网络(例如,第3代(3g)、第4代(4g)等)、内联网、因特网等之类的网络的访问。(一个或多个)网络接口可包括例如具有天线的无线网络接口,其可表示一个或多个天线。(一个或多个)网络接口还可包括例如有线网络接口,以经由网络线缆与远程装置通信,所述网络线缆可以是例如以太网线缆、同轴线缆、光纤线缆、串行线缆或并行线缆。
169.实施例可例如作为计算机程序产品来提供,该计算机程序产品可包括其上存储有机器可执行指令的一个或多个机器可读介质,所述机器可执行指令当由诸如计算机、数据处理机器、数据处理装置、计算机的网络或其它电子装置之类的一个或多个机器执行时,可导致一个或多个机器运行根据本文中描述的实施例的操作。如参考图1所描述的,机器可包括一个或多个处理器,诸如cpu、gpu等。机器可读介质可包括但不限于软盘、光盘、紧致盘只读存储器(cd-rom)、磁光盘、rom、随机存取存储器(ram)、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)、磁卡或光卡、闪速存储器或适于存储机器可执行指令的其它类型的介质/机器可读介质。
170.例如,当阅读本专利的覆盖纯软件和/或固件实现的设备、方法或系统权利要求中的任何权利要求时,栅栏机构1410的至少一个元件可被明确地定义成包括非暂时性计算机可读存储装置或存储盘,诸如包括软件和/或固件的存储器、数字多功能盘(dvd)、紧致盘(cd)、蓝光盘等。
171.此外,一个或多个元件可作为计算机程序产品被下载,其中程序可经由通信链路(例如,调制解调器和/或网络连接)通过体现在载波或其它传播介质中和/或由载波或其它传播介质调制的一个或多个数据信号从远程计算机(例如,服务器)传送到请求计算机(例如,客户端)。
172.贯穿本文档,术语“用户”可以可互换地称为“查看者”、“观察者”、“说话者”、“人”、“个人”、“最终用户”、“开发者”、“程序员”、“管理员”等。例如,在一些情况下,用户可指最终用户,诸如访问客户端计算装置的消费者,而在一些其它情况下,用户可包括访问充当客户端计算装置的工作站的开发者、程序员、系统管理员等。要注意,贯穿本文档,像“图形域”的术语可与“图形处理单元”、“图形处理器”或简单地“gpu”可互换地引用;类似地,“cpu域”或“主机域”可与“计算机处理单元”、“应用处理器”或简单地“cpu”可互换地引用。
173.要注意,贯穿本文档,可以可互换地使用像“节点”、“计算节点”、“服务器”、“服务器装置”、“云计算机”、“云服务器”、“云服务器计算机”、“机器”、“主机机器”、“装置”、“计算装置”、“计算机”、“计算系统”等的术语。还要注意,贯穿本文档,可以可互换地使用像“应用”、“软件应用”、“程序”、“软件程序”、“包”、“软件包”等的术语。
174.此外,贯穿本文档,可互换地引用像“请求”、“查询”、“作业(job)”、“工作”、“工作项”和“工作负载”的术语。类似地,“应用”或“代理”可指或包括通过应用编程接口(api)提供的计算机程序、软件应用、游戏、工作站应用等,所述应用编程接口(api)诸如自由渲染api,诸如开放图形库(opengl
®
)、directx
®ꢀ
11、directx
®ꢀ
12等,其中“分派”可被可互换地称为“工作单元”或“绘制”,而“应用”可被可互换地称为“工作流”或简单地称为“代理”。
175.例如,诸如三维(3d)游戏的工作负载之类的工作负载可包括和发布任何数量和类型的“帧”,其中每个帧可表示图像(例如,帆船、人脸)。此外,每个帧可包括并提供任何数量
和类型的工作单元,其中每个工作单元可表示由其对应的帧表示的图像(例如,帆船、人脸)的一部分(例如,帆船的桅杆、人脸的前额)。然而,为了一致性,贯穿本文档,每个项目可由单个术语(例如,“分派”、“代理”等)来引用。
176.在一些实施例中,像“显示屏”和“显示表面”的术语可以可互换地使用,从而指的是显示装置的可见部分,而显示装置的其余部分可嵌入到诸如智能电话、可穿戴装置等之类的计算装置中。预期并注意到,实施例不限于任何特定的计算装置、软件应用、硬件组件、显示装置、显示屏或表面、协议、标准等。例如,实施例可应用于任何数量和类型的计算机上的任何数量和类型的实时应用并且与其一起使用,所述计算机诸如台式计算机、膝上型计算机、平板计算机、智能电话、头戴式显示器和其它可穿戴装置等。此外,例如,对于使用这种新颖技术的高效性能的渲染场景可从简单场景(诸如,桌面合成)到复杂场景(诸如,3d游戏、增强现实应用等)变动。
177.要注意,贯穿本文档,可互换地引用像人工智能(“ai”)模型、可解释ai(“xai”)模型、机器学习(“ml”)模型、深度学习(“dl”)模型、神经网络(“nn”)模型或简单地“模型”等的术语。此外,贯穿本文档,可以可互换地引用像“自主机器”或简单地“机器”、“自主车辆”或简单地“车辆”、“自主代理”或简单地“代理”、“自主装置”或简单地“装置”以及“计算装置”、“机器人”等的术语。
178.图15示出gpu 1414的一个实施例。如图15中所示,gpu 1414包括具有经由存储器组构架构耦合的多个节点(例如,节点0-节点7)的处理资源1510。处理资源1510表示与如本文中所述的gpu中的图形处理器或图形处理器结构(例如,并行处理单元、图形处理引擎、多核群组、计算单元、接下来的图形核的计算单元)相关联的处理元件(例如,gpgpu核、光线追踪核、张量核、执行资源、执行单元(eu)、流处理器、流转化多处理器(sm)、图形多处理器)。例如,处理资源1510可以是图形多处理器的gpgpu核或张量/光线追踪核中的一个;图形多处理器的光线追踪核、张量核或gpgpu核;图形多处理器的执行资源;多核群组的gfx核、张量核或光线追踪核中的一个;计算单元的向量逻辑单元或标量逻辑单元中的一个;具有eu阵列或eu阵列的执行单元;执行逻辑的执行单元;和/或执行单元。处理资源1510还可以是例如图形处理引擎、处理集群、gpgpu、gpgpu、图形处理引擎、图形处理引擎集群和/或图形处理引擎内的执行资源。处理资源1510还可为图形处理器内的处理资源。
179.在一个实施例中,处理资源1510的每个节点包括经由组构元件1505(例如,1505a-1505d)耦合到存储器1550的多个处理元件。在这样的实施例中,每个组构元件1505耦合到两个节点和存储器1550中的两个存储体(bank)。因此,组构元件1505a将节点0和1耦合到存储体0和1、组构元件1505b将节点2和3耦合到存储体2和3、组构元件1505c将节点4和5耦合到存储体4和5,并且组构元件1505d将节点6和7耦合到存储体6和7。
180.根据一个实施例,每个组构元件1505包括mmu 1520、控制高速缓存1530和仲裁器1540。mmu 1520执行存储器管理以管理存储体0-7之间的虚拟地址空间。在一个实施例中,每个mmu 1520管理到和来自存储器1550中的相关联的存储体的数据的传送。仲裁器1540在每个相关联的节点之间进行仲裁以便访问存储器1550。例如,仲裁器1540a在处理节点0和1之间仲裁以便访问存储体0和1,控制高速缓存(cc)1530执行存储器数据的压缩/解压缩。
181.根据一个实施例,gpu 1414可在包括多个cpu核的多套接字网络架构(multi socket network architecture)中实现,其中每个cpu核耦合到一个或多个gpu 1414和网
络互连卡。另外,cpu核中的每个经由互连拓扑(cpu互连)耦合,而gpu装置经由单独的高带宽互连拓扑(gpu互连)耦合。此外,每个gpu 1414经由互连(例如,cpu-gpu互连)耦合到cpu。该架构还包括耦合到每个cpu的存储器装置(例如,系统存储器)和耦合到每个gpu 1414的存储器装置(例如,装置存储器)。图16示出多套接字网络架构的一个实施例。
182.如图16中所示,每个cpu具有所附连的系统存储器,并且所有cpu通过cpu互连连接。因此,所有的系统存储器装置形成单个逻辑装置存储器,其由每个cpu通过cpu互连可访问。cpu互连确保所有的存储器周期(memory cycle)对系统存储器排序。类似地,每个gpu 1414装置存储器和所有gpu经由gpu互连连接。因此,装置存储器形成由每个gpu通过gpu互连可访问的单个装置存储器。在另一实施例中,系统存储器和装置存储器可被组合以形成具有单片存储器寻址的统一存储器。
183.在一个实施例中,来自gpu 1414的任何系统存储器访问都通过相关联的cpu-gpu互连来进入cpu互连域。一旦访问被推进到cpu域,则排序由cpu互连来保证。图17示出了互连的更详细的视图。如图17中所示,gpu 1414(例如,gpu 1414a和1414b)包括耦合到cpu-gpu互连的接口1712。在一个实施例中,接口1712包括外围组件互连express(pcie)接口。在这样的实施例中,gpu 1414包括pcie端点,而cpu 1720中的一个或多个(例如1720a和1720b)包括根复合体,以将cpu和系统存储器1730连接到互连(例如,pcie交换组构)。基于多套接字网络架构,gpu 1414包括实现跨系统存储器1730和装置存储器1740的数据排序的各种存储器数据生产者和消费者。
184.根据一个实施例,栅栏机构1410生成栅栏操作以对发布到系统存储器和装置存储器两者的存储器操作强制执行数据排序。在这样的实施例中,gpu 1414支持用于数据排序的以下栅栏:对系统存储器的释放栅栏(release fence to system memory)(到系统存储器的gpu生产);对装置存储器的释放栅栏(到装置存储器的gpu生产);对系统存储器的获取栅栏(acquire fence to system memory)(来自系统存储器的gpu消费);以及对装置存储器的获取栅栏(来自装置存储器的gpu消费)。如本文中所使用的,存储器数据生产者是将数据存储(或写入)到存储器的组件,而存储器数据消费器是从存储器读取数据的组件。
185.对于对系统存储器的释放栅栏,gpu组件正在向系统存储器生产。因此,栅栏操作包括来自gpu 1414的释放栅栏,以保证在栅栏之前对系统存储器的所有写入被完全推送到cpu互连域,使得数据对所有gpu和cpu是全局可观察的。然而,基于多套接字网络架构,生产数据路径和生产信号路径可不同并且不需要采用相同的路由。例如,参考回图16,由gpu0生产的数据通过其对应的cpu-gpu互连而进入系统存储器,而信号可经由gpu互连而进入对等gpu。
186.根据一个实施例,栅栏机构1410通过在接收到对栅栏操作的请求时生成对系统存储器中的位置的读取请求来解决该问题。在这样的实施例中,响应于读取请求而返回的数据保证了所有先前的写入被传送(或推送)到cpu互连域。因此,对系统存储器的释放栅栏操作包括读取到系统存储器中的存储器位置并等待来自该存储器位置的数据返回。
187.上述过程提供了基于特定粒度从图形流水线的各个级发布栅栏操作以使性能最优的能力。例如,可在图像帧边界处在流水线的顶部发布栅栏。另外,可在选择性计算步行器(compute walker)完成时生成栅栏。在这样的实施例中,当选择性计算步行器的所有线程群组都完成时生成栅栏,因为在框架中可能存在多个步行器并且步行器完成完全无序。
此外,可从在处理资源上执行的内核生成栅栏。计算步行器命令用于分派被实现成在整个数据范围上执行单个gpgpu内核的所有并行线程实例。线程群组可导致若干内核的启动。
188.图18示出包括访问存储器的消费者和生产者组件的gpu 1414的另一实施例。如图18中所示,组件包括复制引擎1820、命令处理器1832、分派单元1834、处理元件1836和视频引擎1840。根据一个实施例,处理元件1836可发布系统存储器栅栏请求,这导致栅栏机构1410在等待数据返回时发布对系统存储器中的位置的读取请求(或栅栏读取)。结果,mmu 1810经由组构1850将在栅栏读取之前发生的所有写入请求推送到cpu互连域,这确保数据被正确排序。
189.对于对装置存储器的获取栅栏的场景,gpu正消费来自装置存储器的数据,而外部组件是生产者。在一个实施例中,栅栏机构1410接收指示gpu组件读取装置存储器的请求的获取栅栏请求(例如,经由消费信号),并随后获取栅栏。在这样的实施例中,从外部生产者到装置存储器的所有写入经由相关联的对应cpu-gpu互连被推送到gpu互连是全局可观察的。参考回图17,作为示例,每当cpu 1720b写入任一装置存储器1740时,gpu 1414a执行获取栅栏操作并且与gpu 1414b通信以确保来自cpu 1720b的所有写入被推送到装置存储器1740。另外,gpu 1414a确保来自cpu 1720a的写入也被推送到装置存储器1740作为获取栅栏完成的一部分。
190.在一个实施例中,获取栅栏的栅栏机构1410实现涉及装置存储器栅栏,其等待所有gpu完成装置存储器处的存储器事务。通过gpu连接的所有gpu之间的通信来促进装置存储器栅栏。在另一实施例中,在其中不要求对其它gpu的栅栏的实例中,栅栏机制1410将装置存储器栅栏限制到其自己的gpu。类似于上文所论述的,可基于所要求的粒度(例如,帧边界处的流水线顶部、选择性计算步行器完成或在诸如eu之类的处理资源上执行的内核)从流水线的各个级发布获取栅栏操作。
191.对于对装置存储器的释放栅栏的场景,gpu正在向装置存储器生产数据。因此,栅栏机构1410作为栅栏请求的组件指示对装置存储器的释放栅栏的实现,以确保由gpu组件向装置存储器生产的所有写入被推送到gpu互连,使得它们是全局可观察的。在一个实施例中,栅栏机构1410将栅栏操作限制于所附连的装置存储器装置。对装置存储器的释放栅栏也可从流水线的各个级发布。
192.对于对系统存储器的获取栅栏的场景,gpu正消费系统存储器。这种场景特定于gpu外部的生产者向系统存储器生产,这由cpu互连来处置。
193.图19是示出用于执行栅栏操作的过程的一个实施例的流程图。在处理框1910,从gpu组件(例如,存储器数据生产者或存储器数据消费者)接收栅栏请求。在判定框1920,关于所接收的请求是否来自作为生产者的组件作出确定。如果是,则关于组件是否正在向gpu装置存储器生产作出确定(判定框1930)。在确定组件正在向装置存储器生产时,发布对装置存储器的释放栅栏(处理框1940)。否则,发布对系统存储器的释放栅栏(处理框1950)。
194.在判定框1920确定所接收的请求不是来自生产者组件时,关于该组件是否正在从gpu装置存储器消费作出确定(判定块1960)。如果是,则发布对装置存储器的获取栅栏(处理框1970)。否则,发布对系统存储器的获取栅栏(处理框1980)。
195.以下条款和/或示例涉及进一步的实施例或示例。在一个或多个实施例中,可在任何地方使用示例中的细节。不同实施例或示例的各种特征可与所包括的一些特征和排除的
其它特征不同地组合,以适合各种不同的应用。示例可包括主题,诸如方法、用于执行该方法的动作的部件、包括指令的至少一个机器可读介质,所述指令当由机器执行时,使得机器执行该方法的动作、或者根据本文中描述的实施例和示例的用于促进混合通信的设备或系统的动作。
196.一些实施例涉及示例1,其包括一种促进存储器屏障的设备,该设备包括:互连、装置存储器、多个处理资源以及栅栏硬件,所述多个处理资源耦合到所述装置存储器,以作为到装置存储器和系统存储器的存储器数据生产者和存储器数据消费者执行多个执行线程;所述栅栏硬件用于生成栅栏操作以对发布到经由所述互连耦合的系统存储器和所述装置存储器的存储器操作强制执行数据排序。
197.示例2包括示例1的主题,其中,所述栅栏硬件接收栅栏请求并且确定所述栅栏请求是来自存储器数据生产者还是存储器数据消费者。
198.示例3包括示例1和2的主题,其中,所述栅栏硬件在确定所述栅栏请求来自存储器数据生产者时确定存储器数据生产者正在生产到所述装置存储器还是所述系统存储器的数据。
199.示例4包括示例1-3的主题,其中,所述栅栏硬件发布所述栅栏操作作为发布对系统存储器的释放栅栏操作,以保证在确定所述存储器数据生产者正在向所述系统存储器生产时,在所述栅栏操作之前对所述系统存储器的所有写入被传送到所述互连。
200.示例5包括示例1-4的主题,其中,所述发布对系统存储器的释放栅栏操作包括生成对所述系统存储器中的位置的读取请求,并且等待来自系统存储器位置的数据返回。
201.示例6包括示例1-5的主题,其中,所述栅栏硬件发布所述栅栏操作作为对装置存储器的释放栅栏操作,以保证在确定所述存储器数据生产者正在向所述装置存储器生产时,执行在所述栅栏操作之前对所述装置存储器的所有写入。
202.示例7包括示例1-6的主题,其中,所述栅栏硬件在确定所述栅栏请求来自存储器数据消费者时确定存储器数据消费者正在消费来自所述装置存储器还是所述系统存储器的数据。
203.示例8包括示例1-7的主题,其中,所述栅栏硬件在确定所述存储器数据消费者正在消费来自所述系统存储器的数据时,发布所述栅栏操作作为对系统存储器的获取栅栏操作。
204.示例9 包括示例1-8的主题,其中,所述栅栏硬件在确定所述存储器数据消费者正在消费来自所述装置存储器的数据时,发布所述栅栏操作作为对装置存储器的获取栅栏操作,对装置存储器的所述获取栅栏操作指示由存储器数据消费者从所述装置存储器读取数据的请求。
205.示例10包括示例1-9的主题,其中,经由所述互连接收从外部存储器数据生产者到所述装置存储器的写入请求。
206.一些实施例涉及示例11,其包括一种促进存储器屏障的方法,该方法包括:接收对存储器操作强制执行数据排序的栅栏请求;确定所述栅栏请求已从存储器数据生产者还是存储器数据消费者接收;以及确定所述栅栏请求已被发布到经由互连耦合的系统存储器还是装置存储器。
207.示例12包括示例11的主题,还包括发布所述栅栏操作作为发布对系统存储器的释
放栅栏操作,以保证在确定存储器数据生产者正在向所述系统存储器生产时,在所述栅栏操作之前对所述系统存储器的所有写入被传送到所述互连。
208.示例13包括示例11和12的主题,其中,所述发布对系统存储器的释放栅栏操作包括:生成对所述系统存储器中的位置的读取请求;以及等待来自系统存储器位置的数据返回。
209.示例14包括示例11-13的主题,还包括发布所述栅栏操作作为对装置存储器的释放栅栏操作,以保证在确定存储器数据生产者正在向所述装置存储器生产时,执行在所述栅栏操作之前对所述装置存储器的所有写入。
210.示例15包括示例11-14的主题,还包括在确定存储器数据消费者正在消费来自所述系统存储器的数据时,发布所述栅栏操作作为对系统存储器的获取栅栏操作。
211.示例16包括示例11-15的主题,还包括在确定所述存储器数据消费者正在消费来自所述装置存储器的数据时,发布所述栅栏操作作为对装置存储器的获取栅栏操作,对装置存储器的所述获取栅栏操作指示由外部存储器数据消费者从所述装置存储器读取数据的请求。
212.一些实施例涉及示例17,其包括一种互连的系统,该系统包括:中央处理单元(cpu),所述中央处理单元(cpu)耦合到cpu互连;系统存储器,所述系统存储器耦合到所述cpu;图形处理单元(gpu),所述图形处理单元(gpu)耦合到gpu互连;装置存储器,所述装置存储器耦合到所述gpu;和gpu-cpu互连,所述gpu-cpu互连耦合在所述gpu和所述cpu之间;以及栅栏硬件,所述栅栏硬件用于生成栅栏操作以对发布到所述系统存储器和所述装置存储器的存储器操作强制执行数据排序。
213.示例18包括示例17的主题,其中,所述栅栏硬件发布所述栅栏操作作为发布对系统存储器的释放栅栏操作,以保证在所述栅栏操作之前对所述系统存储器的所有写入被传送到所述gpu-cpu互连。
214.示例19包括示例17和18的主题,其中,所述栅栏硬件发布所述栅栏操作作为对装置存储器的释放栅栏操作,以保证执行在所述栅栏操作之前对所述装置存储器的所有写入。
215.示例20包括示例17-19的主题,其中,所述栅栏硬件发布所述栅栏操作作为对系统存储器的获取栅栏操作。
216.示例21包括示例17-20的主题,其中,所述栅栏硬件发布所述栅栏操作作为对装置存储器的获取栅栏操作,对装置存储器的所述获取栅栏操作指示由外部存储器数据消费者从所述装置存储器读取数据的请求。
217.示例22包括示例17-21的主题,其中,所述栅栏硬件发布所述栅栏操作作为对装置存储器的获取栅栏操作,对装置存储器的所述获取栅栏操作指示由外部存储器数据消费者从所述装置存储器读取数据的请求。
218.示例23包括示例17-22的主题,其中,对装置存储器的所述获取栅栏操作还包括确保来自第二cpu的所有写入操作被推送到所述装置存储器。
219.前述描述和附图要在说明性而不是限制性的意义上看待。本领域技术人员将理解,在不脱离所附权利要求中所阐述的本发明的更广泛的精神和范围的情况下,可对本文
中描述的实施例进行各种修改和改变。

技术特征:
1.一种促进存储器屏障的设备,包括:互连;装置存储器;多个处理资源,所述多个处理资源耦合到所述装置存储器,以作为到装置存储器和系统存储器的存储器数据生产者和存储器数据消费者执行多个执行线程;以及栅栏硬件,所述栅栏硬件用于生成栅栏操作,以对发布到经由所述互连耦合的系统存储器和所述装置存储器的存储器操作强制执行数据排序。2.根据权利要求1所述的设备,其中,所述栅栏硬件接收栅栏请求并且确定所述栅栏请求是来自存储器数据生产者还是存储器数据消费者。3.根据权利要求2所述的设备,其中,所述栅栏硬件在确定所述栅栏请求来自存储器数据生产者时确定存储器数据生产者正在生产到所述装置存储器还是所述系统存储器的数据。4.根据权利要求3所述的设备,其中,所述栅栏硬件发布所述栅栏操作作为发布对系统存储器的释放栅栏操作,以保证在确定所述存储器数据生产者正在向所述系统存储器生产时,在所述栅栏操作之前对所述系统存储器的所有写入被传送到所述互连。5.根据权利要求4所述的设备,其中,所述发布对系统存储器的释放栅栏操作包括生成对所述系统存储器中的位置的读取请求,并且等待来自系统存储器位置的数据返回。6.根据权利要求4所述的设备,其中,所述栅栏硬件发布所述栅栏操作作为对装置存储器的释放栅栏操作,以保证在确定所述存储器数据生产者正在向所述装置存储器生产时,执行在所述栅栏操作之前对所述装置存储器的所有写入。7.根据权利要求6所述的设备,其中,所述栅栏硬件在确定所述栅栏请求来自存储器数据消费者时确定存储器数据消费者正在消费来自所述装置存储器还是所述系统存储器的数据。8.根据权利要求7所述的设备,其中,所述栅栏硬件在确定所述存储器数据消费者正在消费来自所述系统存储器的数据时,发布所述栅栏操作作为对系统存储器的获取栅栏操作。9.根据权利要求8所述的设备,其中,所述栅栏硬件在确定所述存储器数据消费者正在消费来自所述装置存储器的数据时,发布所述栅栏操作作为对装置存储器的获取栅栏操作,对装置存储器的所述获取栅栏操作指示由存储器数据消费者从所述装置存储器读取数据的请求。10.根据权利要求9所述的设备,其中,经由所述互连接收从外部存储器数据生产者到所述装置存储器的写入请求。11.一种促进存储器屏障的方法,包括:接收对存储器操作强制执行数据排序的栅栏请求;确定所述栅栏请求已从存储器数据生产者还是存储器数据消费者接收;以及确定所述栅栏请求已被发布到经由互连耦合的系统存储器还是装置存储器。12.根据权利要求11所述的方法,还包括发布所述栅栏操作作为发布对系统存储器的释放栅栏操作,以保证在确定存储器数据生产者正在向所述系统存储器生产时,在所述栅栏操作之前对所述系统存储器的所有写入被传送到所述互连。
13.根据权利要求12所述的方法,其中,所述发布对系统存储器的释放栅栏操作包括:生成对所述系统存储器中的位置的读取请求;以及等待来自系统存储器位置的数据返回。14.根据权利要求12所述的方法,还包括发布所述栅栏操作作为对装置存储器的释放栅栏操作,以保证在确定存储器数据生产者正在向所述装置存储器生产时,执行在所述栅栏操作之前对所述装置存储器的所有写入。15.根据权利要求14所述的方法,还包括在确定存储器数据消费者正在消费来自所述系统存储器的数据时,发布所述栅栏操作作为对系统存储器的获取栅栏操作。16.根据权利要求15所述的方法,还包括在确定所述存储器数据消费者正在消费来自所述装置存储器的数据时,发布所述栅栏操作作为对装置存储器的获取栅栏操作,对装置存储器的所述获取栅栏操作指示由外部存储器数据消费者从所述装置存储器读取数据的请求。17.一种互连的系统,包括:中央处理单元(cpu),所述中央处理单元(cpu)耦合到cpu互连;系统存储器,所述系统存储器耦合到所述cpu;图形处理单元(gpu),所述图形处理单元(gpu)耦合到gpu互连;装置存储器,所述装置存储器耦合到所述gpu;gpu-cpu互连,所述gpu-cpu互连耦合在所述gpu和所述cpu之间;以及栅栏硬件,所述栅栏硬件用于生成栅栏操作以对发布到所述系统存储器和所述装置存储器的存储器操作强制执行数据排序。18.根据权利要求17所述的系统,其中,所述栅栏硬件发布所述栅栏操作作为发布对系统存储器的释放栅栏操作,以保证在所述栅栏操作之前对所述系统存储器的所有写入被传送到所述gpu-cpu互连。19.根据权利要求18所述的系统,其中,所述栅栏硬件发布所述栅栏操作作为对装置存储器的释放栅栏操作,以保证执行在所述栅栏操作之前对所述装置存储器的所有写入。20.根据权利要求19所述的系统,其中,所述栅栏硬件发布所述栅栏操作作为对系统存储器的获取栅栏操作。21.根据权利要求20所述的系统,其中,所述栅栏硬件发布所述栅栏操作作为对装置存储器的获取栅栏操作,对装置存储器的所述获取栅栏操作指示由外部存储器数据消费者从所述装置存储器读取数据的请求。22.根据权利要求21所述的系统,其中,对装置存储器的所述获取栅栏操作包括第一gpu与第二gpu通信,以确保来自第一cpu的所有写入操作被推送到所述装置存储器。23.根据权利要求22所述的系统,其中,对装置存储器的所述获取栅栏操作还包括确保来自第二cpu的所有写入操作被推送到所述装置存储器。

技术总结
本公开的发明名称为“一种互连系统栅栏机构”。公开一种促进存储器屏障的设备。该设备包括互连、装置存储器、多个处理资源以及栅栏硬件,所述多个处理资源耦合到装置存储器,以作为到装置存储器和系统存储器的存储器数据生产者和存储器数据消费者执行多个执行线程,所述栅栏硬件用于生成栅栏操作以对发布到经由所述互连耦合的系统存储器和所述装置存储器的存储器操作强制执行数据排序。的存储器操作强制执行数据排序。的存储器操作强制执行数据排序。


技术研发人员:H
受保护的技术使用者:英特尔公司
技术研发日:2021.08.06
技术公布日:2022/3/8

最新回复(0)