Merge pull request #254 from JuliaGPU/jps/export-indexing-intrinsics

jpsamaroo · web-flow · commit 9e1041b932c6 · 2022-07-29T13:59:40.000-05:00
Re-export indexing intrinsics
diff --git a/docs/src/api.md b/docs/src/api.md
@@ -16,16 +16,16 @@ AMDGPU.rocfunction
 #### HSA nomenclature
 
 ```@docs
-AMDGPU.Device.workitemIdx
-AMDGPU.Device.workgroupIdx
-AMDGPU.Device.workgroupDim
-AMDGPU.Device.gridDim
-AMDGPU.Device.gridDimWG
+AMDGPU.workitemIdx
+AMDGPU.workgroupIdx
+AMDGPU.workgroupDim
+AMDGPU.gridItemDim
+AMDGPU.gridGroupDim
 ```
 
 #### CUDA nomenclature
 
-Use these functions for compatibility with CUDAnative.jl.
+Use these functions for compatibility with CUDA.jl.
 
 ```@docs
 AMDGPU.Device.threadIdx
@@ -36,7 +36,7 @@ AMDGPU.Device.blockDim
 ### Synchronization
 
 ```@docs
-AMDGPU.Device.sync_workgroup
+AMDGPU.sync_workgroup
 ```
 
 ### Global Variables
diff --git a/docs/src/quickstart.md b/docs/src/quickstart.md
@@ -116,13 +116,13 @@ wait(@roc groupsize=N vadd!(c_d, a_d, b_d))
     | [`workitemIdx`](@ref) | [`threadIdx`](@ref) |
     | [`workgroupIdx`](@ref) | [`blockIdx`](@ref) |
     | [`workgroupDim`](@ref) | [`blockDim`](@ref) |
-    | [`gridDim`](@ref) | No equivalent |
-    | [`gridDimWG`](@ref) | `gridDim` |
+    | [`gridItemDim`](@ref) | No equivalent |
+    | [`gridGroupDim`](@ref) | `gridDim` |
     | `groupsize` | `threads` |
     | `gridsize` | `blocks * threads` |
     | `queue` | `stream` |
 
-    For compatibilty reasons, the symbols in the CUDAnative column (except for `gridDim`) are also supported by AMDGPU.
+    For compatibilty reasons, the symbols in the CUDA column (except for `gridItemDim`) are also supported by AMDGPU.
 
 Finally, we can make sure that the results match, by first copying the data to the host and then comparing it with the CPU results:
 
diff --git a/src/AMDGPU.jl b/src/AMDGPU.jl
@@ -97,12 +97,15 @@ module Device
 end
 import .Device: malloc, signal_exception, report_exception, report_oom, report_exception_frame
 import .Device: ROCDeviceArray, AS, HostCall, hostcall!
-import .Device: workitemIdx, workgroupIdx, workgroupDim, gridDim, gridDimWG
+import .Device: workitemIdx, workgroupIdx, workgroupDim, gridItemDim, gridGroupDim
 import .Device: threadIdx, blockIdx, blockDim
+import .Device: sync_workgroup
 import .Device: @rocprint, @rocprintln, @rocprintf
 
 export ROCDeviceArray
 export @rocprint, @rocprintln, @rocprintf
+export workitemIdx, workgroupIdx, workgroupDim, gridItemDim, gridGroupDim
+export sync_workgroup
 
 module Compiler
     using ..GPUCompiler
diff --git a/src/array.jl b/src/array.jl
@@ -25,7 +25,7 @@ for (f, froc) in (
         (:blockidx, :blockIdx),
         (:blockdim, :blockDim),
         (:threadidx, :threadIdx),
-        (:griddim, :gridDimWG)
+        (:griddim, :gridGroupDim)
     )
     @eval @inline GPUArrays.$f(::ROCKernelContext) = AMDGPU.$froc().x
 end
@@ -47,7 +47,7 @@ end
 # synchronization
 
 @inline function GPUArrays.synchronize_threads(::ROCKernelContext)
-    AMDGPU.sync_workgroup()
+    sync_workgroup()
     return
 end
 
diff --git a/src/deprecations.jl b/src/deprecations.jl
@@ -1,3 +1,5 @@
+@deprecate gridDim() gridItemDim()
+@deprecate gridDimWG() gridGroupDim()
 @deprecate HSAAgent ROCDevice
 @deprecate HSAQueue ROCQueue
 @deprecate HSASignal ROCSignal
diff --git a/src/device/gcn/indexing.jl b/src/device/gcn/indexing.jl
@@ -1,6 +1,4 @@
 # Indexing and dimensions
-export workitemIdx, workgroupIdx, workgroupDim, gridDim, gridDimWG
-export threadIdx, blockIdx, blockDim
 
 @generated function _index(::Val{fname}, ::Val{name}, ::Val{range}) where {fname, name, range}
     Context() do ctx
@@ -106,11 +104,11 @@ for (dim,off) in ((:x,1), (:y,2), (:z,3))
     @eval @inline $cufn() = $fn()
 
     # Grid dimension (in workitems)
-    fn = Symbol("gridDim_$dim")
+    fn = Symbol("gridItemDim_$dim")
     base = _packet_offsets[findfirst(x->x==:grid_size_x,_packet_names)]
     @eval @inline $fn() = Int(_dim($(Val(base)), $(Val(off)), $(Val(0:(_max_grid_size[dim]-1))), UInt32))
     # Grid dimension (in workgroups)
-    fn_wg = Symbol("gridDimWG_$dim")
+    fn_wg = Symbol("gridGroupDim_$dim")
     fn_wg_dim = Symbol("workgroupDim_$dim")
     @eval @inline $fn_wg() = div($fn(), $fn_wg_dim())
 end
@@ -140,20 +138,20 @@ See also: [`blockDim`](@ref)
 @inline workgroupDim() = (x=workgroupDim_x(), y=workgroupDim_y(), z=workgroupDim_z())
 
 """
-    gridDim()::ROCDim3
+    gridItemDim()::ROCDim3
 
 Returns the size of the grid in workitems.
 This behaviour is different from CUDA where `gridDim` gives the size of the grid in blocks.
 """
-@inline gridDim() = (x=gridDim_x(), y=gridDim_y(), z=gridDim_z())
+@inline gridItemDim() = (x=gridItemDim_x(), y=gridItemDim_y(), z=gridItemDim_z())
 
 """
-    gridDimWG()::ROCDim3
+    gridGroupDim()::ROCDim3
 
 Returns the size of the grid in workgroups.
 This is equivalent to CUDA's `gridDim`.
 """
-@inline gridDimWG() = (x=gridDimWG_x(), y=gridDimWG_y(), z=gridDimWG_z())
+@inline gridGroupDim() = (x=gridGroupDim_x(), y=gridGroupDim_y(), z=gridGroupDim_z())
 
 # For compat with CUDAnative et. al
 
diff --git a/src/device/gcn/synchronization.jl b/src/device/gcn/synchronization.jl
@@ -1,5 +1,3 @@
-export sync_workgroup
-
 """
     sync_workgroup()
 
diff --git a/src/mapreduce.jl b/src/mapreduce.jl
@@ -16,7 +16,7 @@
     # perform a reduction
     d = items>>1
     while d > 0
-        Device.sync_workgroup()
+        sync_workgroup()
         if item <= d
             shared[item] = op(shared[item], shared[item+d])
         end
@@ -44,7 +44,7 @@ function partial_mapreduce_device(f, op, neutral, maxitems, Rreduce, Rother, R,
     localIdx_reduce = workitemIdx().x
     localDim_reduce = workgroupDim().x
     groupIdx_reduce, groupIdx_other = fldmod1(workgroupIdx().x, length(Rother))
-    groupDim_reduce = gridDimWG().x ÷ length(Rother)
+    groupDim_reduce = gridGroupDim().x ÷ length(Rother)
 
     # group-based indexing into the values outside of the reduction dimension
     # (that means we can safely synchronize items within this group)
diff --git a/test/codegen/synchronization.jl b/test/codegen/synchronization.jl
@@ -1,11 +1,10 @@
 @testset "Synchronization" begin
-    # TODO: Remove dummy argument
-    function synckern(x)
-        Device.sync_workgroup()
+    function synckern()
+        sync_workgroup()
         nothing
     end
 
     iob = IOBuffer()
-    AMDGPU.code_gcn(iob, synckern, Tuple{Int}; kernel=true)
+    AMDGPU.code_gcn(iob, synckern, Tuple{}; kernel=true)
     @test occursin("s_barrier", String(take!(iob)))
 end
diff --git a/test/device/indexing.jl b/test/device/indexing.jl
@@ -1,5 +1,3 @@
-import .Device: workitemIdx, workgroupIdx, workgroupDim, gridDim, gridDimWG
-
 @testset "Kernel Indexing" begin
 
 function idx_kern(X)
@@ -16,7 +14,7 @@ end
 
 A = zeros(Int64, 6)
 RA = ROCArray(A)
-@roc groupsize=(1,2,3) gridsize=(4,5,6) idx_kern(RA)
+wait(@roc groupsize=(1,2,3) gridsize=(4,5,6) idx_kern(RA))
 A = Array(RA)
 @test all(A .> 0)
 
@@ -25,13 +23,13 @@ function dim_kern(X)
     X[2] = workgroupDim().y
     X[3] = workgroupDim().z
 
-    X[4] = gridDim().x
-    X[5] = gridDim().y
-    X[6] = gridDim().z
+    X[4] = gridItemDim().x
+    X[5] = gridItemDim().y
+    X[6] = gridItemDim().z
 
-    X[7] = gridDimWG().x
-    X[8] = gridDimWG().y
-    X[9] = gridDimWG().z
+    X[7] = gridGroupDim().x
+    X[8] = gridGroupDim().y
+    X[9] = gridGroupDim().z
 
     nothing
 end
diff --git a/test/device/output.jl b/test/device/output.jl
@@ -123,7 +123,7 @@ end
             if idx == i
                 @rocprintf "[%d] " idx
             end
-            Device.sync_workgroup()
+            sync_workgroup()
         end
         nothing
     end
diff --git a/test/device/vadd.jl b/test/device/vadd.jl
@@ -1,9 +1,9 @@
 # The original test :)
 @testset "Vector Addition Kernel" begin
     function vadd(a,b,c)
-        i = Device.workitemIdx().x
+        i = workitemIdx().x
         c[i] = a[i] + b[i]
-        Device.sync_workgroup()
+        sync_workgroup()
         return nothing
     end
 
diff --git a/test/device/wavefront.jl b/test/device/wavefront.jl
@@ -1,16 +1,16 @@
 @testset "Wavefront Operations" begin
     function reduce_kernel(op,X,Y)
-        idx = AMDGPU.workitemIdx().x
+        idx = workitemIdx().x
         Y[1] = AMDGPU.Device.wfred(op,X[idx])
         nothing
     end
     function scan_kernel(op,X,Y)
-        idx = AMDGPU.workitemIdx().x
+        idx = workitemIdx().x
         Y[idx] = AMDGPU.Device.wfscan(op,X[idx],true)
         nothing
     end
     function bool_kernel(X,Y)
-        idx = AMDGPU.workitemIdx().x
+        idx = workitemIdx().x
         Y[1] = AMDGPU.Device.wfany(X[idx])
         Y[2] = AMDGPU.Device.wfall(X[idx])
         Y[3] = AMDGPU.Device.wfsame(X[idx])

Original file line number	Diff line number	Diff line change
`@@ -1,3 +1,5 @@`
	`1`	`+@deprecate gridDim() gridItemDim()`
	`2`	`+@deprecate gridDimWG() gridGroupDim()`
`1`	`3`	`@deprecate HSAAgent ROCDevice`
`2`	`4`	`@deprecate HSAQueue ROCQueue`
`3`	`5`	`@deprecate HSASignal ROCSignal`
Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,3 @@`
`1`		`-export sync_workgroup`
`2`		`-`
`3`	`1`	`"""`
`4`	`2`	`sync_workgroup()`
`5`	`3`