Merge branch 'main' into chao/avg

Chao1Han · web-flow · commit 336a74b6b00a · 2025-03-06T15:38:41.000+08:00
diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -40,7 +40,7 @@ include(${TORCH_XPU_OPS_ROOT}/cmake/ONEMKL.cmake)
 include(${TORCH_XPU_OPS_ROOT}/cmake/BuildFlags.cmake)
 
 option(USE_XCCL "Build with XCCL support" OFF)
-option(USE_C10D_XCCL "Build with XCCL support for C10D" OFF)
+option(USE_C10D_XCCL "Build with XCCL support for C10D" ON)
 
 # -- [ Re-generate the macros file for https://github.com/pytorch/pytorch/pull/147161
 macro(update_caffe2_macros_file)
diff --git a/cmake/Codegen.cmake b/cmake/Codegen.cmake
@@ -1,89 +1,60 @@
-if(Codegen_GPU_cmake_included)
+if(Codegen_XPU_cmake_included)
   return()
 endif()
-set(Codegen_GPU_cmake_included true)
+set(Codegen_XPU_cmake_included true)
 
-set(BUILD_TORCH_XPU_ATEN_GENERATED "${CMAKE_BINARY_DIR}/xpu/ATen/")
+set(BUILD_TORCH_XPU_ATEN_GENERATED "${CMAKE_BINARY_DIR}/xpu/ATen")
 file(MAKE_DIRECTORY ${BUILD_TORCH_XPU_ATEN_GENERATED})
 
-set(RegisterXPU_PATH ${BUILD_TORCH_XPU_ATEN_GENERATED}/RegisterXPU_0.cpp)
-set(RegisterSparseXPU_PATH ${BUILD_TORCH_XPU_ATEN_GENERATED}/RegisterSparseXPU_0.cpp)
-set(RegisterSparseCsrXPU_PATH ${BUILD_TORCH_XPU_ATEN_GENERATED}/RegisterSparseCsrXPU_0.cpp)
-set(RegisterNestedTensorXPU_PATH ${BUILD_TORCH_XPU_ATEN_GENERATED}/RegisterNestedTensorXPU_0.cpp)
-set(XPUFallback_PATH ${TORCH_XPU_OPS_ROOT}/src/ATen/native/xpu/XPUFallback.template)
+set(RegisterXPU_GENERATED ${BUILD_TORCH_XPU_ATEN_GENERATED}/RegisterXPU_0.cpp)
+set(RegisterSparseXPU_GENERATED ${BUILD_TORCH_XPU_ATEN_GENERATED}/RegisterSparseXPU_0.cpp)
+set(RegisterSparseCsrXPU_GENERATED ${BUILD_TORCH_XPU_ATEN_GENERATED}/RegisterSparseCsrXPU_0.cpp)
+set(RegisterNestedTensorXPU_GENERATED ${BUILD_TORCH_XPU_ATEN_GENERATED}/RegisterNestedTensorXPU_0.cpp)
+set(XPUFallback_TEMPLATE ${TORCH_XPU_OPS_ROOT}/src/ATen/native/xpu/XPUFallback.template)
+set(XPU_AOTI_INSTALL_DIR ${TORCH_ROOT}/torch/csrc/inductor/aoti_torch/generated/extend)
+set(XPU_AOTI_SHIM_HEADER ${XPU_AOTI_INSTALL_DIR}/c_shim_xpu.h)
+set(XPU_AOTI_SHIM_SOURCE ${XPU_AOTI_INSTALL_DIR}/c_shim_xpu.cpp)
 
 if(WIN32)
   set(FILE_DISPLAY_CMD type)
-  # replace forward slash with back slash for compatibility with 'type' command on Windows
-  string(REPLACE "/" "\\" RegisterXPU_PATH_BACKSLASH "${RegisterXPU_PATH}")
-  string(REPLACE "/" "\\" XPUFallback_PATH_BACKSLASH "${XPUFallback_PATH}")
-  set(REGISTER_FALLBACK_CMD ${FILE_DISPLAY_CMD} ${XPUFallback_PATH_BACKSLASH} ">>" ${RegisterXPU_PATH_BACKSLASH})
 else()
   set(FILE_DISPLAY_CMD cat)
-  set(REGISTER_FALLBACK_CMD ${FILE_DISPLAY_CMD} ${XPUFallback_PATH} ">>" ${RegisterXPU_PATH})
 endif()
+file(TO_NATIVE_PATH "${RegisterXPU_GENERATED}" RegisterXPU_GENERATED_NATIVE)
+file(TO_NATIVE_PATH "${XPUFallback_TEMPLATE}" XPUFallback_TEMPLATE_NATIVE)
+set(REGISTER_FALLBACK_CMD ${FILE_DISPLAY_CMD} ${XPUFallback_TEMPLATE_NATIVE} ">>" ${RegisterXPU_GENERATED_NATIVE})
 
-function(GEN_BACKEND file_yaml)
-  set(generated_files "")
-  foreach(f ${ARGN})
-    list(APPEND generated_files "${BUILD_TORCH_XPU_ATEN_GENERATED}/${f}")
-  endforeach()
-  file(GLOB_RECURSE depended_files ${TORCH_XPU_OPS_ROOT}/yaml/${file_yaml})
-  add_custom_command(
-    OUTPUT ${generated_files}
-    COMMAND
-    "${PYTHON_EXECUTABLE}" -m torchgen.gen_backend_stubs
-    --output_dir ${BUILD_TORCH_XPU_ATEN_GENERATED}
-    --source_yaml ${TORCH_XPU_OPS_ROOT}/yaml/${file_yaml}
-    COMMAND
-    ${REGISTER_FALLBACK_CMD}
-    ${SIMPLE_TRACE}
-    WORKING_DIRECTORY ${TORCH_ROOT}
-    DEPENDS
-    ${depended_files}
-    ${TORCH_XPU_OPS_ROOT}/yaml/${file_yaml}
-    ${XPUFallback_PATH}
-    )
-endfunction(GEN_BACKEND)
-
-
-set(RegisterXPU_PATH ${BUILD_TORCH_XPU_ATEN_GENERATED}/RegisterXPU_0.cpp)
-set(RegisterSparseXPU_PATH ${BUILD_TORCH_XPU_ATEN_GENERATED}/RegisterSparseXPU_0.cpp)
-set(RegisterSparseCsrXPU_PATH ${BUILD_TORCH_XPU_ATEN_GENERATED}/RegisterSparseCsrXPU_0.cpp)
-set(RegisterNestedTensorXPU_PATH ${BUILD_TORCH_XPU_ATEN_GENERATED}/RegisterNestedTensorXPU_0.cpp)
-set(XPUFallback_PATH ${TORCH_XPU_OPS_ROOT}/src/ATen/native/xpu/XPUFallback.template)
-set(XPU_AOTI_INSTALL_DIR ${TORCH_ROOT}/torch/csrc/inductor/aoti_torch/generated/extend)
 function(GEN_XPU file_yaml)
   set(generated_files "")
   foreach(f ${ARGN})
     list(APPEND generated_files "${f}")
   endforeach()
-  file(GLOB_RECURSE depend_files ${TORCH_XPU_OPS_ROOT}/yaml/${file_yaml})
-  set(CODEGEN_TEMPLATE ${TORCH_XPU_OPS_ROOT}/yaml/)
+  set(CODEGEN_XPU_YAML_DIR ${TORCH_XPU_OPS_ROOT}/yaml)
 
   # Codegen prepare process
   if(WIN32)
-    string(REPLACE "/" "\\" DestPATH "${CODEGEN_TEMPLATE}templates")
-    string(REPLACE "/" "\\" SrcPATH "${CMAKE_SOURCE_DIR}/aten/src/ATen/templates")
+    file(TO_NATIVE_PATH "${CODEGEN_XPU_YAML_DIR}/templates" DestPATH)
+    file(TO_NATIVE_PATH "${CMAKE_SOURCE_DIR}/aten/src/ATen/templates" SrcPATH)
     execute_process(COMMAND cmd /c xcopy ${SrcPATH} ${DestPATH} /E /H /C /I /Y > nul)
-    string(REPLACE "/" "\\" RegisterXPU_PATH_BACKSLASH "${RegisterXPU_PATH}")
-    string(REPLACE "/" "\\" XPUFallback_PATH_BACKSLASH "${XPUFallback_PATH}")
-    set(REGISTER_FALLBACK_CMD ${FILE_DISPLAY_CMD} ${XPUFallback_PATH_BACKSLASH} ">>" ${RegisterXPU_PATH_BACKSLASH})
   else()
-    execute_process(COMMAND ln -s ${CMAKE_SOURCE_DIR}/aten/src/ATen/templates ${CODEGEN_TEMPLATE}) # soft link to pytorch templates
-    set(REGISTER_FALLBACK_CMD ${FILE_DISPLAY_CMD} ${XPUFallback_PATH} ">>" ${RegisterXPU_PATH})
+    execute_process(COMMAND ln -s ${CMAKE_SOURCE_DIR}/aten/src/ATen/templates ${CODEGEN_XPU_YAML_DIR}) # soft link to pytorch templates
   endif()
-  add_custom_command(
-    OUTPUT ${generated_files}
-    COMMAND
+
+  set(XPU_CODEGEN_COMMAND
     "${PYTHON_EXECUTABLE}" -m torchgen.gen
-    --source-path ${TORCH_XPU_OPS_ROOT}/yaml/
+    --source-path ${CODEGEN_XPU_YAML_DIR}
     --install-dir ${BUILD_TORCH_XPU_ATEN_GENERATED}
     --per-operator-headers
-    --static-dispatch-backend
     --backend-whitelist XPU SparseXPU SparseCsrXPU NestedTensorXPU
-    # --xpu: generate in-tree RegisterXPU_0.cpp for in-tree OPs
     --xpu
+  )
+
+  add_custom_command(
+    COMMENT "Generating XPU ATen Codegen..."
+    OUTPUT ${generated_files}
+    COMMAND
+    ${XPU_CODEGEN_COMMAND}
+    --static-dispatch-backend
     # --update-aoti-c-shim: generate extend/c_shim_xpu.h
     --update-aoti-c-shim
     # --exten-aoti-c-shim: specifiy the extend/c_shim_xpu
@@ -95,16 +66,14 @@ function(GEN_XPU file_yaml)
     COMMAND
     ${REGISTER_FALLBACK_CMD}
     # Codegen post-process
-    COMMAND "${PYTHON_EXECUTABLE}" ${TORCH_XPU_OPS_ROOT}/tools/codegen/remove_headers.py --register_xpu_path ${RegisterXPU_PATH}
-    COMMAND "${PYTHON_EXECUTABLE}" ${TORCH_XPU_OPS_ROOT}/tools/codegen/remove_headers.py --register_xpu_path ${RegisterSparseXPU_PATH}
-    COMMAND "${PYTHON_EXECUTABLE}" ${TORCH_XPU_OPS_ROOT}/tools/codegen/remove_headers.py --register_xpu_path ${RegisterSparseCsrXPU_PATH}
-    COMMAND "${PYTHON_EXECUTABLE}" ${TORCH_XPU_OPS_ROOT}/tools/codegen/remove_headers.py --register_xpu_path ${RegisterNestedTensorXPU_PATH}
-    ${SIMPLE_TRACE}
+    COMMAND "${PYTHON_EXECUTABLE}" ${TORCH_XPU_OPS_ROOT}/tools/codegen/remove_headers.py --register_xpu_path ${RegisterXPU_GENERATED}
+    COMMAND "${PYTHON_EXECUTABLE}" ${TORCH_XPU_OPS_ROOT}/tools/codegen/remove_headers.py --register_xpu_path ${RegisterSparseXPU_GENERATED}
+    COMMAND "${PYTHON_EXECUTABLE}" ${TORCH_XPU_OPS_ROOT}/tools/codegen/remove_headers.py --register_xpu_path ${RegisterSparseCsrXPU_GENERATED}
+    COMMAND "${PYTHON_EXECUTABLE}" ${TORCH_XPU_OPS_ROOT}/tools/codegen/remove_headers.py --register_xpu_path ${RegisterNestedTensorXPU_GENERATED}
     WORKING_DIRECTORY ${TORCH_ROOT}
     DEPENDS
-    ${depended_files}
-    ${TORCH_XPU_OPS_ROOT}/yaml/native/${file_yaml}
-    ${XPUFallback_PATH}
+    ${CODEGEN_XPU_YAML_DIR}/native/${file_yaml}
+    ${XPUFallback_TEMPLATE}
   )
 
   # Post codegen delete the copied templates folder only on Windows.
@@ -118,30 +87,29 @@ function(GEN_XPU file_yaml)
   endif()
 endfunction(GEN_XPU)
 
-# GEN_BACKEND(
-#   xpu_functions.yaml
-#   XPUNativeFunctions.h
-#   RegisterXPU_0.cpp)
-
 GEN_XPU(
   native_functions.yaml
   ${BUILD_TORCH_XPU_ATEN_GENERATED}/XPUFunctions.h
-  ${BUILD_TORCH_XPU_ATEN_GENERATED}/RegisterXPU_0.cpp
-  ${BUILD_TORCH_XPU_ATEN_GENERATED}/RegisterSparseXPU_0.cpp
-  ${BUILD_TORCH_XPU_ATEN_GENERATED}/RegisterSparseCsrXPU_0.cpp
-  ${BUILD_TORCH_XPU_ATEN_GENERATED}/RegisterNestedTensorXPU_0.cpp
-  ${XPU_AOTI_INSTALL_DIR}/c_shim_xpu.h
-  ${XPU_AOTI_INSTALL_DIR}/c_shim_xpu.cpp
+  ${BUILD_TORCH_XPU_ATEN_GENERATED}/XPUFunctions_inl.h
+  ${RegisterXPU_GENERATED}
+  ${RegisterSparseXPU_GENERATED}
+  ${RegisterSparseCsrXPU_GENERATED}
+  ${RegisterNestedTensorXPU_GENERATED}
+  ${XPU_AOTI_SHIM_HEADER}
+  ${XPU_AOTI_SHIM_SOURCE}
 )
 
-
 # The c_shim_xpu.cpp needs include files in ${CMAKE_BINARY_DIR}/xpu/ATen/ops/*.h)
 # The include path is auto generated as "#include <ATen/ops/*.h">
 # To follow the design of aoti codegen, here ${CMAKE_BINARY_DIR}/xpu is added to
 # $TORCH_XPU_OPS_INCLUDE_DIRS, so that "#include <ATen/ops/*.h>" works.
 list(APPEND TORCH_XPU_OPS_INCLUDE_DIRS ${CMAKE_BINARY_DIR}/xpu)
 
-list(APPEND xpu_generated_src ${RegisterXPU_PATH} ${RegisterSparseXPU_PATH} ${RegisterSparseCsrXPU_PATH} ${RegisterNestedTensorXPU_PATH})
-list(APPEND xpu_generated_src ${XPU_AOTI_INSTALL_DIR}/c_shim_xpu.cpp)
-add_custom_target(TORCH_XPU_GEN_TARGET DEPENDS ${xpu_generated_src})
+list(APPEND xpu_generated_src
+  ${RegisterXPU_GENERATED}
+  ${RegisterSparseXPU_GENERATED}
+  ${RegisterSparseCsrXPU_GENERATED}
+  ${RegisterNestedTensorXPU_GENERATED}
+  ${XPU_AOTI_SHIM_SOURCE}
+)
 set(ATen_XPU_GEN_SRCS ${xpu_generated_src})
diff --git a/src/ATen/native/xpu/NMS.cpp b/src/ATen/native/xpu/NMS.cpp
@@ -42,39 +42,8 @@ Tensor nms(const Tensor& dets, const Tensor& scores, double iou_threshold_) {
       scores.sort(/*stable=*/true, /*dim=*/0, /* descending=*/true));
   auto dets_sorted = dets.index_select(0, order_t).contiguous();
 
-  int dets_num = dets.size(0);
-  int col_blocks = (dets_num + nms_items_per_group - 1) / nms_items_per_group;
-
-  auto mask = nms_kernel(dets_sorted, iou_threshold);
-
-  at::Tensor mask_cpu = mask.to(at::kCPU);
-  unsigned long long* mask_host =
-      (unsigned long long*)mask_cpu.mutable_data_ptr();
-
-  std::vector<unsigned long long> remv(col_blocks);
-  memset(&remv[0], 0, sizeof(unsigned long long) * col_blocks);
-
-  at::Tensor keep =
-      at::empty({dets_num}, dets.options().dtype(at::kLong).device(at::kCPU));
-  int64_t* keep_out = keep.mutable_data_ptr<int64_t>();
-
-  int num_to_keep = 0;
-  for (int i = 0; i < dets_num; i++) {
-    int nblock = i / nms_items_per_group;
-    int inblock = i % nms_items_per_group;
-
-    if (!(remv[nblock] & (1ULL << inblock))) {
-      keep_out[num_to_keep++] = i;
-      unsigned long long* p = mask_host + i * col_blocks;
-      for (int j = nblock; j < col_blocks; j++) {
-        remv[j] |= p[j];
-      }
-    }
-  }
-
-  return order_t.index(
-      {keep.narrow(/*dim=*/0, /*start=*/0, /*length=*/num_to_keep)
-           .to(order_t.device(), keep.scalar_type())});
+  auto keep = nms_kernel(dets_sorted, iou_threshold);
+  return order_t.masked_select(keep);
 }
 
 } // namespace at::native::xpu
diff --git a/src/ATen/native/xpu/sycl/NMSKernel.cpp b/src/ATen/native/xpu/sycl/NMSKernel.cpp
@@ -2,6 +2,7 @@
 #include <comm/SYCLContext.h>
 #include <comm/xpu_aten.h>
 
+#include <ATen/ceil_div.h>
 #include <ATen/native/xpu/sycl/NMSKernel.h>
 
 namespace at {
@@ -97,9 +98,68 @@ struct NMSKernelFunctor : public __SYCL_KER_CONFIG_CONVENTION__ {
   sycl_local_acc_t<acc_t> slm_;
 };
 
+struct GatherKeepFromMask : public __SYCL_KER_CONFIG_CONVENTION__ {
+  void operator()(sycl::nd_item<1> item) const {
+    const int thread_id = item.get_local_id(0);
+
+    // Initialize removed
+    for (int i = thread_id; i < col_blocks_; i += nms_items_per_group) {
+      removed_[i] = 0;
+    }
+    item.barrier(sycl_local_fence);
+
+    for (int nblock = 0; nblock < col_blocks_; nblock++) {
+      auto removed_val = removed_[nblock];
+      item.barrier(sycl_local_fence);
+      const int i_offset = nblock * nms_items_per_group;
+
+      for (int inblock = 0; inblock < nms_items_per_group; inblock++) {
+        const int i = i_offset + inblock;
+        if (i >= n_boxes_)
+          break;
+
+        // Select a candidate, check if it should be kept
+        if (!(removed_val & (1ULL << inblock))) {
+          if (thread_id == 0) {
+            keep_[i] = true;
+          }
+          auto p = dev_mask_ + i * col_blocks_;
+
+          // Remove all bboxes which overlap the candidate
+          for (int j = thread_id; j < col_blocks_; j += nms_items_per_group) {
+            if (j >= nblock)
+              removed_[j] |= p[j];
+          }
+          item.barrier(sycl_local_fence);
+          removed_val = removed_[nblock];
+        }
+      }
+    }
+  }
+  GatherKeepFromMask(
+      bool* keep,
+      const unsigned long long* dev_mask,
+      const int n_boxes)
+      : keep_(keep),
+        dev_mask_(dev_mask),
+        n_boxes_(n_boxes),
+        col_blocks_(ceil_div(n_boxes, nms_items_per_group)) {}
+
+  void sycl_ker_config_convention(sycl::handler& cgh) {
+    removed_ = sycl_local_acc_t<unsigned long long>(col_blocks_, cgh);
+  }
+
+ private:
+  bool* keep_;
+  const unsigned long long* dev_mask_;
+  const int n_boxes_;
+  const int col_blocks_;
+  sycl_local_acc_t<unsigned long long> removed_;
+};
+
 Tensor nms_kernel(const Tensor& dets_sorted, float iou_threshold) {
   int dets_num = dets_sorted.size(0);
-  int col_blocks = (dets_num + nms_items_per_group - 1) / nms_items_per_group;
+  int col_blocks = ceil_div(dets_num, nms_items_per_group);
   auto mask = at::empty(
       {dets_num * col_blocks}, dets_sorted.options().dtype(at::kLong));
 
@@ -120,7 +180,19 @@ Tensor nms_kernel(const Tensor& dets_sorted, float iou_threshold) {
         sycl_kernel_submit(
             global_range, local_range, at::xpu::getCurrentSYCLQueue(), caller);
       });
-  return mask;
+
+  at::Tensor keep = at::zeros(
+      {dets_num}, dets_sorted.options().dtype(at::kBool).device(at::kXPU));
+  auto caller = GatherKeepFromMask(
+      keep.data_ptr<bool>(),
+      (unsigned long long*)mask.data_ptr<int64_t>(),
+      dets_num);
+  sycl_kernel_submit(
+      std::min(col_blocks, nms_items_per_group),
+      std::min(col_blocks, nms_items_per_group),
+      at::xpu::getCurrentSYCLQueue(),
+      caller);
+  return keep;
 }
 
 } // namespace xpu