Update xccl backend register align with latest torch

Chao1Han · Chao1Han · commit 0fdb0abb97a4 · 2025-03-11T00:21:26.000+08:00
diff --git a/src/xccl/Register.cpp b/src/xccl/Register.cpp
@@ -42,6 +42,7 @@ c10::intrusive_ptr<Work> reduce_XPU(
     const c10::intrusive_ptr<ReduceOp>& reduce_op,
     int64_t root_rank,
     int64_t root_tensor,
+    bool asyncOp,
     int64_t timeout) {
   auto tensor_vec = tensors.vec();
   return process_group->getBackend(c10::DeviceType::XPU)
@@ -51,7 +52,8 @@ c10::intrusive_ptr<Work> reduce_XPU(
               *reduce_op.get(),
               root_rank,
               root_tensor,
-              std::chrono::milliseconds(timeout)});
+              std::chrono::milliseconds(timeout),
+              asyncOp});
 }
 
 std::tuple<std::vector<at::Tensor>, c10::intrusive_ptr<Work>> broadcast_XPU(
@@ -79,14 +81,16 @@ std::tuple<std::vector<at::Tensor>, c10::intrusive_ptr<Work>> allreduce_XPU(
     const c10::intrusive_ptr<ProcessGroup>& process_group,
     const c10::intrusive_ptr<ReduceOp>& reduce_op,
     const std::optional<at::Tensor>& sparse_indices,
+    bool asyncOp,
     int64_t timeout) {
   auto tensor_vec = tensors.vec();
-  auto work =
-      process_group->getBackend(c10::DeviceType::XPU)
-          ->allreduce(
-              tensor_vec,
-              AllreduceOptions{
-                  *reduce_op.get(), std::chrono::milliseconds(timeout)});
+  auto work = process_group->getBackend(c10::DeviceType::XPU)
+                  ->allreduce(
+                      tensor_vec,
+                      AllreduceOptions{
+                          *reduce_op.get(),
+                          std::chrono::milliseconds(timeout),
+                          asyncOp});
   return std::tuple<std::vector<at::Tensor>, c10::intrusive_ptr<Work>>(
       std::move(tensor_vec), work);
 }
@@ -95,11 +99,13 @@ c10::intrusive_ptr<Work> allreduce_coalesced_XPU(
     at::TensorList tensors,
     const c10::intrusive_ptr<ProcessGroup>& process_group,
     const c10::intrusive_ptr<ReduceOp>& reduce_op,
+    bool asyncOp,
     int64_t timeout) {
   auto tensor_vec = tensors.vec();
   AllreduceCoalescedOptions opts = AllreduceCoalescedOptions{};
   opts.reduceOp = *reduce_op.get();
   opts.timeout = std::chrono::milliseconds(timeout);
+  opts.asyncOp = asyncOp;
   return process_group->getBackend(c10::DeviceType::XPU)
       ->allreduce_coalesced(tensor_vec, opts);
 }
@@ -109,14 +115,15 @@ allgather_XPU(
     const std::vector<std::vector<at::Tensor>>& output_tensors,
     at::TensorList input_tensors,
     const c10::intrusive_ptr<ProcessGroup>& process_group,
+    bool asyncOp,
     int64_t timeout) {
   auto input_tensors_vec = input_tensors.vec();
   auto work =
       process_group->getBackend(c10::DeviceType::XPU)
           ->allgather(
               const_cast<std::vector<std::vector<at::Tensor>>&>(output_tensors),
               input_tensors_vec,
-              AllgatherOptions{std::chrono::milliseconds(timeout)});
+              AllgatherOptions{std::chrono::milliseconds(timeout), asyncOp});
   return std::
       tuple<std::vector<std::vector<at::Tensor>>, c10::intrusive_ptr<Work>>(
           output_tensors, work);
@@ -140,29 +147,37 @@ std::tuple<at::Tensor, c10::intrusive_ptr<Work>> _allgather_base_XPU(
 c10::intrusive_ptr<Work> allgather_coalesced_XPU(
     const std::vector<std::vector<at::Tensor>>& output_lists,
     const at::TensorList& input_list,
-    const c10::intrusive_ptr<ProcessGroup>& process_group) {
+    const c10::intrusive_ptr<ProcessGroup>& process_group,
+    bool asyncOp) {
   auto input_list_vec = input_list.vec();
+  auto opts = AllgatherOptions{};
+  opts.asyncOp = asyncOp;
   return process_group->getBackend(c10::DeviceType::XPU)
       ->allgather_coalesced(
           const_cast<std::vector<std::vector<at::Tensor>>&>(output_lists),
-          input_list_vec);
+          input_list_vec,
+          opts);
 }
 
 c10::intrusive_ptr<c10d::Work> allgather_into_tensor_coalesced_XPU(
     at::TensorList outputs,
     at::TensorList inputs,
-    const c10::intrusive_ptr<ProcessGroup>& process_group) {
+    const c10::intrusive_ptr<ProcessGroup>& process_group,
+    bool asyncOp) {
   auto output_vec = outputs.vec();
   auto input_vec = inputs.vec();
+  auto opts = AllgatherOptions{};
+  opts.asyncOp = asyncOp;
   return process_group->getBackend(c10::DeviceType::XPU)
-      ->allgather_into_tensor_coalesced(output_vec, input_vec);
+      ->allgather_into_tensor_coalesced(output_vec, input_vec, opts);
 }
 
 std::tuple<std::vector<at::Tensor>, c10::intrusive_ptr<Work>> reduce_scatter_XPU(
     const at::TensorList& output_tensors,
     const std::vector<std::vector<at::Tensor>>& input_tensors,
     const c10::intrusive_ptr<ProcessGroup>& process_group,
     const c10::intrusive_ptr<ReduceOp>& reduce_op,
+    bool asyncOp,
     int64_t timeout) {
   auto output_tensors_vec = output_tensors.vec();
   auto work =
@@ -171,7 +186,9 @@ std::tuple<std::vector<at::Tensor>, c10::intrusive_ptr<Work>> reduce_scatter_XPU
               output_tensors_vec,
               const_cast<std::vector<std::vector<at::Tensor>>&>(input_tensors),
               ReduceScatterOptions{
-                  *reduce_op.get(), std::chrono::milliseconds(timeout)});
+                  *reduce_op.get(),
+                  std::chrono::milliseconds(timeout),
+                  asyncOp});
   return std::tuple<std::vector<at::Tensor>, c10::intrusive_ptr<Work>>(
       output_tensors_vec, work);
 }
@@ -199,6 +216,7 @@ c10::intrusive_ptr<c10d::Work> reduce_scatter_tensor_coalesced_XPU(
     at::TensorList inputs,
     const c10::intrusive_ptr<ProcessGroup>& process_group,
     const c10::intrusive_ptr<ReduceOp>& reduce_op,
+    bool asyncOp,
     int64_t timeout) {
   auto output_vec = outputs.vec();
   auto input_vec = inputs.vec();
@@ -207,21 +225,23 @@ c10::intrusive_ptr<c10d::Work> reduce_scatter_tensor_coalesced_XPU(
           output_vec,
           input_vec,
           ReduceScatterOptions{
-              *reduce_op.get(), std::chrono::milliseconds(timeout)});
+              *reduce_op.get(), std::chrono::milliseconds(timeout), asyncOp});
 }
 
 c10::intrusive_ptr<Work> gather_XPU(
     const std::vector<std::vector<at::Tensor>>& output_tensors,
     const at::TensorList& input_tensors,
     const c10::intrusive_ptr<ProcessGroup>& process_group,
     int64_t root_rank,
+    bool asyncOp,
     int64_t timeout) {
   auto input_tensors_vec = input_tensors.vec();
   return process_group->getBackend(c10::DeviceType::XPU)
       ->gather(
           const_cast<std::vector<std::vector<at::Tensor>>&>(output_tensors),
           input_tensors_vec,
-          GatherOptions{root_rank, std::chrono::milliseconds(timeout)});
+          GatherOptions{
+              root_rank, std::chrono::milliseconds(timeout), asyncOp});
 }
 
 std::tuple<std::vector<at::Tensor>, c10::intrusive_ptr<Work>> scatter_XPU(
@@ -247,14 +267,16 @@ std::tuple<std::vector<at::Tensor>, c10::intrusive_ptr<Work>> alltoall_XPU(
     const at::TensorList& output_tensors,
     const at::TensorList& input_tensors,
     const c10::intrusive_ptr<ProcessGroup>& process_group,
+    bool asyncOp,
     int64_t timeout) {
   auto output_tensors_vec = output_tensors.vec();
   auto input_tensors_vec = input_tensors.vec();
-  auto work = process_group->getBackend(c10::DeviceType::XPU)
-                  ->alltoall(
-                      output_tensors_vec,
-                      input_tensors_vec,
-                      AllToAllOptions{std::chrono::milliseconds(timeout)});
+  auto work =
+      process_group->getBackend(c10::DeviceType::XPU)
+          ->alltoall(
+              output_tensors_vec,
+              input_tensors_vec,
+              AllToAllOptions{std::chrono::milliseconds(timeout), asyncOp});
   return std::tuple<std::vector<at::Tensor>, c10::intrusive_ptr<Work>>(
       std::move(output_tensors_vec), work);
 }
@@ -265,23 +287,28 @@ c10::intrusive_ptr<Work> alltoall_base_XPU(
     const c10::intrusive_ptr<ProcessGroup>& process_group,
     std::vector<int64_t> output_split_sizes,
     std::vector<int64_t> input_split_sizes,
+    bool asyncOp,
     int64_t timeout) {
   return process_group->getBackend(c10::DeviceType::XPU)
       ->alltoall_base(
           output,
           input,
           output_split_sizes,
           input_split_sizes,
-          AllToAllOptions{std::chrono::milliseconds(timeout)});
+          AllToAllOptions{std::chrono::milliseconds(timeout), asyncOp});
 }
 
 c10::intrusive_ptr<Work> barrier_XPU(
     at::Tensor /* unused */,
     const c10::intrusive_ptr<ProcessGroup>& process_group,
     const std::vector<int64_t>& device_ids,
+    bool asyncOp,
     int64_t timeout) {
-  return process_group->getBackend(c10::DeviceType::XPU)
-      ->barrier(BarrierOptions{device_ids, std::chrono::milliseconds(timeout)});
+  auto opts = BarrierOptions{};
+  opts.device_ids = device_ids;
+  opts.timeout = std::chrono::milliseconds(timeout);
+  opts.asyncOp = asyncOp;
+  return process_group->getBackend(c10::DeviceType::XPU)->barrier(opts);
 }
 
 TORCH_LIBRARY_IMPL(c10d, XPU, m) {