yiliu30
diff --git a/‎aten/src/ATen/AccumulateType.h
+75-75 b/‎aten/src/ATen/AccumulateType.h
+75-75
diff --git a/‎aten/src/ATen/EmptyTensor.cpp
+1-1 b/‎aten/src/ATen/EmptyTensor.cpp
+1-1
diff --git a/‎aten/src/ATen/cpu/vec/vec256/vec256_bfloat16.h
+2-2 b/‎aten/src/ATen/cpu/vec/vec256/vec256_bfloat16.h
+2-2
diff --git a/‎aten/src/ATen/detail/CPUGuardImpl.cpp
+1-1 b/‎aten/src/ATen/detail/CPUGuardImpl.cpp
+1-1
diff --git a/‎aten/src/ATen/detail/MetaGuardImpl.cpp
+1-1 b/‎aten/src/ATen/detail/MetaGuardImpl.cpp
+1-1
diff --git a/‎aten/src/ATen/functorch/BatchRulesLoss.cpp
+4-4 b/‎aten/src/ATen/functorch/BatchRulesLoss.cpp
+4-4
diff --git a/‎aten/src/ATen/native/AmpKernels.h
+2-2 b/‎aten/src/ATen/native/AmpKernels.h
+2-2
diff --git a/‎aten/src/ATen/native/BatchLinearAlgebra.h
+15-15 b/‎aten/src/ATen/native/BatchLinearAlgebra.h
+15-15
@@ -86,84 +86,84 @@ using acc_type = typename AccumulateType<T, is_cuda>::type;
 #define CUDA_ACC_TYPE(t, acc_t) ACC_TYPE(t, acc_t, c10::DeviceType::CUDA)
 #define CPU_ACC_TYPE(t, acc_t) ACC_TYPE(t, acc_t, c10::DeviceType::CPU)
 
-MPS_ACC_TYPE(BFloat16, float);
-MPS_ACC_TYPE(Half, float);
-MPS_ACC_TYPE(Float8_e5m2, float);
-MPS_ACC_TYPE(Float8_e4m3fn, float);
-MPS_ACC_TYPE(Float8_e5m2fnuz, float);
-MPS_ACC_TYPE(Float8_e4m3fnuz, float);
-MPS_ACC_TYPE(float, float);
-MPS_ACC_TYPE(double, float);
-MPS_ACC_TYPE(int8_t, int64_t);
-MPS_ACC_TYPE(uint8_t, int64_t);
-MPS_ACC_TYPE(char, int64_t);
-MPS_ACC_TYPE(int16_t, int64_t);
-MPS_ACC_TYPE(int32_t, int64_t);
-MPS_ACC_TYPE(int64_t, int64_t);
-MPS_ACC_TYPE(bool, bool);
-MPS_ACC_TYPE(c10::complex<Half>, c10::complex<float>);
-MPS_ACC_TYPE(c10::complex<float>, c10::complex<float>);
-MPS_ACC_TYPE(c10::complex<double>, c10::complex<float>);
-
-XPU_ACC_TYPE(BFloat16, float);
-XPU_ACC_TYPE(Half, float);
-XPU_ACC_TYPE(Float8_e5m2, float);
-XPU_ACC_TYPE(Float8_e4m3fn, float);
-XPU_ACC_TYPE(Float8_e5m2fnuz, float);
-XPU_ACC_TYPE(Float8_e4m3fnuz, float);
-XPU_ACC_TYPE(float, float);
-XPU_ACC_TYPE(double, double);
-XPU_ACC_TYPE(int8_t, int64_t);
-XPU_ACC_TYPE(uint8_t, int64_t);
-XPU_ACC_TYPE(char, int64_t);
-XPU_ACC_TYPE(int16_t, int64_t);
-XPU_ACC_TYPE(int32_t, int64_t);
-XPU_ACC_TYPE(int64_t, int64_t);
-XPU_ACC_TYPE(bool, bool);
-XPU_ACC_TYPE(c10::complex<Half>, c10::complex<float>);
-XPU_ACC_TYPE(c10::complex<float>, c10::complex<float>);
-XPU_ACC_TYPE(c10::complex<double>, c10::complex<double>);
+MPS_ACC_TYPE(BFloat16, float)
+MPS_ACC_TYPE(Half, float)
+MPS_ACC_TYPE(Float8_e5m2, float)
+MPS_ACC_TYPE(Float8_e4m3fn, float)
+MPS_ACC_TYPE(Float8_e5m2fnuz, float)
+MPS_ACC_TYPE(Float8_e4m3fnuz, float)
+MPS_ACC_TYPE(float, float)
+MPS_ACC_TYPE(double, float)
+MPS_ACC_TYPE(int8_t, int64_t)
+MPS_ACC_TYPE(uint8_t, int64_t)
+MPS_ACC_TYPE(char, int64_t)
+MPS_ACC_TYPE(int16_t, int64_t)
+MPS_ACC_TYPE(int32_t, int64_t)
+MPS_ACC_TYPE(int64_t, int64_t)
+MPS_ACC_TYPE(bool, bool)
+MPS_ACC_TYPE(c10::complex<Half>, c10::complex<float>)
+MPS_ACC_TYPE(c10::complex<float>, c10::complex<float>)
+MPS_ACC_TYPE(c10::complex<double>, c10::complex<float>)
+
+XPU_ACC_TYPE(BFloat16, float)
+XPU_ACC_TYPE(Half, float)
+XPU_ACC_TYPE(Float8_e5m2, float)
+XPU_ACC_TYPE(Float8_e4m3fn, float)
+XPU_ACC_TYPE(Float8_e5m2fnuz, float)
+XPU_ACC_TYPE(Float8_e4m3fnuz, float)
+XPU_ACC_TYPE(float, float)
+XPU_ACC_TYPE(double, double)
+XPU_ACC_TYPE(int8_t, int64_t)
+XPU_ACC_TYPE(uint8_t, int64_t)
+XPU_ACC_TYPE(char, int64_t)
+XPU_ACC_TYPE(int16_t, int64_t)
+XPU_ACC_TYPE(int32_t, int64_t)
+XPU_ACC_TYPE(int64_t, int64_t)
+XPU_ACC_TYPE(bool, bool)
+XPU_ACC_TYPE(c10::complex<Half>, c10::complex<float>)
+XPU_ACC_TYPE(c10::complex<float>, c10::complex<float>)
+XPU_ACC_TYPE(c10::complex<double>, c10::complex<double>)
 
 #if defined(__CUDACC__) || defined(__HIPCC__)
-CUDA_ACC_TYPE(half, float);
+CUDA_ACC_TYPE(half, float)
 #endif
-CUDA_ACC_TYPE(BFloat16, float);
-CUDA_ACC_TYPE(Half, float);
-CUDA_ACC_TYPE(Float8_e5m2, float);
-CUDA_ACC_TYPE(Float8_e4m3fn, float);
-CUDA_ACC_TYPE(Float8_e5m2fnuz, float);
-CUDA_ACC_TYPE(Float8_e4m3fnuz, float);
-CUDA_ACC_TYPE(float, float);
-CUDA_ACC_TYPE(double, double);
-CUDA_ACC_TYPE(int8_t, int64_t);
-CUDA_ACC_TYPE(uint8_t, int64_t);
-CUDA_ACC_TYPE(char, int64_t);
-CUDA_ACC_TYPE(int16_t, int64_t);
-CUDA_ACC_TYPE(int32_t, int64_t);
-CUDA_ACC_TYPE(int64_t, int64_t);
-CUDA_ACC_TYPE(bool, bool);
-CUDA_ACC_TYPE(c10::complex<Half>, c10::complex<float>);
-CUDA_ACC_TYPE(c10::complex<float>, c10::complex<float>);
-CUDA_ACC_TYPE(c10::complex<double>, c10::complex<double>);
-
-CPU_ACC_TYPE(BFloat16, float);
-CPU_ACC_TYPE(Half, float);
-CPU_ACC_TYPE(Float8_e5m2, float);
-CPU_ACC_TYPE(Float8_e4m3fn, float);
-CPU_ACC_TYPE(Float8_e5m2fnuz, float);
-CPU_ACC_TYPE(Float8_e4m3fnuz, float);
-CPU_ACC_TYPE(float, double);
-CPU_ACC_TYPE(double, double);
-CPU_ACC_TYPE(int8_t, int64_t);
-CPU_ACC_TYPE(uint8_t, int64_t);
-CPU_ACC_TYPE(char, int64_t);
-CPU_ACC_TYPE(int16_t, int64_t);
-CPU_ACC_TYPE(int32_t, int64_t);
-CPU_ACC_TYPE(int64_t, int64_t);
-CPU_ACC_TYPE(bool, bool);
-CPU_ACC_TYPE(c10::complex<Half>, c10::complex<float>);
-CPU_ACC_TYPE(c10::complex<float>, c10::complex<double>);
-CPU_ACC_TYPE(c10::complex<double>, c10::complex<double>);
+CUDA_ACC_TYPE(BFloat16, float)
+CUDA_ACC_TYPE(Half, float)
+CUDA_ACC_TYPE(Float8_e5m2, float)
+CUDA_ACC_TYPE(Float8_e4m3fn, float)
+CUDA_ACC_TYPE(Float8_e5m2fnuz, float)
+CUDA_ACC_TYPE(Float8_e4m3fnuz, float)
+CUDA_ACC_TYPE(float, float)
+CUDA_ACC_TYPE(double, double)
+CUDA_ACC_TYPE(int8_t, int64_t)
+CUDA_ACC_TYPE(uint8_t, int64_t)
+CUDA_ACC_TYPE(char, int64_t)
+CUDA_ACC_TYPE(int16_t, int64_t)
+CUDA_ACC_TYPE(int32_t, int64_t)
+CUDA_ACC_TYPE(int64_t, int64_t)
+CUDA_ACC_TYPE(bool, bool)
+CUDA_ACC_TYPE(c10::complex<Half>, c10::complex<float>)
+CUDA_ACC_TYPE(c10::complex<float>, c10::complex<float>)
+CUDA_ACC_TYPE(c10::complex<double>, c10::complex<double>)
+
+CPU_ACC_TYPE(BFloat16, float)
+CPU_ACC_TYPE(Half, float)
+CPU_ACC_TYPE(Float8_e5m2, float)
+CPU_ACC_TYPE(Float8_e4m3fn, float)
+CPU_ACC_TYPE(Float8_e5m2fnuz, float)
+CPU_ACC_TYPE(Float8_e4m3fnuz, float)
+CPU_ACC_TYPE(float, double)
+CPU_ACC_TYPE(double, double)
+CPU_ACC_TYPE(int8_t, int64_t)
+CPU_ACC_TYPE(uint8_t, int64_t)
+CPU_ACC_TYPE(char, int64_t)
+CPU_ACC_TYPE(int16_t, int64_t)
+CPU_ACC_TYPE(int32_t, int64_t)
+CPU_ACC_TYPE(int64_t, int64_t)
+CPU_ACC_TYPE(bool, bool)
+CPU_ACC_TYPE(c10::complex<Half>, c10::complex<float>)
+CPU_ACC_TYPE(c10::complex<float>, c10::complex<double>)
+CPU_ACC_TYPE(c10::complex<double>, c10::complex<double>)
 
 TORCH_API c10::ScalarType toAccumulateType(
     c10::ScalarType type,
 
@@ -343,7 +343,7 @@ struct MetaAllocator final : public at::Allocator {
 
 static MetaAllocator g_meta_alloc;
 
-REGISTER_ALLOCATOR(kMeta, &g_meta_alloc);
+REGISTER_ALLOCATOR(kMeta, &g_meta_alloc)
 
 TensorBase empty_meta(IntArrayRef size, ScalarType dtype,
                      std::optional<c10::MemoryFormat> memory_format_opt) {
 
@@ -1137,8 +1137,8 @@ inline void load_fp32_from_##name(const type *data, Vectorized<float>& out1, Vec
   data += Vectorized<float>::size(); \
   load_fp32_from_##name(data, out2); \
 }
-LOAD_FP32_NON_VECTORIZED_INIT(BFloat16, bf16);
-LOAD_FP32_NON_VECTORIZED_INIT(Half, fp16);
+LOAD_FP32_NON_VECTORIZED_INIT(BFloat16, bf16)
+LOAD_FP32_NON_VECTORIZED_INIT(Half, fp16)
 
 #endif
 }} // namsepace at::vec::CPU_CAPABILITY
 
@@ -2,6 +2,6 @@
 
 namespace at::detail {
 
-C10_REGISTER_GUARD_IMPL(CPU, c10::impl::NoOpDeviceGuardImpl<DeviceType::CPU>);
+C10_REGISTER_GUARD_IMPL(CPU, c10::impl::NoOpDeviceGuardImpl<DeviceType::CPU>)
 
 } // namespace at::detail
@@ -3,6 +3,6 @@
 
 namespace at::detail {
 
-C10_REGISTER_GUARD_IMPL(Meta, c10::impl::NoOpDeviceGuardImpl<DeviceType::Meta>);
+C10_REGISTER_GUARD_IMPL(Meta, c10::impl::NoOpDeviceGuardImpl<DeviceType::Meta>)
 
 } // namespace at::detail
@@ -47,7 +47,7 @@ loss_batch_rule_helper(const at::Tensor& self, std::optional<int64_t> self_bdim,
     return std::make_tuple(result.mean(-1), 0);
   }
   TORCH_INTERNAL_ASSERT(false);
-};
+}
 
 static std::tuple<at::Tensor, std::optional<int64_t>>
 mse_loss_batch_rule(const at::Tensor& self, std::optional<int64_t> self_bdim, const at::Tensor& target,
@@ -56,7 +56,7 @@ mse_loss_batch_rule(const at::Tensor& self, std::optional<int64_t> self_bdim, co
                                 reduction, [](const at::Tensor& self, const at::Tensor& target, int64_t reduction) {
                                   return at::mse_loss(self, target, reduction);
                                 });
-};
+}
 
 static std::tuple<at::Tensor, std::optional<int64_t>>
 huber_loss_batch_rule(const at::Tensor& self, std::optional<int64_t> self_bdim, const at::Tensor& target,
@@ -65,7 +65,7 @@ huber_loss_batch_rule(const at::Tensor& self, std::optional<int64_t> self_bdim,
                                 reduction, [delta](const at::Tensor& self, const at::Tensor& target, int64_t reduction) {
                                   return at::huber_loss(self, target, reduction, delta);
                                 });
-};
+}
 
 static std::tuple<at::Tensor, std::optional<int64_t>>
 smooth_l1_loss_batch_rule(const at::Tensor& self, std::optional<int64_t> self_bdim, const at::Tensor& target,
@@ -74,7 +74,7 @@ smooth_l1_loss_batch_rule(const at::Tensor& self, std::optional<int64_t> self_bd
                                 reduction, [beta](const at::Tensor& self, const at::Tensor& target, int64_t reduction) {
                                   return at::smooth_l1_loss(self, target, reduction, beta);
                                 });
-};
+}
 
 static Tensor apply_loss_reduction(const at::Tensor& unreduced, int64_t reduction) {
   if (reduction == at::Reduction::Mean) {
 
@@ -21,8 +21,8 @@ using _amp_update_scale_cpu__fn = Tensor& (*)(
     double,
     int64_t);
 
-DECLARE_DISPATCH(_amp_foreach_non_finite_check_and_unscale_cpu__fn, _amp_foreach_non_finite_check_and_unscale_cpu_stub);
-DECLARE_DISPATCH(_amp_update_scale_cpu__fn, _amp_update_scale_cpu_stub);
+DECLARE_DISPATCH(_amp_foreach_non_finite_check_and_unscale_cpu__fn, _amp_foreach_non_finite_check_and_unscale_cpu_stub)
+DECLARE_DISPATCH(_amp_update_scale_cpu__fn, _amp_update_scale_cpu_stub)
 
 } // namespace native
 } // namespace at
@@ -226,32 +226,32 @@ void blasTriangularSolve(char side, char uplo, char trans, char diag, int n, int
 #endif
 
 using cholesky_fn = void (*)(const Tensor& /*input*/, const Tensor& /*info*/, bool /*upper*/);
-DECLARE_DISPATCH(cholesky_fn, cholesky_stub);
+DECLARE_DISPATCH(cholesky_fn, cholesky_stub)
 
 using cholesky_inverse_fn = Tensor& (*)(Tensor& /*result*/, Tensor& /*infos*/, bool /*upper*/);
 
-DECLARE_DISPATCH(cholesky_inverse_fn, cholesky_inverse_stub);
+DECLARE_DISPATCH(cholesky_inverse_fn, cholesky_inverse_stub)
 
 using linalg_eig_fn = void (*)(Tensor& /*eigenvalues*/, Tensor& /*eigenvectors*/, Tensor& /*infos*/, const Tensor& /*input*/, bool /*compute_eigenvectors*/);
 
-DECLARE_DISPATCH(linalg_eig_fn, linalg_eig_stub);
+DECLARE_DISPATCH(linalg_eig_fn, linalg_eig_stub)
 
 using geqrf_fn = void (*)(const Tensor& /*input*/, const Tensor& /*tau*/);
-DECLARE_DISPATCH(geqrf_fn, geqrf_stub);
+DECLARE_DISPATCH(geqrf_fn, geqrf_stub)
 
 using orgqr_fn = Tensor& (*)(Tensor& /*result*/, const Tensor& /*tau*/);
-DECLARE_DISPATCH(orgqr_fn, orgqr_stub);
+DECLARE_DISPATCH(orgqr_fn, orgqr_stub)
 
 using ormqr_fn = void (*)(const Tensor& /*input*/, const Tensor& /*tau*/, const Tensor& /*other*/, bool /*left*/, bool /*transpose*/);
-DECLARE_DISPATCH(ormqr_fn, ormqr_stub);
+DECLARE_DISPATCH(ormqr_fn, ormqr_stub)
 
 using linalg_eigh_fn = void (*)(
     const Tensor& /*eigenvalues*/,
     const Tensor& /*eigenvectors*/,
     const Tensor& /*infos*/,
     bool /*upper*/,
     bool /*compute_eigenvectors*/);
-DECLARE_DISPATCH(linalg_eigh_fn, linalg_eigh_stub);
+DECLARE_DISPATCH(linalg_eigh_fn, linalg_eigh_stub)
 
 using lstsq_fn = void (*)(
     const Tensor& /*a*/,
@@ -261,7 +261,7 @@ using lstsq_fn = void (*)(
     Tensor& /*infos*/,
     double /*rcond*/,
     std::string /*driver_name*/);
-DECLARE_DISPATCH(lstsq_fn, lstsq_stub);
+DECLARE_DISPATCH(lstsq_fn, lstsq_stub)
 
 using triangular_solve_fn = void (*)(
     const Tensor& /*A*/,
@@ -270,35 +270,35 @@ using triangular_solve_fn = void (*)(
     bool /*upper*/,
     TransposeType /*transpose*/,
     bool /*unitriangular*/);
-DECLARE_DISPATCH(triangular_solve_fn, triangular_solve_stub);
+DECLARE_DISPATCH(triangular_solve_fn, triangular_solve_stub)
 
 using lu_factor_fn = void (*)(
     const Tensor& /*input*/,
     const Tensor& /*pivots*/,
     const Tensor& /*infos*/,
     bool /*compute_pivots*/);
-DECLARE_DISPATCH(lu_factor_fn, lu_factor_stub);
+DECLARE_DISPATCH(lu_factor_fn, lu_factor_stub)
 
 using unpack_pivots_fn = void(*)(
   TensorIterator& iter,
   const int64_t dim_size,
   const int64_t max_pivot);
-DECLARE_DISPATCH(unpack_pivots_fn, unpack_pivots_stub);
+DECLARE_DISPATCH(unpack_pivots_fn, unpack_pivots_stub)
 
 using lu_solve_fn = void (*)(
     const Tensor& /*LU*/,
     const Tensor& /*pivots*/,
     const Tensor& /*B*/,
     TransposeType /*trans*/);
-DECLARE_DISPATCH(lu_solve_fn, lu_solve_stub);
+DECLARE_DISPATCH(lu_solve_fn, lu_solve_stub)
 
 using ldl_factor_fn = void (*)(
     const Tensor& /*LD*/,
     const Tensor& /*pivots*/,
     const Tensor& /*info*/,
     bool /*upper*/,
     bool /*hermitian*/);
-DECLARE_DISPATCH(ldl_factor_fn, ldl_factor_stub);
+DECLARE_DISPATCH(ldl_factor_fn, ldl_factor_stub)
 
 using svd_fn = void (*)(
     const Tensor& /*A*/,
@@ -309,13 +309,13 @@ using svd_fn = void (*)(
     const Tensor& /*S*/,
     const Tensor& /*Vh*/,
     const Tensor& /*info*/);
-DECLARE_DISPATCH(svd_fn, svd_stub);
+DECLARE_DISPATCH(svd_fn, svd_stub)
 
 using ldl_solve_fn = void (*)(
     const Tensor& /*LD*/,
     const Tensor& /*pivots*/,
     const Tensor& /*result*/,
     bool /*upper*/,
     bool /*hermitian*/);
-DECLARE_DISPATCH(ldl_solve_fn, ldl_solve_stub);
+DECLARE_DISPATCH(ldl_solve_fn, ldl_solve_stub)
 } // namespace at::native