yiliu30
diff --git a/‎aten/src/ATen/native/LinearAlgebra.cpp
+15-30 b/‎aten/src/ATen/native/LinearAlgebra.cpp
+15-30
diff --git a/‎aten/src/ATen/native/cpu/int4mm_kernel.cpp
+40-51 b/‎aten/src/ATen/native/cpu/int4mm_kernel.cpp
+40-51
diff --git a/‎aten/src/ATen/native/cpu/int_mm_kernel.h
+2-2 b/‎aten/src/ATen/native/cpu/int_mm_kernel.h
+2-2
diff --git a/‎aten/src/ATen/native/native_functions.yaml
+10-2 b/‎aten/src/ATen/native/native_functions.yaml
+10-2
diff --git a/‎test/expect/HasDecompTest.test_has_decomposition.expect
+2 b/‎test/expect/HasDecompTest.test_has_decomposition.expect
+2
@@ -32,15 +32,15 @@
 #else
 #include <ATen/ops/_addmm_activation_native.h>
 #include <ATen/ops/_compute_linear_combination_native.h>
-#include <ATen/ops/_convert_weight_to_int4pack_native.h>
+#include <ATen/ops/_convert_weight_to_int4pack_for_cpu_native.h>
 #include <ATen/ops/_int_mm_native.h>
 #include <ATen/ops/_linalg_check_errors.h>
 #include <ATen/ops/_linalg_det.h>
 #include <ATen/ops/_linalg_det_native.h>
 #include <ATen/ops/_linalg_slogdet.h>
 #include <ATen/ops/_linalg_slogdet_native.h>
 #include <ATen/ops/_unsafe_view.h>
-#include <ATen/ops/_weight_int4pack_mm_native.h>
+#include <ATen/ops/_weight_int4pack_mm_for_cpu_native.h>
 #include <ATen/ops/_weight_int8pack_mm_native.h>
 #include <ATen/ops/abs.h>
 #include <ATen/ops/addbmm_native.h>
@@ -3436,34 +3436,21 @@ Tensor _convert_weight_to_int4pack_cpu(
 
   TORCH_CHECK(in.dim() == 2,
       __func__, " : expect weight to be 2D tensor.");
-  TORCH_CHECK(in.dtype() == at::kByte,
-      __func__, " : expect weight to be kByte.");
-  TORCH_CHECK(innerKTiles == 2 || innerKTiles == 4 || innerKTiles == 8,
-      __func__, " : innerKTiles need to be 2, 4, or 8, got ", innerKTiles);
+  TORCH_CHECK(in.dtype() == at::kInt,
+      __func__, " : expect weight to be kInt.");
 
   auto weight = in.contiguous();
   auto N = weight.size(0);
-  auto K = weight.size(1) * 2;
-
-  // Create fake shapes for cpu. The meta registration in dynamo requires
-  // operator has the same output shape for each device. So creating a fake
-  // shape {N / 8, K / (16 * innerKTiles), 32, innerKTiles / 2}
-  constexpr int64_t kNTileSize = 8;
-  constexpr int64_t kKTileSize = 16;
-  auto nTiles = (N + kNTileSize - 1) / kNTileSize;
+  auto K = weight.size(1);
 
   TORCH_CHECK(N % 16 == 0,
       __func__, " : expect N to be dividable by 16");
-  const int64_t kSuperKTileSize = kKTileSize * innerKTiles;
-  TORCH_CHECK( K % kSuperKTileSize == 0,
-      __func__, " : epxect K to be dividable by ", kSuperKTileSize);
-  auto kSuperTiles = (K + kSuperKTileSize - 1) / kSuperKTileSize;
+  TORCH_CHECK(K % 2 == 0,
+      "_convert_weight_to_int4pack: expect K to be dividable by 2");
 
-  auto weight_packed = at::empty(
-      {nTiles, kSuperTiles, 32, innerKTiles / 2},
-      at::TensorOptions().dtype(at::kInt));
+  auto weight_packed = at::empty({N, K / 2}, weight.options().dtype(at::kByte));
 
-  weight_to_int4pack_stub(kCPU, weight_packed, weight, N, K);
+  weight_to_int4pack_stub(kCPU, weight_packed, weight);
   return weight_packed;
 }
 
@@ -3473,10 +3460,8 @@ Tensor _weight_int4pack_mm_cpu(
     int64_t qGroupSize,
     const Tensor& qScaleAndZeros) {
 
-  constexpr int64_t kNTileSize = 8;
-
   auto M = A.size(0);
-  auto N = B.size(0) * kNTileSize;
+  auto N = B.size(0);
   auto K = A.size(1);
 
   TORCH_CHECK(A.dtype() == kBFloat16 || A.dtype() == kHalf || A.dtype() == kFloat,
@@ -3486,12 +3471,12 @@ Tensor _weight_int4pack_mm_cpu(
   TORCH_CHECK(A.dim() == 2,
       __func__, " : expect A to be 2D tensor.");
 
-  TORCH_CHECK(B.dtype() == kInt,
-      __func__, " : expect B to be int32 tensor.");
+  TORCH_CHECK(B.dtype() == kByte,
+      __func__, " : expect B to be uint8 tensor.");
   TORCH_CHECK(B.is_contiguous(),
       __func__, " : expect B to be contiguous.");
-  TORCH_CHECK(B.dim() == 4,
-      __func__, " : expect B to 4d tensor.");
+  TORCH_CHECK(B.size(1) == K / 2,
+      __func__, " : expect B.size(1) to be K/2, got ", B.size(1));
 
   TORCH_CHECK(qGroupSize == 32 || qGroupSize == 64 || qGroupSize == 128
       || qGroupSize == 256,
@@ -3502,7 +3487,7 @@ Tensor _weight_int4pack_mm_cpu(
       __func__, ": expect qScaleAndZeros to be 3d tensor with sizes [:, ", N, ", 2]");
 
   auto C = at::empty({M, N}, A.options());
-  int4pack_mm_stub(kCPU, C, A, B, qGroupSize, qScaleAndZeros, N, K);
+  int4pack_mm_stub(kCPU, C, A, B, qGroupSize, qScaleAndZeros);
 
   return C;
 }
 
@@ -605,88 +605,77 @@ inline void tinygemm_kernel(
 //
 void weight_to_int4pack_kernel(
     const Tensor& weight_packed,
-    const Tensor& weight,
-    int N, int K) {
+    const Tensor& weight) {
 
   auto weight_packed_data = reinterpret_cast<uint8_t*>(weight_packed.data_ptr());
-  const auto weight_data = weight.data_ptr<uint8_t>();
+  const auto weight_data = weight.data_ptr<int32_t>();
+
+  int N = weight.size(0);
+  int K = weight.size(1);
 
   // 64 for avx512 and 32 for avx2/non-vectorized
   constexpr int BLOCK_N = vec::Vectorized<float>::size() * 4;
   const int NB =  (N + BLOCK_N - 1) / BLOCK_N;
-  int K_div_2 = K / 2;
 
   // parallel on NB blocks
   at::parallel_for(0, NB, 0, [&](int begin, int end) {
     for (const auto i : c10::irange(begin, end)) {
       int nb_size = std::min(BLOCK_N, N - i * BLOCK_N);
 
-      const uint8_t* src = weight_data + i * BLOCK_N * K_div_2;
+      const int32_t* src = weight_data + i * BLOCK_N * K;
       uint8_t* dst = weight_packed_data + i * K * BLOCK_N / 2;
-      for (const auto k : c10::irange(K_div_2)) {
+      for (const auto k : c10::irange(K)) {
 #if defined(CPU_CAPABILITY_AVX512) && !defined(_MSC_VER)
         if (nb_size == BLOCK_N) {
           for (const auto d : c10::irange(16)) {
-            uint8_t val0 = src[(d + 0) * K_div_2 + k];
-            uint8_t val1 = src[(d + 16) * K_div_2 + k];
-            uint8_t val2 = src[(d + 32) * K_div_2 + k];
-            uint8_t val3 = src[(d + 48) * K_div_2 + k];
-
-            uint8_t packed02_0 = (val2 & 0xF0) | ((val0 & 0xF0) >> 4);
-            uint8_t packed13_0 = (val3 & 0xF0) | ((val1 & 0xF0) >> 4);
-            uint8_t packed02_1 = ((val2 & 0xF) << 4) | (val0 & 0xF);
-            uint8_t packed13_1 = ((val3 & 0xF) << 4) | (val1 & 0xF);
-
-            dst[k * 2 * 32 + d] = packed02_0;
-            dst[k * 2 * 32 + 16 + d] = packed13_0;
-            dst[(k * 2 + 1) * 32 + d] = packed02_1;
-            dst[(k * 2 + 1) * 32 + 16 + d] = packed13_1;
+            int32_t val0 = src[(d +  0) * K + k];
+            int32_t val1 = src[(d + 16) * K + k];
+            int32_t val2 = src[(d + 32) * K + k];
+            int32_t val3 = src[(d + 48) * K + k];
+
+            uint8_t packed02 = (((uint8_t)(val2) << 4)) | ((uint8_t)(val0));
+            uint8_t packed13 = (((uint8_t)(val3) << 4)) | ((uint8_t)(val1));
+
+            dst[k * 32 + d] = packed02;
+            dst[k * 32 + 16 + d] = packed13;
           }
         } else {
           // for nb_size 16, 32, 48
           for (int n = 0; n < nb_size; n += 2) {
-            uint8_t val0 = src[n * K_div_2 + k];
-            uint8_t val1 = src[n * K_div_2 + K_div_2 + k];
+            int32_t val0 = src[n * K + k];
+            int32_t val1 = src[n * K + K + k];
 
-            uint8_t packed_0 = ((val1 & 0xF0)) | ((val0 & 0xF0) >> 4);
-            uint8_t packed_1 = ((val1 & 0xF) << 4) | (val0 & 0xF);
-            dst[k * 2 * nb_size / 2 + n / 2] = packed_0;
-            dst[(k * 2 + 1) * nb_size / 2 + n / 2] = packed_1;
+            uint8_t packed = (((uint8_t)(val1) << 4)) | ((uint8_t)(val0));
+            dst[k * nb_size / 2 + n / 2] = packed;
           }
         }
 #elif defined(CPU_CAPABILITY_AVX2) && !defined(_MSC_VER)
         if (nb_size == BLOCK_N) {
           // for nb_size 32
           for (const auto d : c10::irange(16)) {
-            uint8_t val0 = src[(d + 0) * K_div_2 + k];
-            uint8_t val1 = src[(d + 16) * K_div_2 + k];
+            int32_t val0 = src[(d + 0) * K + k];
+            int32_t val1 = src[(d + 16) * K + k];
 
-            uint8_t packed01_0 = ((val1 & 0xF0) | ((val0 & 0xF0) >> 4));
-            uint8_t packed01_1 = ((val1 & 0xF) << 4) | (val0 & 0xF);
-            dst[k * 2 * 16 + d] = packed01_0;
-            dst[(k * 2 + 1) * 16 + d] = packed01_1;
+            uint8_t packed01 = (((uint8_t)(val1) << 4)) | ((uint8_t)(val0));
+            dst[k * 16 + d] = packed01;
           }
         } else {
           // for nb_size 16
           for (int n = 0; n < nb_size; n += 2) {
-            int32_t val0 = src[n * K_div_2 + k];
-            int32_t val1 = src[n * K_div_2 + K_div_2 + k];
+            int32_t val0 = src[n * K + k];
+            int32_t val1 = src[n * K + K + k];
 
-            uint8_t packed_0 = ((val1 & 0xF0)) | ((val0 & 0xF0) >> 4);
-            uint8_t packed_1 = ((val1 & 0xF) << 4) | (val0 & 0xF);
-            dst[k * 2 * nb_size / 2 + n / 2] = packed_0;
-            dst[(k * 2 + 1) * nb_size / 2 + n / 2] = packed_1;
+            uint8_t packed = (((uint8_t)(val1) << 4)) | ((uint8_t)(val0));
+            dst[k * nb_size / 2 + n / 2] = packed;
           }
         }
 #else
         for (int n = 0; n < nb_size; n += 2) {
-          uint8_t val0 = src[n * K_div_2 + k];
-          uint8_t val1 = src[n * K_div_2 + K_div_2 + k];
+          int32_t val0 = src[n * K + k];
+          int32_t val1 = src[n * K + K + k];
 
-          uint8_t packed_0 = ((val1 & 0xF0)) | ((val0 & 0xF0) >> 4);
-          uint8_t packed_1 = ((val1 & 0xF) << 4) | (val0 & 0xF);
-          dst[k * 2 * nb_size / 2 + n / 2] = packed_0;
-          dst[(k * 2 + 1) * nb_size / 2 + n / 2] = packed_1;
+          uint8_t packed = (((uint8_t)(val1) << 4)) | ((uint8_t)(val0));
+          dst[k * nb_size / 2 + n / 2] = packed;
         }
 #endif
       }
@@ -700,15 +689,16 @@ void int4pack_mm_kernel_(
     const Tensor& A,
     const Tensor& B,
     int qGroupSize,
-    const Tensor& qScaleAndZeros,
-    int N, int K) {
+    const Tensor& qScaleAndZeros) {
 
   const auto* A_data = A.const_data_ptr<T>();
   const auto* B_data = reinterpret_cast<const uint8_t*>(B.const_data_ptr());
   auto* C_data = C.data_ptr<T>();
   const auto* S_data = qScaleAndZeros.const_data_ptr<T>();
 
   int M = A.size(0);
+  int N = B.size(0);
+  int K = A.size(1);
 
   constexpr int BLOCK_M = 4;
   // 64 for avx512 and 32 for avx2/non-vectorized
@@ -762,14 +752,13 @@ void int4pack_mm_kernel(
     const Tensor& A,
     const Tensor& B,
     int qGroupSize,
-    const Tensor& qScaleAndZeros,
-    int N, int K) {
+    const Tensor& qScaleAndZeros) {
   if (C.scalar_type() == kBFloat16) {
-    int4pack_mm_kernel_<BFloat16>(C, A, B, qGroupSize, qScaleAndZeros, N, K);
+    int4pack_mm_kernel_<BFloat16>(C, A, B, qGroupSize, qScaleAndZeros);
   } else if (C.scalar_type() == kHalf) {
-    int4pack_mm_kernel_<Half>(C, A, B, qGroupSize, qScaleAndZeros, N, K);
+    int4pack_mm_kernel_<Half>(C, A, B, qGroupSize, qScaleAndZeros);
   } else {
-    int4pack_mm_kernel_<float>(C, A, B, qGroupSize, qScaleAndZeros, N, K);
+    int4pack_mm_kernel_<float>(C, A, B, qGroupSize, qScaleAndZeros);
   }
 }
 
 
@@ -5,8 +5,8 @@
 
 namespace at::native {
 
-using weight_to_int4pack_fn = void(*)(const Tensor&, const Tensor&, int, int);
-using int4pack_mm_fn = void(*)(const Tensor&, const Tensor&, const Tensor&, int, const Tensor&, int, int);
+using weight_to_int4pack_fn = void(*)(const Tensor&, const Tensor&);
+using int4pack_mm_fn = void(*)(const Tensor&, const Tensor&, const Tensor&, int, const Tensor&);
 using int8pack_mm_fn = void(*)(const Tensor&, const Tensor&, const Tensor&, const Tensor&);
 
 DECLARE_DISPATCH(weight_to_int4pack_fn, weight_to_int4pack_stub)
 
@@ -4149,16 +4149,24 @@
 
 - func: _convert_weight_to_int4pack(Tensor self, int innerKTiles) -> Tensor
   dispatch:
-    CPU: _convert_weight_to_int4pack_cpu
     CUDA: _convert_weight_to_int4pack_cuda
     MPS: _convert_weight_to_int4pack_mps
 
 - func: _weight_int4pack_mm(Tensor self, Tensor mat2, int qGroupSize, Tensor qScaleAndZeros) -> Tensor
   dispatch:
-    CPU: _weight_int4pack_mm_cpu
     MPS: _weight_int4pack_mm_mps
     CUDA: _weight_int4pack_mm_cuda
 
+# Split int4 pack weight between cpu and other devices due to
+# https://github.com/pytorch/ao/issues/1117#issuecomment-2451252756.
+- func: _convert_weight_to_int4pack_for_cpu(Tensor self, int innerKTiles) -> Tensor
+  dispatch:
+    CPU: _convert_weight_to_int4pack_cpu
+
+- func: _weight_int4pack_mm_for_cpu(Tensor self, Tensor mat2, int qGroupSize, Tensor qScaleAndZeros) -> Tensor
+  dispatch:
+    CPU: _weight_int4pack_mm_cpu
+
 - func: _weight_int8pack_mm(Tensor self, Tensor mat2, Tensor scales) -> Tensor
   dispatch:
     CPU: _weight_int8pack_mm_cpu
 
@@ -57,6 +57,7 @@ aten::_convert_indices_from_coo_to_csr.out
 aten::_convert_indices_from_csr_to_coo
 aten::_convert_indices_from_csr_to_coo.out
 aten::_convert_weight_to_int4pack
+aten::_convert_weight_to_int4pack_for_cpu
 aten::_convolution
 aten::_convolution.out
 aten::_copy_from
@@ -637,6 +638,7 @@ aten::_values
 aten::_values_copy
 aten::_values_copy.out
 aten::_weight_int4pack_mm
+aten::_weight_int4pack_mm_for_cpu
 aten::_weight_int8pack_mm
 aten::_weight_norm_interface_backward
 aten::_weight_norm_interface_backward.out