yiliu30
diff --git a/‎torch/csrc/jit/frontend/code_template.h ‎aten/src/ATen/code_template.h
+4-4 b/‎torch/csrc/jit/frontend/code_template.h ‎aten/src/ATen/code_template.h
+4-4
diff --git a/‎aten/src/ATen/native/cuda/Math.cuh
+40 b/‎aten/src/ATen/native/cuda/Math.cuh
+40
diff --git a/‎aten/src/ATen/native/cuda/UnarySpecialOpsKernel.cu
+73-36 b/‎aten/src/ATen/native/cuda/UnarySpecialOpsKernel.cu
+73-36
diff --git a/‎aten/src/ATen/native/cuda/jit_utils.cu
+8-6 b/‎aten/src/ATen/native/cuda/jit_utils.cu
+8-6
@@ -7,8 +7,7 @@
 #include <unordered_map>
 #include <vector>
 
-namespace torch {
-namespace jit {
+namespace at { namespace jit {
 
 // A template environment is a mapping from template variable names, e.g.,
 // identifier (corresponding to $identifier) to their expansions.
@@ -85,6 +84,7 @@ struct TemplateEnv {
     ss << "key not found: " << k;
     throw std::logic_error(ss.str());
   }
+
   std::unordered_map<std::string, std::string> strings_;
   std::unordered_map<std::string, string_list> lists_;
   TemplateEnv* parent;
@@ -238,9 +238,9 @@ struct CodeTemplate {
   }
   std::string template_text;
 };
+
 static inline std::string format(const std::string& fmt, TemplateEnv& env) {
   return CodeTemplate(fmt).format(env);
 }
 
-} // namespace jit
-} // namespace torch
+}} // at::jit
@@ -503,6 +503,46 @@ const auto lgamma_string = jiterator_stringify(
   }
 ); // lgamma_string
 
+const auto exp2_string = jiterator_stringify(
+  template <typename T>
+  T exp2_kernel(T a) {
+    return exp2(a);
+  }
+); // exp2_string
+
+const auto erfc_string = jiterator_stringify(
+  template <typename T>
+  T erfc_kernel(T a) {
+    return erfc(a);
+  }
+); // erfc_string
+
+const auto erfinv_string = jiterator_stringify(
+  template <typename T>
+  T erfinv_kernel(T a) {
+    return erfinv(a);
+  }
+); // erfinv_string
+
+const auto entr_string = jiterator_stringify(
+  template <typename T>
+  T entr(T a) {
+    if (a != a) {
+      return a;
+    }
+
+    if (a > 0) {
+      return -a * log(a);
+    }
+
+    if (a == 0) {
+      return 0;
+    }
+
+    return NEG_INFINITY;
+  }
+); // entr_string
+
 const auto i0_string = jiterator_stringify(
   template<typename T>
   T chbevl(T x, const T array[], const int len) {
 
@@ -19,20 +19,28 @@
 namespace at {
 namespace native {
 
+const char exp2_name[] = "exp2_kernel";
 void exp2_kernel_cuda(TensorIteratorBase& iter) {
-  AT_DISPATCH_FLOATING_TYPES_AND2(
-      ScalarType::Half, ScalarType::BFloat16,
-      iter.common_dtype(), "exp2_cuda",
-      [&]() {
-        gpu_kernel(iter, [] GPU_LAMBDA(scalar_t a) -> scalar_t {
-          return ::exp2(a);
-        });
+  #ifdef USE_JITERATOR
+    AT_DISPATCH_FLOATING_TYPES_AND2(ScalarType::Half, ScalarType::BFloat16, iter.common_dtype(), "exp2_cuda", [&]() {
+      jitted_gpu_kernel</*name=*/exp2_name,
+                        /*return_dtype=*/ scalar_t,
+                        /*common_dtype=*/ scalar_t,
+                        /*arity=*/ 1>(iter, exp2_string);
       });
+  #else
+    AT_DISPATCH_FLOATING_TYPES_AND2(
+        ScalarType::Half, ScalarType::BFloat16,
+        iter.common_dtype(), "exp2_cuda",
+        [&]() {
+          gpu_kernel(iter, [] GPU_LAMBDA(scalar_t a) -> scalar_t {
+            return ::exp2(a);
+          });
+        });
+  #endif
 }
 
-namespace {
 const char i0_name[] = "i0";
-}
 void i0_kernel_cuda(TensorIteratorBase& iter) {
   #ifdef USE_JITERATOR
     AT_DISPATCH_FLOATING_TYPES_AND2(ScalarType::Half, ScalarType::BFloat16, iter.common_dtype(), "i0_cuda", [&]() {
@@ -74,9 +82,8 @@ void i0e_kernel_cuda(TensorIteratorBase& iter) {
 }
 
 // See note [Jiterator]
-namespace {
+
 const char i1_name[] = "i1";
-}
 void i1_kernel_cuda(TensorIteratorBase& iter) {
   #ifdef USE_JITERATOR
     AT_DISPATCH_FLOATING_TYPES(iter.common_dtype(), "i1_cuda", [&]() {
@@ -189,21 +196,41 @@ void erf_kernel_cuda(TensorIteratorBase& iter) {
   });
 }
 
+const char erfc_name[] = "erfc_kernel";
 void erfc_kernel_cuda(TensorIteratorBase& iter) {
-  AT_DISPATCH_FLOATING_TYPES_AND2(ScalarType::Half, ScalarType::BFloat16,
-      iter.common_dtype(), "erfc_cuda", [&]() {
-        gpu_kernel(iter, []GPU_LAMBDA(scalar_t a) -> scalar_t {
-          return ::erfc(a);
-        });
+  #ifdef USE_JITERATOR
+    AT_DISPATCH_FLOATING_TYPES_AND2(ScalarType::Half, ScalarType::BFloat16, iter.common_dtype(), "erfc_cuda", [&]() {
+      jitted_gpu_kernel</*name=*/erfc_name,
+                        /*return_dtype=*/ scalar_t,
+                        /*common_dtype=*/ scalar_t,
+                        /*arity=*/ 1>(iter, erfc_string);
       });
+  #else
+    AT_DISPATCH_FLOATING_TYPES_AND2(ScalarType::Half, ScalarType::BFloat16,
+        iter.common_dtype(), "erfc_cuda", [&]() {
+          gpu_kernel(iter, []GPU_LAMBDA(scalar_t a) -> scalar_t {
+            return ::erfc(a);
+          });
+        });
+  #endif
 }
 
+const char erfinv_name[] = "erfinv_kernel";
 void erfinv_kernel_cuda(TensorIteratorBase& iter) {
-  AT_DISPATCH_FLOATING_TYPES_AND_HALF(iter.common_dtype(), "erfinv_cuda", [&]() {
-    gpu_kernel(iter, []GPU_LAMBDA(scalar_t a) -> scalar_t {
-      return ::erfinv(a);
+  #ifdef USE_JITERATOR
+    AT_DISPATCH_FLOATING_TYPES_AND_HALF(iter.common_dtype(), "erfinv_cuda", [&]() {
+      jitted_gpu_kernel</*name=*/erfinv_name,
+                        /*return_dtype=*/ scalar_t,
+                        /*common_dtype=*/ scalar_t,
+                        /*arity=*/ 1>(iter, erfinv_string);
+      });
+  #else
+    AT_DISPATCH_FLOATING_TYPES_AND_HALF(iter.common_dtype(), "erfinv_cuda", [&]() {
+      gpu_kernel(iter, []GPU_LAMBDA(scalar_t a) -> scalar_t {
+        return ::erfinv(a);
+      });
     });
-  });
+  #endif
 }
 
 const char erfcx_name[] = "erfcx";
@@ -237,24 +264,34 @@ void kaiser_window_kernel_cuda(TensorIteratorBase& iter, int64_t window_length,
   });
 }
 
+const char entr_name[] = "entr";
 void entr_kernel_cuda(TensorIteratorBase& iter) {
-  AT_DISPATCH_FLOATING_TYPES_AND2(
-      ScalarType::Half,
-      ScalarType::BFloat16,
-      iter.common_dtype(),
-      "entr_cuda",
-      [&]() {
-        gpu_kernel(iter, [=] GPU_LAMBDA(scalar_t x) -> scalar_t {
-          if (at::_isnan(x)) {
-            return x;
-          } else if (x > 0) {
-            return -x * std::log(x);
-          } else if (x == 0) {
-            return 0;
-          }
-          return static_cast<scalar_t>(-INFINITY);
-        });
+  #ifdef USE_JITERATOR
+    AT_DISPATCH_FLOATING_TYPES_AND2(ScalarType::Half, ScalarType::BFloat16, iter.common_dtype(), "entr_cuda", [&]() {
+      jitted_gpu_kernel</*name=*/entr_name,
+                        /*return_dtype=*/ scalar_t,
+                        /*common_dtype=*/ scalar_t,
+                        /*arity=*/ 1>(iter, entr_string);
       });
+  #else
+    AT_DISPATCH_FLOATING_TYPES_AND2(
+        ScalarType::Half,
+        ScalarType::BFloat16,
+        iter.common_dtype(),
+        "entr_cuda",
+        [&]() {
+          gpu_kernel(iter, [=] GPU_LAMBDA(scalar_t x) -> scalar_t {
+            if (at::_isnan(x)) {
+              return x;
+            } else if (x > 0) {
+              return -x * std::log(x);
+            } else if (x == 0) {
+              return 0;
+            }
+            return static_cast<scalar_t>(-INFINITY);
+          });
+        });
+  #endif
 }
 
 REGISTER_DISPATCH(exp2_stub, &exp2_kernel_cuda);
 
@@ -1,11 +1,13 @@
 #include <sstream>
 
+#include <c10/core/ScalarType.h>
+#include <c10/util/irange.h>
+#include <c10/cuda/CUDACachingAllocator.h>
 #include <ATen/cuda/CUDAContext.h>
 #include <ATen/cuda/detail/OffsetCalculator.cuh>
-#include <c10/cuda/CUDACachingAllocator.h>
+#include <ATen/code_template.h>
 #include <ATen/native/cuda/jit_utils.h>
-#include <c10/core/ScalarType.h>
-#include <c10/util/irange.h>
+
 
 namespace at { namespace cuda { namespace jit {
 
@@ -582,7 +584,7 @@ std::string generate_code(
     BinaryFuncVariant scalar_pos,
     bool vectorized,
     int vec_size) {
-  TemplateEnv env;
+  at::jit::TemplateEnv env;
   env.s("index_type", "unsigned int");
   const int nInputs = nTensors - 1;
   env.s("nInputs", std::to_string(nInputs));
@@ -661,7 +663,7 @@ std::string generate_code(
     store_outputs << "s.store<" << result_type
                   << ">(out[j], data[0], output_offsets[0]);\n";
     env.s("store_outputs", store_outputs.str());
-    static auto cuda_template = CodeTemplate(jit_common_types + jit_code_template);
+    static auto cuda_template = at::jit::CodeTemplate(jit_common_types + jit_code_template);
     return cuda_template.format(env);
   }
 
@@ -694,7 +696,7 @@ std::string generate_code(
   }
   env.s("load_unrolled_inputs", load_unrolled_inputs.str());
 
-  static auto cuda_template = CodeTemplate(jit_common_types + jit_vectorized_code_template);
+  static auto cuda_template = at::jit::CodeTemplate(jit_common_types + jit_vectorized_code_template);
   return cuda_template.format(env);
 }