Add fused top-K softmax kernel for MoE (#2769)

2024-02-05 17:38:02 -08:00
parent 2ccee3def6
commit f0d4e14557
9 changed files with 591 additions and 50 deletions
--- a/csrc/pybind.cpp
+++ b/csrc/pybind.cpp
@ -48,8 +48,8 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
    &rotary_embedding,
    "Apply GPT-NeoX or GPT-J style rotary embedding to query and key");

-#ifndef USE_ROCM
  // Quantization ops
+#ifndef USE_ROCM
  ops.def("awq_gemm", &awq_gemm, "Quantized GEMM for AWQ");
  ops.def("awq_dequantize", &awq_dequantize, "Dequantization for AWQ");
 #endif