vllm/quantization at df29793dc73a83f3c86c19de967adffda1a28a93 - vllm

Files

Philipp Moritz 12628d3c78 [Kernel] Optimize FP8 support for MoE kernel / Mixtral via static scales (#4343 )

Co-authored-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>

2024-04-27 04:49:59 +00:00

AQLM CUDA support (#3287 )

2024-04-23 13:59:33 -04:00

2024-02-12 11:02:17 -08:00

2024-04-27 04:49:59 +00:00

2024-02-01 09:35:09 -08:00

2024-04-11 16:35:51 -04:00

2024-04-24 10:35:01 -07:00

2024-01-03 09:52:29 -08:00