vllm/neuron at bb78fb318e69f2e5e42ad2f6cf7dd050330c8643 - vllm

Files

Lingfan Yu 33170081f1 [Neuron][Kernel] Vectorize KV cache load in FlashPagedAttention to maximize DMA bandwidth (#13245 )

Signed-off-by: Lingfan Yu <lingfany@amazon.com>

2025-02-20 17:45:45 -08:00

test_block_table.py

2025-02-20 17:45:45 -08:00

test_prefix_prefill.py

2025-02-20 17:45:45 -08:00