youngkingdom/vllm - vllm - Gitea: Git with a cup of tea

Author	SHA1	Message	Date
Ilya Markov	60f76baa66	[Misc] Replace CUDA_VISIBLE_DEVICES in DP with torch.cuda.set_device for device selection on cuda-like devices (#27564 ) Signed-off-by: ilmarkov <markovilya197@gmail.com> Co-authored-by: Tyler Michael Smith <tlrmchlsmth@gmail.com>	2025-10-30 11:41:44 -04:00
Varun Sundar Rabindranath	e5e076cad7	[BugFix] Stopgap - Flashinfer Autotuner + GPT-OSS + DP/TP (#27762 ) Signed-off-by: Varun Sundar Rabindranath <vsundarr@redhat.com> Co-authored-by: Varun Sundar Rabindranath <vsundarr@redhat.com>	2025-10-30 08:24:31 -07:00
Li, Jiang	eebf00cb0c	[Bugfix][CPU] Fix MRoPE dispatch on the CPU backend (#27800 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2025-10-30 15:12:05 +00:00
Fan Yin	9956aae4ea	[Model][Ouro] Support Ouro Model (#27794 ) Signed-off-by: yinfan.1024 <yinfan.1024@bytedance.com> Signed-off-by: youkaichao <youkaichao@gmail.com> Co-authored-by: yinfan.1024 <yinfan.1024@bytedance.com> Co-authored-by: youkaichao <youkaichao@gmail.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2025-10-30 22:34:41 +08:00
Zhewen Li	0fe0140408	[KV offload] Enable CPU KV offload on CUDA alike Platforms (#27770 ) Signed-off-by: zhewenli <zhewenli@meta.com>	2025-10-30 22:10:29 +08:00
Zhiyuan Li	4e68cc9b6a	[Model] Introduce Kimi Linear to vLLM (#27809 ) Signed-off-by: lizhiyuan <lizhiyuan@moonshot.cn> Signed-off-by: Zhiyuan Li <uniartisan2017@gmail.com>	2025-10-30 21:02:27 +08:00
Huamin Li	1994de99ea	[CI Failure] Fix test_kv_cache_model_load_and_run (#27717 ) Signed-off-by: Huamin Li <3ericli@gmail.com>	2025-10-30 12:27:53 +00:00
wang.yuqi	4464723f22	[Frontend][Doc][5/N] Improve all pooling task \| Polish encode (pooling) api & Document. (#25524 ) Signed-off-by: wang.yuqi <noooop@126.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>	2025-10-30 12:13:05 +00:00
Sairam Pillai	74374386e2	[Bugfix] Improve GPU validation logging in Ray fallback scenarios (#25775 ) Signed-off-by: Sairam Pillai <sairam.pillai61@gmail.com>	2025-10-30 11:57:59 +00:00
Wentao Ye	c01f6e525f	[CI] Fix mypy for `vllm/v1/core` and `vllm/v1/engine` (#27108 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-30 11:32:17 +00:00
Huamin Li	c7d2a554ba	[CI Failure] fix test_default_mm_loras (#27795 ) Signed-off-by: Huamin Li <3ericli@gmail.com>	2025-10-30 18:13:03 +08:00
wangxiyuan	af826e0820	[V0 deprecation] Remove VLLM_USE_V1 usage in config module (#27784 ) Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>	2025-10-30 09:42:49 +00:00
Zhewen Li	e806178d2a	[BugFix][VL] Fix FA selection on Qwen2.5-VL (#27790 ) Signed-off-by: zhewenli <zhewenli@meta.com> Co-authored-by: Roger Wang <hey@rogerw.io>	2025-10-30 07:54:44 +00:00
Huamin Li	5be1bed790	[CI/Build]Add eval config for Qwen3-235B-A22B-Instruct-2507-FP8 (#27113 ) Signed-off-by: Huamin Li <3ericli@gmail.com>	2025-10-30 07:50:56 +00:00
yitingdc	31b55ffc62	use stringData in secret yaml to store huggingface token (#25685 ) Signed-off-by: yiting.jiang <yiting.jiang@daocloud.io>	2025-10-30 00:47:36 -07:00
Bram Wasti	ded8ada86a	Add more dims for batch invariant shims (#27489 ) Signed-off-by: Bram Wasti <bwasti@meta.com> Signed-off-by: Bram Wasti <bwasti@fb.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-10-30 05:28:45 +00:00
Kuntai Du	8bff831f0a	[Benchmark] Cleanup deprecated nightly benchmark and adjust the docstring for performance benchmark (#25786 ) Signed-off-by: KuntaiDu <kuntai@uchicago.edu>	2025-10-30 04:43:37 +00:00
Lucas Wilkinson	b5d70751d8	[BugFix] Reordering extend logic fix (#27739 ) Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>	2025-10-29 21:39:34 -07:00
Fardin Hoque	b8c48c5d72	kernels/moe test pruning (#27053 ) Signed-off-by: Fardin Hoque <kfhfar@amazon.com> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>	2025-10-30 12:10:34 +08:00
Benjamin Bartels	17d055f527	[Feat] Adds runai distributed streamer (#27230 ) Signed-off-by: bbartels <benjamin@bartels.dev> Signed-off-by: Benjamin Bartels <benjamin@bartels.dev> Co-authored-by: omer-dayan <omdayan@nvidia.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2025-10-29 21:09:10 -07:00
Nick Hill	2ce5c5d3d6	[BugFix] Handle unscheduled requests properly when async scheduling (#27756 ) Signed-off-by: Nick Hill <nhill@redhat.com>	2025-10-29 21:04:25 -07:00
Kunshang Ji	b5bae42f91	[XPU] Update latest IPEX 2.8 release (#27735 ) Signed-off-by: Kunshang Ji <kunshang.ji@intel.com>	2025-10-30 11:17:13 +08:00
Chen Zhang	d7fb10c574	[Bugfix] mamba-block-size is set for vision language model (#27773 ) Signed-off-by: Chen Zhang <zhangch99@outlook.com>	2025-10-29 19:39:57 -07:00
Yan Ma	b798e39f93	[XPU][bugfix] fix rope for llama4 and deepseek (#25145 ) Signed-off-by: Yan Ma <yan.ma@intel.com>	2025-10-30 09:43:13 +08:00
Chenheli Hua	48eb8eba58	[Temp fix] Disable torch.compile for Qwen2.5 VL's VisionBlock temporarily. (#27760 ) Signed-off-by: Chenheli Hua <huachenheli@outlook.com> Signed-off-by: Roger Wang <hey@rogerw.io> Co-authored-by: Roger Wang <hey@rogerw.io>	2025-10-29 23:17:48 +00:00
Wentao Ye	b5d90f7400	[Bug] Fix DBO IMA issue for DeepEPHT (#27666 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-29 16:28:27 -04:00
Nick Hill	d4aa144343	[BugFix] Fix handling of resumed reqs in `SharedStorageConnector` (#27719 ) Signed-off-by: Nick Hill <nhill@redhat.com>	2025-10-29 20:16:52 +00:00
Wentao Ye	fcb1d570bb	[Bug] Fix DeepEP low latency `assert self.batched_router_logits.size(-1) == full_router_logits.size(-1)` Bug (#27682 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-29 14:50:39 -04:00
Nicolò Lucchesi	accb8fab07	[KVConnector] Add metrics to Prometheus-Grafana dashboard (#26811 ) Signed-off-by: NickLucche <nlucches@redhat.com> Signed-off-by: Mark McLoughlin <markmc@redhat.com> Co-authored-by: Mark McLoughlin <markmc@redhat.com>	2025-10-29 18:44:49 +00:00
Wentao Ye	5b0448104f	[Bug] Raise error explicitly if using incompatible backend (#27424 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-29 13:29:20 -04:00
22quinn	f7a6682872	[CI/Build] Test torchrun with 8 cards (#27548 ) Signed-off-by: 22quinn <33176974+22quinn@users.noreply.github.com>	2025-10-29 10:26:06 -07:00
Boyuan Feng	a9fe0793f2	`use_aot_compile` should respect `VLLM_DISABLE_COMPILE_CACHE` (#27698 ) Signed-off-by: Boyuan Feng <boyuan@meta.com>	2025-10-29 17:08:54 +00:00
JartX	7568a282b9	[FIXBUG] Qwen3VL hallucinations without Contiguous on Torch.SDPA (#27744 ) Signed-off-by: JartX <sagformas@epdcenter.es> Co-authored-by: Lukas Geiger <lukas.geiger94@gmail.com>	2025-10-29 16:55:35 +00:00
Braulio Dumba	1da3309ace	[Core] Exposing engine sleep & wake_up state as prometheus metrics (#24176 ) Signed-off-by: Braulio Dumba <Braulio.Dumba@ibm.com>	2025-10-29 09:32:01 -07:00
Wentao Ye	5522fb274b	[Chore] Optimize P2PNCCLEngine `http_address` (#27488 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-30 00:05:09 +08:00
Nicolò Lucchesi	0f95a1c3f2	[CI] Fix flaky `test_two_responses_with_same_prev_id` test (#27745 ) Signed-off-by: NickLucche <nlucches@redhat.com>	2025-10-29 15:10:35 +00:00
Xiake Sun	ded24e3e54	[ROCm][Platform] Add MI308X device id in _ROCM_DEVICE_ID_NAME_MAP (#27623 ) Signed-off-by: Xiake Sun <xiake.sun@amd.com>	2025-10-29 14:44:03 +00:00
Roger Young	d6704dd099	Fix MiniMax-M2 rmsnorm precision and remove useless code (#27627 ) Signed-off-by: xuebi <xuebi@minimaxi.com> Co-authored-by: xuebi <xuebi@minimaxi.com>	2025-10-29 21:01:05 +08:00
Cyrus Leung	ecca3fee76	[Frontend] Add `vllm bench sweep` to CLI (#27639 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-29 05:59:48 -07:00
Zhewen Li	9a0d2f0d92	[CI/Build] Skip cpu offloading test on AMD (#27690 ) Signed-off-by: zhewenli <zhewenli@meta.com>	2025-10-29 12:55:51 +00:00
Isotr0py	ad3ec89532	[VLM] Add Qwen3-VL generation test (#25185 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Signed-off-by: Roger Wang <hey@rogerw.io> Co-authored-by: Roger Wang <hey@rogerw.io>	2025-10-29 12:19:37 +00:00
Kevin H. Luu	3481e40743	[chore] Remove models weight on S3 logic (#27725 ) Signed-off-by: kevin <kevin@anyscale.com>	2025-10-29 10:29:49 +00:00
Eugene Khvedchenya	5e72216d17	Feature/video support in random mm dataset (#25963 ) Signed-off-by: Eugene Khvedchenia <ekhvedchenia@nvidia.com> Signed-off-by: Eugene Khvedchenya <ekhvedchenia@nvidia.com> Co-authored-by: Roger Wang <hey@rogerw.io>	2025-10-29 18:24:52 +08:00
Isotr0py	1a33aacf82	[Misc] Raise error for missing video metadata in `MultiModalDataParser` (#27664 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Signed-off-by: Isotr0py <2037008807@qq.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-10-29 10:06:42 +00:00
Yue Zhang	7ba6aa8f56	[Fix] import get_kv_cache_torch_dtype error in LMCacheConnector integration (#27670 ) Signed-off-by: KevinCheung2259 <2651309292@qq.com>	2025-10-29 10:03:54 +00:00
Alec S	ab2eb27b74	[Frontend] [gpt-oss] Mcp type bug (#27689 ) Signed-off-by: Jialin Ouyang <Jialin.Ouyang@gmail.com> Signed-off-by: Alec Solder <alecs@fb.com> Signed-off-by: Ye (Charlotte) Qi <yeq@meta.com> Co-authored-by: Jialin Ouyang <Jialin.Ouyang@gmail.com> Co-authored-by: Alec Solder <alecs@fb.com> Co-authored-by: Ye (Charlotte) Qi <yeq@meta.com>	2025-10-29 10:01:32 +00:00
Alec S	3c7fefdeba	[Frontend] [gpt-oss] Tool json call parsing error retry (#27675 ) Signed-off-by: Jialin Ouyang <Jialin.Ouyang@gmail.com> Signed-off-by: Alec Solder <alecs@fb.com> Signed-off-by: Ye (Charlotte) Qi <yeq@meta.com> Co-authored-by: Jialin Ouyang <Jialin.Ouyang@gmail.com> Co-authored-by: Alec Solder <alecs@fb.com> Co-authored-by: Ye (Charlotte) Qi <yeq@meta.com>	2025-10-29 09:42:44 +00:00
bnellnm	1891cf605a	[Bugfix] Fix modular kernel tests (#27707 ) Signed-off-by: Bill Nell <bnell@redhat.com>	2025-10-29 16:14:33 +08:00
Jiangyun Zhu	8df98c2161	[perf] Enable concurrent execution of "shared_experts" and "selected_experts" in qwen3-next (#27578 ) Signed-off-by: zjy0516 <riverclouds.zhu@qq.com>	2025-10-29 08:12:54 +00:00
Cyrus Leung	4fb8771cc0	[CI/Build] Move pre-commit only scripts to `tools/pre_commit` (#27657 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-10-29 08:04:33 +00:00

1 2 3 4 5 ...

10867 Commits