youngkingdom/vllm - vllm - Gitea: Git with a cup of tea

Author	SHA1	Message	Date
yewentao256	620ad799ba	Merge branch 'main' into wentao-refactor-batch-invariant-fp8-deepgemm Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-30 13:45:20 -07:00
Paul Zhang	e7acb20076	[Feature] Batch invariant torch.compile (#27660 ) Signed-off-by: PaulZhang12 <paulzhan@fb.com> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>	2025-10-30 13:11:29 -07:00
Jialin Ouyang	4b68c4a55b	[Core][Perf] Only invoke save_new_computed_blocks when computed blocks are not empty (#27799 ) Signed-off-by: Jialin Ouyang <Jialin.Ouyang@gmail.com>	2025-10-30 19:47:30 +00:00
Wentao Ye	f0756a5b25	Merge branch 'main' into wentao-refactor-batch-invariant-fp8-deepgemm	2025-10-30 15:33:10 -04:00
Wentao Ye	a8141fa649	[Refactor] Remove `VLLM_DEEPEP_LOW_LATENCY_ALLOW_NVLINK` (#27750 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-30 15:32:39 -04:00
Sumanth R Hegde	4917002523	[Fix] Skip `record_sleep_state` logic in `PrometheusStatsLogger` if not in dev mode (#27789 ) Signed-off-by: SumanthRH <sumanthrh99@gmail.com>	2025-10-30 19:26:27 +00:00
cong-meta	a2981c4272	[EP/DP][API Server] Enable DP-aware routing in OpenAI API requests (#24945 ) Co-authored-by: Cong Chen <prowindy@gmail.com>	2025-10-30 12:10:16 -07:00
Jialin Ouyang	4574d48bab	[Core][Bookkeeping] Update cu_num_accepted_tokens for all req_index (#27629 ) Signed-off-by: Jialin Ouyang <Jialin.Ouyang@gmail.com>	2025-10-30 11:52:36 -07:00
Tyler Michael Smith	ab98f6556f	[Bugfix] Fix 2 precommit issues - (mamba_block_size, kv_cache_config) (#27811 ) Signed-off-by: Tyler Michael Smith <tlrmchlsmth@gmail.com> Signed-off-by: Tyler Michael Smith <tysmith@redhat.com> Co-authored-by: Nick Hill <nhill@redhat.com>	2025-10-30 11:52:18 -07:00
Roger Meier	2918c1b49c	[Model] Use the same fused_moe configs for all H200 devices (#23642 ) Signed-off-by: Roger Meier <r.meier@siemens.com> v0.11.1rc5	2025-10-30 17:36:56 +00:00
Mengqing Cao	1004205795	[MTP] Refactor mtp predictor to avoid d2h operation (#27643 ) Signed-off-by: MengqingCao <cmq0113@163.com>	2025-10-30 17:27:39 +00:00
Huy Do	ba33e8830d	Reapply "Install pre-built xformers-0.0.32.post2 built with pt-2.9.0" (#27768 ) Signed-off-by: Huy Do <huydhn@gmail.com>	2025-10-30 10:22:30 -07:00
Kebe	33a0ea5f32	[Docs] add Shanghai Meetup - 2025/10 (#27545 ) Signed-off-by: Kebe <mail@kebe7jun.com> Signed-off-by: esmeetu <jasonailu87@gmail.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com> Co-authored-by: esmeetu <jasonailu87@gmail.com>	2025-10-31 00:33:13 +08:00
Ilya Markov	60f76baa66	[Misc] Replace CUDA_VISIBLE_DEVICES in DP with torch.cuda.set_device for device selection on cuda-like devices (#27564 ) Signed-off-by: ilmarkov <markovilya197@gmail.com> Co-authored-by: Tyler Michael Smith <tlrmchlsmth@gmail.com>	2025-10-30 11:41:44 -04:00
Varun Sundar Rabindranath	e5e076cad7	[BugFix] Stopgap - Flashinfer Autotuner + GPT-OSS + DP/TP (#27762 ) Signed-off-by: Varun Sundar Rabindranath <vsundarr@redhat.com> Co-authored-by: Varun Sundar Rabindranath <vsundarr@redhat.com>	2025-10-30 08:24:31 -07:00
Li, Jiang	eebf00cb0c	[Bugfix][CPU] Fix MRoPE dispatch on the CPU backend (#27800 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2025-10-30 15:12:05 +00:00
Wentao Ye	6c5382d06e	Merge branch 'main' into wentao-refactor-batch-invariant-fp8-deepgemm	2025-10-30 10:42:20 -04:00
Fan Yin	9956aae4ea	[Model][Ouro] Support Ouro Model (#27794 ) Signed-off-by: yinfan.1024 <yinfan.1024@bytedance.com> Signed-off-by: youkaichao <youkaichao@gmail.com> Co-authored-by: yinfan.1024 <yinfan.1024@bytedance.com> Co-authored-by: youkaichao <youkaichao@gmail.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2025-10-30 22:34:41 +08:00
Zhewen Li	0fe0140408	[KV offload] Enable CPU KV offload on CUDA alike Platforms (#27770 ) Signed-off-by: zhewenli <zhewenli@meta.com>	2025-10-30 22:10:29 +08:00
Zhiyuan Li	4e68cc9b6a	[Model] Introduce Kimi Linear to vLLM (#27809 ) Signed-off-by: lizhiyuan <lizhiyuan@moonshot.cn> Signed-off-by: Zhiyuan Li <uniartisan2017@gmail.com>	2025-10-30 21:02:27 +08:00
Huamin Li	1994de99ea	[CI Failure] Fix test_kv_cache_model_load_and_run (#27717 ) Signed-off-by: Huamin Li <3ericli@gmail.com>	2025-10-30 12:27:53 +00:00
wang.yuqi	4464723f22	[Frontend][Doc][5/N] Improve all pooling task \| Polish encode (pooling) api & Document. (#25524 ) Signed-off-by: wang.yuqi <noooop@126.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>	2025-10-30 12:13:05 +00:00
Sairam Pillai	74374386e2	[Bugfix] Improve GPU validation logging in Ray fallback scenarios (#25775 ) Signed-off-by: Sairam Pillai <sairam.pillai61@gmail.com>	2025-10-30 11:57:59 +00:00
Wentao Ye	c01f6e525f	[CI] Fix mypy for `vllm/v1/core` and `vllm/v1/engine` (#27108 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-30 11:32:17 +00:00
Huamin Li	c7d2a554ba	[CI Failure] fix test_default_mm_loras (#27795 ) Signed-off-by: Huamin Li <3ericli@gmail.com>	2025-10-30 18:13:03 +08:00
wangxiyuan	af826e0820	[V0 deprecation] Remove VLLM_USE_V1 usage in config module (#27784 ) Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>	2025-10-30 09:42:49 +00:00
Zhewen Li	e806178d2a	[BugFix][VL] Fix FA selection on Qwen2.5-VL (#27790 ) Signed-off-by: zhewenli <zhewenli@meta.com> Co-authored-by: Roger Wang <hey@rogerw.io>	2025-10-30 07:54:44 +00:00
Huamin Li	5be1bed790	[CI/Build]Add eval config for Qwen3-235B-A22B-Instruct-2507-FP8 (#27113 ) Signed-off-by: Huamin Li <3ericli@gmail.com>	2025-10-30 07:50:56 +00:00
yitingdc	31b55ffc62	use stringData in secret yaml to store huggingface token (#25685 ) Signed-off-by: yiting.jiang <yiting.jiang@daocloud.io>	2025-10-30 00:47:36 -07:00
Bram Wasti	ded8ada86a	Add more dims for batch invariant shims (#27489 ) Signed-off-by: Bram Wasti <bwasti@meta.com> Signed-off-by: Bram Wasti <bwasti@fb.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-10-30 05:28:45 +00:00
Kuntai Du	8bff831f0a	[Benchmark] Cleanup deprecated nightly benchmark and adjust the docstring for performance benchmark (#25786 ) Signed-off-by: KuntaiDu <kuntai@uchicago.edu>	2025-10-30 04:43:37 +00:00
Lucas Wilkinson	b5d70751d8	[BugFix] Reordering extend logic fix (#27739 ) Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>	2025-10-29 21:39:34 -07:00
Fardin Hoque	b8c48c5d72	kernels/moe test pruning (#27053 ) Signed-off-by: Fardin Hoque <kfhfar@amazon.com> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>	2025-10-30 12:10:34 +08:00
Benjamin Bartels	17d055f527	[Feat] Adds runai distributed streamer (#27230 ) Signed-off-by: bbartels <benjamin@bartels.dev> Signed-off-by: Benjamin Bartels <benjamin@bartels.dev> Co-authored-by: omer-dayan <omdayan@nvidia.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2025-10-29 21:09:10 -07:00
Nick Hill	2ce5c5d3d6	[BugFix] Handle unscheduled requests properly when async scheduling (#27756 ) Signed-off-by: Nick Hill <nhill@redhat.com>	2025-10-29 21:04:25 -07:00
Kunshang Ji	b5bae42f91	[XPU] Update latest IPEX 2.8 release (#27735 ) Signed-off-by: Kunshang Ji <kunshang.ji@intel.com>	2025-10-30 11:17:13 +08:00
Chen Zhang	d7fb10c574	[Bugfix] mamba-block-size is set for vision language model (#27773 ) Signed-off-by: Chen Zhang <zhangch99@outlook.com>	2025-10-29 19:39:57 -07:00
Yan Ma	b798e39f93	[XPU][bugfix] fix rope for llama4 and deepseek (#25145 ) Signed-off-by: Yan Ma <yan.ma@intel.com>	2025-10-30 09:43:13 +08:00
Chenheli Hua	48eb8eba58	[Temp fix] Disable torch.compile for Qwen2.5 VL's VisionBlock temporarily. (#27760 ) Signed-off-by: Chenheli Hua <huachenheli@outlook.com> Signed-off-by: Roger Wang <hey@rogerw.io> Co-authored-by: Roger Wang <hey@rogerw.io>	2025-10-29 23:17:48 +00:00
Wentao Ye	b5d90f7400	[Bug] Fix DBO IMA issue for DeepEPHT (#27666 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-29 16:28:27 -04:00
Nick Hill	d4aa144343	[BugFix] Fix handling of resumed reqs in `SharedStorageConnector` (#27719 ) Signed-off-by: Nick Hill <nhill@redhat.com>	2025-10-29 20:16:52 +00:00
Wentao Ye	fcb1d570bb	[Bug] Fix DeepEP low latency `assert self.batched_router_logits.size(-1) == full_router_logits.size(-1)` Bug (#27682 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-29 14:50:39 -04:00
Nicolò Lucchesi	accb8fab07	[KVConnector] Add metrics to Prometheus-Grafana dashboard (#26811 ) Signed-off-by: NickLucche <nlucches@redhat.com> Signed-off-by: Mark McLoughlin <markmc@redhat.com> Co-authored-by: Mark McLoughlin <markmc@redhat.com>	2025-10-29 18:44:49 +00:00
Wentao Ye	5b0448104f	[Bug] Raise error explicitly if using incompatible backend (#27424 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-29 13:29:20 -04:00
22quinn	f7a6682872	[CI/Build] Test torchrun with 8 cards (#27548 ) Signed-off-by: 22quinn <33176974+22quinn@users.noreply.github.com>	2025-10-29 10:26:06 -07:00
Boyuan Feng	a9fe0793f2	`use_aot_compile` should respect `VLLM_DISABLE_COMPILE_CACHE` (#27698 ) Signed-off-by: Boyuan Feng <boyuan@meta.com>	2025-10-29 17:08:54 +00:00
JartX	7568a282b9	[FIXBUG] Qwen3VL hallucinations without Contiguous on Torch.SDPA (#27744 ) Signed-off-by: JartX <sagformas@epdcenter.es> Co-authored-by: Lukas Geiger <lukas.geiger94@gmail.com>	2025-10-29 16:55:35 +00:00
Braulio Dumba	1da3309ace	[Core] Exposing engine sleep & wake_up state as prometheus metrics (#24176 ) Signed-off-by: Braulio Dumba <Braulio.Dumba@ibm.com>	2025-10-29 09:32:01 -07:00
Wentao Ye	5522fb274b	[Chore] Optimize P2PNCCLEngine `http_address` (#27488 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-30 00:05:09 +08:00
Nicolò Lucchesi	0f95a1c3f2	[CI] Fix flaky `test_two_responses_with_same_prev_id` test (#27745 ) Signed-off-by: NickLucche <nlucches@redhat.com>	2025-10-29 15:10:35 +00:00

1 2 3 4 5 ...

10884 Commits