youngkingdom/vllm - vllm - Gitea: Git with a cup of tea

Author	SHA1	Message	Date
Cyrus Leung	6e9229e919	[CI/Build] Skip Qwen3-VL initialization tests until models are actually released (#25394 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Or Ozeri	ff54b6bfe3	[KV offload][5/N] Add `CPUOffloadingSpec` (#24251 ) Signed-off-by: Or Ozeri <oro@il.ibm.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Luka Govedič	6dbbecd5b2	[torch.compile] Cleanup compilation tests and custom passes, add debug utils, fix DCE bug (#23091 ), fix test (#24376 ), and prep for custom op matching (#24604 ) (#24542 ) Signed-off-by: Luka Govedič <lgovedic@redhat.com> Signed-off-by: luka <lgovedic@redhat.com> Signed-off-by: Luka Govedič <ProExpertProg@users.noreply.github.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Lucia Fang	d988b84e8e	[DP] support torchrun external launcher with Data Parallelism (#24899 ) Signed-off-by: Lu Fang <fanglu@fb.com> Signed-off-by: Zhuohan Li <zhuohan123@gmail.com> Co-authored-by: Zhuohan Li <zhuohan123@gmail.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Daisy-Ma-coder	2a8bd2b93b	[CLI env var] Add VLLM_FLASH_ATTN_MAX_NUM_SPLITS_FOR_CUDA_GRAPH in env variables (#25274 ) Signed-off-by: qqma <qqma@amazon.com> Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Co-authored-by: qqma <qqma@amazon.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Nicolò Lucchesi	4bc6b5d2c3	[TPU] Deprecate `xm.mark_step` in favor of ``torch_xla.sync` (#25254 ) Signed-off-by: NickLucche <nlucches@redhat.com> Co-authored-by: Ye (Charlotte) Qi <yeq@meta.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Cyrus Leung	2f237d3df4	[V0 Deprecation] Remove `MultiModalPlaceholderMap` (#25366 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Cyrus Leung	243c358fa8	[V0 Deprecation] Remove V0-only methods in multi-modal registry (#25362 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
WeiQing Chen	1b3aa0f297	[Bugfix] Fix hermes tool parser handling of non-string argument types (#22002 ) Signed-off-by: wangzi <3220100013@zju.edu.cn> Signed-off-by: David Chen <530634352@qq.com> Co-authored-by: wangzi <3220100013@zju.edu.cn> Co-authored-by: Chauncey <chaunceyjiang@gmail.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
WeiQing Chen	dba6db9937	[Docs] GSM8K Accuracy Evaluation doc update (#25360 ) Signed-off-by: David Chen <530634352@qq.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Roger Wang	5322390f1d	[Model] Support Dots OCR (#24645 ) Signed-off-by: Roger Wang <hey@rogerw.io> Co-authored-by: yinz-aizip <yinz@aizip.ai> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Deboleina	5f6a36054a	Multimodal - audio tests (#25285 ) Signed-off-by: Debolina Roy <debroy@redhat.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Yang Liu	e348e1027c	[Bugfix][V0 Deprecation][CI] use async mock and await for async method (#25325 ) Signed-off-by: Yang <lymailforjob@gmail.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Woosuk Kwon	a815d820ee	Remove V0 attention backends (#25351 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Woosuk Kwon	b81364a7cd	[V0 Deprecation] Remove V0 sampling metadata (#25345 ) Signed-off-by: Woosuk Kwon <woosuk@thinkingmachines.ai> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Rahul Tuli	791089df20	feat: Enable engine-level arguments with speculators models (#25250 ) Signed-off-by: Rahul Tuli <rtuli@redhat.com> Co-authored-by: Claude <noreply@anthropic.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Woosuk Kwon	71f2b5ddea	[V0 Deprecation] Remove async_output_proc, preemption mode, delay factor (#25334 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Woosuk Kwon	81e17a1e26	[V0 Deprecation] Remove V0 Sequence class & Sampler (#25332 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu> Signed-off-by: Woosuk Kwon <woosuk@thinkingmachines.ai> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Isotr0py	f6278e3065	[V1] Add sliding window support to Flex Attention backend (#24089 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Woosuk Kwon	86fdd686be	[CI] Skip tests failing on main (#25326 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Woosuk Kwon	171592330b	[Chore] Remove unused sampler in models (#25324 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Woosuk Kwon	4bb2eb42d4	[V0 Deprecation] Remove V0 Output Processor (#25320 ) Signed-off-by: Woosuk Kwon <woosuk@thinkingmachines.ai> Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Woosuk Kwon	32d43a5a9e	[V0 Deprecation] Remove LLMEngine (#25033 ) Signed-off-by: Woosuk Kwon <woosuk@thinkingmachines.ai> Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Cyrus Leung	9cfa7697c1	[V0 Deprecation] Enable the remaining multimodal tests in V1 (#25307 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
lirong	9fc86d2802	[Core] Enable sharded state loader for V1 engine and enhance test coverage (#25308 ) Signed-off-by: pengdrumli <pengdrumli@tencent.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Cyrus Leung	e33af1e0c2	[V1] Support `LLM.apply_model` (#18465 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Chen Zhang	267b4421b7	[Hybrid Allocator] Support full attention with different hidden size (#25101 ) Signed-off-by: Chen Zhang <zhangch99@outlook.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Chauncey	239aef5c9f	[Bugfix] fix tool call arguments is empty (#25223 ) Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com> Co-authored-by: xin.li <xin.li@daocloud.io> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Nick Hill	ea01b17b6f	[Misc] Support more collective_rpc return types (#25294 ) Signed-off-by: Nick Hill <nhill@redhat.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Boyuan Feng	ce65ce2d61	[torch.compile] CUDAGraph Inductor partition integration (#24281 ) Signed-off-by: Boyuan Feng <boyuan@meta.com> Signed-off-by: Boyuan Feng <fby.1994@gmail.com> Signed-off-by: boyuanfeng <boyuan@meta.com> Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Andrew Sansom	7493472a9b	test: Remove vestigial skip for prompt embeds tests after landing v1 Prompt Embeds support (#25291 ) Signed-off-by: Andrew Sansom <andrew@protopia.ai> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Lucas Kabela	bc997c18ca	[Bugfix] Remove VLLM_TEST_DYNAMO_FULLGRAPH_CAPTURE #2969 (#25090 ) Signed-off-by: Lucas Kabela <lucaskabela@meta.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Zhiyu	6e94161f94	Enable modelopt gemma3 nvfp4/fp8, make workflow more robust (#22771 ) Signed-off-by: Zhiyu Cheng <zhiyuc@nvidia.com> Signed-off-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: Michael Goin <mgoin64@gmail.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
Alec S	8da7b98366	[Frontend] Responses API messages out, just harmony for now (#24985 ) Signed-off-by: Alec Solder <alecs@fb.com> Co-authored-by: Alec Solder <alecs@fb.com> Co-authored-by: Ye (Charlotte) Qi <yeq@meta.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:53 -07:00
qizixi	17b9f3a83d	Optimize triton unified attention performance for sliding window attention (#24390 ) Signed-off-by: zixi-qi <qizixi@meta.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:52 -07:00
Or Ozeri	378c68bead	[KV offload][4/N] Offloading KV connector (#22595 ) Signed-off-by: Or Ozeri <oro@il.ibm.com> Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-03 13:35:52 -07:00
Jialin Ouyang	2506ce5189	[Core][Prefix Hash] Fix prefix hash metrics sliding window maintainance (#24990 ) Signed-off-by: Jialin Ouyang <Jialin.Ouyang@gmail.com>	2025-09-19 12:22:53 -06:00
Chauncey	47fd08aaf9	[CI/Build] fix test function_calling (#25072 ) Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>	2025-09-19 12:16:32 -06:00
Harry Mellor	12aed7e453	Encoder model support for the Transformers backend (#25174 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-09-19 19:15:22 +01:00
Jee Jee Li	2821986450	[Core] Modify the initialization parameters of the lora manager (#25249 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-09-19 18:01:28 +00:00
Cyrus Leung	6c117cff7d	[Frontend] Pass API server count to each process (#23717 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-09-20 01:15:19 +08:00
Or Ozeri	7ac67ea525	[KV offload][3/N] Add worker-side CPU support (#21448 ) Signed-off-by: Or Ozeri <oro@il.ibm.com>	2025-09-19 09:53:45 -07:00
Harry Mellor	aed16879a9	Move `ModelConfig` from `config/__init__.py` to `config/model.py` (#25252 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-09-19 16:22:33 +00:00
Nicolò Lucchesi	a3d087adec	[P/D][Nixl] Introduce `KVTransferMetrics` and aggregation strategy (#22188 ) Signed-off-by: NickLucche <nlucches@redhat.com>	2025-09-19 11:09:14 +00:00
Harry Mellor	058525b997	Move `PoolerConfig` from `config/__init__.py` to `config/pooler.py` (#25181 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-09-19 11:02:55 +00:00
Isotr0py	cea91a32f2	[Kernel][Performance] Add Triton kernel for Qwen3-VL interleaved MRoPE (#25055 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-09-19 10:27:49 +00:00
Isotr0py	f2718d2948	[Misc] Cleanup test conftest for deprecated encoder-decoder models (#25231 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-09-19 07:44:56 +00:00
Andrew Xia	6d8246aaff	[gpt-oss] Add ResponseReasoningPartAddedEvent, ResponseReasoningPartDoneEvent for streaming (#24938 ) Signed-off-by: Andrew Xia <axia@meta.com>	2025-09-18 19:11:59 -07:00
Or Ozeri	9d1c50a5ac	[KV offload][2/N] Introduce LRU-based CPU offloading management (#20075 ) Signed-off-by: Or Ozeri <oro@il.ibm.com>	2025-09-19 00:20:51 +00:00
Andrew Sansom	9a4600e4dc	[CORE] Prompt Embeddings Support for v1 Engine (#24278 ) Signed-off-by: Andrew Sansom <andrew@protopia.ai> Signed-off-by: Andrew Sansom <qthequartermasterman@gmail.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>	2025-09-19 08:03:09 +08:00

1 2 3 4 5 ...

2991 Commits