youngkingdom/vllm - vllm - Gitea: Git with a cup of tea

Author	SHA1	Message	Date
afeldman-nm	c8c42597ab	[CI] Speed up model unit tests in CI (#24253 ) Signed-off-by: Andrew Feldman <afeldman@redhat.com>	2025-09-12 10:36:50 -07:00
Maximilien de Bayser	e090b7b45b	Enable conversion of multimodal models to pooling tasks (#24451 ) Signed-off-by: Max de Bayser <mbayser@br.ibm.com>	2025-09-12 03:30:41 +00:00
wang.yuqi	fd1ce98cdd	[CI] Split mteb test from Language Models Test (#24634 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-09-11 06:37:51 -07:00
wang.yuqi	bd98842c8a	[CI] Add PPL test for generation models (#24485 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-09-10 06:16:39 -07:00
Remy	feaf202e93	[Bugfix] Guard `_may_reorder_batch` for encoder-only models on CPU (#24319 ) (#24348 ) Signed-off-by: Remy <eunhwan.shin@dtonic.io> Co-authored-by: Li, Jiang <jiang1.li@intel.com>	2025-09-10 14:24:42 +08:00
wang.yuqi	19332c0479	[Model] Systematic support for fp32 head, pooling models part (#23810 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-09-09 07:29:50 -07:00
wang.yuqi	6d6c6b05d3	[New Model]: google/embeddinggemma-300m (#24318 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-09-05 22:58:36 -07:00
wang.yuqi	51383bd472	[CI] Accelerate mteb test by setting SentenceTransformers mteb score to a constant (#24088 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-09-03 17:23:56 +08:00
Maximilien de Bayser	2554b27baa	[V0 Deprecation] Remove pooling model support in V0 (#23434 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu> Signed-off-by: Max de Bayser <mbayser@br.ibm.com> Co-authored-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-08-29 00:04:02 -07:00
Isotr0py	98ac0cb32d	[Bugfix] Use `ReplicatedLinear` for SequenceClassification head (#23836 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-08-29 04:41:20 +00:00
wang.yuqi	11a7fafaa8	[New Model]: Support GteNewModelForSequenceClassification (#23524 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-08-28 15:36:42 +08:00
LIYIFAN_liyifan	c9abb10489	[Bugfix] Fix Dense module loading for sentence-transformers embedding models (simplified V2) (#23408 ) Signed-off-by: FFFfff1FFFfff <yifanli0919@gmail.com>	2025-08-25 05:39:24 +00:00
Cyrus Leung	64ab3c7253	[Doc] Update V1 status of various pooling models (#23189 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-20 10:33:41 +08:00
wang.yuqi	f856c33ce9	[Model] Add multi_label_classification support (#23173 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-08-19 12:54:30 +00:00
wang.yuqi	5406ebf5c9	[CI] Pooling models mteb test uses enforce_eager (#22878 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-08-15 01:16:15 -07:00
Cyrus Leung	0ca2393b47	[CI/Build] Increase pooling tolerance to pass CI (#22844 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Signed-off-by: mgoin <mgoin64@gmail.com> Co-authored-by: mgoin <mgoin64@gmail.com>	2025-08-13 18:52:48 -04:00
wang.yuqi	6d729c43fb	[Bugfix] Fix ModernBert load & Enable sliding window attention for bidirectional attention. (#22637 ) Signed-off-by: wang.yuqi <noooop@126.com> Signed-off-by: Max de Bayser <mbayser@br.ibm.com> Co-authored-by: Max de Bayser <mbayser@br.ibm.com>	2025-08-12 00:23:17 -07:00
wang.yuqi	84cf78acee	[Model] Pooling models default to using chunked prefill & prefix caching if supported. (#20930 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-08-11 09:41:37 -07:00
Maximilien de Bayser	39052dbca8	Support token_type_ids in V1 with less code changes (#21985 ) Signed-off-by: Max de Bayser <mbayser@br.ibm.com>	2025-08-10 22:54:59 -07:00
Isotr0py	429e4e2d42	[Bugfix] Fix ModernBert cuda graph capturing in v1 (#21901 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Signed-off-by: Isotr0py <2037008807@qq.com>	2025-08-08 22:17:22 -07:00
wang.yuqi	2a4c825523	[CI] Skip the pooling models that do not support transformers v4.55 (#22411 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-08-06 23:05:03 -07:00
wang.yuqi	586f286789	[Model] Pooling model activation supports per request control by PoolingParams (#20538 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-08-05 00:37:00 -07:00
wang.yuqi	2836dd73f1	[Model][CI] Let more pooling models support v1 (#21747 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-07-31 01:51:15 -07:00
wang.yuqi	65f311ce59	[Frontend] Add LLM.reward specific to reward models (#21720 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-07-29 20:56:03 -07:00
Cyrus Leung	86ae693f20	[Deprecation][2/N] Replace `--task` with `--runner` and `--convert` (#21470 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-07-27 19:42:40 -07:00
Maximilien de Bayser	1cd6eaba54	Support encoder-only models without KV-Cache (#21270 ) Signed-off-by: Max de Bayser <maxdebayser@gmail.com> Signed-off-by: Max de Bayser <mbayser@br.ibm.com> Co-authored-by: Russell Bryant <rbryant@redhat.com>	2025-07-26 21:09:52 +08:00
Ning Xie	d97841078b	[Misc] unify variable for LLM instance (#20996 ) Signed-off-by: Andy Xie <andy.xning@gmail.com>	2025-07-21 12:18:33 +01:00
Cyrus Leung	45badd05d0	[Core] Set pooling params based on task and model (#21128 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-07-18 05:41:17 -07:00
yurhett	11c0198615	[Bugfix] Fix tensor parallel issue in Qwen3 reranker weight loading (#20682 ) Signed-off-by: Isotr0py <2037008807@qq.com> Co-authored-by: Isotr0py <2037008807@qq.com>	2025-07-11 20:52:43 -07:00
wang.yuqi	baba0389f7	[CI] Increase the threshold of the MTEB RERANK tests (#20615 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-07-08 08:10:11 -07:00
Li, Jiang	7721ef1786	[CI/Build][CPU] Fix CPU CI and remove all CPU V0 files (#20560 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2025-07-07 22:13:44 -07:00
wang.yuqi	110df74332	[Model][Last/4] Automatic conversion of CrossEncoding model (#19675 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-07-07 14:46:04 +00:00
wang.yuqi	2e26f9156a	[Model][3/N] Automatic conversion of CrossEncoding model (#20168 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-07-04 05:47:39 -07:00
Jee Jee Li	1caca5a589	[Misc] Add SPDX-FileCopyrightText (#20428 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-07-04 07:40:42 +00:00
wang.yuqi	6f1229f91d	[Model][2/N] Automatic conversion of CrossEncoding model (#19978 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-07-03 13:59:23 +00:00
wang.yuqi	cd4cfee689	[Model][1/N] Automatic conversion of CrossEncoding model (#20012 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-06-26 21:10:04 -07:00
Li, Jiang	53da4cd397	[Bugfix][CPU] Fix InputBatch for pooling models in the CPU v1 (#20014 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2025-06-24 13:20:04 +00:00
Isotr0py	61f4fc5dc6	[Bugfix][v1] Fix step pooler implementation and step pooling usage in v1 (#19956 ) Signed-off-by: Isotr0py <2037008807@qq.com>	2025-06-23 18:38:06 +00:00
Li, Jiang	79f2f1c2a1	[CPU][CI] Fallback sliding window to v0 and fix CPU pooling model tests (#19901 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2025-06-20 15:30:36 +00:00
Maximilien de Bayser	799397ee4f	Support embedding models in V1 (#16188 ) Signed-off-by: Max de Bayser <mbayser@br.ibm.com> Signed-off-by: Max de Bayser <maxdebayser@gmail.com> Signed-off-by: 22quinn <33176974+22quinn@users.noreply.github.com> Co-authored-by: 22quinn <33176974+22quinn@users.noreply.github.com>	2025-06-18 21:36:33 -07:00
wang.yuqi	f40f763f12	[CI] Add mteb testing for rerank models (#19344 )	2025-06-16 01:36:43 -07:00
wang.yuqi	3952731e8f	[New Model]: Support Qwen3 Embedding & Reranker (#19260 )	2025-06-10 20:07:30 -07:00
wang.yuqi	35cf32df30	Improve the output precision of embedding models (#19092 )	2025-06-04 11:48:57 +00:00
Simon Mo	02f0c7b220	[Misc] Add SPDX-FileCopyrightText (#19100 ) Signed-off-by: simon-mo <simon.mo@hey.com>	2025-06-03 11:20:17 -07:00
Cyrus Leung	6aa8f9a4e7	[Core] Rework dtype resolution (#18751 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-06-01 11:04:23 +08:00
Isotr0py	c9479b2920	[Bugfix] Fix the failing gte embedding test (#18720 ) Signed-off-by: Isotr0py <2037008807@qq.com>	2025-05-29 07:39:25 -07:00
wang.yuqi	de65fc8e1e	[CI] improve embed testing (#18747 )	2025-05-28 00:16:35 -07:00
wang.yuqi	3e9ce609bd	[Bugfix] Fix nomic max_model_len (#18755 )	2025-05-27 20:29:53 -07:00
Cyrus Leung	38b13dfe78	[CI/Build] Replace `math.isclose` with `pytest.approx` (#18703 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-05-26 02:05:17 -07:00
Cyrus Leung	fba0642704	[CI/Build][Doc] Update `gte-Qwen2-1.5B-instruct` usage (#18683 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Signed-off-by: Isotr0py <2037008807@qq.com> Co-authored-by: Isotr0py <2037008807@qq.com>	2025-05-25 20:27:50 -07:00

1 2

56 Commits