refactor: use session factory instead of call db.session directly (#31198)

Co-authored-by: autofix-ci[bot] <114827586+autofix-ci[bot]@users.noreply.github.com>
2026-05-04 09:28:04 +08:00 · 2026-01-21 13:43:06 +08:00
parent 071bbc6d74
commit 121d301a41
48 changed files with 2788 additions and 2693 deletions
--- a/api/tasks/document_indexing_task.py
+++ b/api/tasks/document_indexing_task.py
@ -6,11 +6,11 @@ import click
 from celery import shared_task

 from configs import dify_config
+from core.db.session_factory import session_factory
 from core.entities.document_task import DocumentTask
 from core.indexing_runner import DocumentIsPausedError, IndexingRunner
 from core.rag.pipeline.queue import TenantIsolatedTaskQueue
 from enums.cloud_plan import CloudPlan
-from extensions.ext_database import db
 from libs.datetime_utils import naive_utc_now
 from models.dataset import Dataset, Document
 from services.feature_service import FeatureService
@ -46,66 +46,63 @@ def _document_indexing(dataset_id: str, document_ids: Sequence[str]):
    documents = []
    start_at = time.perf_counter()

-    dataset = db.session.query(Dataset).where(Dataset.id == dataset_id).first()
-    if not dataset:
-        logger.info(click.style(f"Dataset is not found: {dataset_id}", fg="yellow"))
-        db.session.close()
-        return
-    # check document limit
-    features = FeatureService.get_features(dataset.tenant_id)
-    try:
-        if features.billing.enabled:
-            vector_space = features.vector_space
-            count = len(document_ids)
-            batch_upload_limit = int(dify_config.BATCH_UPLOAD_LIMIT)
-            if features.billing.subscription.plan == CloudPlan.SANDBOX and count > 1:
-                raise ValueError("Your current plan does not support batch upload, please upgrade your plan.")
-            if count > batch_upload_limit:
-                raise ValueError(f"You have reached the batch upload limit of {batch_upload_limit}.")
-            if 0 < vector_space.limit <= vector_space.size:
-                raise ValueError(
-                    "Your total number of documents plus the number of uploads have over the limit of "
-                    "your subscription."
+    with session_factory.create_session() as session:
+        dataset = session.query(Dataset).where(Dataset.id == dataset_id).first()
+        if not dataset:
+            logger.info(click.style(f"Dataset is not found: {dataset_id}", fg="yellow"))
+            return
+        # check document limit
+        features = FeatureService.get_features(dataset.tenant_id)
+        try:
+            if features.billing.enabled:
+                vector_space = features.vector_space
+                count = len(document_ids)
+                batch_upload_limit = int(dify_config.BATCH_UPLOAD_LIMIT)
+                if features.billing.subscription.plan == CloudPlan.SANDBOX and count > 1:
+                    raise ValueError("Your current plan does not support batch upload, please upgrade your plan.")
+                if count > batch_upload_limit:
+                    raise ValueError(f"You have reached the batch upload limit of {batch_upload_limit}.")
+                if 0 < vector_space.limit <= vector_space.size:
+                    raise ValueError(
+                        "Your total number of documents plus the number of uploads have over the limit of "
+                        "your subscription."
+                    )
+        except Exception as e:
+            for document_id in document_ids:
+                document = (
+                    session.query(Document).where(Document.id == document_id, Document.dataset_id == dataset_id).first()
                )
-    except Exception as e:
+                if document:
+                    document.indexing_status = "error"
+                    document.error = str(e)
+                    document.stopped_at = naive_utc_now()
+                    session.add(document)
+            session.commit()
+            return
+
        for document_id in document_ids:
+            logger.info(click.style(f"Start process document: {document_id}", fg="green"))
+
            document = (
-                db.session.query(Document).where(Document.id == document_id, Document.dataset_id == dataset_id).first()
+                session.query(Document).where(Document.id == document_id, Document.dataset_id == dataset_id).first()
            )
+
            if document:
-                document.indexing_status = "error"
-                document.error = str(e)
-                document.stopped_at = naive_utc_now()
-                db.session.add(document)
-        db.session.commit()
-        db.session.close()
-        return
+                document.indexing_status = "parsing"
+                document.processing_started_at = naive_utc_now()
+                documents.append(document)
+                session.add(document)
+        session.commit()

-    for document_id in document_ids:
-        logger.info(click.style(f"Start process document: {document_id}", fg="green"))
-
-        document = (
-            db.session.query(Document).where(Document.id == document_id, Document.dataset_id == dataset_id).first()
-        )
-
-        if document:
-            document.indexing_status = "parsing"
-            document.processing_started_at = naive_utc_now()
-            documents.append(document)
-            db.session.add(document)
-    db.session.commit()
-
-    try:
-        indexing_runner = IndexingRunner()
-        indexing_runner.run(documents)
-        end_at = time.perf_counter()
-        logger.info(click.style(f"Processed dataset: {dataset_id} latency: {end_at - start_at}", fg="green"))
-    except DocumentIsPausedError as ex:
-        logger.info(click.style(str(ex), fg="yellow"))
-    except Exception:
-        logger.exception("Document indexing task failed, dataset_id: %s", dataset_id)
-    finally:
-        db.session.close()
+        try:
+            indexing_runner = IndexingRunner()
+            indexing_runner.run(documents)
+            end_at = time.perf_counter()
+            logger.info(click.style(f"Processed dataset: {dataset_id} latency: {end_at - start_at}", fg="green"))
+        except DocumentIsPausedError as ex:
+            logger.info(click.style(str(ex), fg="yellow"))
+        except Exception:
+            logger.exception("Document indexing task failed, dataset_id: %s", dataset_id)


 def _document_indexing_with_tenant_queue(