From 045314a1aa6e18cfa86d186bc042f9e5ef000fd2 Mon Sep 17 00:00:00 2001
From: Magicbook1108 <newyorkupperbay@gmail.com>
Date: Fri, 16 Jan 2026 15:32:04 +0800
Subject: [PATCH] Fix: duplicate content in chunk (#12655)

### What problem does this PR solve?

Fix: duplicate content in chunk #12336

### Type of change

- [x] Bug Fix (non-breaking change which fixes an issue)
---
 deepdoc/parser/pdf_parser.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/deepdoc/parser/pdf_parser.py b/deepdoc/parser/pdf_parser.py
index ce6b9298b..613787b48 100644
--- a/deepdoc/parser/pdf_parser.py
+++ b/deepdoc/parser/pdf_parser.py
@@ -476,7 +476,7 @@ class RAGFlowPdfParser:
         self.boxes = bxs
 
     def _naive_vertical_merge(self, zoomin=3):
-        #bxs = self._assign_column(self.boxes, zoomin)
+        # bxs = self._assign_column(self.boxes, zoomin)
         bxs = self.boxes
 
         grouped = defaultdict(list)
@@ -553,7 +553,8 @@ class RAGFlowPdfParser:
 
             merged_boxes.extend(bxs)
 
-        #self.boxes = sorted(merged_boxes, key=lambda x: (x["page_number"], x.get("col_id", 0), x["top"]))
+        # self.boxes = sorted(merged_boxes, key=lambda x: (x["page_number"], x.get("col_id", 0), x["top"]))
+        self.boxes = merged_boxes
 
     def _final_reading_order_merge(self, zoomin=3):
         if not self.boxes: