Use python-docx to extract docx files (#2654)

2025-12-10 03:16:51 +08:00 · 2024-03-07 18:24:55 +08:00
parent c0b82f8e58
commit b163545771
2 changed files with 11 additions and 9 deletions
--- a/api/core/rag/extractor/word_extractor.py
+++ b/api/core/rag/extractor/word_extractor.py
@@ -10,7 +10,7 @@ from core.rag.models.document import Document


 class WordExtractor(BaseExtractor):
-    """Load pdf files.
+    """Load docx files.


    Args:
@@ -46,14 +46,16 @@ class WordExtractor(BaseExtractor):

    def extract(self) -> list[Document]:
        """Load given path as single page."""
-        import docx2txt
+        from docx import Document as docx_Document

-        return [
-            Document(
-                page_content=docx2txt.process(self.file_path),
-                metadata={"source": self.file_path},
-            )
-        ]
+        document = docx_Document(self.file_path)
+        doc_texts = [paragraph.text for paragraph in document.paragraphs]
+        content = '\n'.join(doc_texts)
+
+        return [Document(
+            page_content=content,
+            metadata={"source": self.file_path},
+        )]

    @staticmethod
    def _is_valid_url(url: str) -> bool: