chore(api/core): apply ruff reformatting (#7624)

2025-12-11 03:46:52 +08:00 · 2024-09-10 17:00:20 +08:00
parent 178730266d
commit 2cf1187b32
724 changed files with 21180 additions and 21123 deletions
--- a/api/core/rag/index_processor/index_processor_base.py
+++ b/api/core/rag/index_processor/index_processor_base.py
@@ -1,4 +1,5 @@
 """Abstract interface for document loader implementations."""
+
 from abc import ABC, abstractmethod
 from typing import Optional

@@ -15,8 +16,7 @@ from models.dataset import Dataset, DatasetProcessRule


 class BaseIndexProcessor(ABC):
-    """Interface for extract files.
-    """
+    """Interface for extract files."""

    @abstractmethod
    def extract(self, extract_setting: ExtractSetting, **kwargs) -> list[Document]:
@@ -34,18 +34,24 @@ class BaseIndexProcessor(ABC):
        raise NotImplementedError

    @abstractmethod
-    def retrieve(self, retrieval_method: str, query: str, dataset: Dataset, top_k: int,
-                 score_threshold: float, reranking_model: dict) -> list[Document]:
+    def retrieve(
+        self,
+        retrieval_method: str,
+        query: str,
+        dataset: Dataset,
+        top_k: int,
+        score_threshold: float,
+        reranking_model: dict,
+    ) -> list[Document]:
        raise NotImplementedError

-    def _get_splitter(self, processing_rule: dict,
-                      embedding_model_instance: Optional[ModelInstance]) -> TextSplitter:
+    def _get_splitter(self, processing_rule: dict, embedding_model_instance: Optional[ModelInstance]) -> TextSplitter:
        """
        Get the NodeParser object according to the processing rule.
        """
-        if processing_rule['mode'] == "custom":
+        if processing_rule["mode"] == "custom":
            # The user-defined segmentation rule
-            rules = processing_rule['rules']
+            rules = processing_rule["rules"]
            segmentation = rules["segmentation"]
            max_segmentation_tokens_length = dify_config.INDEXING_MAX_SEGMENTATION_TOKENS_LENGTH
            if segmentation["max_tokens"] < 50 or segmentation["max_tokens"] > max_segmentation_tokens_length:
@@ -53,22 +59,22 @@ class BaseIndexProcessor(ABC):

            separator = segmentation["separator"]
            if separator:
-                separator = separator.replace('\\n', '\n')
+                separator = separator.replace("\\n", "\n")

            character_splitter = FixedRecursiveCharacterTextSplitter.from_encoder(
                chunk_size=segmentation["max_tokens"],
-                chunk_overlap=segmentation.get('chunk_overlap', 0) or 0,
+                chunk_overlap=segmentation.get("chunk_overlap", 0) or 0,
                fixed_separator=separator,
                separators=["\n\n", "。", ". ", " ", ""],
-                embedding_model_instance=embedding_model_instance
+                embedding_model_instance=embedding_model_instance,
            )
        else:
            # Automatic segmentation
            character_splitter = EnhanceRecursiveCharacterTextSplitter.from_encoder(
-                chunk_size=DatasetProcessRule.AUTOMATIC_RULES['segmentation']['max_tokens'],
-                chunk_overlap=DatasetProcessRule.AUTOMATIC_RULES['segmentation']['chunk_overlap'],
+                chunk_size=DatasetProcessRule.AUTOMATIC_RULES["segmentation"]["max_tokens"],
+                chunk_overlap=DatasetProcessRule.AUTOMATIC_RULES["segmentation"]["chunk_overlap"],
                separators=["\n\n", "。", ". ", " ", ""],
-                embedding_model_instance=embedding_model_instance
+                embedding_model_instance=embedding_model_instance,
            )

        return character_splitter
--- a/api/core/rag/index_processor/index_processor_factory.py
+++ b/api/core/rag/index_processor/index_processor_factory.py
@@ -7,8 +7,7 @@ from core.rag.index_processor.processor.qa_index_processor import QAIndexProcess


 class IndexProcessorFactory:
-    """IndexProcessorInit.
-    """
+    """IndexProcessorInit."""

    def __init__(self, index_type: str):
        self._index_type = index_type
@@ -22,7 +21,6 @@ class IndexProcessorFactory:
        if self._index_type == IndexType.PARAGRAPH_INDEX.value:
            return ParagraphIndexProcessor()
        elif self._index_type == IndexType.QA_INDEX.value:
-
            return QAIndexProcessor()
        else:
            raise ValueError(f"Index type {self._index_type} is not supported.")
--- a/api/core/rag/index_processor/processor/paragraph_index_processor.py
+++ b/api/core/rag/index_processor/processor/paragraph_index_processor.py
@@ -1,4 +1,5 @@
 """Paragraph index processor."""
+
 import uuid
 from typing import Optional

@@ -15,33 +16,32 @@ from models.dataset import Dataset


 class ParagraphIndexProcessor(BaseIndexProcessor):
-
    def extract(self, extract_setting: ExtractSetting, **kwargs) -> list[Document]:
-
-        text_docs = ExtractProcessor.extract(extract_setting=extract_setting,
-                                             is_automatic=kwargs.get('process_rule_mode') == "automatic")
+        text_docs = ExtractProcessor.extract(
+            extract_setting=extract_setting, is_automatic=kwargs.get("process_rule_mode") == "automatic"
+        )

        return text_docs

    def transform(self, documents: list[Document], **kwargs) -> list[Document]:
        # Split the text documents into nodes.
-        splitter = self._get_splitter(processing_rule=kwargs.get('process_rule'),
-                                      embedding_model_instance=kwargs.get('embedding_model_instance'))
+        splitter = self._get_splitter(
+            processing_rule=kwargs.get("process_rule"), embedding_model_instance=kwargs.get("embedding_model_instance")
+        )
        all_documents = []
        for document in documents:
            # document clean
-            document_text = CleanProcessor.clean(document.page_content, kwargs.get('process_rule'))
+            document_text = CleanProcessor.clean(document.page_content, kwargs.get("process_rule"))
            document.page_content = document_text
            # parse document to nodes
            document_nodes = splitter.split_documents([document])
            split_documents = []
            for document_node in document_nodes:
-
                if document_node.page_content.strip():
                    doc_id = str(uuid.uuid4())
                    hash = helper.generate_text_hash(document_node.page_content)
-                    document_node.metadata['doc_id'] = doc_id
-                    document_node.metadata['doc_hash'] = hash
+                    document_node.metadata["doc_id"] = doc_id
+                    document_node.metadata["doc_hash"] = hash
                    # delete Splitter character
                    page_content = document_node.page_content
                    if page_content.startswith(".") or page_content.startswith("。"):
@@ -55,7 +55,7 @@ class ParagraphIndexProcessor(BaseIndexProcessor):
        return all_documents

    def load(self, dataset: Dataset, documents: list[Document], with_keywords: bool = True):
-        if dataset.indexing_technique == 'high_quality':
+        if dataset.indexing_technique == "high_quality":
            vector = Vector(dataset)
            vector.create(documents)
        if with_keywords:
@@ -63,7 +63,7 @@ class ParagraphIndexProcessor(BaseIndexProcessor):
            keyword.create(documents)

    def clean(self, dataset: Dataset, node_ids: Optional[list[str]], with_keywords: bool = True):
-        if dataset.indexing_technique == 'high_quality':
+        if dataset.indexing_technique == "high_quality":
            vector = Vector(dataset)
            if node_ids:
                vector.delete_by_ids(node_ids)
@@ -76,17 +76,29 @@ class ParagraphIndexProcessor(BaseIndexProcessor):
            else:
                keyword.delete()

-    def retrieve(self, retrieval_method: str, query: str, dataset: Dataset, top_k: int,
-                 score_threshold: float, reranking_model: dict) -> list[Document]:
+    def retrieve(
+        self,
+        retrieval_method: str,
+        query: str,
+        dataset: Dataset,
+        top_k: int,
+        score_threshold: float,
+        reranking_model: dict,
+    ) -> list[Document]:
        # Set search parameters.
-        results = RetrievalService.retrieve(retrieval_method=retrieval_method, dataset_id=dataset.id, query=query,
-                                            top_k=top_k, score_threshold=score_threshold,
-                                            reranking_model=reranking_model)
+        results = RetrievalService.retrieve(
+            retrieval_method=retrieval_method,
+            dataset_id=dataset.id,
+            query=query,
+            top_k=top_k,
+            score_threshold=score_threshold,
+            reranking_model=reranking_model,
+        )
        # Organize results.
        docs = []
        for result in results:
            metadata = result.metadata
-            metadata['score'] = result.score
+            metadata["score"] = result.score
            if result.score > score_threshold:
                doc = Document(page_content=result.page_content, metadata=metadata)
                docs.append(doc)
--- a/api/core/rag/index_processor/processor/qa_index_processor.py
+++ b/api/core/rag/index_processor/processor/qa_index_processor.py
@@ -1,4 +1,5 @@
 """Paragraph index processor."""
+
 import logging
 import re
 import threading
@@ -23,33 +24,33 @@ from models.dataset import Dataset

 class QAIndexProcessor(BaseIndexProcessor):
    def extract(self, extract_setting: ExtractSetting, **kwargs) -> list[Document]:
-
-        text_docs = ExtractProcessor.extract(extract_setting=extract_setting,
-                                             is_automatic=kwargs.get('process_rule_mode') == "automatic")
+        text_docs = ExtractProcessor.extract(
+            extract_setting=extract_setting, is_automatic=kwargs.get("process_rule_mode") == "automatic"
+        )
        return text_docs

    def transform(self, documents: list[Document], **kwargs) -> list[Document]:
-        splitter = self._get_splitter(processing_rule=kwargs.get('process_rule'),
-                                      embedding_model_instance=kwargs.get('embedding_model_instance'))
+        splitter = self._get_splitter(
+            processing_rule=kwargs.get("process_rule"), embedding_model_instance=kwargs.get("embedding_model_instance")
+        )

        # Split the text documents into nodes.
        all_documents = []
        all_qa_documents = []
        for document in documents:
            # document clean
-            document_text = CleanProcessor.clean(document.page_content, kwargs.get('process_rule'))
+            document_text = CleanProcessor.clean(document.page_content, kwargs.get("process_rule"))
            document.page_content = document_text

            # parse document to nodes
            document_nodes = splitter.split_documents([document])
            split_documents = []
            for document_node in document_nodes:
-
                if document_node.page_content.strip():
                    doc_id = str(uuid.uuid4())
                    hash = helper.generate_text_hash(document_node.page_content)
-                    document_node.metadata['doc_id'] = doc_id
-                    document_node.metadata['doc_hash'] = hash
+                    document_node.metadata["doc_id"] = doc_id
+                    document_node.metadata["doc_hash"] = hash
                    # delete Splitter character
                    page_content = document_node.page_content
                    if page_content.startswith(".") or page_content.startswith("。"):
@@ -61,14 +62,18 @@ class QAIndexProcessor(BaseIndexProcessor):
            all_documents.extend(split_documents)
        for i in range(0, len(all_documents), 10):
            threads = []
-            sub_documents = all_documents[i:i + 10]
+            sub_documents = all_documents[i : i + 10]
            for doc in sub_documents:
-                document_format_thread = threading.Thread(target=self._format_qa_document, kwargs={
-                    'flask_app': current_app._get_current_object(),
-                    'tenant_id': kwargs.get('tenant_id'),
-                    'document_node': doc,
-                    'all_qa_documents': all_qa_documents,
-                    'document_language': kwargs.get('doc_language', 'English')})
+                document_format_thread = threading.Thread(
+                    target=self._format_qa_document,
+                    kwargs={
+                        "flask_app": current_app._get_current_object(),
+                        "tenant_id": kwargs.get("tenant_id"),
+                        "document_node": doc,
+                        "all_qa_documents": all_qa_documents,
+                        "document_language": kwargs.get("doc_language", "English"),
+                    },
+                )
                threads.append(document_format_thread)
                document_format_thread.start()
            for thread in threads:
@@ -76,9 +81,8 @@ class QAIndexProcessor(BaseIndexProcessor):
        return all_qa_documents

    def format_by_template(self, file: FileStorage, **kwargs) -> list[Document]:
-
        # check file type
-        if not file.filename.endswith('.csv'):
+        if not file.filename.endswith(".csv"):
            raise ValueError("Invalid file type. Only CSV files are allowed")

        try:
@@ -86,7 +90,7 @@ class QAIndexProcessor(BaseIndexProcessor):
            df = pd.read_csv(file)
            text_docs = []
            for index, row in df.iterrows():
-                data = Document(page_content=row[0], metadata={'answer': row[1]})
+                data = Document(page_content=row[0], metadata={"answer": row[1]})
                text_docs.append(data)
            if len(text_docs) == 0:
                raise ValueError("The CSV file is empty.")
@@ -96,7 +100,7 @@ class QAIndexProcessor(BaseIndexProcessor):
        return text_docs

    def load(self, dataset: Dataset, documents: list[Document], with_keywords: bool = True):
-        if dataset.indexing_technique == 'high_quality':
+        if dataset.indexing_technique == "high_quality":
            vector = Vector(dataset)
            vector.create(documents)

@@ -107,17 +111,29 @@ class QAIndexProcessor(BaseIndexProcessor):
        else:
            vector.delete()

-    def retrieve(self, retrieval_method: str, query: str, dataset: Dataset, top_k: int,
-                 score_threshold: float, reranking_model: dict):
+    def retrieve(
+        self,
+        retrieval_method: str,
+        query: str,
+        dataset: Dataset,
+        top_k: int,
+        score_threshold: float,
+        reranking_model: dict,
+    ):
        # Set search parameters.
-        results = RetrievalService.retrieve(retrieval_method=retrieval_method, dataset_id=dataset.id, query=query,
-                                            top_k=top_k, score_threshold=score_threshold,
-                                            reranking_model=reranking_model)
+        results = RetrievalService.retrieve(
+            retrieval_method=retrieval_method,
+            dataset_id=dataset.id,
+            query=query,
+            top_k=top_k,
+            score_threshold=score_threshold,
+            reranking_model=reranking_model,
+        )
        # Organize results.
        docs = []
        for result in results:
            metadata = result.metadata
-            metadata['score'] = result.score
+            metadata["score"] = result.score
            if result.score > score_threshold:
                doc = Document(page_content=result.page_content, metadata=metadata)
                docs.append(doc)
@@ -134,12 +150,12 @@ class QAIndexProcessor(BaseIndexProcessor):
                document_qa_list = self._format_split_text(response)
                qa_documents = []
                for result in document_qa_list:
-                    qa_document = Document(page_content=result['question'], metadata=document_node.metadata.copy())
+                    qa_document = Document(page_content=result["question"], metadata=document_node.metadata.copy())
                    doc_id = str(uuid.uuid4())
-                    hash = helper.generate_text_hash(result['question'])
-                    qa_document.metadata['answer'] = result['answer']
-                    qa_document.metadata['doc_id'] = doc_id
-                    qa_document.metadata['doc_hash'] = hash
+                    hash = helper.generate_text_hash(result["question"])
+                    qa_document.metadata["answer"] = result["answer"]
+                    qa_document.metadata["doc_id"] = doc_id
+                    qa_document.metadata["doc_hash"] = hash
                    qa_documents.append(qa_document)
                format_documents.extend(qa_documents)
            except Exception as e:
@@ -151,10 +167,4 @@ class QAIndexProcessor(BaseIndexProcessor):
        regex = r"Q\d+:\s*(.*?)\s*A\d+:\s*([\s\S]*?)(?=Q\d+:|$)"
        matches = re.findall(regex, text, re.UNICODE)

-        return [
-            {
-                "question": q,
-                "answer": re.sub(r"\n\s*", "\n", a.strip())
-            }
-            for q, a in matches if q and a
-        ]
+        return [{"question": q, "answer": re.sub(r"\n\s*", "\n", a.strip())} for q, a in matches if q and a]