chore(api/core): apply ruff reformatting (#7624)

2025-12-11 03:46:52 +08:00 · 2024-09-10 17:00:20 +08:00
parent 178730266d
commit 2cf1187b32
724 changed files with 21180 additions and 21123 deletions
--- a/api/core/rag/extractor/firecrawl/firecrawl_app.py
+++ b/api/core/rag/extractor/firecrawl/firecrawl_app.py
@@ -9,108 +9,98 @@ from extensions.ext_storage import storage
 class FirecrawlApp:
    def __init__(self, api_key=None, base_url=None):
        self.api_key = api_key
-        self.base_url = base_url or 'https://api.firecrawl.dev'
-        if self.api_key is None and self.base_url == 'https://api.firecrawl.dev':
-            raise ValueError('No API key provided')
+        self.base_url = base_url or "https://api.firecrawl.dev"
+        if self.api_key is None and self.base_url == "https://api.firecrawl.dev":
+            raise ValueError("No API key provided")

    def scrape_url(self, url, params=None) -> dict:
-        headers = {
-            'Content-Type': 'application/json',
-            'Authorization': f'Bearer {self.api_key}'
-        }
-        json_data = {'url': url}
+        headers = {"Content-Type": "application/json", "Authorization": f"Bearer {self.api_key}"}
+        json_data = {"url": url}
        if params:
            json_data.update(params)
-        response = requests.post(
-            f'{self.base_url}/v0/scrape',
-            headers=headers,
-            json=json_data
-        )
+        response = requests.post(f"{self.base_url}/v0/scrape", headers=headers, json=json_data)
        if response.status_code == 200:
            response = response.json()
-            if response['success'] == True:
-                data = response['data']
+            if response["success"] == True:
+                data = response["data"]
                return {
-                    'title': data.get('metadata').get('title'),
-                    'description': data.get('metadata').get('description'),
-                    'source_url': data.get('metadata').get('sourceURL'),
-                    'markdown': data.get('markdown')
+                    "title": data.get("metadata").get("title"),
+                    "description": data.get("metadata").get("description"),
+                    "source_url": data.get("metadata").get("sourceURL"),
+                    "markdown": data.get("markdown"),
                }
            else:
                raise Exception(f'Failed to scrape URL. Error: {response["error"]}')

        elif response.status_code in [402, 409, 500]:
-            error_message = response.json().get('error', 'Unknown error occurred')
-            raise Exception(f'Failed to scrape URL. Status code: {response.status_code}. Error: {error_message}')
+            error_message = response.json().get("error", "Unknown error occurred")
+            raise Exception(f"Failed to scrape URL. Status code: {response.status_code}. Error: {error_message}")
        else:
-            raise Exception(f'Failed to scrape URL. Status code: {response.status_code}')
+            raise Exception(f"Failed to scrape URL. Status code: {response.status_code}")

    def crawl_url(self, url, params=None) -> str:
        headers = self._prepare_headers()
-        json_data = {'url': url}
+        json_data = {"url": url}
        if params:
            json_data.update(params)
-        response = self._post_request(f'{self.base_url}/v0/crawl', json_data, headers)
+        response = self._post_request(f"{self.base_url}/v0/crawl", json_data, headers)
        if response.status_code == 200:
-            job_id = response.json().get('jobId')
+            job_id = response.json().get("jobId")
            return job_id
        else:
-            self._handle_error(response, 'start crawl job')
+            self._handle_error(response, "start crawl job")

    def check_crawl_status(self, job_id) -> dict:
        headers = self._prepare_headers()
-        response = self._get_request(f'{self.base_url}/v0/crawl/status/{job_id}', headers)
+        response = self._get_request(f"{self.base_url}/v0/crawl/status/{job_id}", headers)
        if response.status_code == 200:
            crawl_status_response = response.json()
-            if crawl_status_response.get('status') == 'completed':
-                total = crawl_status_response.get('total', 0)
+            if crawl_status_response.get("status") == "completed":
+                total = crawl_status_response.get("total", 0)
                if total == 0:
-                    raise Exception('Failed to check crawl status. Error: No page found')
-                data = crawl_status_response.get('data', [])
+                    raise Exception("Failed to check crawl status. Error: No page found")
+                data = crawl_status_response.get("data", [])
                url_data_list = []
                for item in data:
-                    if isinstance(item, dict) and 'metadata' in item and 'markdown' in item:
+                    if isinstance(item, dict) and "metadata" in item and "markdown" in item:
                        url_data = {
-                            'title': item.get('metadata').get('title'),
-                            'description': item.get('metadata').get('description'),
-                            'source_url': item.get('metadata').get('sourceURL'),
-                            'markdown': item.get('markdown')
+                            "title": item.get("metadata").get("title"),
+                            "description": item.get("metadata").get("description"),
+                            "source_url": item.get("metadata").get("sourceURL"),
+                            "markdown": item.get("markdown"),
                        }
                        url_data_list.append(url_data)
                if url_data_list:
-                    file_key = 'website_files/' + job_id + '.txt'
+                    file_key = "website_files/" + job_id + ".txt"
                    if storage.exists(file_key):
                        storage.delete(file_key)
-                    storage.save(file_key, json.dumps(url_data_list).encode('utf-8'))
+                    storage.save(file_key, json.dumps(url_data_list).encode("utf-8"))
                return {
-                    'status': 'completed',
-                    'total': crawl_status_response.get('total'),
-                    'current': crawl_status_response.get('current'),
-                    'data': url_data_list
+                    "status": "completed",
+                    "total": crawl_status_response.get("total"),
+                    "current": crawl_status_response.get("current"),
+                    "data": url_data_list,
                }

            else:
                return {
-                    'status': crawl_status_response.get('status'),
-                    'total': crawl_status_response.get('total'),
-                    'current': crawl_status_response.get('current'),
-                    'data': []
+                    "status": crawl_status_response.get("status"),
+                    "total": crawl_status_response.get("total"),
+                    "current": crawl_status_response.get("current"),
+                    "data": [],
                }

        else:
-            self._handle_error(response, 'check crawl status')
+            self._handle_error(response, "check crawl status")

    def _prepare_headers(self):
-        return {
-            'Content-Type': 'application/json',
-            'Authorization': f'Bearer {self.api_key}'
-        }
+        return {"Content-Type": "application/json", "Authorization": f"Bearer {self.api_key}"}

    def _post_request(self, url, data, headers, retries=3, backoff_factor=0.5):
        for attempt in range(retries):
            response = requests.post(url, headers=headers, json=data)
            if response.status_code == 502:
-                time.sleep(backoff_factor * (2 ** attempt))
+                time.sleep(backoff_factor * (2**attempt))
            else:
                return response
        return response
@@ -119,13 +109,11 @@ class FirecrawlApp:
        for attempt in range(retries):
            response = requests.get(url, headers=headers)
            if response.status_code == 502:
-                time.sleep(backoff_factor * (2 ** attempt))
+                time.sleep(backoff_factor * (2**attempt))
            else:
                return response
        return response

    def _handle_error(self, response, action):
-        error_message = response.json().get('error', 'Unknown error occurred')
-        raise Exception(f'Failed to {action}. Status code: {response.status_code}. Error: {error_message}')
-
-
+        error_message = response.json().get("error", "Unknown error occurred")
+        raise Exception(f"Failed to {action}. Status code: {response.status_code}. Error: {error_message}")
--- a/api/core/rag/extractor/firecrawl/firecrawl_web_extractor.py
+++ b/api/core/rag/extractor/firecrawl/firecrawl_web_extractor.py
@@ -5,7 +5,7 @@ from services.website_service import WebsiteService

 class FirecrawlWebExtractor(BaseExtractor):
    """
-    Crawl and scrape websites and return content in clean llm-ready markdown. 
+    Crawl and scrape websites and return content in clean llm-ready markdown.


    Args:
@@ -15,14 +15,7 @@ class FirecrawlWebExtractor(BaseExtractor):
        mode: The mode of operation. Defaults to 'scrape'. Options are 'crawl', 'scrape' and 'crawl_return_urls'.
    """

-    def __init__(
-            self,
-            url: str,
-            job_id: str,
-            tenant_id: str,
-            mode: str = 'crawl',
-            only_main_content: bool = False
-    ):
+    def __init__(self, url: str, job_id: str, tenant_id: str, mode: str = "crawl", only_main_content: bool = False):
        """Initialize with url, api_key, base_url and mode."""
        self._url = url
        self.job_id = job_id
@@ -33,28 +26,31 @@ class FirecrawlWebExtractor(BaseExtractor):
    def extract(self) -> list[Document]:
        """Extract content from the URL."""
        documents = []
-        if self.mode == 'crawl':
-            crawl_data = WebsiteService.get_crawl_url_data(self.job_id, 'firecrawl', self._url, self.tenant_id)
+        if self.mode == "crawl":
+            crawl_data = WebsiteService.get_crawl_url_data(self.job_id, "firecrawl", self._url, self.tenant_id)
            if crawl_data is None:
                return []
-            document = Document(page_content=crawl_data.get('markdown', ''),
-                                metadata={
-                                    'source_url': crawl_data.get('source_url'),
-                                    'description': crawl_data.get('description'),
-                                    'title': crawl_data.get('title')
-                                }
-                                )
+            document = Document(
+                page_content=crawl_data.get("markdown", ""),
+                metadata={
+                    "source_url": crawl_data.get("source_url"),
+                    "description": crawl_data.get("description"),
+                    "title": crawl_data.get("title"),
+                },
+            )
            documents.append(document)
-        elif self.mode == 'scrape':
-            scrape_data = WebsiteService.get_scrape_url_data('firecrawl', self._url, self.tenant_id,
-                                                             self.only_main_content)
+        elif self.mode == "scrape":
+            scrape_data = WebsiteService.get_scrape_url_data(
+                "firecrawl", self._url, self.tenant_id, self.only_main_content
+            )

-            document = Document(page_content=scrape_data.get('markdown', ''),
-                                metadata={
-                                    'source_url': scrape_data.get('source_url'),
-                                    'description': scrape_data.get('description'),
-                                    'title': scrape_data.get('title')
-                                }
-                                )
+            document = Document(
+                page_content=scrape_data.get("markdown", ""),
+                metadata={
+                    "source_url": scrape_data.get("source_url"),
+                    "description": scrape_data.get("description"),
+                    "title": scrape_data.get("title"),
+                },
+            )
            documents.append(document)
        return documents