فهرست منبع

Merge pull request #15548 from expruc/fix/docling_ignore_html

fix: text/html files being detected as text when loaded with docling/tika
Tim Jaeryang Baek 3 ماه پیش
والد
کامیت
a748f19ac2
1فایلهای تغییر یافته به همراه4 افزوده شده و 1 حذف شده
  1. 4 1
      backend/open_webui/retrieval/loaders/main.py

+ 4 - 1
backend/open_webui/retrieval/loaders/main.py

@@ -226,7 +226,10 @@ class Loader:
 
     def _is_text_file(self, file_ext: str, file_content_type: str) -> bool:
         return file_ext in known_source_ext or (
-            file_content_type and file_content_type.find("text/") >= 0
+            file_content_type
+            and file_content_type.find("text/") >= 0
+            # Avoid text/html files being detected as text
+            and not file_content_type.find("html") >= 0
         )
 
     def _get_loader(self, filename: str, file_content_type: str, file_path: str):