]> git.phdru.name Git - bookmarks_db.git/commitdiff
Fix(parse_html): Do not parse empty strings
authorOleg Broytman <phd@phdru.name>
Fri, 17 Nov 2023 23:54:46 +0000 (02:54 +0300)
committerOleg Broytman <phd@phdru.name>
Fri, 17 Nov 2023 23:54:46 +0000 (02:54 +0300)
parse_html/bkmk_ph_beautifulsoup.py
parse_html/bkmk_ph_beautifulsoup4.py
parse_html/bkmk_ph_etreetidy.py
parse_html/bkmk_ph_html5.py
parse_html/bkmk_ph_htmlparser.py

index ac880cc6b7c197eab772d056e2d210eb5fabc520..0aad3dde72557abdb2f97edeea4d814151f388f6 100644 (file)
@@ -62,6 +62,8 @@ def _parse_html(html_text, charset):
 
 
 def parse_html(html_text, charset=None, log=None):
+    if not html_text:
+        return None
     root = _parse_html(html_text, charset)
     if root is None:
         return None
index 6549683edcb094a4282d89a6846aba81286016a0..faafca22eb3ee276b70eddf161c4ae8f30a5327f 100644 (file)
@@ -39,6 +39,8 @@ def _parse_html(html_text, charset):
 
 
 def parse_html(html_text, charset=None, log=None):
+    if not html_text:
+        return None
     root = _parse_html(html_text, charset)
     if root is None:
         return None
index 95f2071bb87a3018a3f616d136c79291d02233eb..eadcca32605428644b9fa41f1446bafef2386077 100644 (file)
@@ -16,6 +16,8 @@ from .bkmk_ph_util import HTMLParser
 
 
 def parse_html(html_text, charset=None, log=None):
+    if not html_text:
+        return None
     try:
         html_tree = TidyHTMLTreeBuilder.parseString(html_text)
     except:
index 1fabd82166611fcf5c480463296e07390c906be1..d973b729976e59f4225c09de66c1fdfdf689e9f8 100644 (file)
@@ -16,6 +16,8 @@ from .bkmk_ph_util import HTMLParser
 
 
 def parse_html(html_text, charset=None, log=None):
+    if not html_text:
+        return None
     parser = HTML5Parser()
     if isinstance(html_text, bytes):
         html_tree = parser.parse(
index fd7b687d102f131928f675e0132c9a55dd01ef49..c0f89b411d688bc99ecaab1a377c80abb36b6891 100644 (file)
@@ -89,6 +89,8 @@ class HTMLParser(_HTMLParser):
 
 
 def parse_html(html_text, charset=None, log=None):
+    if not html_text:
+        return None
     parser = HTMLParser(charset)
 
     try: