]> git.phdru.name Git - bookmarks_db.git/blobdiff - parse_html/bkmk_ph_htmlparser.py
Fix(Robot): Stop splitting and un-splitting URLs
[bookmarks_db.git] / parse_html / bkmk_ph_htmlparser.py
index b90618f1856d37a99bd78e7931421aa67e6d45b3..d11a2ff9fbeab4b5e5ec8daa1c2a7b4205ac63e4 100644 (file)
@@ -11,7 +11,10 @@ __license__ = "GNU GPL"
 __all__ = ['parse_html']
 
 
-from HTMLParser import HTMLParseError
+try:
+    from HTMLParser import HTMLParseError
+except ImportError:
+    class HTMLParseError(Exception): pass
 from m_lib.net.www.html import HTMLParser as _HTMLParser
 
 
@@ -86,6 +89,13 @@ class HTMLParser(_HTMLParser):
 
 
 def parse_html(html_text, charset=None, log=None):
+    if not html_text:
+        return None
+    if charset is None and isinstance(html_text, bytes):
+        return None  # html.parser cannot parse bytes
+    if charset and isinstance(html_text, bytes):
+        html_text = html_text.decode(charset)
+
     parser = HTMLParser(charset)
 
     try: