Fix(Robot): Stop splitting and un-splitting URLs

[bookmarks_db.git] / parse_html / bkmk_ph_htmlparser.py
diff --git a/parse_html/bkmk_ph_htmlparser.py b/parse_html/bkmk_ph_htmlparser.py

index b90618f1856d37a99bd78e7931421aa67e6d45b3..d11a2ff9fbeab4b5e5ec8daa1c2a7b4205ac63e4 100644 (file)
--- a/parse_html/bkmk_ph_htmlparser.py
+++ b/parse_html/bkmk_ph_htmlparser.py
@@ -11,7 +11,10 @@ __license__ = "GNU GPL"
  __all__ = ['parse_html']
  
  
-from HTMLParser import HTMLParseError
+try:
+    from HTMLParser import HTMLParseError
+except ImportError:
+    class HTMLParseError(Exception): pass
  from m_lib.net.www.html import HTMLParser as _HTMLParser
  
  
@@ -86,6 +89,13 @@ class HTMLParser(_HTMLParser):
  
  
  def parse_html(html_text, charset=None, log=None):
+    if not html_text:
+        return None
+    if charset is None and isinstance(html_text, bytes):
+        return None  # html.parser cannot parse bytes
+    if charset and isinstance(html_text, bytes):
+        html_text = html_text.decode(charset)
+
      parser = HTMLParser(charset)
  
      try: