]> git.phdru.name Git - bookmarks_db.git/blobdiff - Robots/parse_html.py
Calculate if the charset came from HTTP or from HTML meta.
[bookmarks_db.git] / Robots / parse_html.py
index 8e5ca2b826a1359b37b13af1b336627f3a59609b..3e20a5516a775eb8e425bdf932831bbcb559641f 100755 (executable)
@@ -11,17 +11,10 @@ from m_lib.defenc import default_encoding
 current_charset = default_encoding.replace("windows-", "cp")
 DEFAULT_CHARSET = "cp1251" # Stupid default for Russian Cyrillic
 
-from parse_html_htmlparser import parse_html as _parse_html
-
-
-class HTMLParser(object):
-   def __init__(self, charset=None):
-      _HTMLParser.__init__(self)
-      self.charset = charset
-      self.meta_charset = 0
-      self.title = ''
-      self.refresh = ''
-      self.icon = None
+try:
+   from parse_html_beautifulsoup import parse_html as _parse_html
+except ImportError:
+   from parse_html_htmlparser import parse_html as _parse_html
 
 
 import re
@@ -75,7 +68,7 @@ def parse_html(filename, charset=None, log=None):
 
 if __name__ == '__main__':
    import sys
-   parser = parse_html(sys.argv[1])
+   parser = parse_html(sys.argv[1], current_charset)
    print parser.charset
    print parser.title
    print parser.refresh