]> git.phdru.name Git - bookmarks_db.git/blobdiff - parse_html/__init__.py
Moved parse_html.py and its submodules to a separate parse_html module.
[bookmarks_db.git] / parse_html / __init__.py
old mode 100755 (executable)
new mode 100644 (file)
similarity index 91%
rename from Robots/parse_html.py
rename to parse_html/__init__.py
index cbb45d6..c67f2e7
@@ -1,4 +1,3 @@
-#! /usr/bin/env python
 """
    HTML Parsers wrapper
 
@@ -13,41 +12,41 @@ DEFAULT_CHARSET = "cp1251" # Stupid default for Russian Cyrillic
 parsers = []
 
 try:
-   import parse_html_beautifulsoup
-   parse_html_beautifulsoup.DEFAULT_CHARSET = DEFAULT_CHARSET
+   from . import beautifulsoup
 except ImportError:
    pass
 else:
-   parsers.append(parse_html_beautifulsoup.parse_html)
+   beautifulsoup.DEFAULT_CHARSET = DEFAULT_CHARSET
+   parsers.append(beautifulsoup.parse_html)
 
 try:
-   from parse_html_lxml import parse_html
+   from .lxml import parse_html
 except ImportError:
    pass
 else:
     parsers.append(parse_html)
 
 try:
-   from parse_html_htmlparser import parse_html
+   from .htmlparser import parse_html
 except ImportError:
    pass
 else:
     parsers.append(parse_html)
 
 try:
-   import parse_html_html5
+   from . import html5
 except ImportError:
    pass
 else:
-   parsers.append(parse_html_html5.parse_html)
+   parsers.append(html5.parse_html)
 
 # ElementTidy often segfaults
 #try:
-#   import parse_html_etreetidy
+#   from . import etreetidy
 #except ImportError:
 #   pass
 #else:
-#   parsers.append(parse_html_etreetidy.parse_html)
+#   parsers.append(etreetidy.parse_html)
 
 import re
 from htmlentitydefs import name2codepoint
@@ -100,9 +99,10 @@ def parse_html(filename, charset=None, log=None):
       for c in charsets:
          try:
             parser = p(filename, c, log)
-            break
          except UnicodeEncodeError:
             pass
+         else:
+            break
       if parser:
          break
       else:
@@ -161,7 +161,7 @@ def parse_html(filename, charset=None, log=None):
    return parser
 
 
-if __name__ == '__main__':
+def test():
    import sys
 
    l = len(sys.argv)