parse_html/bkmk_ph_lxml.py

   1 """HTML Parser using lxml.html
   2
   3 This file is a part of Bookmarks database and Internet robot.
   4
   5 """
   6
   7 __author__ = "Oleg Broytman <phd@phdru.name>"
   8 __copyright__ = "Copyright (C) 2010-2017 PhiloSoft Design"
   9 __license__ = "GNU GPL"
  10
  11 __all__ = ['parse_html']
  12
  13
  14 from lxml.html import fromtring
  15 from .bkmk_ph_util import HTMLParser
  16
  17
  18 def parse_html(html_text, charset=None, log=None):
  19     html_tree = fromtring(html_text)
  20
  21     if html_tree.getroot() is None:
  22         return None
  23
  24     title = html_tree.findtext('head/title')
  25     if title is None:
  26         title = html_tree.findtext('title')
  27
  28     meta = html_tree.findall('head/meta')
  29     for m in meta:
  30         if m.get('http-equiv', '').lower() == 'content-type':
  31             meta_content = m.get("content")
  32             if meta_content:
  33                 try:
  34                     meta_charset = \
  35                         meta_content.lower().split('charset=')[1].split(';')[0]
  36                     break
  37                 except IndexError:
  38                     meta_charset = False
  39         elif m.get('charset', ''):
  40             meta_charset = m.get('charset').lower()
  41             break
  42     else:
  43         meta_charset = False
  44
  45     if title and (charset or meta_charset):
  46         title = title.encode(charset or meta_charset)
  47
  48     for m in meta:
  49         if m.get('http-equiv', '').lower() == 'refresh':
  50             refresh = m.get("content")
  51             break
  52     else:
  53         refresh = None
  54
  55     for link in html_tree.findall('head/link'):
  56         if link.get('rel', '').lower() in ('icon', 'shortcut icon'):
  57             icon = link.get("href")
  58             break
  59     else:
  60         icon = None
  61
  62     if (title is None) and (refresh is None) and (icon is None):
  63         return None
  64     return HTMLParser(charset, meta_charset, title, refresh, icon)