Robots/parse_html_htmlparser.py

   1 """
   2    HTML Parser
   3
   4    Written by Broytman. Copyright (C) 1997-2008 PhiloSoft Design
   5 """
   6
   7 from HTMLParser import HTMLParseError
   8 from m_lib.net.www.html import HTMLParser as _HTMLParser
   9
  10
  11 class HTMLHeadDone(Exception): pass
  12
  13
  14 class HTMLParser(_HTMLParser):
  15    def __init__(self, charset=None):
  16       _HTMLParser.__init__(self)
  17       self.charset = charset
  18       self.meta_charset = 0
  19       self.title = None
  20       self.refresh = None
  21       self.icon = None
  22
  23    def end_head(self):
  24       raise HTMLHeadDone()
  25
  26
  27    def do_meta(self, attrs):
  28       http_equiv = ""
  29       content = ""
  30
  31       for attrname, value in attrs:
  32          if value:
  33             value = value.strip()
  34             if attrname == 'http-equiv':
  35                http_equiv = value.lower()
  36             elif attrname == 'content':
  37                content = value
  38
  39       if (not self.charset) and (http_equiv == "content-type"):
  40          try:
  41             # extract charset from "text/html; foo; charset=UTF-8, bar; baz;"
  42             self.charset = content.lower().split('charset=')[1].split(';')[0].split(',')[0]
  43             self.meta_charset = 1 # Remember that the charset was retrieved from
  44                                   # META tag, not from the Content-Type header
  45          except IndexError:
  46             pass
  47
  48       if http_equiv == "refresh":
  49          self.refresh = content
  50
  51
  52    def start_title(self, attrs):
  53       self.accumulator = ''
  54
  55    def end_title(self):
  56       if not self.title: # use only the first title
  57          self.title = self.accumulator
  58
  59
  60    def do_link(self, attrs):
  61       has_icon = False
  62       href = None
  63
  64       for attrname, value in attrs:
  65          if value:
  66             value = value.strip().lower()
  67             if (attrname == 'rel') and (value.lower() in ('icon', 'shortcut icon')):
  68                has_icon = True
  69             elif attrname == 'href':
  70                href = value
  71
  72       if has_icon:
  73          self.icon = href
  74
  75
  76 def parse_html(filename, charset=None, log=None):
  77    infile = open(filename, 'r')
  78    parser = HTMLParser(charset)
  79
  80    for line in infile:
  81       try:
  82          parser.feed(line)
  83       except (HTMLParseError, HTMLHeadDone):
  84          break
  85
  86    infile.close()
  87
  88    try:
  89       parser.close()
  90    except (HTMLParseError, HTMLHeadDone):
  91       pass
  92
  93    return parser