]> git.phdru.name Git - mimedecode.git/blobdiff - mimedecode.py
Cleanup: Fix flake8 E128 continuation line under-indented for visual indent
[mimedecode.git] / mimedecode.py
index d239a1fe2234e332cb78b7d96387c687c98c6e70..2fccbcc7b13f2cece51828769653bc2320257518 100755 (executable)
@@ -2,8 +2,13 @@
 """Decode MIME message"""
 
 import sys, os
+import subprocess
 from mimedecode_version import __version__, \
     __author__, __copyright__, __license__
+if sys.version_info[0] >= 3:
+    # Replace email.message._formatparam with _formatparam from Python 2.7
+    # to avoid re-encoding non-ascii params.
+    import formatparam_27
 
 me = os.path.basename(sys.argv[0])
 
@@ -17,7 +22,7 @@ Broytman mimedecode.py version %s, %s
 def usage(code=0, errormsg=''):
     version(0)
     sys.stdout.write("""\
-        Usage: %s [-h|--help] [-V|--version] [-cCDP] [-H|--host=hostname] [-f charset] [-d header1[,h2,...]|*[,-h1,...]] [-p header1[,h2,h3,...]:param1[,p2,p3,...]] [-r header1[,h2,...]|*[,-h1,...]] [-R header1[,h2,h3,...]:param1[,p2,p3,...]] [--set-header header:value] [--set-param header:param=value] [-Bbeit mask] [--save-headers|body|message mask] [-O dest_dir] [-o output_file] [input_file [output_file]]
+Usage: %s [-h|--help] [-V|--version] [-cCDP] [-H|--host=hostname] [-f charset] [-d header1[,h2,...]|*[,-h1,...]] [-p header1[,h2,h3,...]:param1[,p2,p3,...]] [-r header1[,h2,...]|*[,-h1,...]] [-R header1[,h2,h3,...]:param1[,p2,p3,...]] [--set-header header:value] [--set-param header:param=value] [-Bbeit mask] [--save-headers|body|message mask] [-O dest_dir] [-o output_file] [input_file [output_file]]
 """ % me)
     if errormsg:
         sys.stderr.write(errormsg + os.linesep)
@@ -27,63 +32,75 @@ def usage(code=0, errormsg=''):
 def output_headers(msg):
     unix_from = msg.get_unixfrom()
     if unix_from:
-        output(unix_from + os.linesep)
+        output(unix_from)
+        output(os.linesep)
     for key, value in msg.items():
-        output("%s: %s%s" % (key, value, os.linesep))
+        output(key)
+        output(": ")
+        value = value.split(';', 1)
+        output(value[0])
+        if len(value) == 2:
+            output(";")
+            output(_decode_header(value[1], strip=False))
+        output(os.linesep)
     output(os.linesep) # End of headers
 
 
 def recode_if_needed(s, charset):
-    if charset and charset.lower() <> g.default_encoding:
-        s = unicode(s, charset, "replace").encode(g.default_encoding, "replace")
+    if bytes is str: # Python2
+        if isinstance(s, bytes) and \
+                charset and charset.lower() != g.default_encoding:
+            s = s.decode(charset, "replace").\
+                encode(g.default_encoding, "replace")
+    else: # Python3
+        if isinstance(s, bytes):
+            s = s.decode(charset, "replace")
     return s
 
 
-def _decode_header(s):
+def _decode_header(s, strip=True):
     """Return a decoded string according to RFC 2047.
     NOTE: This is almost the same as email.Utils.decode.
     """
-    import email.Header
+    import email.header
 
-    L = email.Header.decode_header(s)
+    L = email.header.decode_header(s)
     if not isinstance(L, list):
         # s wasn't decoded
         return s
 
     rtn = []
     for atom, charset in L:
-        if charset is None:
-            rtn.append(atom)
-        else:
-            rtn.append(recode_if_needed(atom, charset))
-        rtn.append(' ')
-    del rtn[-1] # remove the last space
+        atom = recode_if_needed(atom, charset or g.default_encoding)
+        if strip:
+            atom = atom.strip()
+        rtn.append(atom)
 
     # Now that we've decoded everything, we just need to join all the parts
     # together into the final string.
-    return ''.join(rtn)
+    return ' '.join(rtn)
 
 def decode_header(msg, header):
     "Decode mail header (if exists) and put it back, if it was encoded"
 
-    if msg.has_key(header):
+    if header in msg:
         value = msg[header]
         new_value = _decode_header(value)
-        if new_value <> value: # do not bother to touch msg if not changed
+        if new_value != value: # do not bother to touch msg if not changed
             set_header(msg, header, new_value)
 
 
 def decode_header_param(msg, header, param):
     "Decode mail header's parameter (if exists) and put it back, if it was encoded"
 
-    if msg.has_key(header):
+    if header in msg:
         value = msg.get_param(param, header=header)
         if value:
             if isinstance(value, tuple):
                 new_value = recode_if_needed(value[2], value[0])
             else:
                 new_value = _decode_header(value)
-            if new_value <> value: # do not bother to touch msg if not changed
+            if new_value != value: # do not bother to touch msg if not changed
                 msg.set_param(param, new_value, header)
 
 
@@ -181,7 +198,7 @@ def decode_headers(msg):
 def set_header(msg, header, value):
     "Replace header"
 
-    if msg.has_key(header):
+    if header in msg:
         msg.replace_header(header, value)
     else:
         msg[header] = value
@@ -206,13 +223,17 @@ def decode_body(msg, s):
         caps = mailcap.getcaps()
 
     content_type = msg.get_content_type()
+    if content_type.startswith('text/'):
+        charset = msg.get_content_charset()
+    else:
+        charset = None
     filename = tempfile.mktemp()
     command = None
 
     entries = mailcap.lookup(caps, content_type, "view")
     for entry in entries:
-        if entry.has_key('copiousoutput'):
-            if entry.has_key('test'):
+        if 'copiousoutput' in entry:
+            if 'test' in entry:
                 test = mailcap.subst(entry['test'], content_type, filename)
                 if test and os.system(test) != 0:
                     continue
@@ -223,17 +244,28 @@ def decode_body(msg, s):
         return s
 
     outfile = open(filename, 'wb')
+    if charset and bytes is not str and isinstance(s, bytes):  # Python3
+        s = s.decode(charset, "replace")
+    if not isinstance(s, bytes):
+        s = s.encode(g.default_encoding, "replace")
     outfile.write(s)
     outfile.close()
 
-    pipe = os.popen(command, 'r')
-    s = pipe.read()
-    pipe.close()
+    pipe = subprocess.Popen(command, shell=True, stdout=subprocess.PIPE)
+    new_s = pipe.stdout.read()
+    pipe.stdout.close()
+    if pipe.wait() == 0: # result=0, Ok
+        s = new_s
+        if bytes is not str and isinstance(s, bytes):  # Python3
+            s = s.decode(g.default_encoding, "replace")
+        if charset and not isinstance(s, bytes):
+            s = s.encode(charset, "replace")
+        set_content_type(msg, "text/plain")
+        msg["X-MIME-Autoconverted"] = "from %s to text/plain by %s id %s" % (content_type, g.host_name, command.split()[0])
+    else:
+        msg["X-MIME-Autoconverted"] = "failed conversion from %s to text/plain by %s id %s" % (content_type, g.host_name, command.split()[0])
     os.remove(filename)
 
-    set_content_type(msg, "text/plain")
-    msg["X-MIME-Autoconverted"] = "from %s to text/plain by %s id %s" % (content_type, g.host_name, command.split()[0])
-
     return s
 
 
@@ -241,7 +273,7 @@ def recode_charset(msg, s):
     "Recode charset of the message to the default charset"
 
     save_charset = charset = msg.get_content_charset()
-    if charset and charset.lower() <> g.default_encoding:
+    if charset and charset.lower() != g.default_encoding:
         s = recode_if_needed(s, charset)
         content_type = msg.get_content_type()
         set_content_type(msg, content_type, g.default_encoding)
@@ -302,7 +334,11 @@ def _save_message(msg, outstring, save_headers=False, save_body=False):
     global output
     save_output = output
     outfile = open_output_file(fname)
-    output = outfile.write
+    def _output_bytes(s):
+        if not isinstance(s, bytes):
+            s = s.encode(g.default_encoding, "replace")
+        outfile.write(s)
+    output = _output_bytes
     if save_headers:
         output_headers(msg)
     if save_body:
@@ -333,6 +369,8 @@ def decode_part(msg):
         elif content_type in g.binary_mask:
             left_binary = True
             break
+        elif content_type in g.fully_ignore_mask:
+            return
 
     encoding = msg["Content-Transfer-Encoding"]
     if left_binary or encoding in (None, '', '7bit', '8bit', 'binary'):
@@ -347,7 +385,7 @@ def decode_part(msg):
             outstring = totext(msg, outstring)
             break
         elif content_type in g.binary_mask or \
-             content_type in g.decoded_binary_mask:
+                content_type in g.decoded_binary_mask:
             output_headers(msg)
             output(outstring)
             break
@@ -371,7 +409,7 @@ def decode_part(msg):
 
     for content_type in masks:
         if content_type in g.error_mask:
-            raise ValueError, "content type %s prohibited" % ctype
+            raise ValueError("content type %s prohibited" % ctype)
 
 def decode_multipart(msg):
     "Decode multipart"
@@ -388,14 +426,44 @@ def decode_multipart(msg):
     masks.append('*/*')
 
     for content_type in masks:
-        if content_type in g.ignore_mask:
+        if content_type in g.fully_ignore_mask:
+            return
+        elif content_type in g.ignore_mask:
             output_headers(msg)
             output("%sMessage body of type %s skipped.%s" % (os.linesep, ctype, os.linesep))
             if boundary:
                 output("%s--%s--%s" % (os.linesep, boundary, os.linesep))
             return
-        elif content_type in g.error_mask:
-            raise ValueError, "content type %s prohibited" % ctype
+
+    for content_type in masks:
+        if content_type in g.save_body_mask or \
+                content_type in g.save_message_mask:
+            _out_l = []
+            first_subpart = True
+            for subpart in msg.get_payload():
+                if first_subpart:
+                    first_subpart = False
+                else:
+                    _out_l.append(os.linesep)
+                _out_l.append("--%s%s" % (boundary, os.linesep))
+                _out_l.append(subpart.as_string())
+            _out_l.append("%s--%s--%s" % (os.linesep, boundary, os.linesep))
+            outstring = ''.join(_out_l)
+            break
+    else:
+        outstring = None
+
+    for content_type in masks:
+        if content_type in g.save_headers_mask:
+            _save_message(msg, outstring, save_headers=True, save_body=False)
+        if content_type in g.save_body_mask:
+            _save_message(msg, outstring, save_headers=False, save_body=True)
+        if content_type in g.save_message_mask:
+            _save_message(msg, outstring, save_headers=True, save_body=True)
+
+    for content_type in masks:
+        if content_type in g.error_mask:
+            raise ValueError("content type %s prohibited" % ctype)
 
     output_headers(msg)
 
@@ -476,7 +544,8 @@ class GlobalOptions:
     totext_mask = [] # A list of content-types to decode
     binary_mask = [] # A list of content-types to pass through
     decoded_binary_mask = [] # A list of content-types to pass through (content-transfer-decoded)
-    ignore_mask = [] # Ignore (skip, do not decode and do not include into output)
+    ignore_mask = [] # Ignore (do not decode and do not include into output) but output a warning instead of the body
+    fully_ignore_mask = [] # Completely ignore - no headers, no body, no warning
     error_mask = []  # Raise error if encounter one of these
 
     save_counter = 0
@@ -495,8 +564,9 @@ def get_opts():
     from getopt import getopt, GetoptError
 
     try:
-        options, arguments = getopt(sys.argv[1:],
-            'hVcCDPH:f:d:p:r:R:b:B:e:i:t:O:o:',
+        options, arguments = getopt(
+            sys.argv[1:],
+            'hVcCDPH:f:d:p:r:R:b:B:e:I:i:t:O:o:',
             ['help', 'version', 'host=',
              'save-headers=', 'save-body=', 'save-message=',
              'set-header=', 'set-param='])
@@ -545,6 +615,8 @@ def get_opts():
             g.binary_mask.append(value)
         elif option == '-b':
             g.decoded_binary_mask.append(value)
+        elif option == '-I':
+            g.fully_ignore_mask.append(value)
         elif option == '-i':
             g.ignore_mask.append(value)
         elif option == '-e':
@@ -612,7 +684,14 @@ if __name__ == "__main__":
         g.host_name = socket.gethostname()
 
     g.outfile = outfile
-    output = outfile.write
+    if hasattr(outfile, 'buffer'):
+        def output_bytes(s):
+            if not isinstance(s, bytes):
+                s = s.encode(g.default_encoding, "replace")
+            outfile.buffer.write(s)
+        output = output_bytes
+    else:
+        output = outfile.write
 
     import email
     msg = email.message_from_file(infile)