]> git.phdru.name Git - mimedecode.git/blobdiff - mimedecode.py
Version 2.3.8
[mimedecode.git] / mimedecode.py
index b82d12f96ee5dc945ebe593d3a2dd5c61026002b..1e5b18b388dbcb2d6104c12911742181648118fc 100755 (executable)
@@ -6,11 +6,6 @@ from mimedecode_version import __version__, __author__, __copyright__, __license
 import sys, os
 import email
 
-try:
-    from cStringIO import StringIO
-except ImportError:
-    from StringIO import StringIO
-
 me = os.path.basename(sys.argv[0])
 
 
@@ -23,16 +18,13 @@ Broytman mimedecode.py version %s, %s
 def usage(code=0, errormsg=''):
     version(0)
     sys.stdout.write("""\
-Usage: %s [-h|--help] [-V|--version] [-cCDP] [-H|--host=hostname] [-f charset] [-d header] [-p header:param] [-beit mask] [-o output_file] [input_file [output_file]]
+Usage: %s [-h|--help] [-V|--version] [-cCDP] [-H|--host=hostname] [-f charset] [-d header] [-p header:param] [-r header] [-R header:param] [--remove-params=header] [-beit mask] [-o output_file] [input_file [output_file]]
 """ % me)
     if errormsg:
         sys.stderr.write(errormsg + '\n')
     sys.exit(code)
 
 
-def output(s):
-    gopts.outfile.write(s)
-
 def output_headers(msg):
     unix_from = msg.get_unixfrom()
     if unix_from:
@@ -45,7 +37,6 @@ def output_headers(msg):
 def recode(s, charset):
     return unicode(s, charset, "replace").encode(gopts.default_encoding, "replace")
 
-
 def recode_if_needed(s, charset):
     if charset and charset.lower() <> gopts.default_encoding:
         s = recode(s, charset)
@@ -56,11 +47,10 @@ def _decode_header(s):
     """Return a decoded string according to RFC 2047.
     NOTE: This is almost the same as email.Utils.decode.
     """
-    from types import ListType
     import email.Header
 
     L = email.Header.decode_header(s)
-    if not isinstance(L, ListType):
+    if not isinstance(L, list):
         # s wasn't decoded
         return s
 
@@ -77,7 +67,6 @@ def _decode_header(s):
     # together into the final string.
     return ''.join(rtn)
 
-
 def decode_header(msg, header):
     "Decode mail header (if exists) and put it back, if it was encoded"
 
@@ -91,15 +80,13 @@ def decode_header(msg, header):
 def _decode_header_param(s):
     return recode_if_needed(s[2], s[0])
 
-
 def decode_header_param(msg, header, param):
     "Decode mail header's parameter (if exists) and put it back, if it was encoded"
 
     if msg.has_key(header):
         value = msg.get_param(param, header=header)
         if value:
-            from types import TupleType
-            if isinstance(value, TupleType):
+            if isinstance(value, tuple):
                 new_value = _decode_header_param(value)
             else:
                 new_value = _decode_header(value)
@@ -110,6 +97,21 @@ def decode_header_param(msg, header, param):
 def decode_headers(msg):
     "Decode message headers according to global options"
 
+    for header in gopts.remove_headers:
+        del msg[header]
+
+    for header in gopts.remove_all_params:
+        value = msg[header]
+        if value is None:
+            continue
+        if ';' not in value:
+            continue
+        del msg[header]
+        msg[header] = value.split(';')[0].strip()
+
+    for header, param in gopts.remove_header_params:
+        msg.del_param(param, header)
+
     for header in gopts.decode_headers:
         decode_header(msg, header)
 
@@ -191,12 +193,6 @@ def recode_charset(msg, s):
 def totext(msg, instring):
     "Convert instring content to text"
 
-    if msg.is_multipart(): # Recursively decode all parts of the multipart message
-        newfile = StringIO(msg.as_string())
-        newfile.seek(0)
-        decode_file(newfile)
-        return
-
     # Decode body and recode charset
     s = decode_body(msg, instring)
     if gopts.recode_charset:
@@ -248,34 +244,40 @@ def decode_part(msg):
     totext(msg, outstring)
 
 
-def decode_file(infile):
-    "Decode the entire message"
+def decode_multipart(msg):
+    "Decode multipart"
 
-    msg = email.message_from_file(infile)
-    boundary = msg.get_boundary()
+    decode_headers(msg)
+    output_headers(msg)
 
-    if msg.is_multipart():
-        decode_headers(msg)
-        output_headers(msg)
+    if msg.preamble: # Preserve the first part, it is probably not a RFC822-message
+        output(msg.preamble) # Usually it is just a few lines of text (MIME warning)
 
-        if msg.preamble: # Preserve the first part, it is probably not a RFC822-message
-            output(msg.preamble) # Usually it is just a few lines of text (MIME warning)
+    boundary = msg.get_boundary()
 
-        for subpart in msg.get_payload():
+    for subpart in msg.get_payload():
+        if boundary:
             output("\n--%s\n" % boundary)
-            decode_part(subpart)
 
+        # Recursively decode all parts of the subpart
+        decode_message(subpart)
+
+    if boundary:
         output("\n--%s--\n" % boundary)
 
-        if msg.epilogue:
-            output(msg.epilogue)
+    if msg.epilogue:
+        output(msg.epilogue)
 
-    else:
-        if msg.has_key("Content-Type"): # Simple one-part message - decode it
-            decode_part(msg)
 
-        else: # Not a message, just text - copy it literally
-            output(msg.as_string())
+def decode_message(msg):
+    "Decode message"
+
+    if msg.is_multipart():
+        decode_multipart(msg)
+    elif len(msg): # Simple one-part message (there are headers) - decode it
+        decode_part(msg)
+    else: # Not a message, just text - copy it literally
+        output(msg.as_string())
 
 
 class GlobalOptions:
@@ -284,11 +286,22 @@ class GlobalOptions:
 
     host_name = None
 
-    decode_headers = ["From", "Subject"] # A list of headers to decode
+    # A list of headers to decode
+    decode_headers = ["From", "To", "Cc", "Reply-To", "Mail-Followup-To",
+                      "Subject"]
+
+    # A list of headers parameters to decode
     decode_header_params = [
         ("Content-Type", "name"),
         ("Content-Disposition", "filename"),
-    ] # A list of headers' parameters to decode
+    ]
+
+    # A list of headers to remove
+    remove_headers = []
+    # A list of headers parameters to remove
+    remove_header_params = []
+    # A list of headers to be stripped of all parameters
+    remove_all_params = []
 
     totext_mask = [] # A list of content-types to decode
     binary_mask = [] # A list to pass through
@@ -305,8 +318,9 @@ def get_opt():
     from getopt import getopt, GetoptError
 
     try:
-        options, arguments = getopt(sys.argv[1:], 'hVcCDPH:f:d:p:b:e:i:t:o:',
-            ['help', 'version', 'host'])
+        options, arguments = getopt(sys.argv[1:],
+            'hVcCDPH:f:d:p:r:R:b:e:i:t:o:',
+            ['help', 'version', 'host=', 'remove-params='])
     except GetoptError:
         usage(1)
 
@@ -331,6 +345,12 @@ def get_opt():
             gopts.decode_header_params.append(value.split(':', 1))
         elif option == '-P':
             gopts.decode_header_params = []
+        elif option == '-r':
+            gopts.remove_headers.append(value)
+        elif option == '-R':
+            gopts.remove_header_params.append(value.split(':', 1))
+        elif option == '--remove-params':
+            gopts.remove_all_params.append(value)
         elif option == '-t':
             gopts.totext_mask.append(value)
         elif option == '-b':
@@ -353,9 +373,12 @@ if __name__ == "__main__":
     la = len(arguments)
     if la == 0:
         gopts.input_filename = '-'
-        gopts.output_filename = '-'
         infile = sys.stdin
-        outfile = sys.stdout
+        if gopts.output_filename:
+            outfile = open(gopts.output_filename, 'w')
+        else:
+            gopts.output_filename = '-'
+            outfile = sys.stdout
     elif la in (1, 2):
         if (arguments[0] == '-'):
             gopts.input_filename = '-'
@@ -381,16 +404,20 @@ if __name__ == "__main__":
     else:
         usage(1, 'Too many arguments')
 
-    if (infile is sys.stdin) and (outfile is sys.stdout) and \
-            sys.stdin.isatty() and sys.stdout.isatty():
-        usage(1, 'Filtering from console to console is forbidden')
+    if (infile is sys.stdin) and sys.stdin.isatty():
+        if (outfile is sys.stdout) and sys.stdout.isatty():
+            usage()
+        usage(1, 'Filtering from console is forbidden')
 
     if not gopts.host_name:
         import socket
         gopts.host_name = socket.gethostname()
 
     gopts.outfile = outfile
-    decode_file(infile)
+    output = outfile.write
 
-    infile.close()
-    outfile.close()
+    try:
+        decode_message(email.message_from_file(infile))
+    finally:
+        infile.close()
+        outfile.close()