]> git.phdru.name Git - bookmarks_db.git/blob - Robots/bkmk_rurllib_py3.py
Feat(robots): Handle HTTP redirect 308
[bookmarks_db.git] / Robots / bkmk_rurllib_py3.py
1 """Simple, strightforward robot based on urllib
2
3 This file is a part of Bookmarks database and Internet robot.
4
5 """
6
7 __author__ = "Oleg Broytman <phd@phdru.name>"
8 __copyright__ = "Copyright (C) 2000-2023 PhiloSoft Design"
9 __license__ = "GNU GPL"
10
11 __all__ = ['robot_urllib_py3']
12
13
14 import http.client
15 import socket
16 import sys
17 import urllib.request
18
19 from Robots.bkmk_robot_base import robot_base, get_error
20
21
22 class RedirectException(Exception):
23     def __init__(self, errcode, newurl):
24         Exception.__init__(self)
25         self.errcode = errcode
26         self.newurl = newurl
27
28
29 class MyURLopener(urllib.request.URLopener):
30     # Error 301 -- relocated (permanently)
31     def http_error_301(self, url, fp, errcode, errmsg, headers, data=None):
32         if 'location' in headers:
33             newurl = headers['location']
34         elif 'uri' in headers:
35             newurl = headers['uri']
36         else:
37             newurl = "Nowhere"
38         raise RedirectException(errcode, newurl)
39
40     # Error 302 -- relocated (temporarily)
41     http_error_302 = http_error_301
42     # Error 303 -- relocated (see other)
43     http_error_303 = http_error_301
44     # Error 307 -- relocated (temporarily)
45     http_error_307 = http_error_301
46     # Error 308 -- relocated (permanently)
47     http_error_308 = http_error_301
48
49     # Error 401 -- authentication required
50     def http_error_401(self, url, fp, errcode, errmsg, headers, data=None):
51         raise IOError(
52             ('http error', errcode, "Authentication required ", headers))
53
54     def http_error_default(self, url, fp, errcode, errmsg, headers):
55         if fp:
56             fp.read()
57             fp.close()
58         raise IOError(('http error', errcode, errmsg, headers))
59
60     def open(self, fullurl, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT):
61         return urllib.request.URLopener.open(self, fullurl, data)
62
63
64 urllib.request._opener = opener = MyURLopener()
65
66 # Fake headers to pretend this is a real browser
67 _user_agent = "Mozilla/5.0 (X11; U; Linux 2.6 i686; en)"
68 " Gecko/20001221 Firefox/2.0.0"
69 opener.addheaders[0] = ('User-Agent', _user_agent)
70 _x_user_agent = "bookmarks_db (Python %d.%d.%d; urllib/%s)" % (
71    sys.version_info[0], sys.version_info[1],
72    sys.version_info[2], urllib.request.__version__
73 )
74 opener.addheader('X-User-Agent', _x_user_agent)
75 opener.addheader('Referer', '')
76
77 opener.addheader('Accept', '*/*')
78 opener.addheader('Accept-Language', 'ru,en')
79 opener.addheader('Cache-Control', 'max-age=300')
80 opener.addheader('Connection', 'close')
81
82
83 urllib_ftpwrapper = urllib.request.ftpwrapper
84 ftpcache_key = None
85
86
87 class myftpwrapper(urllib_ftpwrapper):
88     def __init__(self, user, passwd, host, port, dirs):
89         urllib_ftpwrapper.__init__(self, user, passwd, host, port, dirs)
90         global ftpcache_key
91         ftpcache_key = (user, host, port, '/'.join(dirs))
92
93
94 urllib.request.ftpwrapper = myftpwrapper
95
96
97 class robot_urllib_py3(robot_base):
98     def get(self, bookmark, url, accept_charset=False):
99         try:
100             # Set fake referer to the base URL
101             opener.addheaders[2] = ('Referer', url)
102
103             if accept_charset and bookmark.charset:
104                 opener.addheader('Accept-Charset', bookmark.charset)
105             try:
106                 fname, headers = urllib.request.urlretrieve(url)
107             finally:
108                 if accept_charset and bookmark.charset:
109                     # Remove Accept-Charset
110                     del opener.addheaders[-1]
111
112             possible_encodings = []
113             for encoding in (
114                     bookmark.charset,
115                     sys.getfilesystemencoding(),
116                     'utf-8',
117             ):
118                 if encoding and encoding not in possible_encodings:
119                     possible_encodings.append(encoding)
120             content = None
121             for encoding in possible_encodings:
122                 infile = open(fname, 'rt', encoding=encoding)
123                 try:
124                     content = infile.read()
125                 except UnicodeDecodeError:
126                     infile.close()
127                     continue
128                 else:
129                     break
130                 infile.close()
131
132             if content is None:
133                 return (
134                     'ERROR: File encoding was not recognized',
135                     None, None, None, None
136                 )
137             return None, None, None, headers, content
138
139         except RedirectException as e:
140             return None, e.errcode, e.newurl, None, None
141
142         except (OSError, http.client.IncompleteRead) as e:
143             error = str(e)
144             self.log('   Error: %s' % error)
145             return error, None, None, None, None
146
147         except IOError as e:
148             if (e[0] == "http error") and (e[1] == -1):
149                 error = None
150                 bookmark.no_error = "The server did not return any header - "
151                 "it is not an error, actually"
152                 self.log('   no headers: %s' % bookmark.no_error)
153             else:
154                 error = get_error(e)
155                 self.log('   Error: %s' % error)
156
157             return error, None, None, None, None
158
159     def get_ftp_welcome(self):
160         global ftpcache_key
161         _welcome = opener.ftpcache[ftpcache_key].ftp.welcome
162         # I am assuming there are no duplicate ftp URLs in db.
163         # If there are - ftpcache_key in next line is invalid.
164         ftpcache_key = None
165         return _welcome
166
167     def finish_check_url(self, bookmark):
168         robot_base.finish_check_url(self, bookmark)
169         urllib.request.urlcleanup()
170         urllib.request._opener = opener