~unity-2d-team/unity-2d/Shell-MultiMonitor

« back to all changes in this revision

Viewing changes to grackle/model.py

  • Committer: William Grant
  • Date: 2012-04-20 02:21:11 UTC
  • Revision ID: william.grant@canonical.com-20120420022111-j088wyca1r84w0r1
Unbreak create_keyspace with new pycassa.

Show diffs side-by-side

added added

removed removed

Lines of Context:
14
14
# License along with this program. If not, see
15
15
# <http://www.gnu.org/licenses/>.
16
16
 
 
17
import calendar
17
18
import datetime
18
 
import dateutil.tz
19
19
import email.parser
20
20
from email.utils import parsedate_tz
 
21
import functools
21
22
import logging
22
23
import uuid
23
24
 
24
 
import pycassa
 
25
import dateutil.tz
 
26
import pycassa.pool
25
27
from pycassa.system_manager import (
26
28
    LEXICAL_UUID_TYPE,
27
29
    SystemManager,
28
30
    TIME_UUID_TYPE,
29
31
    )
30
 
 
31
 
from grackle.server.cassandra import workaround_1779
32
 
 
33
 
 
34
 
def create_schema(host, keyspace, clobber=False):
 
32
from pycassa.util import convert_time_to_uuid
 
33
 
 
34
from grackle.cassandra import workaround_1779
 
35
 
 
36
 
 
37
def create_schema(host, keyspace, clobber=False, create_keyspace=False):
35
38
    mgr = SystemManager(host)
36
39
 
 
40
    if create_keyspace:
 
41
        mgr.create_keyspace(
 
42
            keyspace, strategy_options={'replication_factor': '1'})
 
43
 
37
44
    if clobber:
38
45
        for cf in mgr.get_keyspace_column_families(keyspace):
39
46
            mgr.drop_column_family(keyspace, cf)
51
58
        mgr.close()
52
59
 
53
60
 
 
61
def _parse_message(message):
 
62
    """Get a date and dict of an RFC822 message."""
 
63
    parsed = email.parser.Parser().parsestr(message)
 
64
    message_dict = {}
 
65
 
 
66
    for key in ('from', 'to', 'subject', 'message-id'):
 
67
        value = parsed.get(key, None)
 
68
        if value is not None:
 
69
            message_dict[key] = value
 
70
 
 
71
    date = parsed.get('date')
 
72
    if date is not None:
 
73
        try:
 
74
            pdate = parsedate_tz(date)
 
75
            date = datetime.datetime(
 
76
                *pdate[:6],
 
77
                tzinfo=dateutil.tz.tzoffset('', pdate[9]))
 
78
        except ValueError:
 
79
            pass
 
80
    message_dict['date'] = date.isoformat() if date is not None else None
 
81
 
 
82
    return date, message_dict
 
83
 
 
84
 
 
85
def _utc_datetime(dt):
 
86
    return dt.astimezone(dateutil.tz.tzutc())
 
87
 
 
88
 
 
89
def _utc_timestamp(dt):
 
90
    return calendar.timegm(_utc_datetime(dt).timetuple())
 
91
 
 
92
 
 
93
def _utc_timeuuid(dt, lowest_val=True):
 
94
    return convert_time_to_uuid(_utc_timestamp(dt), lowest_val)
 
95
 
 
96
 
 
97
def _cmp_timeuuid(a, b):
 
98
    if a.time != b.time:
 
99
        return cmp(a.time, b.time)
 
100
    return cmp(a, b)
 
101
 
 
102
 
 
103
def _bound_timeuuid(a, b, max=False):
 
104
    if a == '' or _cmp_timeuuid(b, a) == (1 if max else -1):
 
105
        return b
 
106
    return a
 
107
 
 
108
 
 
109
def _make_bounds(memo, range_start, range_finish, backward):
 
110
    start = finish = ''
 
111
    if memo != '':
 
112
        memo = uuid.UUID(memo)
 
113
    if backward:
 
114
        finish = memo
 
115
    else:
 
116
        start = memo
 
117
    if range_start is not None:
 
118
        start = _bound_timeuuid(
 
119
            start, _utc_timeuuid(range_start), max=True)
 
120
    if range_finish is not None:
 
121
        finish = _bound_timeuuid(
 
122
            finish, _utc_timeuuid(range_finish, lowest_val=False))
 
123
    return memo, start, finish
 
124
 
 
125
 
 
126
LEGAL_HEADERS = set([
 
127
    'date', 'from', 'subject', 'message-id',
 
128
    ])
 
129
 
 
130
 
 
131
def _format_message(message, headers=[], include_raw=False):
 
132
    data = {}
 
133
 
 
134
    if headers:
 
135
        assert not set(headers).difference(LEGAL_HEADERS)
 
136
        hdict = {}
 
137
        for header in headers:
 
138
            hdict[header] = message.get(header)
 
139
        data['headers'] = hdict
 
140
 
 
141
    if include_raw:
 
142
        data['raw'] = message['raw']
 
143
 
 
144
    return data
 
145
 
 
146
 
54
147
class CassandraConnection(object):
55
148
 
56
 
    def __init__(self, keyspace, host):
 
149
    def __init__(self, keyspace, hosts):
57
150
        self._keyspace = keyspace
58
 
        self._host = host
 
151
        self._hosts = hosts
59
152
        self._connection = self._connect()
 
153
        self._pool = self._connect()
60
154
        self.messages = self._column_family('message')
61
155
        self.archive_messages = self._column_family('archive_message')
62
156
 
63
157
    def _connect(self):
64
 
        return pycassa.connect(self._keyspace, self._host)
 
158
        return pycassa.pool.ConnectionPool(self._keyspace, self._hosts)
65
159
 
66
160
    def _column_family(self, name):
67
 
        return pycassa.ColumnFamily(self._connection, name)
 
161
        return pycassa.ColumnFamily(self._pool, name)
68
162
 
69
163
    def add_message(self, archive_uuid, message):
70
164
        message_uuid = uuid.uuid4()
71
 
        parsed = email.parser.Parser().parsestr(message)
72
 
        date = parsed.get('date')
73
 
        if date is not None:
74
 
            try:
75
 
                pdate = parsedate_tz(date)
76
 
                date = datetime.datetime(
77
 
                    *pdate[:6],
78
 
                    tzinfo=dateutil.tz.tzoffset('', pdate[9]))
79
 
            except ValueError:
80
 
                pass
81
 
        self.messages.insert(
82
 
            message_uuid,
83
 
            {'date_created': datetime.datetime.utcnow().isoformat() + 'Z',
84
 
             'content': message,
85
 
             'from': parsed.get('From'),
86
 
             'subject': parsed.get('Subject'),
87
 
             'date': date.isoformat() if date is not None else None,
88
 
             'message_id': parsed.get('Message-ID'),
89
 
             })
 
165
        message_date, message_dict = _parse_message(message)
 
166
        message_dict['raw'] = message
 
167
        message_dict['date_created'] = (
 
168
            datetime.datetime.utcnow().isoformat() + 'Z')
 
169
        self.messages.insert(message_uuid, message_dict)
90
170
        self.archive_messages.insert(
91
171
            archive_uuid,
92
 
            {date.astimezone(dateutil.tz.tzutc()): message_uuid})
 
172
            {_utc_timestamp(message_date): message_uuid})
93
173
        logging.debug(
94
 
            'Imported %s into %s' % (parsed.get('Message-ID'), archive_uuid))
 
174
            'Imported %s into %s'
 
175
            % (message_dict.get('message-id', None), archive_uuid))
95
176
        return message_uuid
96
177
 
97
 
    def _format_message(self, message):
98
 
        return {
99
 
            'date': message['date'],
100
 
            'from': message['from'],
101
 
            'subject': message['subject'],
102
 
            }
103
 
 
104
 
    def get_messages(self, archive_uuid, order, count, start):
 
178
    def _trim(self, sequence, end):
 
179
        """Return the sequence with one of the ends trimmed.
 
180
 
 
181
        :param end: if true, remove the last element. otherwise remove
 
182
            the first.
 
183
        """
 
184
        if end:
 
185
            return sequence[:-1]
 
186
        else:
 
187
            return sequence[1:]
 
188
 
 
189
    def get_messages(self, archive_uuid, order, count, memo, backward=False,
 
190
                     start_date=None, finish_date=None, format='all',
 
191
                     headers=['from', 'date', 'subject', 'message-id']):
105
192
        if order in ("date", "-date"):
106
193
            reversed = order[0] == '-'
107
194
        else:
108
195
            raise AssertionError("Unsupported order.")
 
196
 
 
197
        memo, start, finish = _make_bounds(
 
198
            memo, start_date, finish_date, backward)
 
199
 
 
200
        # Get up to n+1 messages from the memo: the last item of the
 
201
        # previous batch (because that's where the memo starts) + this
 
202
        # batch.
109
203
        pairs = self.archive_messages.get(
110
 
            archive_uuid, column_count=count+1,
111
 
            column_start=start, column_reversed=reversed).items()
 
204
            archive_uuid, column_count=count + 1, column_start=start,
 
205
            column_finish=finish, column_reversed=reversed).items()
 
206
 
 
207
        if len(pairs) and memo and pairs[0][0] <= memo:
 
208
            # The memo (from the previous batch) was included in the result.
 
209
            # Trim it.
 
210
            pairs = self._trim(pairs, False ^ backward)
 
211
        elif len(pairs) > count:
 
212
            # There was no memo in the result, so the n+1th element is
 
213
            # unnecessary. Kill it.
 
214
            pairs = self._trim(pairs, True ^ backward)
 
215
 
 
216
        if len(pairs) == 0:
 
217
            return (None, [], None)
 
218
 
 
219
        assert 0 < len(pairs) <= count
 
220
 
 
221
        # We've narrowed down the message references. Fetch the messages.
112
222
        ids = [v for k, v in pairs]
113
 
        messages = self.messages.multiget(
114
 
            ids, columns=['date', 'from', 'subject'])
115
 
        actual_count = len(pairs)
116
 
        if len(pairs) > count:
117
 
            assert len(pairs) == count + 1
118
 
            actual_count -= 1
119
 
            next_memo = str(pairs[count][0])
120
 
        else:
121
 
            next_memo = None
 
223
        formatter = functools.partial(
 
224
            _format_message, headers=headers, include_raw=True)
 
225
        # XXX: No need to get all columns. Restrict based on format.
 
226
        messages = self.messages.multiget(ids)
 
227
 
122
228
        return (
123
 
            [self._format_message(messages[id]) for id in ids[:actual_count]],
124
 
            next_memo,
 
229
            str(pairs[0][0]),
 
230
            [formatter(messages[id]) for id in ids],
 
231
            str(pairs[-1][0]),
125
232
            )