~drizzle-trunk/drizzle/development

« back to all changes in this revision

Viewing changes to storage/innobase/buf/buf0flu.c

  • Committer: Monty Taylor
  • Date: 2009-08-12 06:25:19 UTC
  • mto: (1114.1.1 innodb-plugin-merge)
  • mto: This revision was merged to the branch mainline in revision 1183.
  • Revision ID: mordred@inaugust.com-20090812062519-cij02mrrunvnxblt
Tags: innodb-plugin-1.0.4
InnoDB Plugin 1.0.4

Show diffs side-by-side

added added

removed removed

Lines of Context:
16
16
 
17
17
*****************************************************************************/
18
18
 
19
 
/******************************************************
 
19
/**************************************************//**
 
20
@file buf/buf0flu.c
20
21
The database buffer buf_pool flush algorithm
21
22
 
22
23
Created 11/11/1995 Heikki Tuuri
26
27
 
27
28
#ifdef UNIV_NONINL
28
29
#include "buf0flu.ic"
29
 
#include "trx0sys.h"
30
30
#endif
31
31
 
 
32
#include "buf0buf.h"
 
33
#include "srv0srv.h"
 
34
#include "page0zip.h"
 
35
#ifndef UNIV_HOTBACKUP
32
36
#include "ut0byte.h"
33
37
#include "ut0lst.h"
34
38
#include "page0page.h"
35
 
#include "page0zip.h"
36
39
#include "fil0fil.h"
37
 
#include "buf0buf.h"
38
40
#include "buf0lru.h"
39
41
#include "buf0rea.h"
40
42
#include "ibuf0ibuf.h"
41
43
#include "log0log.h"
42
44
#include "os0file.h"
43
45
#include "trx0sys.h"
44
 
#include "srv0srv.h"
 
46
 
 
47
/**********************************************************************
 
48
These statistics are generated for heuristics used in estimating the
 
49
rate at which we should flush the dirty blocks to avoid bursty IO
 
50
activity. Note that the rate of flushing not only depends on how many
 
51
dirty pages we have in the buffer pool but it is also a fucntion of
 
52
how much redo the workload is generating and at what rate. */
 
53
/* @{ */
 
54
 
 
55
/** Number of intervals for which we keep the history of these stats.
 
56
Each interval is 1 second, defined by the rate at which
 
57
srv_error_monitor_thread() calls buf_flush_stat_update(). */
 
58
#define BUF_FLUSH_STAT_N_INTERVAL 20
 
59
 
 
60
/** Sampled values buf_flush_stat_cur.
 
61
Not protected by any mutex.  Updated by buf_flush_stat_update(). */
 
62
static buf_flush_stat_t buf_flush_stat_arr[BUF_FLUSH_STAT_N_INTERVAL];
 
63
 
 
64
/** Cursor to buf_flush_stat_arr[]. Updated in a round-robin fashion. */
 
65
static ulint            buf_flush_stat_arr_ind;
 
66
 
 
67
/** Values at start of the current interval. Reset by
 
68
buf_flush_stat_update(). */
 
69
static buf_flush_stat_t buf_flush_stat_cur;
 
70
 
 
71
/** Running sum of past values of buf_flush_stat_cur.
 
72
Updated by buf_flush_stat_update(). Not protected by any mutex. */
 
73
static buf_flush_stat_t buf_flush_stat_sum;
 
74
 
 
75
/** Number of pages flushed through non flush_list flushes. */
 
76
static ulint buf_lru_flush_page_count = 0;
 
77
 
 
78
/* @} */
45
79
 
46
80
#if defined UNIV_DEBUG || defined UNIV_BUF_DEBUG
47
 
/**********************************************************************
48
 
Validates the flush list. */
 
81
/******************************************************************//**
 
82
Validates the flush list.
 
83
@return TRUE if ok */
49
84
static
50
85
ibool
51
86
buf_flush_validate_low(void);
52
87
/*========================*/
53
 
                /* out: TRUE if ok */
54
88
#endif /* UNIV_DEBUG || UNIV_BUF_DEBUG */
55
89
 
56
 
/************************************************************************
 
90
/********************************************************************//**
57
91
Inserts a modified block into the flush list. */
58
92
UNIV_INTERN
59
93
void
60
94
buf_flush_insert_into_flush_list(
61
95
/*=============================*/
62
 
        buf_block_t*    block)  /* in/out: block which is modified */
 
96
        buf_block_t*    block)  /*!< in/out: block which is modified */
63
97
{
64
98
        ut_ad(buf_pool_mutex_own());
65
99
        ut_ad((UT_LIST_GET_FIRST(buf_pool->flush_list) == NULL)
79
113
#endif /* UNIV_DEBUG || UNIV_BUF_DEBUG */
80
114
}
81
115
 
82
 
/************************************************************************
 
116
/********************************************************************//**
83
117
Inserts a modified block into the flush list in the right sorted position.
84
118
This function is used by recovery, because there the modifications do not
85
119
necessarily come in the order of lsn's. */
87
121
void
88
122
buf_flush_insert_sorted_into_flush_list(
89
123
/*====================================*/
90
 
        buf_block_t*    block)  /* in/out: block which is modified */
 
124
        buf_block_t*    block)  /*!< in/out: block which is modified */
91
125
{
92
126
        buf_page_t*     prev_b;
93
127
        buf_page_t*     b;
122
156
#endif /* UNIV_DEBUG || UNIV_BUF_DEBUG */
123
157
}
124
158
 
125
 
/************************************************************************
 
159
/********************************************************************//**
126
160
Returns TRUE if the file page block is immediately suitable for replacement,
127
 
i.e., the transition FILE_PAGE => NOT_USED allowed. */
 
161
i.e., the transition FILE_PAGE => NOT_USED allowed.
 
162
@return TRUE if can replace immediately */
128
163
UNIV_INTERN
129
164
ibool
130
165
buf_flush_ready_for_replace(
131
166
/*========================*/
132
 
                                /* out: TRUE if can replace immediately */
133
 
        buf_page_t*     bpage)  /* in: buffer control block, must be
 
167
        buf_page_t*     bpage)  /*!< in: buffer control block, must be
134
168
                                buf_page_in_file(bpage) and in the LRU list */
135
169
{
136
170
        ut_ad(buf_pool_mutex_own());
155
189
        return(FALSE);
156
190
}
157
191
 
158
 
/************************************************************************
159
 
Returns TRUE if the block is modified and ready for flushing. */
 
192
/********************************************************************//**
 
193
Returns TRUE if the block is modified and ready for flushing.
 
194
@return TRUE if can flush immediately */
160
195
UNIV_INLINE
161
196
ibool
162
197
buf_flush_ready_for_flush(
163
198
/*======================*/
164
 
                                /* out: TRUE if can flush immediately */
165
 
        buf_page_t*     bpage,  /* in: buffer control block, must be
 
199
        buf_page_t*     bpage,  /*!< in: buffer control block, must be
166
200
                                buf_page_in_file(bpage) */
167
 
        enum buf_flush  flush_type)/* in: BUF_FLUSH_LRU or BUF_FLUSH_LIST */
 
201
        enum buf_flush  flush_type)/*!< in: BUF_FLUSH_LRU or BUF_FLUSH_LIST */
168
202
{
169
203
        ut_a(buf_page_in_file(bpage));
170
204
        ut_ad(buf_pool_mutex_own());
192
226
        return(FALSE);
193
227
}
194
228
 
195
 
/************************************************************************
 
229
/********************************************************************//**
196
230
Remove a block from the flush list of modified blocks. */
197
231
UNIV_INTERN
198
232
void
199
233
buf_flush_remove(
200
234
/*=============*/
201
 
        buf_page_t*     bpage)  /* in: pointer to the block in question */
 
235
        buf_page_t*     bpage)  /*!< in: pointer to the block in question */
202
236
{
203
237
        ut_ad(buf_pool_mutex_own());
204
238
        ut_ad(mutex_own(buf_page_get_mutex(bpage)));
227
261
 
228
262
        bpage->oldest_modification = 0;
229
263
 
230
 
        ut_d(UT_LIST_VALIDATE(list, buf_page_t, buf_pool->flush_list));
 
264
        ut_d(UT_LIST_VALIDATE(list, buf_page_t, buf_pool->flush_list,
 
265
                              ut_ad(ut_list_node_313->in_flush_list)));
231
266
}
232
267
 
233
 
/************************************************************************
 
268
/********************************************************************//**
234
269
Updates the flush system data structures when a write is completed. */
235
270
UNIV_INTERN
236
271
void
237
272
buf_flush_write_complete(
238
273
/*=====================*/
239
 
        buf_page_t*     bpage)  /* in: pointer to the block in question */
 
274
        buf_page_t*     bpage)  /*!< in: pointer to the block in question */
240
275
{
241
276
        enum buf_flush  flush_type;
242
277
 
268
303
        }
269
304
}
270
305
 
271
 
/************************************************************************
 
306
/********************************************************************//**
272
307
Flushes possible buffered writes from the doublewrite memory buffer to disk,
273
308
and also wakes up the aio thread if simulated aio is used. It is very
274
309
important to call this function after a batch of writes has been posted,
515
550
        mutex_exit(&(trx_doublewrite->mutex));
516
551
}
517
552
 
518
 
/************************************************************************
 
553
/********************************************************************//**
519
554
Posts a buffer page for writing. If the doublewrite memory buffer is
520
555
full, calls buf_flush_buffered_writes and waits for for free space to
521
556
appear. */
523
558
void
524
559
buf_flush_post_to_doublewrite_buf(
525
560
/*==============================*/
526
 
        buf_page_t*     bpage)  /* in: buffer block to write */
 
561
        buf_page_t*     bpage)  /*!< in: buffer block to write */
527
562
{
528
563
        ulint   zip_size;
529
564
try_again:
573
608
 
574
609
        mutex_exit(&(trx_doublewrite->mutex));
575
610
}
 
611
#endif /* !UNIV_HOTBACKUP */
576
612
 
577
 
/************************************************************************
 
613
/********************************************************************//**
578
614
Initializes a page for writing to the tablespace. */
579
615
UNIV_INTERN
580
616
void
581
617
buf_flush_init_for_writing(
582
618
/*=======================*/
583
 
        byte*           page,           /* in/out: page */
584
 
        void*           page_zip_,      /* in/out: compressed page, or NULL */
585
 
        ib_uint64_t     newest_lsn)     /* in: newest modification lsn
 
619
        byte*           page,           /*!< in/out: page */
 
620
        void*           page_zip_,      /*!< in/out: compressed page, or NULL */
 
621
        ib_uint64_t     newest_lsn)     /*!< in: newest modification lsn
586
622
                                        to the page */
587
623
{
588
624
        ut_ad(page);
652
688
                        : BUF_NO_CHECKSUM_MAGIC);
653
689
}
654
690
 
655
 
/************************************************************************
 
691
#ifndef UNIV_HOTBACKUP
 
692
/********************************************************************//**
656
693
Does an asynchronous write of a buffer page. NOTE: in simulated aio and
657
694
also when the doublewrite buffer is used, we must call
658
695
buf_flush_buffered_writes after we have posted a batch of writes! */
660
697
void
661
698
buf_flush_write_block_low(
662
699
/*======================*/
663
 
        buf_page_t*     bpage)  /* in: buffer block to write */
 
700
        buf_page_t*     bpage)  /*!< in: buffer block to write */
664
701
{
665
702
        ulint   zip_size        = buf_page_get_zip_size(bpage);
666
703
        page_t* frame           = NULL;
740
777
        }
741
778
}
742
779
 
743
 
/************************************************************************
 
780
/********************************************************************//**
744
781
Writes a flushable page asynchronously from the buffer pool to a file.
745
782
NOTE: in simulated aio we must call
746
783
os_aio_simulated_wake_handler_threads after we have posted a batch of
751
788
void
752
789
buf_flush_page(
753
790
/*===========*/
754
 
        buf_page_t*     bpage,          /* in: buffer control block */
755
 
        enum buf_flush  flush_type)     /* in: BUF_FLUSH_LRU
 
791
        buf_page_t*     bpage,          /*!< in: buffer control block */
 
792
        enum buf_flush  flush_type)     /*!< in: BUF_FLUSH_LRU
756
793
                                        or BUF_FLUSH_LIST */
757
794
{
758
795
        mutex_t*        block_mutex;
854
891
        buf_flush_write_block_low(bpage);
855
892
}
856
893
 
857
 
/***************************************************************
858
 
Flushes to disk all flushable pages within the flush area. */
 
894
/***********************************************************//**
 
895
Flushes to disk all flushable pages within the flush area.
 
896
@return number of pages flushed */
859
897
static
860
898
ulint
861
899
buf_flush_try_neighbors(
862
900
/*====================*/
863
 
                                        /* out: number of pages flushed */
864
 
        ulint           space,          /* in: space id */
865
 
        ulint           offset,         /* in: page offset */
866
 
        enum buf_flush  flush_type)     /* in: BUF_FLUSH_LRU or
 
901
        ulint           space,          /*!< in: space id */
 
902
        ulint           offset,         /*!< in: page offset */
 
903
        enum buf_flush  flush_type)     /*!< in: BUF_FLUSH_LRU or
867
904
                                        BUF_FLUSH_LIST */
868
905
{
869
906
        buf_page_t*     bpage;
945
982
        return(count);
946
983
}
947
984
 
948
 
/***********************************************************************
 
985
/*******************************************************************//**
949
986
This utility flushes dirty blocks from the end of the LRU list or flush_list.
950
987
NOTE 1: in the case of an LRU flush the calling thread may own latches to
951
988
pages: to avoid deadlocks, this function must be written so that it cannot
952
989
end up waiting for these latches! NOTE 2: in the case of a flush list flush,
953
 
the calling thread is not allowed to own any latches on pages! */
 
990
the calling thread is not allowed to own any latches on pages!
 
991
@return number of blocks for which the write request was queued;
 
992
ULINT_UNDEFINED if there was a flush of the same type already running */
954
993
UNIV_INTERN
955
994
ulint
956
995
buf_flush_batch(
957
996
/*============*/
958
 
                                        /* out: number of blocks for which the
959
 
                                        write request was queued;
960
 
                                        ULINT_UNDEFINED if there was a flush
961
 
                                        of the same type already running */
962
 
        enum buf_flush  flush_type,     /* in: BUF_FLUSH_LRU or
 
997
        enum buf_flush  flush_type,     /*!< in: BUF_FLUSH_LRU or
963
998
                                        BUF_FLUSH_LIST; if BUF_FLUSH_LIST,
964
999
                                        then the caller must not own any
965
1000
                                        latches on pages */
966
 
        ulint           min_n,          /* in: wished minimum mumber of blocks
 
1001
        ulint           min_n,          /*!< in: wished minimum mumber of blocks
967
1002
                                        flushed (it is not guaranteed that the
968
1003
                                        actual number is that big, though) */
969
 
        ib_uint64_t     lsn_limit)      /* in the case BUF_FLUSH_LIST all
 
1004
        ib_uint64_t     lsn_limit)      /*!< in the case BUF_FLUSH_LIST all
970
1005
                                        blocks whose oldest_modification is
971
1006
                                        smaller than this should be flushed
972
1007
                                        (if their number does not exceed
1100
1135
 
1101
1136
        srv_buf_pool_flushed += page_count;
1102
1137
 
 
1138
        /* We keep track of all flushes happening as part of LRU
 
1139
        flush. When estimating the desired rate at which flush_list
 
1140
        should be flushed we factor in this value. */
 
1141
        if (flush_type == BUF_FLUSH_LRU) {
 
1142
                buf_lru_flush_page_count += page_count;
 
1143
        }
 
1144
 
1103
1145
        return(page_count);
1104
1146
}
1105
1147
 
1106
 
/**********************************************************************
 
1148
/******************************************************************//**
1107
1149
Waits until a flush batch of the given type ends */
1108
1150
UNIV_INTERN
1109
1151
void
1110
1152
buf_flush_wait_batch_end(
1111
1153
/*=====================*/
1112
 
        enum buf_flush  type)   /* in: BUF_FLUSH_LRU or BUF_FLUSH_LIST */
 
1154
        enum buf_flush  type)   /*!< in: BUF_FLUSH_LRU or BUF_FLUSH_LIST */
1113
1155
{
1114
1156
        ut_ad((type == BUF_FLUSH_LRU) || (type == BUF_FLUSH_LIST));
1115
1157
 
1116
1158
        os_event_wait(buf_pool->no_flush[type]);
1117
1159
}
1118
1160
 
1119
 
/**********************************************************************
 
1161
/******************************************************************//**
1120
1162
Gives a recommendation of how many blocks should be flushed to establish
1121
1163
a big enough margin of replaceable blocks near the end of the LRU list
1122
 
and in the free list. */
 
1164
and in the free list.
 
1165
@return number of blocks which should be flushed from the end of the
 
1166
LRU list */
1123
1167
static
1124
1168
ulint
1125
1169
buf_flush_LRU_recommendation(void)
1126
1170
/*==============================*/
1127
 
                        /* out: number of blocks which should be flushed
1128
 
                        from the end of the LRU list */
1129
1171
{
1130
1172
        buf_page_t*     bpage;
1131
1173
        ulint           n_replaceable;
1168
1210
               - n_replaceable);
1169
1211
}
1170
1212
 
1171
 
/*************************************************************************
 
1213
/*********************************************************************//**
1172
1214
Flushes pages from the end of the LRU list if there is too small a margin
1173
1215
of replaceable pages there or in the free list. VERY IMPORTANT: this function
1174
1216
is called also by threads which have locks on pages. To avoid deadlocks, we
1195
1237
        }
1196
1238
}
1197
1239
 
 
1240
/*********************************************************************
 
1241
Update the historical stats that we are collecting for flush rate
 
1242
heuristics at the end of each interval.
 
1243
Flush rate heuristic depends on (a) rate of redo log generation and
 
1244
(b) the rate at which LRU flush is happening. */
 
1245
UNIV_INTERN
 
1246
void
 
1247
buf_flush_stat_update(void)
 
1248
/*=======================*/
 
1249
{
 
1250
        buf_flush_stat_t*       item;
 
1251
        ib_uint64_t             lsn_diff;
 
1252
        ib_uint64_t             lsn;
 
1253
        ulint                   n_flushed;
 
1254
 
 
1255
        lsn = log_get_lsn();
 
1256
        if (buf_flush_stat_cur.redo == 0) {
 
1257
                /* First time around. Just update the current LSN
 
1258
                and return. */
 
1259
                buf_flush_stat_cur.redo = lsn;
 
1260
                return;
 
1261
        }
 
1262
 
 
1263
        item = &buf_flush_stat_arr[buf_flush_stat_arr_ind];
 
1264
 
 
1265
        /* values for this interval */
 
1266
        lsn_diff = lsn - buf_flush_stat_cur.redo;
 
1267
        n_flushed = buf_lru_flush_page_count
 
1268
                    - buf_flush_stat_cur.n_flushed;
 
1269
 
 
1270
        /* add the current value and subtract the obsolete entry. */
 
1271
        buf_flush_stat_sum.redo += lsn_diff - item->redo;
 
1272
        buf_flush_stat_sum.n_flushed += n_flushed - item->n_flushed;
 
1273
 
 
1274
        /* put current entry in the array. */
 
1275
        item->redo = lsn_diff;
 
1276
        item->n_flushed = n_flushed;
 
1277
 
 
1278
        /* update the index */
 
1279
        buf_flush_stat_arr_ind++;
 
1280
        buf_flush_stat_arr_ind %= BUF_FLUSH_STAT_N_INTERVAL;
 
1281
 
 
1282
        /* reset the current entry. */
 
1283
        buf_flush_stat_cur.redo = lsn;
 
1284
        buf_flush_stat_cur.n_flushed = buf_lru_flush_page_count;
 
1285
}
 
1286
 
 
1287
/*********************************************************************
 
1288
Determines the fraction of dirty pages that need to be flushed based
 
1289
on the speed at which we generate redo log. Note that if redo log
 
1290
is generated at a significant rate without corresponding increase
 
1291
in the number of dirty pages (for example, an in-memory workload)
 
1292
it can cause IO bursts of flushing. This function implements heuristics
 
1293
to avoid this burstiness.
 
1294
@return number of dirty pages to be flushed / second */
 
1295
UNIV_INTERN
 
1296
ulint
 
1297
buf_flush_get_desired_flush_rate(void)
 
1298
/*==================================*/
 
1299
{
 
1300
        ulint                   redo_avg;
 
1301
        ulint                   lru_flush_avg;
 
1302
        ulint                   n_dirty;
 
1303
        ulint                   n_flush_req;
 
1304
        lint                    rate;
 
1305
        ib_uint64_t             lsn = log_get_lsn();
 
1306
        ulint                   log_capacity = log_get_capacity();
 
1307
 
 
1308
        /* log_capacity should never be zero after the initialization
 
1309
        of log subsystem. */
 
1310
        ut_ad(log_capacity != 0);
 
1311
 
 
1312
        /* Get total number of dirty pages. It is OK to access
 
1313
        flush_list without holding any mtex as we are using this
 
1314
        only for heuristics. */
 
1315
        n_dirty = UT_LIST_GET_LEN(buf_pool->flush_list);
 
1316
 
 
1317
        /* An overflow can happen if we generate more than 2^32 bytes
 
1318
        of redo in this interval i.e.: 4G of redo in 1 second. We can
 
1319
        safely consider this as infinity because if we ever come close
 
1320
        to 4G we'll start a synchronous flush of dirty pages. */
 
1321
        /* redo_avg below is average at which redo is generated in
 
1322
        past BUF_FLUSH_STAT_N_INTERVAL + redo generated in the current
 
1323
        interval. */
 
1324
        redo_avg = (ulint) (buf_flush_stat_sum.redo
 
1325
                            / BUF_FLUSH_STAT_N_INTERVAL
 
1326
                            + (lsn - buf_flush_stat_cur.redo));
 
1327
 
 
1328
        /* An overflow can happen possibly if we flush more than 2^32
 
1329
        pages in BUF_FLUSH_STAT_N_INTERVAL. This is a very very
 
1330
        unlikely scenario. Even when this happens it means that our
 
1331
        flush rate will be off the mark. It won't affect correctness
 
1332
        of any subsystem. */
 
1333
        /* lru_flush_avg below is rate at which pages are flushed as
 
1334
        part of LRU flush in past BUF_FLUSH_STAT_N_INTERVAL + the
 
1335
        number of pages flushed in the current interval. */
 
1336
        lru_flush_avg = buf_flush_stat_sum.n_flushed
 
1337
                        / BUF_FLUSH_STAT_N_INTERVAL
 
1338
                        + (buf_lru_flush_page_count
 
1339
                           - buf_flush_stat_cur.n_flushed);
 
1340
 
 
1341
        n_flush_req = (n_dirty * redo_avg) / log_capacity;
 
1342
 
 
1343
        /* The number of pages that we want to flush from the flush
 
1344
        list is the difference between the required rate and the
 
1345
        number of pages that we are historically flushing from the
 
1346
        LRU list */
 
1347
        rate = n_flush_req - lru_flush_avg;
 
1348
        return(rate > 0 ? (ulint) rate : 0);
 
1349
}
 
1350
 
1198
1351
#if defined UNIV_DEBUG || defined UNIV_BUF_DEBUG
1199
 
/**********************************************************************
1200
 
Validates the flush list. */
 
1352
/******************************************************************//**
 
1353
Validates the flush list.
 
1354
@return TRUE if ok */
1201
1355
static
1202
1356
ibool
1203
1357
buf_flush_validate_low(void)
1204
1358
/*========================*/
1205
 
                /* out: TRUE if ok */
1206
1359
{
1207
1360
        buf_page_t*     bpage;
1208
1361
 
1209
 
        UT_LIST_VALIDATE(list, buf_page_t, buf_pool->flush_list);
 
1362
        UT_LIST_VALIDATE(list, buf_page_t, buf_pool->flush_list,
 
1363
                         ut_ad(ut_list_node_313->in_flush_list));
1210
1364
 
1211
1365
        bpage = UT_LIST_GET_FIRST(buf_pool->flush_list);
1212
1366
 
1224
1378
        return(TRUE);
1225
1379
}
1226
1380
 
1227
 
/**********************************************************************
1228
 
Validates the flush list. */
 
1381
/******************************************************************//**
 
1382
Validates the flush list.
 
1383
@return TRUE if ok */
1229
1384
UNIV_INTERN
1230
1385
ibool
1231
1386
buf_flush_validate(void)
1232
1387
/*====================*/
1233
 
                /* out: TRUE if ok */
1234
1388
{
1235
1389
        ibool   ret;
1236
1390
 
1243
1397
        return(ret);
1244
1398
}
1245
1399
#endif /* UNIV_DEBUG || UNIV_BUF_DEBUG */
 
1400
#endif /* !UNIV_HOTBACKUP */