深入理解iostat

相关文章推荐

淡定的铅笔 · mysql 增加一列数据 ...· 1 年前 ·

睿智的核桃 · 配置 Jenkins ...· 1 年前 ·

聪明的风衣 · VS Code配置Unity开发环境报错 - 简书· 1 年前 ·

魁梧的沙发 · C# 多线程 | 菜鸟教程· 1 年前 ·

被表白的针织衫 · 混合内容。该页面是通过HTTPS加载的，但要 ...· 2 年前 ·

1iostat -mtx 2

1-m     Display statistics in megabytes per second.
3-t     Print the time for each report displayed. The timestamp format may depend on the value of the S_TIME_FORMAT environment variable (see below).
5-x     Display extended statistics.

1fio --name=randwrite --rw=randwrite --bs=4k --size=20G --runtime=1200 --ioengine=libaio --iodepth=64 --numjobs=1 --rate_iops=5000 --filename=/dev/sdf --direct=1 --group_reporting

1 fio --name=randwrite --rw=randwrite --bs=4k --size=20G --runtime=1200 --ioengine=libaio --iodepth=1 --numjobs=1 --filename=/dev/sdc --direct=1 --group_reporting

1fio --name=randwrite --rw=randwrite --bs=4k --size=20G --runtime=1200 --ioengine=libaio --iodepth=16 --numjobs=1 --filename=/dev/sdc --direct=1 --group_reporting

1fio --name=randwrite --rw=randwrite --bs=128k --size=20G --runtime=1200 --ioengine=libaio --iodepth=1 --numjobs=1 --filename=/dev/sdc --direct=1 --group_reporting

1root@node-186:~# cat  /sys/block/sdc/queue/max_sectors_kb 
2256

1fio --name=randwrite --rw=randwrite --bs=512k --size=20G --runtime=1200 --ioengine=libaio --iodepth=1 --numjobs=1 --filename=/dev/sdc --direct=1 --group_reporting

1root@node-186:~# cat   /sys/block/sdc/queue/scheduler 
2[noop] deadline cfq

1svctm
2The  average  service time (in milliseconds) for I/O requests that were issued to the device. Warning! Do not trust this field any more.  This field will be removed in a future sysstat version.

1include/linux/genhd.h
2struct disk_stats {
3        unsigned long sectors[2];       /* READs and WRITEs */
4        unsigned long ios[2];
5        unsigned long merges[2];
6        unsigned long ticks[2];
7        unsigned long io_ticks;
8        unsigned long time_in_queue;
9};

1part_in_flight(hd), 
2static inline int part_in_flight(struct hd_struct *part)
4        return atomic_read(&part->in_flight[0]) + atomic_read(&part->in_flight[1]);
5}

 1while ((hd = disk_part_iter_next(&piter))) {
 2  cpu = part_stat_lock();
 3  part_round_stats(cpu, hd);
 4  part_stat_unlock();
 5  seq_printf(seqf, "%4d %7d %s %lu %lu %llu "
 6         "%u %lu %lu %llu %u %u %u %u\n",
 7         MAJOR(part_devt(hd)), MINOR(part_devt(hd)),
 8         disk_name(gp, hd->partno, buf),
 9         part_stat_read(hd, ios[READ]),
10         part_stat_read(hd, merges[READ]),
11         (unsigned long long)part_stat_read(hd, sectors[READ]),
12         jiffies_to_msecs(part_stat_read(hd, ticks[READ])),
13         part_stat_read(hd, ios[WRITE]),
14         part_stat_read(hd, merges[WRITE]),
15         (unsigned long long)part_stat_read(hd, sectors[WRITE]),
16         jiffies_to_msecs(part_stat_read(hd, ticks[WRITE])),
17         part_in_flight(hd),
18         jiffies_to_msecs(part_stat_read(hd, io_ticks)),
19         jiffies_to_msecs(part_stat_read(hd, time_in_queue))
20      );

 1static void part_round_stats_single(int cpu, struct hd_struct *part,
 2                  unsigned long now)
 4  if (now == part->stamp)
 5      return;
 7  /*如果队列不为空，存在in_flight io*/
 8  if (part_in_flight(part)) {
10      /*小学数学老师的算法，now-part->stamp 乘以班级人数，哦不，是乘以队列中等待的io请求个数*/
11      __part_stat_add(cpu, part, time_in_queue,
12              part_in_flight(part) * (now - part->stamp));
14     /*如实的记录，因为批评调皮学生，浪费了5分钟。io不是空的时间增加now - part->stamp*/
15      __part_stat_add(cpu, part, io_ticks, (now - part->stamp));
16  }
17  part->stamp = now;
18}

 1void blk_account_io_done(struct request *req)
 3    /*   
 4        * Account IO completion.  flush_rq isn't accounted as a
 5        * normal IO on queueing nor completion.  Accounting the
 6        * containing request is enough.
 7        */
 8    if (blk_do_io_stat(req) && !(req->rq_flags & RQF_FLUSH_SEQ)) {
 9            unsigned long duration = jiffies - req->start_time;
10            /*从req获取请求类型：R / W*/
11            const int rw = rq_data_dir(req);
12            struct hd_struct *part;
13            int cpu; 
15            cpu = part_stat_lock();
16            part = req->part;
17            /*更新读或写次数，自加*/
18            part_stat_inc(cpu, part, ios[rw]);
19            /*将io的存活时间，更新到rd_ticks or wr_ticks*/
20            part_stat_add(cpu, part, ticks[rw], duration);
21            /*更新io_ticks和time_in_queue*/
22            part_round_stats(cpu, part);
23            /*对应infight 减 1 */
24            part_dec_in_flight(part, rw); 
26            hd_struct_put(part);
27            part_stat_unlock();
28    }                                                                                                                                              
29}

1void part_round_stats(int cpu, struct hd_struct *part)
3       /*既要更新分区的统计，也要更新整个块设备的统计*/
4        unsigned long now = jiffies;
5        if (part->partno)
6                part_round_stats_single(cpu, &part_to_disk(part)->part0, now);
7        part_round_stats_single(cpu, part, now);
8}

 1void blk_account_io_completion(struct request *req, unsigned int bytes)                             {
 2        if (blk_do_io_stat(req)) {
 3                const int rw = rq_data_dir(req);
 4                struct hd_struct *part;
 5                int cpu; 
 7                cpu = part_stat_lock();
 8                part = req->part;
 9                /*右移9位，相当于除以512字节，即一个扇区的字节数*/
10                part_stat_add(cpu, part, sectors[rw], bytes >> 9);
11                part_stat_unlock();
12        }    
13}

 1void blk_account_io_start(struct request *rq, bool new_io)
 3        struct hd_struct *part;
 4        int rw = rq_data_dir(rq);                                             
 5        int cpu;
 7        if (!blk_do_io_stat(rq))
 8                return;
10        cpu = part_stat_lock();
12        if (!new_io) {
13                /*注意，merge的IO就不会导致in_flight++*/
14                part = rq->part;
15                part_stat_inc(cpu, part, merges[rw]);
16        } else {
17                part = disk_map_sector_rcu(rq->rq_disk, blk_rq_pos(rq));
18                if (!hd_struct_try_get(part)) {
19                        part = &rq->rq_disk->part0;
20                        hd_struct_get(part);
21                }
22                /*新IO，更新io_ticks and time_in_queue*/
23                part_round_stats(cpu, part);
24                /*in_flight 加1*/
25                part_inc_in_flight(part, rw);
26                rq->part = part;
27        }
29        part_stat_unlock();
30}

 1int read_sysfs_file_stat(int curr, char *filename, char *dev_name)
 3        FILE *fp; 
 4        struct io_stats sdev;
 5        int i;
 6        unsigned int ios_pgr, tot_ticks, rq_ticks, wr_ticks;
 7        unsigned long rd_ios, rd_merges_or_rd_sec, wr_ios, wr_merges;
 8        unsigned long rd_sec_or_wr_ios, wr_sec, rd_ticks_or_wr_sec;
10        /* Try to read given stat file */
11        if ((fp = fopen(filename, "r")) == NULL)
12                return 0;
14        i = fscanf(fp, "%lu %lu %lu %lu %lu %lu %lu %u %u %u %u",
15                   &rd_ios, &rd_merges_or_rd_sec, &rd_sec_or_wr_ios, &rd_ticks_or_wr_sec,
16                   &wr_ios, &wr_merges, &wr_sec, &wr_ticks, &ios_pgr, &tot_ticks, &rq_ticks);
18        if (i == 11) {
19                /* Device or partition */
20                sdev.rd_ios     = rd_ios;
21                sdev.rd_merges  = rd_merges_or_rd_sec;
22                sdev.rd_sectors = rd_sec_or_wr_ios;
23                sdev.rd_ticks   = (unsigned int) rd_ticks_or_wr_sec;
24                sdev.wr_ios     = wr_ios;
25                sdev.wr_merges  = wr_merges;                               
26                sdev.wr_sectors = wr_sec;
27                sdev.wr_ticks   = wr_ticks;
28                sdev.ios_pgr    = ios_pgr;
29                sdev.tot_ticks  = tot_ticks;
30                sdev.rq_ticks   = rq_ticks;
31        }
32        else if (i == 4) {
33                /* Partition without extended statistics */
34                sdev.rd_ios     = rd_ios;
35                sdev.rd_sectors = rd_merges_or_rd_sec;
36                sdev.wr_ios     = rd_sec_or_wr_ios;
37                sdev.wr_sectors = rd_ticks_or_wr_sec;
38        }
39        if ((i == 11) || !DISPLAY_EXTENDED(flags)) {
40                /*
41                 * In fact, we _don't_ save stats if it's a partition without
42                 * extended stats and yet we want to display ext stats.
43                 */
44                save_stats(dev_name, curr, &sdev, iodev_nr, st_hdr_iodev);
45        }
47        fclose(fp);
49        return 1;
50}

 1/*       rrq/s wrq/s   r/s   w/s  rsec  wsec  rqsz  qusz await r_await w_await svctm %util */
 2        cprintf_f(2, 8, 2,
 3                  S_VALUE(ioj->rd_merges, ioi->rd_merges, itv),
 4                  S_VALUE(ioj->wr_merges, ioi->wr_merges, itv));
 5        cprintf_f(2, 7, 2,
 6                  S_VALUE(ioj->rd_ios, ioi->rd_ios, itv),
 7                  S_VALUE(ioj->wr_ios, ioi->wr_ios, itv));
 8        cprintf_f(4, 8, 2,
 9                  S_VALUE(ioj->rd_sectors, ioi->rd_sectors, itv) / fctr,
10                  S_VALUE(ioj->wr_sectors, ioi->wr_sectors, itv) / fctr,
11                  xds.arqsz,  //此处是avgrq-sz
12                  S_VALUE(ioj->rq_ticks, ioi->rq_ticks, itv) / 1000.0);//此处是avgqu-sz

 1/*注意sdc中的c指的是current，sdp中的p指的是previous*/
 2void compute_ext_disk_stats(struct stats_disk *sdc, struct stats_disk *sdp,
 3                            unsigned long long itv, struct ext_disk_stats *xds)
 5        double tput
 6                = ((double) (sdc->nr_ios - sdp->nr_ios)) * HZ / itv;
 8        xds->util  = S_VALUE(sdp->tot_ticks, sdc->tot_ticks, itv);
 9        xds->svctm = tput ? xds->util / tput : 0.0;
10        xds->await = (sdc->nr_ios - sdp->nr_ios) ?
11                ((sdc->rd_ticks - sdp->rd_ticks) + (sdc->wr_ticks - sdp->wr_ticks)) /
12                ((double) (sdc->nr_ios - sdp->nr_ios)) : 0.0;
14        xds->arqsz = (sdc->nr_ios - sdp->nr_ios) ?
15                ((sdc->rd_sect - sdp->rd_sect) + (sdc->wr_sect - sdp->wr_sect)) /
16                ((double) (sdc->nr_ios - sdp->nr_ios)) : 0.0;
17}

1sdc.nr_ios    = ioi->rd_ios + ioi->wr_ios;
2sdp.nr_ios    = ioj->rd_ios + ioj->wr_ios;

1xds->arqsz = (读扇区总数 + 写扇区总数)/(读IO次数+写IO次数)
2xds->arqsz = (sdc->nr_ios - sdp->nr_ios) ?
3        ((sdc->rd_sect - sdp->rd_sect) + (sdc->wr_sect - sdp->wr_sect)) /
4        ((double) (sdc->nr_ios - sdp->nr_ios)) : 0.0;

1S_VALUE(ioj->rq_ticks, ioi->rq_ticks, itv) / 1000.0)

1平均等待时间 = 单个请求处理时间*(1+2+3+4...+(请求总数-1))/请求总数

1125000/1000 = 125

1void compute_ext_disk_stats(struct stats_disk *sdc, struct stats_disk *sdp,
2                            unsigned long long itv, struct ext_disk_stats *xds)
4        ...
5        xds->await = (sdc->nr_ios - sdp->nr_ios) ?
6                ((sdc->rd_ticks - sdp->rd_ticks) + (sdc->wr_ticks - sdp->wr_ticks)) /
7                ((double) (sdc->nr_ios - sdp->nr_ios)) : 0.0; 
8        ...
9}

1await = ((所有读IO的时间)+(所有写IO的时间))/((读请求的个数) + (写请求的个数))

1await  = IO 平均处理时间 + IO在队列的平均等待时间

 1void compute_ext_disk_stats(struct stats_disk *sdc, struct stats_disk *sdp,
 2                            unsigned long long itv, struct ext_disk_stats *xds) 
 4        double tput 
 5                = ((double) (sdc->nr_ios - sdp->nr_ios)) * HZ / itv;

腾讯云·社区

云+社区

zhisheng

深入理解iostat

前言

基本用法和输出的基本含义

avgqu-sz 和繁忙程度

avgrq-sz

rrqm/s 和wrqm/s

类比总结

iostat输出的数据来源diskstats

io_ticks and time_in_queue

/proc/diskstats中其他数据项的更新

iostat 输出的计算

avgrq-sz的计算

avgqu-sz的计算

await、r_wait及w_wait的计算

%util 和磁盘设备饱和度

svctm的计算