]> arthur.barton.de Git - netdata.git/blob - conf.d/health.d/disks.conf
lowered the warning and critical levels of the prediction for out of space and increa...
[netdata.git] / conf.d / health.d / disks.conf
1 # -----------------------------------------------------------------------------
2 # low disk space
3
4 # checking the latest collected values
5 # raise an alarm if the disk is low on
6 # available disk space
7
8 template: disk_space_usage
9       on: disk.space
10     calc: $used * 100 / ($avail + $used)
11    every: 1m
12     warn: $this > 80
13     crit: $this > 95
14    units: %
15     info: current disk space usage
16       to: sysadmin
17
18
19 # -----------------------------------------------------------------------------
20 # disk fill rate
21
22 # calculate the rate the disk fills
23 # use as base, the available space change
24 # during the last hour
25
26 # this is just a calculation - it has no alarm
27 # we will use it in the next template to find
28 # the hours remaining
29
30 template: disk_fill_rate
31       on: disk.space
32   lookup: min -10m at -50m unaligned of avail
33     calc: ($this - $avail) / (($now - $after) / 3600)
34    every: 1m
35    units: GB/hour
36     info: average rate the disk fills up (positive), or frees up (negative) space, for the last hour
37
38
39 # calculate the hours remaining
40 # if the disk continues to fill
41 # in this rate
42
43 template: out_of_disk_space_time
44       on: disk.space
45     calc: $avail / $disk_fill_rate
46    every: 10s
47     warn: $this > 0 and $this < 8
48     crit: $this > 0 and $this < 2
49    units: hours
50     info: estimated time the disk will run out of space, if the system continues to add data with the rate of the last hour
51       to: sysadmin
52
53
54 # -----------------------------------------------------------------------------
55 # disk congestion
56
57 # raise an alarm if the disk is congested
58 # by calculating the average disk utilization
59 # for the last 10 minutes
60
61 template: 10min_disk_utilization
62       on: disk.util
63   lookup: average -10m unaligned
64    every: 1m
65    green: 90
66      red: 98
67     warn: $this > $green
68     crit: $this > $red
69    units: %
70     info: the percentage of time the disk was busy, during the last 10 minutes
71       to: sysadmin
72
73
74 # raise an alarm if the disk backlog
75 # is above 1000ms (1s) per second
76 # for 10 minutes
77 # (i.e. the disk cannot catch up)
78
79 template: 10min_disk_backlog
80       on: disk.backlog
81   lookup: average -10m unaligned
82    every: 1m
83    green: 1000
84      red: 2000
85     warn: $this > $green
86     crit: $this > $red
87    units: ms
88     info: average of the kernel estimated disk backlog, for the last 10 minutes
89       to: sysadmin