]> arthur.barton.de Git - netdata.git/blob - conf.d/health.d/net.conf
self-cleaning obsolete cgroups and network interfaces from memory; fixes #1163; fixes...
[netdata.git] / conf.d / health.d / net.conf
1
2 # -----------------------------------------------------------------------------
3 # dropped packets
4
5 # check if an interface is dropping packets
6 # the alarm is checked every 1 minute
7 # and examines the last 10 minutes of data
8
9 template: inbound_packets_dropped
10       on: net.drops
11 families: *
12   lookup: sum -10m unaligned absolute of inbound
13    units: packets
14    every: 1m
15     warn: $this > 0
16    delay: down 1h multiplier 1.5 max 2h
17     info: interface inbound dropped packets in the last 10 minutes
18       to: sysadmin
19
20 template: outbound_packets_dropped
21       on: net.drops
22 families: *
23   lookup: sum -10m unaligned absolute of outbound
24    units: packets
25    every: 1m
26     warn: $this > 0
27    delay: down 1h multiplier 1.5 max 2h
28     info: interface outbound dropped packets in the last 10 minutes
29       to: sysadmin
30
31 template: inbound_packets_dropped_ratio
32       on: net.packets
33 families: *
34   lookup: sum -10m unaligned absolute of received
35     calc: (($inbound_packets_dropped != nan AND $this > 0) ? ($inbound_packets_dropped * 100 / $this) : (0))
36    units: %
37    every: 1m
38     warn: $this > 0.5
39     crit: $this > 3
40    delay: down 1h multiplier 1.5 max 2h
41     info: the ratio of inbound dropped packets vs the total number of received packets of the network interface, during the last 10 minutes
42       to: sysadmin
43
44 template: outbound_packets_dropped_ratio
45       on: net.packets
46 families: *
47   lookup: sum -10m unaligned absolute of sent
48     calc: (($outbound_packets_dropped != nan AND $this > 0) ? ($outbound_packets_dropped * 100 / $this) : (0))
49    units: %
50    every: 1m
51     warn: $this > 0.5
52     crit: $this > 3
53    delay: down 1h multiplier 1.5 max 2h
54     info: the ratio of outbound dropped packets vs the total number of sent packets of the network interface, during the last 10 minutes
55       to: sysadmin
56
57
58 # -----------------------------------------------------------------------------
59 # FIFO errors
60
61 # check if an interface is having FIFO
62 # buffer errors
63 # the alarm is checked every 1 minute
64 # and examines the last 10 minutes of data
65
66 template: 10min_fifo_errors
67       on: net.fifo
68 families: *
69   lookup: sum -10m unaligned absolute
70    units: errors
71    every: 1m
72     warn: $this > 0
73    delay: down 1h multiplier 1.5 max 2h
74     info: interface fifo errors in the last 10 minutes
75       to: sysadmin
76
77
78 # -----------------------------------------------------------------------------
79 # check for packet storms
80
81 # 1. calculate the rate packets are received in 1m: 1m_received_packets_rate
82 # 2. do the same for the last 10s
83 # 3. raise an alarm if the later is 10x or 20x the first
84 # we assume the minimum packet storm should at least have
85 # 10000 packets/s, average of the last 10 seconds
86
87 template: 1m_received_packets_rate
88       on: net.packets
89 families: *
90   lookup: average -1m of received
91    units: packets
92    every: 10s
93     info: the average number of packets received during the last minute
94
95 template: 10s_received_packets_storm
96       on: net.packets
97 families: *
98   lookup: average -10s of received
99     calc: $this * 100 / (($1m_received_packets_rate < 1000)?(1000):($1m_received_packets_rate))
100    every: 10s
101    units: %
102    warn: $this > (($status >= $WARNING)?(200):(1000))
103    crit: $this > (($status >= $WARNING)?(1000):(2000))
104 options: no-clear-notification
105    info: the % of the rate of received packets in the last 10 seconds, compared to the rate of the last minute
106      to: sysadmin
107