]> arthur.barton.de Git - netdata.git/blobdiff - plugins.d/alarm-notify.sh
uniform logging from all scripts
[netdata.git] / plugins.d / alarm-notify.sh
index ccd59edfc215ab77d0809da37d88e0952cd5c4da..acd44923f9d768f939b4ef0d51e7a5940cb116aa 100755 (executable)
@@ -1,22 +1,75 @@
 #!/usr/bin/env bash
 
-# (C) Costa Tsaousis
-# pushover support by Jan Arnold
+# netdata
+# real-time performance and health monitoring, done right!
+# (C) 2016 Costa Tsaousis <costa@tsaousis.gr>
+# GPL v3+
+#
+# Script to send alarm notifications for netdata
+#
+# Features:
+#  - multiple notification methods
+#  - multiple roles per alarm
+#  - multiple recipients per role
+#  - severity filtering per recipient
+#
+# Supported notification methods:
+#  - emails
+#  - pushover.net notifications
+#  - slack.com notifications
+#  - telegram.org notifications
+#
+
+export PATH="${PATH}:/sbin:/usr/sbin:/usr/local/sbin"
+export LC_ALL=C
 
-me="${0}"
+# -----------------------------------------------------------------------------
 
-if [ $(( ${BASH_VERSINFO[0]} )) -lt 4 ]
-then
-    echo >&2
-    echo >&2 "$me: ERROR"
-    echo >&2 "BASH version 4 or later is required."
-    echo >&2 "You are running version: ${BASH_VERSION}"
-    echo >&2 "Please upgrade."
-    echo >&2
+PROGRAM_NAME="$(basename "${0}")"
+
+logdate() {
+    date "+%Y-%m-%d %H:%M:%S"
+}
+
+log() {
+    local status="${1}"
+    shift
+
+    echo >&2 "$(logdate): ${PROGRAM_NAME}: ${status}: ${*}"
+
+}
+
+warning() {
+    log WARNING "${@}"
+}
+
+error() {
+    log ERROR "${@}"
+}
+
+info() {
+    log INFO "${@}"
+}
+
+fatal() {
+    log FATAL "${@}"
     exit 1
-fi
+}
+
+debug=0
+debug() {
+    [ $debug -eq 1 ] && log DEBUG "${@}"
+}
+
+# -----------------------------------------------------------------------------
 
+# check for BASH v4+ (required for associative arrays)
+[ $(( ${BASH_VERSINFO[0]} )) -lt 4 ] && \
+    fatal "BASH version 4 or later is required (this is ${BASH_VERSION})."
+
+# -----------------------------------------------------------------------------
 # defaults to allow running this script by hand
+
 NETDATA_CONFIG_DIR="${NETDATA_CONFIG_DIR-/etc/netdata}"
 NETDATA_CACHE_DIR="${NETDATA_CACHE_DIR-/var/cache/netdata}"
 [ -z "${NETDATA_REGISTRY_URL}" ] && NETDATA_REGISTRY_URL="https://registry.my-netdata.io"
@@ -26,22 +79,22 @@ NETDATA_CACHE_DIR="${NETDATA_CACHE_DIR-/var/cache/netdata}"
 # -----------------------------------------------------------------------------
 # parse command line parameters
 
-recipient="${1}"   # the recepient of the email
-host="${2}"        # the host this event refers to
+roles="${1}"       # the roles that should be notified for this event
+host="${2}"        # the host generated this event
 unique_id="${3}"   # the unique id of this event
 alarm_id="${4}"    # the unique id of the alarm that generated this event
-event_id="${5}"    # the incremental id of the event, for this alarm
-when="${6}"        # the timestamp this event occured
+event_id="${5}"    # the incremental id of the event, for this alarm id
+when="${6}"        # the timestamp this event occurred
 name="${7}"        # the name of the alarm, as given in netdata health.d entries
 chart="${8}"       # the name of the chart (type.id)
 family="${9}"      # the family of the chart
 status="${10}"     # the current status : REMOVED, UNITIALIZED, UNDEFINED, CLEAR, WARNING, CRITICAL
 old_status="${11}" # the previous status: REMOVED, UNITIALIZED, UNDEFINED, CLEAR, WARNING, CRITICAL
-value="${12}"      # the current value
-old_value="${13}"  # the previous value
+value="${12}"      # the current value of the alarm
+old_value="${13}"  # the previous value of the alarm
 src="${14}"        # the line number and file the alarm has been configured
-duration="${15}"   # the duration in seconds the previous state took
-non_clear_duration="${16}" # the total duration in seconds this is non-clear
+duration="${15}"   # the duration in seconds of the previous alarm state
+non_clear_duration="${16}" # the total duration in seconds this is/was non-clear
 units="${17}"      # the units of the value
 info="${18}"       # a short description of the alarm
 
@@ -51,23 +104,24 @@ info="${18}"       # a short description of the alarm
 # don't do anything if this is not WARNING, CRITICAL or CLEAR
 if [ "${status}" != "WARNING" -a "${status}" != "CRITICAL" -a "${status}" != "CLEAR" ]
 then
-    echo >&2 "${me}: not sending notification for ${status} on '${chart}.${name}'"
+    info "not sending notification for ${status} on '${chart}.${name}'"
     exit 1
 fi
 
 # don't do anything if this is CLEAR, but it was not WARNING or CRITICAL
 if [ "${old_status}" != "WARNING" -a "${old_status}" != "CRITICAL" -a "${status}" = "CLEAR" ]
 then
-    echo >&2 "${me}: not sending notification for ${status} on '${chart}.${name}' (last status was ${old_status})"
+    info "not sending notification for ${status} on '${chart}.${name}' (last status was ${old_status})"
     exit 1
 fi
 
 # -----------------------------------------------------------------------------
 # load configuration
 
-# this is defined here so that private registries
-# can setup their own
-# images_base_url="${NETDATA_REGISTRY_URL}"
+# By default fetch images from the global public registry.
+# This is required by default, since all notification methods need to download
+# images via the Internet, and private registries might not be reachable.
+# This can be overwritten at the configuration file.
 images_base_url="https://registry.my-netdata.io"
 
 # needed commands
@@ -108,14 +162,14 @@ if [ -f "${NETDATA_CONFIG_DIR}/health_alarm_notify.conf" ]
 fi
 
 # -----------------------------------------------------------------------------
-# filter recipients based on the criticality of each
+# filter a recipient based on alarm event severity
 
 filter_recipient_by_criticality() {
     local method="${1}" x="${2}" r s
     shift
 
-    r="${x/|*/}"
-    s="${x/*|/}"
+    r="${x/|*/}" # the recipient
+    s="${x/*|/}" # the severity required for notifying this recipient
 
     # no severity filtering for this person
     [ "${r}" = "${s}" ] && return 0
@@ -148,19 +202,23 @@ filter_recipient_by_criticality() {
 }
 
 # -----------------------------------------------------------------------------
-# find the recipient's addresses per method
+# find the recipients' addresses per method
 
 declare -A arr_slack=()
 declare -A arr_pushover=()
 declare -A arr_telegram=()
 declare -A arr_email=()
 
-# netdata may call us with multiple recipients
-# so, here we find the unique ones
-for x in ${recipient//,/ }
+# netdata may call us with multiple roles, and roles may have multiple but
+# overlapping recipients - so, here we find the unique recipients.
+for x in ${roles//,/ }
 do
+    # the roles 'silent' and 'disabled' mean:
+    # don't send a notification for this role
+    [ "${x}" = "silent" -o "${x}" = "disabled" ] && continue
+
     # email
-    a="${role_recipients_email[${recipient}]}"
+    a="${role_recipients_email[${x}]}"
     [ -z "${a}" ] && a="${DEFAULT_RECIPIENT_EMAIL}"
     for r in ${a//,/ }
     do
@@ -168,7 +226,7 @@ do
     done
 
     # pushover
-    a="${role_recipients_pushover[${recipient}]}"
+    a="${role_recipients_pushover[${x}]}"
     [ -z "${a}" ] && a="${DEFAULT_RECIPIENT_PUSHOVER}"
     for r in ${a//,/ }
     do
@@ -176,7 +234,7 @@ do
     done
 
     # telegram
-    a="${role_recipients_telegram[${recipient}]}"
+    a="${role_recipients_telegram[${x}]}"
     [ -z "${a}" ] && a="${DEFAULT_RECIPIENT_TELEGRAM}"
     for r in ${a//,/ }
     do
@@ -184,7 +242,7 @@ do
     done
 
     # slack
-    a="${role_recipients_slack[${recipient}]}"
+    a="${role_recipients_slack[${x}]}"
     [ -z "${a}" ] && a="${DEFAULT_RECIPIENT_SLACK}"
     for r in ${a//,/ }
     do
@@ -246,8 +304,7 @@ fi
 # check that we have at least a method enabled
 if [ "${SEND_EMAIL}" != "YES" -a "${SEND_PUSHOVER}" != "YES" -a "${SEND_TELEGRAM}" != "YES" -a "${SEND_SLACK}" != "YES" ]
     then
-    echo >&2 "All notification methods are disabled. Not sending a notification."
-    exit 1
+    fatal "All notification methods are disabled. Not sending a notification."
 fi
 
 # -----------------------------------------------------------------------------
@@ -356,10 +413,10 @@ send_email() {
 
         if [ $ret -eq 0 ]
         then
-            echo >&2 "${me}: Sent email notification for: ${host} ${chart}.${name} is ${status} to '${to_email}'"
+            info "sent email notification for: ${host} ${chart}.${name} is ${status} to '${to_email}'"
             return 0
         else
-            echo >&2 "${me}: Failed to send email notification for: ${host} ${chart}.${name} is ${status} to '${to_email}' with error code ${ret}."
+            error "failed to send email notification for: ${host} ${chart}.${name} is ${status} to '${to_email}' with error code ${ret}."
             return 1
         fi
     fi
@@ -401,10 +458,10 @@ send_pushover() {
 
             if [ "${httpcode}" == "200" ]
             then
-                echo >&2 "${me}: Sent pushover notification for: ${host} ${chart}.${name} is ${status} to '${user}'"
+                info "sent pushover notification for: ${host} ${chart}.${name} is ${status} to '${user}'"
                 sent=$((sent + 1))
             else
-                echo >&2 "${me}: Failed to send pushover notification for: ${host} ${chart}.${name} is ${status} to '${user}' with HTTP error code ${httpcode}."
+                error "failed to send pushover notification for: ${host} ${chart}.${name} is ${status} to '${user}' with HTTP error code ${httpcode}."
             fi
         done
 
@@ -436,13 +493,13 @@ send_telegram() {
 
             if [ "${httpcode}" == "200" ]
             then
-                echo >&2 "${me}: Sent telegram notification for: ${host} ${chart}.${name} is ${status} to '${chatid}'"
+                info "sent telegram notification for: ${host} ${chart}.${name} is ${status} to '${chatid}'"
                 sent=$((sent + 1))
             elif [ "${httpcode}" == "401" ]
             then
-                echo >&2 "${me}: Failed to send telegram notification for: ${host} ${chart}.${name} is ${status} to '${chatid}': Wrong bot token."
+                error "failed to send telegram notification for: ${host} ${chart}.${name} is ${status} to '${chatid}': Wrong bot token."
             else
-                echo >&2 "${me}: Failed to send telegram notification for: ${host} ${chart}.${name} is ${status} to '${chatid}' with HTTP error code ${httpcode}."
+                error "failed to send telegram notification for: ${host} ${chart}.${name} is ${status} to '${chatid}' with HTTP error code ${httpcode}."
             fi
         done
 
@@ -504,10 +561,10 @@ EOF
         httpcode=$(${curl} --write-out %{http_code} --silent --output /dev/null -X POST --data-urlencode "payload=${payload}" "${webhook}")
         if [ "${httpcode}" == "200" ]
         then
-            echo >&2 "${me}: Sent slack notification for: ${host} ${chart}.${name} is ${status} to '${channel}'"
+            info "sent slack notification for: ${host} ${chart}.${name} is ${status} to '${channel}'"
             sent=$((sent + 1))
         else
-            echo >&2 "${me}: Failed to send slack notification for: ${host} ${chart}.${name} is ${status} to '${channel}', with HTTP error code ${httpcode}."
+            error "failed to send slack notification for: ${host} ${chart}.${name} is ${status} to '${channel}', with HTTP error code ${httpcode}."
         fi
     done
 
@@ -631,12 +688,13 @@ send_pushover "${PUSHOVER_APP_TOKEN}" "${to_pushover}" "${when}" "${goto_url}" "
 
 SENT_PUSHOVER=$?
 
+# -----------------------------------------------------------------------------
+# send the telegram.org message
+
 # https://core.telegram.org/bots/api#formatting-options
-raised_for_paranthesis=" (${raised_for})"
-[ -z "$raised_for" ] && raised_for_paranthesis=""
-send_telegram "${TELEGRAM_BOT_TOKEN}" "${to_telegram}" "<b>${severity}, ${status_message}
-${chart} (${family})</b>
-<a href=\"${goto_url}\">${alarm}${raised_for_paranthesis}</a>
+send_telegram "${TELEGRAM_BOT_TOKEN}" "${to_telegram}" "${host} ${status_message} - <b>${name//_/ }</b>
+${chart} (${family})
+<a href=\"${goto_url}\">${alarm}</a>
 <i>${info}</i>"
 
 SENT_TELEGRAM=$?
@@ -739,7 +797,7 @@ SENT_EMAIL=$?
 # -----------------------------------------------------------------------------
 # let netdata know
 
-# we did send somehting
+# we did send something
 [ ${SENT_EMAIL} -eq 0 -o ${SENT_PUSHOVER} -eq 0 -o ${SENT_TELEGRAM} -eq 0 -o ${SENT_SLACK} -eq 0 ] && exit 0
 
 # we did not send anything