add custom cpu stable

2017-07-05 19:17:19 +02:00 · 2017-07-05 19:17:19 +02:00 · 7aabbea18c
commit 7aabbea18c
parent 47bcedf331
4 changed files with 72 additions and 16 deletions
--- a/monitors-custom-cpu.tf
+++ b/monitors-custom-cpu.tf
@ -0,0 +1,26 @@
 resource "datadog_monitor" "cpu_custom" {
  name    = "${var.dd_custom_cpu["name"]}"
  message = "{{#is_alert}}\n${var.critical_escalation_group}\n{{/is_alert}}\n{{#is_recovery}}\n${var.critical_escalation_group}\n{{/is_recovery}}\n{{#is_warning}}\n${var.warning_escalation_group}\n{{/is_warning}}\n{{#is_warning_recovery}}\n${var.warning_escalation_group}\n{{/is_warning_recovery}}"
  count   = "${var.dd_custom_cpu["status"] == "enabled" ? 1 : 0}"
  query = "min(${var.dd_custom_cpu["period"]}):avg:system.cpu.system{dd_monitoring:enabled,dd_linux_basics:enabled,!dd_custom_cpu.monitoring:enabled} by {host} + avg:system.cpu.user{dd_monitoring:enabled,dd_linux_basics:enabled,!dd_custom_cpu:enabled} by {host} > ${var.dd_custom_cpu["critical_threshold"]}"
  type  = "query alert"
  thresholds = {
    warning  = "${var.dd_custom_cpu["warning_threshold"]}"
    critical = "${var.dd_custom_cpu["critical_threshold"]}"
  }
  notify_no_data      = false
  renotify_interval   = 60
  notify_audit        = false
  timeout_h           = 0
  include_tags        = true
  locked              = false
  require_full_window = true
  new_host_delay      = 300
  notify_no_data      = false
  renotify_interval   = 0
  no_data_timeframe   = 20
 }
--- a/monitors-linux-basics.tf
+++ b/monitors-linux-basics.tf
@ -1,7 +1,7 @@
 resource "datadog_monitor" "cpu_80_15min" {
  name    = "CPU High > 80% for 15 min"
-  message = "{{#is_alert}}\n${var.hno_escalation_group}\n{{/is_alert}}\n{{#is_recovery}}\n${var.hno_escalation_group}\n{{/is_recovery}}"
+  message = "{{#is_alert}}\n${var.critical_escalation_group}\n{{/is_alert}}\n{{#is_recovery}}\n${var.critical_escalation_group}\n{{/is_recovery}}"
-  count   = "${var.linux_basics == "enabled" ? 1 : 0}"
+  count   = "${var.dd_linux_basics == "enabled" ? 1 : 0}"
  query = "min(last_15m):avg:system.cpu.system{dd_monitoring:enabled,dd_linux_basics:enabled,!dd_custom_cpu:enabled} by {host} + avg:system.cpu.user{dd_monitoring:enabled,dd_linux_basics:enabled,!dd_custom_cpu:enabled} by {host} > 80"
  type  = "query alert"
@ -21,11 +21,11 @@ resource "datadog_monitor" "cpu_80_15min" {
 resource "datadog_monitor" "cpu_95_5min" {
  name    = "CPU High > 95% for 5 min"
-  message = "{{#is_alert}}\n${var.hno_escalation_group}\n{{/is_alert}}\n{{#is_recovery}}\n${var.hno_escalation_group}\n{{/is_recovery}}"
+  message = "{{#is_alert}}\n${var.critical_escalation_group}\n{{/is_alert}}\n{{#is_recovery}}\n${var.critical_escalation_group}\n{{/is_recovery}}"
  query = "min(last_5m):avg:system.cpu.system{dd_monitoring:enabled,dd_linux_basics:enabled,!dd_custom_cpu:enabled} by {host} + avg:system.cpu.user{dd_monitoring:enabled,dd_linux_basics:enabled,!dd_custom_cpu:enabled} by {host} > 95"
  type  = "query alert"
-  count   = "${var.linux_basics == "enabled" ? 1 : 0}"
+  count   = "${var.dd_linux_basics == "enabled" ? 1 : 0}"
  notify_no_data      = false
  renotify_interval   = 60
@ -42,11 +42,11 @@ resource "datadog_monitor" "cpu_95_5min" {
 resource "datadog_monitor" "datadog_free_disk_space_5" {
  name   = "Free disk space < 5%"
-  message = "{{#is_alert}}\n${var.hno_escalation_group}\n{{/is_alert}}\n{{#is_recovery}}\n${var.hno_escalation_group}\n{{/is_recovery}}"
+  message = "{{#is_alert}}\n${var.critical_escalation_group}\n{{/is_alert}}\n{{#is_recovery}}\n${var.critical_escalation_group}\n{{/is_recovery}}"
  query   = "sum(last_5m):avg:system.disk.free{dd_monitoring:enabled,dd_linux_basics:enabled,!dd_custom_cpu:enabled} by {host,device} / avg:system.disk.total{dd_monitoring:enabled,dd_linux_basics:enabled,!dd_custom_cpu:enabled} by {host,device} * 100 < 5"
  type  = "query alert"
-  count   = "${var.linux_basics == "enabled" ? 1 : 0}"
+  count   = "${var.dd_linux_basics == "enabled" ? 1 : 0}"
  notify_no_data      = false
  renotify_interval   = 60
@ -63,11 +63,11 @@ resource "datadog_monitor" "datadog_free_disk_space_5" {
 resource "datadog_monitor" "datadog_free_disk_space_10" {
  name    = "Free disk space < 10%"
-  message = "{{#is_alert}}\n${var.hno_escalation_group}\n{{/is_alert}}\n{{#is_recovery}}\n${var.hno_escalation_group}\n{{/is_recovery}}\n{{#is_warning}}\n${var.ho_escalation_group}\n{{/is_warning}}\n{{#is_warning_recovery}}\n${var.ho_escalation_group}\n{{/is_warning_recovery}}"
+  message = "{{#is_alert}}\n${var.critical_escalation_group}\n{{/is_alert}}\n{{#is_recovery}}\n${var.critical_escalation_group}\n{{/is_recovery}}\n{{#is_warning}}\n${var.warning_escalation_group}\n{{/is_warning}}\n{{#is_warning_recovery}}\n${var.warning_escalation_group}\n{{/is_warning_recovery}}"
  query = "sum(last_5m):avg:system.disk.free{dd_monitoring:enabled,dd_linux_basics:enabled,!dd_custom_cpu:enabled} by {host,device} / avg:system.disk.total{dd_monitoring:enabled,dd_linux_basics:enabled,!dd_custom_cpu:enabled} by {host,device} * 100 < 10"
  type  = "query alert"
-  count = "${var.linux_basics == "enabled" ? 1 : 0}"
+  count = "${var.dd_linux_basics == "enabled" ? 1 : 0}"
  thresholds {
    warning  = 20
@ -89,11 +89,11 @@ resource "datadog_monitor" "datadog_free_disk_space_10" {
 resource "datadog_monitor" "datadog_free_disk_space_inodes_5" {
  name    = "Free disk inodes < 5%"
-  message = "{{#is_alert}}\n${var.hno_escalation_group} \n{{/is_alert}} \n{{#is_recovery}}\n${var.hno_escalation_group} \n{{/is_recovery}}"
+  message = "{{#is_alert}}\n${var.critical_escalation_group} \n{{/is_alert}} \n{{#is_recovery}}\n${var.critical_escalation_group} \n{{/is_recovery}}"
  query = "sum(last_5m):avg:system.fs.inodes.free{dd_monitoring:enabled,dd_linux_basics:enabled,!dd_custom_cpu:enabled} by {host,device} / avg:system.fs.inodes.total{dd_monitoring:enabled,dd_linux_basics:enabled,!dd_custom_cpu:enabled} by {host,device} * 100 < 5"
  type  = "query alert"
-  count = "${var.linux_basics == "enabled" ? 1 : 0}"
+  count = "${var.dd_linux_basics == "enabled" ? 1 : 0}"
  notify_no_data      = false
  renotify_interval   = 60
@ -110,11 +110,11 @@ resource "datadog_monitor" "datadog_free_disk_space_inodes_5" {
 resource "datadog_monitor" "datadog_free_disk_space_inodes_10" {
  name    = "Free disk inodes < 10%"
-  message = "{{#is_alert}}\n${var.hno_escalation_group}\n{{/is_alert}}\n{{#is_recovery}}\n${var.hno_escalation_group}\n{{/is_recovery}}\n{{#is_warning}}\n${var.ho_escalation_group}\n{{/is_warning}}\n{{#is_warning_recovery}}\n${var.ho_escalation_group}\n{{/is_warning_recovery}}"
+  message = "{{#is_alert}}\n${var.critical_escalation_group}\n{{/is_alert}}\n{{#is_recovery}}\n${var.critical_escalation_group}\n{{/is_recovery}}\n{{#is_warning}}\n${var.warning_escalation_group}\n{{/is_warning}}\n{{#is_warning_recovery}}\n${var.warning_escalation_group}\n{{/is_warning_recovery}}"
  query = "max(last_5m):avg:system.fs.inodes.free{dd_monitoring:enabled,dd_linux_basics:enabled,!dd_custom_cpu:enabled} by {host,device} / avg:system.fs.inodes.total{dd_monitoring:enabled,dd_linux_basics:enabled,!dd_custom_cpu:enabled} by {host,device} * 100 < 10"
  type  = "query alert"
-  count = "${var.linux_basics == "enabled" ? 1 : 0}"
+  count = "${var.dd_linux_basics == "enabled" ? 1 : 0}"
  thresholds {
    warning  = 20
@ -140,7 +140,7 @@ resource "datadog_monitor" "datadog_cpu_load" {
  query = "min(last_5m):avg:system.load.5{dd_monitoring:enabled,dd_linux_basics:enabled,!dd_custom_cpu:enabled} by {instance-id} / avg:gcp.gce.instance.cpu.reserved_cores{*} by {instance-id} > 2"
  type  = "query alert"
-  count = "${var.linux_basics == "enabled" ? 1 : 0}"
+  count = "${var.dd_linux_basics == "enabled" ? 1 : 0}"
  notify_no_data      = false
  renotify_interval   = 60
@ -161,7 +161,7 @@ resource "datadog_monitor" "datadog_free_memory" {
  query = "sum(last_1m):avg:system.mem.free{dd_monitoring:enabled,dd_linux_basics:enabled,!dd_custom_memory:enabled} by {host} / avg:system.mem.total{dd_monitoring:enabled,dd_linux_basics:enabled,!dd_custom_memory:enabled} by {host} * 100 < 5"
  type  = "query alert"
-  count = "${var.linux_basics == "enabled" ? 1 : 0}"
+  count = "${var.dd_linux_basics == "enabled" ? 1 : 0}"
  notify_no_data      = false
  renotify_interval   = 60
@ -178,11 +178,11 @@ resource "datadog_monitor" "datadog_free_memory" {
 resource "datadog_monitor" "datadog_host_unreachable" {
  name    = "Host unreachable"
-  message = "{{#is_alert}}\n${var.hno_escalation_group} \n{{/is_alert}} \n{{#is_recovery}}\n${var.hno_escalation_group} \n{{/is_recovery}}"
+  message = "{{#is_alert}}\n${var.critical_escalation_group} \n{{/is_alert}} \n{{#is_recovery}}\n${var.critical_escalation_group} \n{{/is_recovery}}"
  query = "\"datadog.agent.up\".over(\"dd_monitoring:enabled,dd_linux_basics:enabled,!dd_custom_cpu:enabled\").last(1).count_by_status()"
  type  = "service check"
-  count = "${var.linux_basics == "enabled" ? 1 : 0}"
+  count = "${var.dd_linux_basics == "enabled" ? 1 : 0}"
  notify_no_data      = false
  renotify_interval   = 60
--- a/testing/inputs.tf
+++ b/testing/inputs.tf
@ -0,0 +1,26 @@
 variable "critical_escalation_group" {
  default = "@pagerduty_HODummy"
 }
 variable "warning_escalation_group" {
  default = "@pagerduty_HNODummy"
 }
 variable "datadog_app_key" {}
 variable "datadog_api_key" {}
 variable "dd_linux_basics" {
  default = "enabled"
 }
 variable "dd_custom_cpu" {
  type = "map"
  default = {
    status = "enabled"
    name   = "CPU High > 95% during 1 hour"
    period = "last_1h"
    critical_threshold = 95
    warning_threshold  = 90
  }
 }
--- a/testing/main.tf
+++ b/testing/main.tf
@ -0,0 +1,4 @@
 provider "datadog" {
  api_key = "${var.datadog_api_key}"
  app_key = "${var.datadog_app_key}"
 }