[Datadog] Detection Method 정리

[Datadog] Detection Method 정리

·

2 min read

데이터독에 전송된 메트릭은 사전에 정의한 임계값에 도달하면 알람을 받을 수 있다.


Threshold Alert

  • 특정 메트릭이 설정된 임계값을 초과하거나 미달할 때 경고를 발생시키는 방법

  • 적합한 상황

    • 잘 알려진 성능 기준이나 목표가 있을 때 유용
  • 사용 케이스

    • CPU 사용량 (`elasticsearch.node.cpu.utilization`)이 설정된 임계치 도달

    • 클러스터 상태 (`elasticsearch.cluster.health_status`)가 "yellow" 또는 "red"로 변경.

    • 단위 샤드 크기 50GB 초과

    • ES JVM 힙 메모리 85% 이상 사용

    • LB 응답시간 p95가 200ms 이상


Change Alert

  • 메트릭 값의 변화율을 감지하고, 이 변화율이 설정한 임계치를 초과할 때 알림을 발생시킵니다.

  • 적합한 상황

    • 평소와 다른 사용량 증가나 급격한 변화가 예상될 때
  • 예상 사용 케이스

    • 노드 수의 증가 또는 감소

    • 샤드 수 변화


Forecast Alert

  • 장기적인 과거 데이터를 바탕으로 미래의 데이터 트렌드를 예측하고, 예측된 범위를 벗어나는 경우

  • 적합한 상황

    • 특정 추세나 패턴을 따르는 메트릭에 유용하며, 예측 가능한 트래픽 증가나 이벤트가 예정되어 있을 때
  • 예상 사용 케이스:

    • 디스크 공간 사용량 예측

    • JVM 메모리 사용 추세 예측

    • CPU 부하의 미래 추세 예측

    • 색인화 속도의 미래 추세 예측


Outliers Alert

  • 특정 그룹이 동료 그룹과 다르게 행동하는 경우를 감지

  • 예상 사용 케이스:

    • 평소와 다른 검색 쿼리 지연 시간

    • 특정 파드의 일반적이지 않은 JVM 메모리 사용량


Anomaly Alert

  • 과거 데이터를 기반으로 정상 범위를 학습하고, 현재 데이터가 이 범위를 벗어날 때 경고를 발생시키는 메소드

  • 적합한 상황

    • 트래픽 변동성이 크거나, 평소와 다른 사용 패턴이 예상될 때
  • 사용 케이스

    • 비정상적인게 query_current 증가

Reference.