Backend

[Datadog] Detection Method 정리

산희 2024. 7. 4. 20:27

데이터독에 전송된 메트릭은 사전에 정의한 임계값에 도달하면 알람을 받을 수 있다.


Threshold Alert

  • 특정 메트릭이 설정된 임계값을 초과하거나 미달할 때 경고를 발생시키는 방법
  • 적합한 상황
    • 잘 알려진 성능 기준이나 목표가 있을 때 유용
  • 사용 케이스
    • CPU 사용량 (`elasticsearch.node.cpu.utilization`)이 설정된 임계치 도달
    • 클러스터 상태 (`elasticsearch.cluster.health_status`)가 "yellow" 또는 "red"로 변경.
    • 단위 샤드 크기 50GB 초과
    • ES JVM 힙 메모리 85% 이상 사용
    • LB 응답시간 p95가 200ms 이상

Change Alert

  • 메트릭 값의 변화율을 감지하고, 이 변화율이 설정한 임계치를 초과할 때 알림을 발생시킵니다.
  • 적합한 상황
    • 평소와 다른 사용량 증가나 급격한 변화가 예상될 때
  • 예상 사용 케이스
    • 노드 수의 증가 또는 감소
    • 샤드 수 변화

Forecast Alert

  • 장기적인 과거 데이터를 바탕으로 미래의 데이터 트렌드를 예측하고, 예측된 범위를 벗어나는 경우
  • 적합한 상황
    • 특정 추세나 패턴을 따르는 메트릭에 유용하며, 예측 가능한 트래픽 증가나 이벤트가 예정되어 있을 때
  • 예상 사용 케이스:
    • 디스크 공간 사용량 예측
    • JVM 메모리 사용 추세 예측
    • CPU 부하의 미래 추세 예측
    • 색인화 속도의 미래 추세 예측

Outliers Alert

  • 특정 그룹이 동료 그룹과 다르게 행동하는 경우를 감지
  • 예상 사용 케이스:
    • 평소와 다른 검색 쿼리 지연 시간
    • 특정 파드의 일반적이지 않은 JVM 메모리 사용량

Anomaly Alert

  • 과거 데이터를 기반으로 정상 범위를 학습하고, 현재 데이터가 이 범위를 벗어날 때 경고를 발생시키는 메소드
  • 적합한 상황
    • 트래픽 변동성이 크거나, 평소와 다른 사용 패턴이 예상될 때
  • 사용 케이스
    • 비정상적인게 query_current 증가

Reference.