Cloud/ElasticSearch

[개념] Elasticsearch에서의 Machine Learning

y-seo 2023. 12. 29. 13:45

Elasticsearch에서의 Machine Learning 기능

  • Anomaly Detection : 시계열 데이터의 이상징후 탐지
  • Data Frame Analytics : 이상징후 탐지
    • Outlier Detection : 비시계열 데이터의 이상징후 탐지
    • Classification : 분류
    • Regression : 회귀
  • Model Management : 외부에서 학습한 모델을 서빙
  • Anomaly Detection과 Outlier Detection은 Unsupervised Learning이다.
  • Classification과 Regression은 Supervised Learning이다.

 

시계열 데이터의 Anomaly Detection

  • 학습 하는 것을 그래프로 나타낸다.
  • x축은 시간축으로 고정되고 y축을 우리가 정의해야 한다.
  • 이상 수치의 범위가 0 ~ 100 이다.
  • 그래프
    • 정확하게 y축의 숫자를 맞추지 못하기 때문에 범위로 추정을 한다. 따라서 튜브 형태로 그래프가 나타난다.
    • 처음 학습을 할 때에는 잘 모르기 때문에 튜브의 범위가 크다. 이렇게 몇 개의 사이클이 반복되면 나중에 튜브의 범위가 좁아진다.
  • 지표
    1. 행동이 급격하게 변하는 경우
      • 튜브에서 벗어난 실선이 있으면 이상 징후로 탐지하는 것이다.
    2. 한 개체가 모집단 내의 다른 개체와 크게 다른 경우
      • 펭귄 무리에 늘 물개가 껴있었다면?
        • 뾰족하게 나타나는 이상징후는 없지만, 그래프 상에서 위치가 다르다.
        • entity 자체는 시간의 흐름에 따라 변하지 않지만 존재 자체가 이상하다. 그래프 상에서 너무 있거나…

 

Outlier Detection

  • 데이터셋의 특이한 점에 관심을 두는 기법이다.
  • 버킷의 개념이 없다.
  • 여기서는 이상 수치의 범위가 0 ~ 1 이다.
  • k-nearest-neighbour : 가까운 애들끼리 clustering 하는 것
    • 이런 cluster에 포함되지 못하는 점들을 outlier이라고 하고 이를 탐지한다.
  • Transform
    • raw data로 인덱스를 만든다.
    • pitcher을 추출할 수 있도록 한다.