Elasticsearch에서의 Machine Learning 기능
- Anomaly Detection : 시계열 데이터의 이상징후 탐지
- Data Frame Analytics : 이상징후 탐지
- Outlier Detection : 비시계열 데이터의 이상징후 탐지
- Classification : 분류
- Regression : 회귀
- Model Management : 외부에서 학습한 모델을 서빙
- Anomaly Detection과 Outlier Detection은 Unsupervised Learning이다.
- Classification과 Regression은 Supervised Learning이다.
시계열 데이터의 Anomaly Detection
- 학습 하는 것을 그래프로 나타낸다.
- x축은 시간축으로 고정되고 y축을 우리가 정의해야 한다.
- 이상 수치의 범위가 0 ~ 100 이다.
- 그래프
- 정확하게 y축의 숫자를 맞추지 못하기 때문에 범위로 추정을 한다. 따라서 튜브 형태로 그래프가 나타난다.
- 처음 학습을 할 때에는 잘 모르기 때문에 튜브의 범위가 크다. 이렇게 몇 개의 사이클이 반복되면 나중에 튜브의 범위가 좁아진다.
- 지표
- 행동이 급격하게 변하는 경우
- 튜브에서 벗어난 실선이 있으면 이상 징후로 탐지하는 것이다.
- 한 개체가 모집단 내의 다른 개체와 크게 다른 경우
- 펭귄 무리에 늘 물개가 껴있었다면?
- 뾰족하게 나타나는 이상징후는 없지만, 그래프 상에서 위치가 다르다.
- entity 자체는 시간의 흐름에 따라 변하지 않지만 존재 자체가 이상하다. 그래프 상에서 너무 있거나…
- 펭귄 무리에 늘 물개가 껴있었다면?
- 행동이 급격하게 변하는 경우
Outlier Detection
- 데이터셋의 특이한 점에 관심을 두는 기법이다.
- 버킷의 개념이 없다.
- 여기서는 이상 수치의 범위가 0 ~ 1 이다.
- k-nearest-neighbour : 가까운 애들끼리 clustering 하는 것
- 이런 cluster에 포함되지 못하는 점들을 outlier이라고 하고 이를 탐지한다.
- Transform
- raw data로 인덱스를 만든다.
- pitcher을 추출할 수 있도록 한다.
'Cloud > ElasticSearch' 카테고리의 다른 글
[개념] Elastic NLP (0) | 2024.01.02 |
---|---|
[실습] Elasticsearch에서 Machine Learning 사용하기 (0) | 2023.12.29 |
[실습] Elasticsearch Query 사용하기 (0) | 2023.12.29 |
[개념] Elasticsearch Query (Query DSL, Aggregation) (0) | 2023.12.29 |
[실습] Elasticsearch로 inverted index 추출하기, reindex 하기 (1) | 2023.12.29 |