그래프 데이터베이스 활용사례 - 패턴 디텍터
그래프 데이터베이스에서 패턴이란?
- 관계
- 어떤 사람의 친구들은 누구인가
- 어떤 사람이 구입한 상품은 무엇이 있는가?
- 행위
- 정해진 기준을 벗어나는 데이터
- 과정
패턴 디텍터의 정의
- 불규칙하고 방대한 데이터 사이에서 일정한 패턴을 발견해서 패턴의 가진 의미를 찾는 것
패턴 디텍터의 순서 및 알고리즘
- Description
- 수집된 데이터를 분석이 가능한 상태 패턴으로 변환하는 과정
- Clustering
- 군집화
- 데이터를 몇 가지의 카테고리로 분류
- 특성을 전혀 모를때 이를 파악하기 위해 한번은 걸러내는 과정
- K-Means Clustering
- 머신러닝의 기초 알고리즘
- 정해진 그룹/클래스(k)의 수로 군집화 하는 기초 알고리즘
- 간편하고 검색 속도가 빠름
- ex. 매체(도서, 음반, 논문, 비디오) 군집화(태그, 주제, 용어, 내용 기반)
- Mean-Shift Clustering
- 가중치를 계산하는 알고리즘
- 군집에서 가장 영향력이 있는 데이터가 어떤 것인지 찾는 알고리즘
- ex. 범죄 지역 식별, 범죄 추적
- Agglomerative Hierarchical Clustering
- 계층적으로 클러스터링을 할 때 많이 사용
- 인접권에 있는 데이터끼리 묶어가는 알고리즘
- ex.기업 투자동향 분석, 정치성향 판단, 선수통계 분석 등
- Classification
- 군집된 데이터 안에 새로운 데이터가 들어왔을 때 기존 군집과 비교하여 어떤 카테고리인지 구분하는 과정
- K-Nearest Neighbours
- 새로운 데이터가 들어왔을 때 인접 데이터와 비교하여 어느 분류에 속할지 과반수로 판단하는 알고리즘
- ex. 상품 추천, 지역 구분, 매체 분류, 신규바이러스분류등
- Decision Tree
- 데이터를 계속 분기하면서 새로운 데이터가 어느 분류에 맞는지 결정
- ex. 온사이트 마케팅, 고객 취향 분류, 학습 수준 진단, 차량 고장 진단등
- Motif Extraction
- 복잡한 데이터 환경에서 특정 패턴을 가진 관계나 허용되지 않는 행위를 찾는 것을 의미
- Description이 잘 되어 있는 단계라면 2,3번의 과정이 필요없지만 그런 경우는 거의 없음
그래프DB 분석 시 이점
- 기계학습 최적화
- 인공 신경망 구조 그대로 저장하고 활용
- 사고영역과 효과 영역이 일치
- 높은 능률, 빠른 성능
- 다차원 분석에 용이
- 데이터 속성을 변환할 필요 없이 있는 그대로 바로 비교
- 정확도가 높고 성능이 우수
- 타임씨리즈를 이용한 코어 탐지 및 예측
- 데이터를 시점 별로 겹겹이 배열하여 변화의 흐름을 한눈에 파악하여 탐지 및 예측이 가능