# 정점 표현 학습
그래프의 정점들을 벡터의 형태로 표현하는 것이다.
정점 임베딩이라고도 부르는데, 정점을 벡터공간에 임베딩하는 것이다.
# 정점 표현 학습의 이유
다양한 벡터 형태의 데이터를 위한 도구들을 사용할 수 있다.
# 정점 표현 학습의 목표
# 인접성 기반 접근법
# 거리 기반 접근법
위에서는 거리가 2일때까지는 유사도가 1이고, 2를 초과하는 경우에는 유사도가 0이 된다.
# 경로 기반 접근법
# 중첩 기반 접근법
유명인처럼 연결성이 매우 높은 노드의 경우 가중치를 낮춘다.
연결성이 적은 노드의 경우 가중치를 높인다.
# 임의보행 기반 접근법
일단 정점에서 출발시키고 그 결과를 리스트에 담는다.
임베딩으로 추정한 결과로 도달할 확률을 계산한다.
그 확률과 실제 출발해서 리스트에 담길 확률의 차이를 손실함수로 한다.
# node2vec
위와 같은 방법을 deepwalk라고 한다.
# 손실함수 근사
# 변환식 정점 표현 학습의 한계
# node2vec 구현
# 군집 분석
# 정점 분류 구현
# 넷플릭스 챌린지
# 잠재 인수 모형
# 사용자와 상품의 편향을 고려한 잠재 인수 모형
# surprise 라이브러리
평점의 범위를 입력하고, 컬럼 정보를 입력해준다.
그리고 훈련데이터와 평가데이터를 분리한다.