9/24 PMI
PMI
PMI(Pointwise Mutual Information) : 점별 상호정보량이라는 뜻으로, 정보 검색, 자연어 처리 및 정보 이론과 같은 다양한 분야에서 사용되는 통계적 측정 지표이다. PMI는 두 사건 간의 관계를 측정하는 데 사용되며, 주로 단어나 용어 간의 연관성을 평가하는데 적용된다..
PMI의 핵심 아이디어는 두 사건이 함께 발생하는 빈도를 측정하여 이 사건 간의 연관성을 결정하는 것이다.
- P(X) : 사건 X가 발생할 확률
- P(Y) : 사건 Y가 발생할 확률
- P(X, Y) : 사건 X, Y가 동시에 발생할 확률
\(PMI(X,Y) = log_2{P(X,Y)\over P(X)P(Y)}\) 여기서 로그의 밑은 주로 2를 사용하며, 결과 값은 두 사건 간의 연관성을 나타낸다. PMI값이 양수이면 X, Y가 서로 양의 상관관계를 가지며, 값이 음수이면 음의 상관관계를 가진다고 해석한다. 값이 0이면 두 사건 간에 특별한 연관성이 없음을 의미한다.
PMI는 주로 정보 겁색 및 자연어 처리에서 단어 간의 연관성을 측정하고 문서 검색, 정보 검색 시스템, 문서 분류, 토픽 모델링 및 추천 시스템과 같은 응용 프로그램에서 사용된다. PMI는 단어 간의 의미적 유사성을 평가하거나 특정 주제와 관련된 단어를 식별하는 데 유용하며, 자연어 처리 모델의 성능 향상에도 기여할 수 있다.
하지만 PMI의 단점으로 동시 출현 횟수가 0일 경우, $log_2 0 = -infty$가 된다는 것이다. 이러한 문제점을 피하기 위해 실제로 구현할 때는 PPMI(Positive PMI)를 사용한다. \(PPMI(X, Y) = max(0, PMI(X, Y))\)
댓글남기기