11/1 한국어 자연어처리가 어려운 이유
-
교착어
우선 영어의 경우 띄어쓰기 단위로 보통 토큰화를 하지만, 한국어의 경우 어절 토큰화는 사용하지 않는다. 그 이유는 한국어는 교착어이기 때문이다. 교착어란 조사, 어미 등을 붙여서 말을 만드는 언어이고, 이때문에 형태소 토큰화를 해야 한다..
-
띄어쓰기
한국어는 띄어쓰기를 하지 않더라도 쉽게 이해할 수 있는 언어이기 때문에, corpus에서 띄어쓰기가 지켜져 있지 않는 경우가 훨씬 많다.
댓글남기기