최대 1 분 소요

  1. 교착어

    우선 영어의 경우 띄어쓰기 단위로 보통 토큰화를 하지만, 한국어의 경우 어절 토큰화는 사용하지 않는다. 그 이유는 한국어는 교착어이기 때문이다. 교착어란 조사, 어미 등을 붙여서 말을 만드는 언어이고, 이때문에 형태소 토큰화를 해야 한다..

  2. 띄어쓰기

    한국어는 띄어쓰기를 하지 않더라도 쉽게 이해할 수 있는 언어이기 때문에, corpus에서 띄어쓰기가 지켜져 있지 않는 경우가 훨씬 많다.

댓글남기기