기계에 단어를 학습시킬때 갑자기 기계가 학습한적 없던 단어가 나타난다면 학습이나 정답 도출이 어려울 것이다. 학습한 단어 집합에 없는 단어는 OOV(out of vocabulary)라고 하는데, 이런 경우를 해결하기 위해 subword tokenization이라는 방법론이 생겼다. 어떤 단어를 더 작은 단어로 분리해서 인코딩 하고 임베딩하겠다는 것인데, 예를 들면 annoyingly라는 단어가 잘 등장하지 않는다면 궂이 이 단어를 그냥 쓰는게 아니라, 더 자주 등장하는 annoying과 ly로 뜯어서 정리해 두는것이다. 이렇게 하면 몇번 등장하지 않는 단어때문에 사전이 엄청나게 커질 필요도 없고, OOV나 잘쓰이지 않는 단어, 새롭게 생긴 단어등에 대응하기가 더 쉬워진다. 이는 영어든, 한국어에든, 일본..