전체 글 45

subword tokenization

기계에 단어를 학습시킬때 갑자기 기계가 학습한적 없던 단어가 나타난다면 학습이나 정답 도출이 어려울 것이다. 학습한 단어 집합에 없는 단어는 OOV(out of vocabulary)라고 하는데, 이런 경우를 해결하기 위해 subword tokenization이라는 방법론이 생겼다. 어떤 단어를 더 작은 단어로 분리해서 인코딩 하고 임베딩하겠다는 것인데, 예를 들면 annoyingly라는 단어가 잘 등장하지 않는다면 궂이 이 단어를 그냥 쓰는게 아니라, 더 자주 등장하는 annoying과 ly로 뜯어서 정리해 두는것이다. 이렇게 하면 몇번 등장하지 않는 단어때문에 사전이 엄청나게 커질 필요도 없고, OOV나 잘쓰이지 않는 단어, 새롭게 생긴 단어등에 대응하기가 더 쉬워진다. 이는 영어든, 한국어에든, 일본..

카테고리 없음 2021.02.03

ai tech 12일차

공부전략을 대학교때의 전략으로 바꾸기로 했다. 수업시간에 최대한 머릿속에 입력을 하고, 기초를 따로 채워나가면서 수업시간에 배운내용을 매꿔나가는 것이다. 이렇게 하니깐 멘탈이 회복되면서 지식을 쌓는 느낌이 들었다. # 그라디언트 디센트 손실함수의 편미분을 구해서 빼주는 방식으로 최저 손실을 만드는 파라미터를 찾아주는것이 그라디언트 디센트였다. 1차 미분을 진행하기 때문에, 국소적으로 봤을때 좋은 로컬 미니멈을 찾아간다. # 최적화의 컨셉(대부분이 통계학에서 나온 용어들이다.) Generalization Under-fitting vs over-fitting Cross validation Bias-variance tradeoff Bootstrapping Bagging and boosting # General..

ai tech 2021.02.02

ai tech 11일차

뭔가 당황스럽다. 파이토치는 배우지도 않았는데, 파이토치로 만들어진 프로젝트를 던져받았고, 딥러닝은 맛도 안보고 선형회귀밖에 하지 않았는데, 딥러닝 모델이랑 파라미터를 던져받았다.. 두분 교수님은 서로 거기서 배울거라고 하면서 본인들 파이토치 프로젝트만 보여주는데 이해가 1도 되지않는다;; # 조건부확률 상황 B가 일어날 확률을 분모로 놓고 상황 B가 일어난 동안 A도 일어날 확률, 교집합의 사건을 분자로 넣어서 구한다. # 베이즈정리 모델의 모수를 추정할 때 사용한다. 데이터가 조건부 확률을 이용하여 새로 추가될 때 정보가 업데이트하는 내용과 연관되어있다. A가 조건부로 주어졌을때 B의 사건이 일어날 확률은 B가 조건부로 주어졌을때 A의 사건일 일어날 확률에, A가 일어날 확률을 나눠주고, B가 일어날..

ai tech 2021.02.01

ai tech 10일차

벌써 10일차에 돌입했다. 슬슬 적응되어가니 속도좀 내어볼까? matplotlib # 개론 우리의 데이터는 어떻게 생겼을까? 파이썬의 데이터 시각화 도구 다양한 그래프를 지원하고 판다스와 연동된다. pyplot이라는 객체를 사용하여 데이터를 표시 객체에 그래프를 쌓은다음 flush하는 개념이다. import matplotlib.pyplot as plt X = range(100) Y = range(100) plt.plot(X, Y) plt.show() 최대 단점 argument를 kwargs로 받는다 그래서 알트탭으로 어떤 데이터를 받는지 확인이 어렵다. # figure 객체 그래프는 원래 figure객체에 생성된다. pyplot객체를 사용하면, 기본 figure에 그래프가 그려진다. X_1 = range..

ai tech 2021.01.29

ai tech 9일차

pandas2 # groupby sql groupby와 같다. 인덱스가 같은 데이터끼리 묶어주고(split) 묶은 데이터끼리의 연산(sum, std)을 하고(apply) 모든 인덱스들끼리 모아서 보여준다(combine) # 팀으로 묶어서 포인트들을 합한것으로 팀을 나타내라. df.groupby("Team")["Points"].sum() # 한 개 이상의 column을 묶을 수도 있다. h_index = df.groupby(["Team", "Year"])["Points"].sum() # 이렇게 만든 경우 인덱스는 멀티인덱스이다. h_index.index # 만들어놓은 그룹바이에서 특정 데이터만 볼 수도 있다. h_index["Devils":"Kings"] # 그룹바이를 테이블 형태로 나타낼수도 있다. h_..

ai tech 2021.01.28