2023/02 13

negative sampling 알고리듬

은닉층과 크기가 (100, 1000000)인 Wout과의 매트릭스 곱셈 연산을 통해 softmax 처리가 가능하도록 하기 위해서는 엄청난 규모의 컴퓨팅이 요구된다. 따라서 그런 과중한 연산을 줄일 수 있도록 학습 과정에서 softmax를 사용하는 다중분류에서 Sigmoid 우도(likelyhood) 함수를 사용하는 이진 분류방식으로 처리하도록 알고리듬을 수정하자. 즉 입력이 {you, goodbye}이면 학습은 {say}인가? 아닌가? 로 처리하도록 한다. 즉 긍정적 정답 레이블인 {say} 하나가 있을 수 있지만 동시에 {say}가 아닌 부정적인 정답 레이블들에 대해서도 다할 수는 없지만 일정 수만큼 학습 처리해야 한다. 예를 들자면 {hello}, {.}, {and}, {I}들로서 이들은 라벨 값 ”..

PMI (pointwise mutual information) 척도를 사용한 통계적 기법 개선

동시발생 행렬에서의 동시발생은 하나의 단어를 두고 인접한 위치에서 특정 단어가 출현한 횟수를 나타낸다. 하지만 빈도수가 높다고 해서 그 단어의 중요성이 높아지는 것은 아니다. 예를 들어 보자. ‘the’와 ‘car’ 는 자주 동시 발생 한다. 한편 ‘car’와 ‘drive’는 관련성이 확실히 높다. 그렇지만 단순히 출현횟수만 따진다면 ‘car’와 ‘drive’ 보다는 ‘the’와 ‘car’가 더 높을 것이다. 이 문제 해결을 위해서 PMI(pointwise mutual information) 척도를 새로이 도입하자. P(x)는 x가 일어날 확률, P(y)는 y가 일어날 확률, P(x, y)는 x와 y가 동시에 일어날 확률을 의미한다. 이 PMI 값이 높을수록 관련성이 높다는 의미이다. 동시발생 행렬을 사..

분포가설(distributional hypothesis)기반 통계적 자연어 처리 기법

자연어 처리는 컴퓨터 사이언스 및 언어학 또는 통계학 과의 학문간 제휴 영역에 해당한다. 언어학에서 모든 단어를 포함하는 사전(dictionary)이 있고, 한편 학습 대상 단어 위주로만 편집한 단어장(corpus) 가 있을 수 있다. 한편 인공지능을 만들기 위한 학습해야 할 텍스트가 너무 많아서 단어장 규모가 방대해지는 문제가 있어, 그 해결책을 찾아 보도록 하자. John Firth 교수가 언급했던 “the company a word keeps!“에 주목하자. 특정 단어의 사전적 의미보다는 인접한 단어들의 배치에 의해 ‘context’ 즉 문장의 ‘맥락’을 형성한다는 것이다. 이 맥락을 해석해 보기 위해서 간단한 문장을 대상으로 단어장(corpus)과 단어별 색인, 색인별 단어를 얻어낼 수 있도록 p..