머신러닝

1-21 머신 러닝 softmax classifier와 볼츠만 확률분포와의 연관성

coding art 2021. 6. 26. 15:17
728x90

머신 러닝과 인공지능은 최근에 활성화된 것은 사실이나 그 연원은 결국 2차 대전이 끝날 무렵으로서 컴퓨터의 시작 시기인 튜링이나 폰노이만 시대까지 거슬러 올라간다.

 

아울러 50년대 중반 반도체 시대의 문을 열었던 노벨상에 빛나는 트랜지스터의 발명을 통해 컴퓨터 하드웨어 및 소프트웨어 발전의 포문을 열게 된다. 이어서 50년대 말 Rosenblatt의 퍼셉트론 하드웨어 및 소프트웨어 코드 개발 성공과 아울러 컴퓨터의 인공지능화에 대한 환상에 불을 당기게 된 듯하다.

아마도 사진의 이 장치는 릴레이, 커넥터, 토글스위치, 교류 전압조정 슬라이닥스들로 구성된 60년대 초 퍼셉트론 징치의 일부 인 듯한데 Rosenblatt이 직접 실험실에서 연구 중인 듯하다.

 

지금 2018년 현재 다루고 있는 대부분의 뉴럴 네트워크 및 딥 러닝을 포함하는 머신 러닝 문제들은 1960년대 Rosenblatt 이 이미 다 다루어 보았거나 다루던 주제로 보면 되며 그가 살아 있었으면 1980년 이전에 이론적으로는 어느 정도 다 정리 되었을 주제이다. 즉 다음의 발표자료 이 한 페이지만 보면 이 말이 수긍이 갈 것이다.

다시 말해서 최근에 머신 러닝 분야에 뛰어 들었다면 당신은 Rosenblatt 과 같은 천재 과학자와 함께 공동 연구를 하는 셈이 된다고 말할 수 있다. 퍼셉트론에 관해서는 별도로 머신 러닝의 로직문제 처리 과정에서 XOR 로직 코딩 문제를 다루어 보기로 한다.

 

한편 60년대에 역시 인공지능 분야를 주도했던 MITMinsky Papert 교수 두 사람 쓴 RosenblattPerceptron을 디스하는 부정적인 서적을 출판함에 따라 인공지능 R&D를 지원하는 연구개발 자금이 120% 끓겨버려 결국 MIT 마저 연구개발에 손을 땜으로 인해 오랫동안 인공지능의 암흑시대를 맞게 되는데 오히려 그 이유는 사실상의 인공지능 연구를 주도했던 코넬대학의 Rosenblatt 197141세의 나이로 체사피크만에서 물놀이 사고로 사망함에 따른 천재과학자의 인적 손실에 따른 당연한 결과로 보인다. 그러다가 결국 80년대 말 아버지 부쉬 시대에 혹독한 이라크 후세인 사냥 시대를 거쳐 문제는 경제야!”라는 클린톤의 캐치프레이즈가 유행했던 1990년대에 이르러 캐나다의 Hinton 교수를 비롯하여 다시금 불씨를 살리게 된다.

 

이와 같이 20년 이상 연구개발이 거의 단절되었던 인공지능의 흑역사로 인해 사실 인공지능분야는 여타의 과학과 공학 분야 중에서 상대적으로 가장 낙후 된 분야가 되었는데 90년대 말 IT 버블을 통과하면서 2000년 이후에 급속도로 발전해 불과 10여년 안팎에 모든 것을 만회한 후 4차 산업혁명의 최첨단을 이끌고 있는게 아닌가 한다.

 

특히 컴퓨터 비젼 이미지 처리 분야는 머신 러닝이 개화하여 꽃을 피운 분야인데 이 분야에서 너무나 유명한 주제가 바로 MNIST 수기 숫자 인식 문제인 듯하다. TensorFlow 라이브러리 모듈을 설치하여 파이선 코드를 실행해보면 몇 줄 되지도 않는 코드이지만 놀랍게도 92.6%에 달하는 인식율을 보여 준다. 새로운 분야에 도전하는 머신 러닝 연구자들이 새로운 대상에 대하여 인식율을 올리기 위한 악전고투 과정에서 사실 92.6% 인식율이란 어마어마하게 높은 값인 듯하다.

 

그런데 MNIST 수기 숫자 인식을 위한 파이선 코드에 등장하는 엑스포넨셜 함수 형태의 softmax classifier의 정의가 바로 볼츠만 확률분포 함수와 동일한 형태를 취한다는 점이다. 즉 물리학 과정에서 다루는 입자의 볼츠만 분포가 어떤 이유로 머신 러닝의 MNIST 수기 숫자 인식을 위한 파이선 코드에서 softmax classifier 로 등장하는지 이 부분이 아무도 얘기해 주지 않는부분인 듯하다. 물론 어딘가에 학술적인 자료들이 있을 법하나 인터넷 문헌 검색을 통해 찾지는 못했다.

 

일반적으로 softmax classifier를 사용하는 머신 러닝에서는 cost 함수를 최소화하는 과정이 요구됨에 반해서 볼츠만의 확률 분포는 볼츠만의 통계역학적 엔트로피를 최대화함으로 인해 유도가 가능하다는 점에 유의하자. 두 접근법 모두 수학적으로 동일한 형태의 확률 분포 공식이 얻어지는 것은 사실이지만 아무래도 물리학 문제와 머신 러닝 문제를 동일한 시각으로 볼 수는 없을 것이다. 이러한 문제점 해결의 출발점은 정보 통신이론의 기초를 세웠던 Shannon 의 엔트로피에 주목해야 할 필요가 있다.

Christoper M. Bishop의 무료 PDF 파일 저서 Pattern Recognition and Machine Learning55페이지 하단의 각주에 의하면 폰 노이만은 Shannon에게 그냥 엔트로피란 용어를 사용하라고 자문해주었다. Shannon 이 확률적 통신이론에서 나타나는 엔트로피가 물리학에서 사용하는 엔트로피와 유사할 뿐만 아니라 아울러 어느 누구도 엔트로피라는 것이 무엇인지 이해하지 못하고 있기 때문에 앞으로 어느 학회에서 토론을 하게 되더라도 유리할 것이라는 것이라는 지적이었다. 물론 폰 노이만 자신도 양자통계역학 분야에 자신의 이름이 명명된 엔트로피 정의를 가지고 있다.

Shannon의 엔트로피에 관한 연구는 1948년에 출판된 A Mathematical Theory of Communications라는 제목으로 인터넷 상에서 무료 PDF 파일로 제공되고 있는 벨 랩 연구 논문 10 페이지에 6. Choice, Uncertainty and Entropy 절에 실려 있다. 특히 Shannon 의 엔트로피는 지도학습(supervised learning)문제 데이터에 내재한 uncertainty 제거를 위해 최소화 과정을 통해 적용이 가능하다.