머신러닝

Information Entropy

coding art 2019. 4. 25. 11:13
728x90


파이선 코딩을 배우는 초보자도 머신 러닝에 독학으로 한번 도전해 보자.

왜냐구요? 그다지 어렵지 않으니까요!

머신 러닝을 배우려는 파이선 코딩 초보자들이 가지게 될 확률이 높은 의문점들을

하나하나 찾아내어 실제 풀어보고 결과를 확인해볼 수 있는 머신 러닝!

인터넷 교보문고에서 450페이지19900원에 판매중입니다.











________________________________________________________________________________________________________________________



머신 러닝의 다양한 학습법들이 물리학이라든지 또는 정보과학에서 유래되었다는 사실에 놀라움을 금할 수 없다. 입자들의 볼츠만 확률 분포가 차용되어 Softmax에서 사용된다는 점도 그 중의 하나일 것이다. 그 뿐만이 아니다. 볼츠만이 고려했던 통계열역학 시스템 중에서도 microcanonical system 의 엔트로피 정의는 볼츠만의 이름을 딴 볼츠만 상수 k 와 더불어 너무나 유명한 사실이다.

  

  

지난해 연말 출간했던 필자의 졸저에서도 이러한 사실에 따라 Softmax 확률계산 과정에서 단지 볼츠만 확률 분포식을 적용함과 아울러 cost 함수로 사용하는 Cross entropy 공식 유도까지만 관심을 가졌던게 사실이다. 하지만 출간 후 체 반년이 지나지 않은 시점에서 볼츠만의 엔트로피 공식과 다시 조우하게 될 줄은 몰랐다. 그 연결고리의 단서는 scikit-learn 라이브러리에서 지원하는 DecisionTree Classifier 실행 후 얻어지는 Graph 작성용 DOT파일을 PyDotPlus 라이브러리를 사용하여 png 이미지 파일로 변환하여 얻어지는 Tree 다이아그램을 관찰하던 중 Geni impurity와 관련된 Information Gain 개념이 들어 있음을 알게 되었다. 이점에 관해서는 아래의 url 주소 사이트 내용을 참고하자.

 

1-16 Decision Tree Classifier GraphViz, PyDotPlus 설치

https://steemit.com/kr/@codingart/1-16-decision-tree-classifier-graphviz-pydotplus

 

지금까지 상당히 넓은 범위의 머신 러닝을 훑어보았지만 전체적인 내용 파악 측면에서는 많은 단절이 있었던 것이 사실이다. 아울러 오픈되어 있는 많은 정보들도 단편적인 성격이 매우 강해 전체 스코프를 명확하게 보여주지 못하고 있는 것도 문제로 여겨진다. 하지만 지속적인 파이선 코드 작업을 통해 제기되는 의문을 풀다 보니 들어 올 때는 분명히 백도어로 들어 온듯한데 현재 풀어나가는 방향은 제대로 찾은 듯하다. 다음 글에서는 Information Gain Geni impurity 개념을 다루어 볼 예정이다.