머신러닝

1-24 볼츠만, Bose-Einstein, Fermi-Dirac 확률분포와 머신러닝 classification 과의 유사성

coding art 2021. 6. 27. 16:11
728x90

볼츠만으로부터 시작되었다고도 볼 수 있는 통계 물리학은 볼츠만 분포로 끝나는 것은 아닌 듯하다. 즉 볼츠만 확률 분포와 때어낼 수 없는 관계에 있는 유명 물리학자들이 게재된 확률 분포들이 있다는 점이다. 물론 볼츠만 분포가 머신 러닝의 이미지 처리에서 핵심적인 역할을 하는 이유는 무엇이겠는가? 간단히 설명하자면 볼츠만의 시대를 지나 1900년대를 넘어 물리학 분야에서는 현대과학의 중추를 이루는 양자역학이 출현하게 된 시대이다. 양자역학이 발전하게 됨에 따라 물리학자들의 관심은 결국 본질적인 물질의 성격 규명에 나서게 되었다. 이미 볼츠만 분포에서도 입자의 동일성(identical)이라든지 구별(distinguishable) 가능성 문제가 다루어졌지만 물리학자들이 찾아 나서 맞닥뜨리게 된 물질의 궁극은 뜬금없이 분신술을 구사하는 입자들이었다. 분신술을 구사한다는 얘기는 다시 말하면 입자들이 너무 비슷해서 도대체 구분이 안 된다(indistinguishable)는 점이며 볼츠만 분포로는 설명이 불가능할 뿐 더러 이러한 입자들을 묘사할 수 있는 새로운 확률분포가 필요하게 되었다. 볼츠만 분포와는 다른 새로운 확률분포가 머신 러닝과 어떤 관계를 맺고 있을지는 당장 짐작하기는 어려우나 볼츠만 분포를 거론할 때면 항상 패키지로 함께 따라 다닌다는 점에서 Bose-Einstein 분포와 Fermi-Dirac 분포를 집고 넘어가기로 한다.

 

방글라데시 출신의 뛰어난 이론 물리학자였던 Bose1920년경에 켈커타 대학에서 자신이 플랑크의 앙자역학적 복사법칙에 대한 논문을 작성하게 되는데 그 내용이 주로 동일한 입자들의 macrostate 또는 microstate 수를 세는 나름대로 고상한 방법에 근거한 것이었다. 6개의 입자를 9단계로 분류하여 표를 작성하는 작업과 유사성이 있을 것이다. 그런데 그가 쓴 논문이 국제학회지 출판에 어려움을 겪게 되자 독일의 아인슈타인에게 자신의 논문을 직접 독일어로 번역해서 보내어 인정을 받아 독일 학회지에 게재하게 됨과 동시에 독일에 체류하게 되면서 입자와 파동의 이중성을 드브로이파로 밝힌 드브로이, 누구나 다 아는 세계 최초의 노벨상 수상에 빛나는 여성 화학자 큐리 및 아이슈타인과 함께 실험실에서 연구를 하게 된다. Bose의 논문은 훗날 볼츠만 보다 한술 더 떠 양자 통계학(Quantum Statistics)의 원조 논문이 되었다. 본인은 잘 몰랐을 수도 있겠지만 아인슈타인이 그와의 대화에서 자네(Bose)가 새로운 통계를 시작했다는 사실을 알고 있는가?“라고 지적을 해주었다는 일화가 있다. Bose는 독일 체류 전에 작성한 논문에서 하이젠베르크의 불확정성 원리가 적용되는 아주 작은 공간으로 미시적으로 들어갈수록 입자들이 서로 구별이 안 되는 분신술을 씀으로 인해 이미 볼츠만의 확률분포가 제대로 맞지 않는다는 점을 밝히고 볼츠만 분포에서 입자들을 구별하는 핵심 요인인 위치와 운동량의 상이성을 폐기함과 아울러 적합한 확률분포를 찾아 나서게 된다. Bose가 관심을 가졌던 대표적인 입자가 바로 광량자(Photon) 인데 얘는 속도가 다 빛의 속도로 같기 때문에 두개의 광량자가 있다고 해도 같은 방향으로 운동하면 어느 놈이 어느 놈인지 알 수가 없다는 점에 주목했다.

 

Bose 가 제시한 확률분포 문제를 간단히 리뷰 해보자. 두 개의 서로 구별이 가능한 동전 1과 동전 2를 던지는 문제이다. 이때에 나올 수 있는 결과물(outcome)은 다음 3가지다.

둘 다 앞면(Head) 둘 다 뒷면(Tail) 앞면(Head) 또는 뒷면(Tail)

동전이 구별 가능하므로 얻어질 수 있는 이벤트를 표로서 나타내 보자. 동전이 구별이 된다면 분명 HT TH는 구별이 되므로 각각 하나씩의 이벤트가 된다. 그렇다면 동전 1 과 동전 2 가 구별이 안 된다면 HT TH를 각각의 서로 다른 이벤트로 볼 수 있을까? 서로 다른 이벤트로 구별이 안 되므로 결국 확률적 결과물(outcome) 3가지가 이벤트의 집합이 되며 확률 분포가 (1/3) 이 될 수도 있다는 점이다.

Bose의 확률분포는 현재 Bose-Einstein 확률분포로 널리 알려져 있는데, 아인슈타인이 후속연구를 통해 1925년에 Bose-Einstein condensate 연구에 사용하였고 무려 70년이 지나 1994년에 실험적으로 확인이 되었다.

6개의 입자 표로부터 Bose-Einstein 확률 분포를 적용하여 입자 수 분포를 계산해 보자. Bose-Einstein 확률 분포에서는 입자들의 구별 가능성에 근거한 볼츠만의 microstate 수가 있을 수 없으며 오직 지정된 에너지 레벨에 포함되어 있는 macrostate 만이 카운팅 된다.

Fermi-Dirac 확률 분포 역시 양자역학의 발전에 영향을 받아 1926년에 제안되었는데 하나의 에너지 레벨에 2개 이상 수용이 불가능하다는 점이다. 원자 구조에서 가장 낮은 에너지 레벨인 첫번째 궤도에 전자가 2개가 수용될 수 있는데 파울리의 배타원리에 의하면 그 2개의 전자를 구별할 수 있는 스핀이 서로 반대라야 한다. 이 양자역학적 원리는 전자뿐만 아니라 그 적용 범위가 넓지만 여기에서는 앞서 제시된 표의 데이터에 한해서만 고려하도록 하자. 표의 macrostate를 조사해 보면 각 에너지 레벨에 2개 이상의 입자를 포함하는 경우를 제외해 버리면 macrostate 12, 13, 14 만이 해당되며 평균 입자 수는 아래와 같이 계산할 수 있다.

커버 그림에서처럼 Bose-Einstein Fermi-Dirac 확률 분포가 적용될 수 있는 상황으로는 원자 번호 6번인 탄소 원자 즉 입자 수가 6인 예를 들어 보자. 에너지 레벨이 가장 낮은 궤도에 2개의 전자가 들어갈 수 있는데 Fermi-Dirac 확률 분포를 사용해야 하는 공간이 될 것이다. 파울리의 배타원리 물리법칙에 따르면 반드시 스핀이 반대 방향이라야 한다. 그 다음으로 에너지 레벨이 높은 궤도는 4개의 전자가 들어가는데 여기서는 스핀이 서로 반대되는 2개 단위의 전자 세트를 수용할 수 있는 에너지 레벨 수가 충분하므로 굳이 배타원리 적용이 필요 없다. 즉 구분이 안 되도 좋으며 그냥 전자면 된다. 아울러 이 궤도는 최 외곽이므로 최대 전자 수용 수가 8이기 때문에 다른 원자들과 전자를 공유함으로서 공유결합이 가능해진다. 메탄가스 예를 들면 CH4 이다. 수소 원자의 가장 낮은 에너지 레벨에 1개의 전자가 들어 있으며 이 전자를 탄소원자의 외곽 궤도와 공유해도 스핀만 반대라면 아무런 문제가 없을 것이다.

탄소원자의 예에서 사용하는 에너지 레벨은 단 2개이다. 반면에 볼츠만 분포를 유도과정에 사용한 6개의 입자 9단계 에너지 레벨 모델에서 08E 9단계 모델을 사용하여 표를 작성하였는데 입자 수가 증가한다면 주기율표 상 대부분의 원자 구조가 포함될 수 있을 것이다.

 

통계 물리학에서 기원한 볼츠만, Bose-Einstein 분포, Fermi-Dirac 분포가 머신 러닝과 뭔가 밀접한 관계를 가지게 된 이유가 무엇일까? 과연 밀접한 관계가 있기는 있는 것일까? 있다고 볼 수 있다. 통계 역학에서 입자의 구별이 가능한지 여부가 왜 중요한지 생각해 보아야 할 문제이다. 간단히 말해 입자 또는 소립자 연구의 역사를 돌이켜 보면 줄줄이 사탕 꿰듯이 물질 입자의 근원을 찾아 비슷한 것끼리 분류(classification)해 나가는 과정이란 점에서 머신러닝의 classification 과의 연관성은 무척 높아 보인다. 이 입자는 전자, 양성자, 저 입자는 중성미자 .... 그와 같이 입자를 분류해 냄에 있어서 볼츠만처럼 오로지 확률분포함수를 찾아내는 것이 핵심과정이었을 가능성이 높다. 머신 러닝도 특히 classification을 다루는 대상은 물리학과는 차이가 있겠지만 어느 정도 궤를 같이하는 유사성(similarity, analogy)이 있는 것으로 볼 수 있을 것이다.