인공지능 응용 공학

McCulloch과 Pitts, Rosenblatt, Minsky에 이르는 초창기 신경망 연구의 역사 명과 암

coding art 2022. 10. 27. 11:35
728x90

빛의 밝기에 반응하는 photocell로 입력 장치로 구성되는 Rosenblatt의 퍼셉트론의 중요한 용도는 400개의 센서를 통해 입력되는 데이터 처리에 의해 문자를 인식하는 것이다. 그가 사용했던 photocell 은 오늘날의 조도센서로 알려져 있는데 2개를 사용하여 random 한 입력 벡터를 실제로 생성할 수 있다. 그방법은 건물의 앞뒤에 각각 조도센서를 설치해 두면 서로 다른 값을 가지는 potocell 데이터 1세트가 얻어지며 하루 종일 해가 움직이므로 그 값의 변동이 있게 된다. 즉 숫자 예제 데이터가 아니라 현실적으로 발생하는 데이터이다.

지구상에서는 이 장치를 이용해 건물 주변의 조명을 자동으로 ON OFF 하는 수준에서 사용이 가능하겠지만 만약에 달나라에 기지를 태양 빛의 음영이 생성되는 경계에 설치하게 되면 이 간단한 장치도 대단히 중요한 역할을 할 수 있을 것이다.

하지만 2개의 입력용 센서로 문자를 인식할 정도의 충분한 해상도가 되지는 못하며 단지 밝은 지 또는 어두운지 정도를 구분할 정도로서 학습이 가능하다. 때로는 사전에 BB와 DD로 학습이 되었다면 밝기가 애매한 상태인 BD 또는 DB의 경우도 Softmax를 사용하여 어느 정도 밝은지 어두운지 확률적인 계산 결과를 알아볼 수도 있다. Rosenblatt의 Weight Update 방식에 error 개년을 적용해서 처리해도 결과를 얻을 수 있을 것이다.

위 그림 상에서는 (0.5, 0.5)를 계산하여 밝은 영역에 있는 것으로 머신 러닝이 판단하였는데 어쨌든 Softmax 에 의한 머신 러닝은 평면상에 그어 놓은 대각선으로 표시된 직선형 classifier를 제공한다고 보면 된다. 즉 classifier를 가운데 두고 양쪽으로 밝은 영역이냐 어두운 영역이냐를 구분하게 되며, 이와 같이 classifier가 선형인 경우 선형분리가능(linearly separable) 하다고 한다. 이 선형 분리 가능성은 Rosenblatt의 퍼셉트론 알고리듬에서 수렴하는 답을 얻어낼 수 있는 전제 조건 중의 하나로 알려져 있다. 선형적으로 분리가 불가능한 경우 머신 러닝이 제대로 학습을 하지 못하는 경우로서 Iris flower data set의 부분 데이터를 사용하는 반대 예제를 분석 중이므로 적당한 시기에 올리도록 할 계획이다.

한편 이 classifier를 hyperplane 으로 칭하는데 현제 데이터가 2차원적이라면 hyperplane에 해당하는 classifier 는 1차원에 해당하게 된다. 아울러 데이터가 MNIST 문자인식 문제처럼 하나의 이미지를 구성하는 픽셀 데이터가 784개라면 hyperplane 은 783 차원이 된다고 보면 된다. 우리가 2차원 문제를 많이 다루기 때문에 classifier 가 직선일 수 있으며 따라서 hyperplane 이라는 용어가 좀 이상(weird) 한 것은 사실이다.

다시 머신 러닝 초창기 빅뱅시대로 돌아가서 Rosenblatt에 의한 신경망 연구가 본격화되는 계기가 된 퍼셉트론까지를 정리해 보기로 한다.

1943년 McCulloch(신경병리학자) 과 Pitts(논리학자)의 “신경 활동에 내재 한 아이디어의 논리적 계산”(A Logical Calculus of the Ideas Immanent in Nervous Activity) 논문 내용에 의하면 뉴론에 관한 신경병리학적인 관찰을 바탕으로 머신 러닝을 시작하기 위한 웬만한 개념들은 다 체크가 되었으며 1957년의 Rosenblatt이 보든 오늘날의 우리가 보든 거의 같은 내용으로 보면 된다.

이 뉴론의 신경병리학적 측면을 간단히 알아보자. 신경과 분야의 의사의 시각에서 늘 관찰하는 뉴론의 구조란 것은 우리가 흔히 자연계에서 관찰하는 예를 들면 산삼과 같은 식물의 뿌리 구조와도 유사성이 커 보인다. 식물이나 동물이나 성장하게 되면 곁가지나 잔뿌리가 뻗어 나오게 되는데 이 가지 구조 즉 네트워크(network)를 통해 수분, 영양분, 체액, 단백질 및 생체 정보의 전달 통로가 된다. 농업 종사자 입장에서는 수분과 영양분의 전달이 중요할 수 있을 것이다. 하지만 아직도 식물에 있어서는 동물의 뇌에 해당하는 부분이 정확하게 규명되어 있지 않지만 어쨌든 식물의 유전자에 포함되어 있는 정보를 바탕으로 특별한 방향으로 정보의 흐름이 일어나고 있을 것이다. 반면에 뇌 신경병리학자 입장에서는 네트워크를 통한 생체의 정보 전달 내지는 학습이란 현상에 관심이 집중된다.

머신 러닝에서 다루는 뉴론은 2가지 방법으로 정보를 전달한다. 호르몬 분비 신호에 의한 방법과 전기화학적인 방법이 그것이다. 호르몬 분비 신호는 내분비기관에서 혈액 속에 분비되는 복잡한 생화학적 단백질로서 신체 부위 전체에 걸쳐 골고루 영향을 미치는 반면에 전기화학적인 신호는 뉴론에만 국한되어 정보를 전달하게 된다.

뉴론의 기본적인 구성을 살펴보면 1개의 뉴론은 전기화학적인 신호를 받아들이는 수상돌기의 시냅스 영역과 뉴론 몸체 및 뉴론에서 처리한 신호를 내 보내는 축색 돌기로 구성된다. 수상돌기에서 네트워크 즉 신경망으로부터 입력이 이루어지게 되면 뉴론 몸체에서 입력신호를 통합하여 일정 수준의 threshold 값에 도달했는지에 따라 불발시키거나 fire 시키게 된다.

만약 fire가 일어나게 되면 축색돌기(axon)를 따라 인접한 수상돌기의 시냅스(synapse) 조직을 통해 또 다른 뉴론으로 신호 전달이 일어나게 된다. 신호 전달이 없는 상태에서눈 축색돌기 막 외부에 +성 체액과 내부의 –성 체액으로 분극화(polarization)되어 전기적 균형을 이루는 막전위 상태를 유지하게 되며 이때의 전기적 포텐셜 상태를 resting potential이라 한다.
뉴론에서 정보를 통합 하여 threshold를 넘게되면 fire가 일어나게 된다. 이때에 축색돌기의 투과성이 커져 막 외부의 이온 상태의 +체액이 이온채널을 통해 내부로 흘러들어옴에 따라 막전위차가 줄어들게 되고 분극 상태가 해소 된다. 이러한 현상을 action potential 또는 신경충격(nerve impulse) 또는 방전(spike)이라고 한다.

즉 뉴론에서는 전달되어 온 자극의 크기가 threshold 이상이면 fire 즉 신경충격이 발생하나 그 크기가 자극의 크기와 무관하게 일정하며 threshold 이하면 신경충격이 발생하지 않는데 이를 실무율(all-or-none rule, all-or-nothing))이라한다.

반면에 축색돌기를 따라 막전위 신호가 끝부분에 도달하면 다른 뉴론에 신호를 전달하기 위한 좁은 시냅스 공간 영역 즉 인터페이스 영역에 이르게 된다. 시냅스 영역에서는 국소전위(local potential or graded potential)현상이 일어나며 실무율과는 반대로 반응의 세기가 자극 부위로부터 멀어질수록 변동되는 특성을 보인다.

즉 축색돌기로부터 전기 신호가 이 영역에 도달하면 신경전달물질(neurotransmitter)이 분비되어 신호를 전달하려는 다음 뉴론의 수상돌기나 세포체의 막에 국소전위의 변동을 일으키는데 여러 네트 워크를 타고 신호가 전달되어 오므로 신호들의 시간적인 변동(temperal) 및 시냅스 영역 내 위치에 따른(spacial) 신호의 가감(summation and subtraction)현상이 일어난다. 이 현상이 신경망 기술에서 웨이트(weight)로 나타나며 전달되어 오는 여러 전기화학신호들의 시냅스 내부에서의 가감 합산 과정이 시그마(∑)에 해당하는 것이다.

즉 요약해 보면 축색 돌기 터미널 부분과 다음 뉴론의 수상돌기 부분 사이의 시냅스 영역에서 국소전위 변화 일어나며 축색돌기 터미널에서 분비된 신경전달물질이 수상돌기측에 전달됨으로 인해 최종적으로 신호가 전달되는 것이다. 특히 뉴론과 연결되는 시냅스 영역 내에서 동시에 전달되는 여러 개의 신호에 따른 신호전달 문질들이 시간적으로든 또는 시냅스 영역 내 위치별로든 석여 농도가 변하면서 혼합이 되어 뉴론에 신호가 입력되게 되는 것이다.

1943년 McCulloch(신경병리학자) 과 Pitts(논리학자)의 시대에 이와 같은 신경망의 메카니즘이 어느 정도 파악이 되었으며 그에 파생된 뇌에서의 학습효과의 발생이 McCulloch(신경병리학자) 과 Pitts(논리학자)의 관심이었다. 단지 진공관을 사용하던 1943년도의 과학기술 환경 하에서 McCulloch(신경병리학자) 과 Pitts(논리학자)의 선구자적인 신경망 연구결과는 자신의 시대에 직접 시제작을 통해 구현하기는 어려웠지만 머지않은 미래에 실현 가능성이 대단히 높은 어떻게 보면 일종의 공상과학 소설과도 같은 논문이었으며 결국 1957년 Rosenblatt에 의해 실현된 셈이다.

신경병리학자들의 노력과 관찰에 의해 하나의 뉴론을 중심으로 웨이트 처리된 입력의 합산이 일어나고 threshold 조건 만족 여부에 따라 fire 가 즉 신경 충격이 일어나게 된다. 물론 뉴론 내 외부에서 일어나는 복잡하고 마이크로한 생화학적인 측면을 그대로 머신 러닝을 위한 신경망으로 묘사할 수는 없으므로 결국 거시적인 처리가 필요한듯하다. 볼츠만 분포에 관한 통계역학 사례에서도 보면 입자들을 일일이 구별해 가며 경우의 수를 계산해 내는 마이크로스테이트가 있었고 반면에 거시적적인 열역학 변수 즉 압력, 온도, 부피 및 엔트로피와의 연결고리를 찾았었다. 신경망에 있어서도 뉴론을 중심으로 일어나는 자극 입력, 웨이트, 합산 및 threshold에 따른 firing 현상 자체는 명확하지만 이를 거시적으로 위 그림에서처럼 간단하게 모델링할 필요가 있는 것이다.

가장 간단한 단일 뉴론의 기능은 뉴론들이 네트워킹을 형성해 나감에 따라 보다 복잡한 시스템의 문제를 해결할 수 있는 실마리를 제공할 수 있는 포텐셜을 가지고 있음을 지적해 두고자 한다. 생물학적인 뉴론의 조직 구성이 엄청나게 복잡하겠지만 그렇다고 해서 여러 종류의 뉴론들이 섞여 있는 것은 아니며 앞서 검토했던 성격을 가지는 뉴론이 거의 100억개 규모로 네트워킹을 하고 있는 것으로 추정된다. 지금의 딥러닝이나 그 어떤 종류의 네트워킹을 구성하기에도 충분한 규모라 할 수 있다.

#트랜지스터의 발명
1950년대 당시에는 신경망과 직접적인 관련성은 없지만 지금 보면 트랜지스터 (TR: Transistor)야 말로 뉴론을 흉내 낼 수 있는 아주 기본적인 반도체 소자로 볼 수 있을 것이다. 1948년부터 벨랩에서 TR은 바딘, 쇼클리, Brattain 3인에 의해서 발명이 되어 1956년에 물리학 분야에서 노벨상을 수상하였다.

TR은 스위칭 기능과 아울러 입력 파형의 증폭이 가능하며 특정 주파수 파형을 생성할 수도 있다. 따라서 여러 개의 TR을 조합하여 출력을 단일화 하게 되면 뉴론을 흉내 내는 것이 가능하다. 그뿐만 아니라 여러 가지 종류의 에를 들면 AND, OR, XOR 논리 처리도 가능하며 1960년대부터 반도체 기술이 발전하기 시작하여 결국 컴퓨터 기술로 흡수되었다고 보면 되겠다. 물론 진짜 생물학적인 뉴론과 똑같은 것을 과연 인간의 기술로 재현할 수 있을지는 알 수 없지만 한편 뉴론의 전기화학적인 특징들이 제대로 파악되었다면 TR을 사용하여 하드웨어적인 뉴론의 제작도 가능할 것이다. 70년대 반도체 기술의 진보에 힘입어 1980년대에는 신경망 컴퓨터 하드웨어 제작 시도도 있었다.

#민스키와 페파트 교수의 공저 퍼셉트론
1969년에 민스키 교수가 퍼셉트론이란 책을 출판하면서 단 하나의 퍼셉트론만을 사용한다는 지극히 바보스런(ridiculous) 아이디어에 바탕을 두고 단일 퍼셉트론이 처리할 수 없는 논리로서 XOR 논리가 있음을 지적하였다. 실제 생화학적인 뉴론의 네트워킹은 개수가 무한하다고도 볼 수 있는 뉴론들 간의 네트워킹이기 때문에 우리가 부딪힐 수 있는 수학문제를 비롯하여 복잡한 시스템 문제를 처리할 수 있는 가능성이 높다. 실제로 딥러닝의 사례를 들 수 있을 것이다.

Rosenblatt이 1957년 퍼셉트론을 시제작한 이후로 무려 10년이 경과한 1969년 지금 우리가 말하는 머신 러닝이 아닌 인공지능(Artificial Intelligence)을 연구하던 MIT 교수였던 민스키와 페퍼트 교수에 의해서 어떻게 보면 신경망 분야의 Rosenblatt 와는 경쟁적인 라이벌일 수 있는 이들이 퍼셉트론이라는 제목으로 책을 출간히게 됨에 따라 심각한 분란을 초래하게 된다. 이 책은 자신들의 연구 분야인 기호학 관점의 인공지능(Symbolic AI)에 대한 책이 아니라 자신들이 개발하지도 않았던 Rosenblatt 의 퍼셉트론을 부정적인 관점으로 겨냥해서 그 당시 활성화 되고 있는 신경망의 발전을 디스하여 찬물을 끼얺고자 함에 그 목적이 있는 듯 했다. 그 핵심 내용은 퍼셉트론은 아예 학습 또는 지도학습(supervised learning)이 불가능하다는 주장이었다. 특히 퍼셉트론은 조도센서 예에서도 보여주었지만 Rosenblatt 의 퍼셉트론은 선형적으로 분리 가능하다는 전제 하에서 2개의 라벨 값 ++1“ 과 ”-1“을 학습하는데 아무런 지장이 없음에 도 불구하고 이들은 짝(even) 과 홀(odd)이라는 개념조차 학습을 시킬 수 없다는 억지 주장을 했다.

그 주장은 그 당시에 워낙 잘 먹혀 들어가 결국 신경망에 의한 AI 분야의 연구 펀드를 획기적으로 고갈시키는 기폭제가 되어 1980년대 초반까지 신경망에 관한 연구가 자취를 감추게 되고 폭망하는데 엄청난 기여를 하게되었다.

특히 민스키 교수는 책 출간 후 재판을 출간하면서도 자신이 Rosenblatt의 퍼셉트론에 대한 부정적인 관점에서의 지적 사항에 대해 아무것도 변한 것은 없다고 우기는 것으로 서문을 그대로 유지했다고 한다. 하지만 민스키에 대한 세상의 평은 가혹하리만치 무서운 듯하다. 민스키가 인공 지능 분야에 많은 업적을 남겼는지도 모르겠지만 그는 “퍼셉트론은 결코 학습할 수 없다는 점을 수학적으로 증명했다”는 수치스러운 과거사로 도배가 되는 듯하다.

곧 민스키가 지적했던 2개의 데이터로 입력 벡터가 구성되는 AND OR XOR 퍼셉트론 문제를 고려하도록 하자.