자연어처리

인터넷 영화 데이터베이스(IMDb) 데이터 Preprocessing을 위한 PyPrind 라이브러리 모듈 설치

coding art 2022. 7. 1. 17:03
728x90

하지만 이 데이터베이스를 직접 사용하기에 불편하므로 Pandas 에 적합한 CSV 데이터 파일 형태로 변환할 수 있도록 “Python Machine Learning” 의 저자들인 Sebastian Raschka 와 Vahid Mirjalili 가 제공하는 Preprocessing 용 PyPrind를 아래의 url 주소에서 다운받자. PyPrind는 코드 실행 중에 0~100% progress bar를 시각적으로 보여준다. 다운받는 위치는 윈도우즈10의 사용자 디렉토리로 정한다.
https://pypi.python.org/pypi/PyPrind/

 

하지만 2022년 이후의 아나콘다 spyder 사용자라면 Environments 를 클릭하여 들어간 사용자가 지정한 가상환경에서 Open Terminal 에 의해 생성되는 터미날 화면에서 "pip install pyprind" 명령 한 줄을을 실행시켜 라이브러리를 간단히 설치할 수 있다.

 

반면에 아래의 다소 긴 과정은 예전의 Conda 명령을 사용하던 시절의 설치방법에 해당한다.

위 그림에서처럼 Download files 버튼을 클릭하여 다운로드 사이트로 넘어가자.

이 사이트에서 PyPrinf-2.11.2.tar,gz 파일을 윈도우즈 10의 사용자 폴더 즉 여기서는 Ysc에 다운 받아 확인을 하자.

윈도우즈10 명령 창에서 DIR 명령을 사용하여 사용자 디렉토리에서도 확인한다.

윈도우즈 명령 창에서 다운로드 받은 파일이 확인되었으면 압축을 해제하자.
tar xvzf PyPrind-2.11.2.tar.gz

이어서 아나콘다 명령 창을 열도록 하자.
(base) C:\Users\Ysc>conda activate tensorflow
아나콘다 명령 창에서 tensorflow를 activation 시키면 프롬프트 즉 (tensorflow)가 나타난다. 여기서 pip install pyprind 명령을 실행시킨다. 실행과 더불어 노란 색 경고문들이 나타나는데 이는 pip 명령 업그레이드를 하라는 의미이며 문제는 없다.

이로서 성공적으로 설치가 되었으면 아나콘다에서 스파이더 편집기를 오픈 하여

셸(Shell)에서 import pyprind 명령을 실행해 보자. 에러 없이 실행이 되면 PyPrind 라이브러리 모듈이 성공적으로 설치된 것이다.

이미 아나콘다에는 이 (tensorflow) 가상 환경(virtual environment)에 중요 공용 라이브러리 모듈들 즉 Numpy, Matplotlib, Keras, Pandas, PyQt5 들이 바인딩 되어 설치되어 있다.

물론 PyPrind 라이브러리는 사실 이미 설치된 라이브러리 모듈들처럼 공용성격의 라이브러리가 아니라 Sentiment 분석에 국한되는 라이브러리지만 아나콘다에서 IMDB 오픈소스 파이선 코드들을 실행하려면 이와 같은 설치 절차를 밟아야만 한다. 이는 아나콘다 프론트 엔드 개발자들이 그러한 프레임을 설정했기 때문에 어떤 라이브러리라도 아나콘다에 설치한 텐서플로우와 연동하려면 동일한 과정을 밝을 필요가 있다.

다소 긴 편이지만 이미 아나콘다를 성공적으로 설치하였던 경험이 있으면 큰 문제 될 것이 없을 것이며 익숙해진다면 10분 정도의 시간이면 충분히 설치 가능하다. 그밖에 Sentiment 분석을 위한 문서의 토큰화 과정에서도 nltk 라이브러리 모듈 설치를 위해 동일한 과정이 필요하다.