IMDb 데이타를 읽어 들여 csv 데이타 포맷으로 변환한 상태에서 일부 데이타를 읽어 들여 문제점을 체크하기로 하자. 지난번 블로그의 csvconver.py 파이선 코드를 먼저 실행시키면 progress bar와 함께 수분의 시간이 소요되면서 처리가 완료된다. Pandas 명령어인 df.loc[0, ‘review’][-50:] 명령을 셸(Shell)에서 실행하여 얻어지는 출력 결과를 살펴보자. 이 명령은 랜덤하게 셔플된 영화 리뷰 데이타의 마지막 50글자를 출력시킨다. 이 출력 결과를 살펴보면 HTML 언어인 깍지형 브라켓과 슬래시 및 마침표를 포함하는 요소들이 포함되어 있음을 알 수 있다. HTML 편집 기호들은 문장의 의미와는 아무런 관련이 없으며 마침표의 경우는 약간의 관련성이 있을 수 있다. 하..