수많은 영화들이 성공적 흥행을 목표로 쏟아지고 있는 미디어 세계에서 개봉 이전에 광고 중인 영화의 등급(rate) 예상에 관한 사례를 살펴보자. IMDb 영화 리뷰에 의한 학습 및 테스트에서처럼 개봉 이후 충분히 확보된 영화 리뷰 결과를 사용하여 머신 러닝 시키는 경우도 있겠지만 반면에 본능적인 평가를 택하는 경우도 있을 수 있다. 하지만 지금도 수없이 쏟아지는 영화들에 대해서 영화 리뷰 데이터나 본능을 배제하는 좀 더 괜찮은 방법은 없을까?
IMDb를 대상으로 하는 (실제 사례)를 소개하기로 한다. 대략 내용은 IMDb 웹 사이트 접근법 및 데이터 수집 방법을 제시한다. 아울러 수집된 포스터 데이터를 대상으로 안면인식 알고리듬을 적용하여 배우 수를 추적하고 배우 수를 파라메터로 하여 영화 등급 설정과의 관계를 살펴본다. 특별한 머신 러닝 알고리듬이 새로이 제시된 것은 아니지만 현실적으로 사람들이 생각해 볼 수 있는 높은 영화 등급을 받을 수 있는 흥행적인 면에서의 검토 과정인 듯하다. 실제 코드를 다 볼려볼 필요는 없을 듯 하지만 IMDB를 대상으로 머신 러닝을 위한 데이터를 어떻게 준비하는지와 안면인식 코드를 어떻게 적용하는지 방법론을 참고하면 좋을 듯하다. 블로그를 읽은 후 해 당 사이트에서 나머지 요인들에 대한 검토 과정도 읽어 보면 도움이 될 것이다.
IMDb 로부터 최근 상영된 수천 개의 영화를 검토하는 방법을 알아보자.
5000개가 넘는 영화들에 대한 정보를 IMDb로부터 스크랩 작업을 할 필요가 있다. 이 작업을 위해서 Python에서 제공하는 라이브러리 모듈 scrapy를 사용해 보도록 하자. 다음에 기술되는 모든 작업을 위한 파이선 코드들은 아래의 url 주소에서 다운 받아 사용하도록 하자.
https://github.com/sundeepblue/movie_rating_prediction
다음 절치 중에서 the numbers 를 비롯한 ( ) 내용은 끝에 첨부한 해당 사이트에서 하이퍼링크 처리되어 있음애 유의한다.
● 5000개 + 알파개의 영화제목 및 제작비, 국내 및 세계 흥행액수 데이터를 웹사이트 “the numbers” 로부터 파이선 scrapy 르 사용하여 다운 받도록 하자.(code)
● 영화제목을 (json file) 형태로 저장하자. 이 파일이 대단히 커서 Github에서 클릭하면 “Aartar... 로부터 시작하는 파일을 볼 수 있다.
● IMDb 웹사이트로부터 가져온 영화 제목들을 가지고 실제 각각의 IMDb영화와 링크한다.(code)
● 연결된 링크를 대상으로 해당 영화 페이지에 HTTP 리퀘스트를 보내어 영화 페이지 자체와 모든 데이터를 scrapy 로 스크랩 처리한다.(code)
● 영화페이지로부터 가져온 포스터들에 대해서 얼굴 수를 알아내기 위해 얼굴 인식 코드를 실행시킨다.(python code)
● 수집된 데이터를 분석하고 클리닝하여 CSV 데이터로 변환하여 저장한다.(python code)
● CSV 포맷으로 처리된 결과는 (here)에서 참조하기 바란다.
IMDB 웹사이트로부터 가져올 수 있는 많은 수의 중요한 영화 정보들은 다음과 같다. 예를 들면 영화제목, 감독 이름, 캐스팅 리스트, 장르 등을 포함한다.
여기에 제시된 스크랩 과정은 족히 2시간은 걸린다. 특히 포스터는 텍스트 정보가 아니기 때문에 상대적으로 더 많은 시간이 걸린다. 스크랩 범위는 전체적으로 66개국에 100년간의 기간을 대상으로 했다. 감독 이름만 2,400명대이며 남녀주연배우수만 30,000명에 달한다.
다음 그림은 스크랩 과정에서 사용했던 28개의 변수 명을 나타낸다.
다음은 이 사례 연구에서 포스터에 1인이 강조된 영화로서 흥행도 성공하였으며 영화 등급 7.5 이상을 받은 알만한 영화들이다.
다음은 많은 얼굴들이 나타난 포스터 사례들인데 IMDB 영화 등급은 5 이하이다. 이 사이트의 연구결과에 의하면 포스터에 얼굴이 10개 이상인 경우에 제대로 쓸만한 영화가 없었다는 가벼운 결론을 제시하고 있다.
한편 다음 영화들은 안면인식 분석과정에서 얼굴인식에 실패한 영화들의 포스터이니 참조하기 바란다. 더 이상의 상세한 내용은 해당 사이트를 참조하기 바란다.
'자연어처리' 카테고리의 다른 글
IMDB 영화 리뷰 데이타 베이스 Sentiment 분석 (0) | 2022.12.19 |
---|---|
한글 자연어 처리 KoNLPy 설치 (0) | 2022.07.04 |
Sentiment 분석에서 문서의 토큰화(Processing documents into tokens) (0) | 2022.07.01 |
Sentiment 분석에 불필요한 텍스트 데이터 클리닝 (0) | 2022.07.01 |
tf-idf 단어 관련성 분석 (0) | 2022.07.01 |