728x90
파이선 코딩을 배우는 초보자도 머신 러닝에 독학으로 한번 도전해 보자. 머신 러닝을 배우려는 파이선 코딩 초보자들이 가지게 될 확률이 높은 의문점들을 하나하나 찾아내어 실제 풀어보고 결과를 확인해볼 수 있는 머신 러닝! 인터넷 교보문고에서 450페이지19900원에 판매중입니다. ________________________________________________________________________________________________________________________
영화리뷰 데이터세트가 준비되었으면 준비된 텍스트의 집합체를 어떻게 개별 단위의 토큰으로 쪼갤 것인지 하는 문제를 생각해 보자.
문서를 토큰화 하는 방법은 앞장에서 처리했던 클리닝한 문서 데이터(cleaned documents)를 대상으로 여백을 중심으로 단어를 쪼개는 것이다. 그러한 목적을 달성하기 위한 함수도 작성해야 하지만 아울러 아나콘다 TensorFlow 가상환경에 PyPrind에서 처럼 귀찮지만 라이브러리를 설치해야 한다는 점이다. 이미 경험이 있으면 아래 내용을 일독 후 10분 이내에 처리할 정도의 코딩 실력을 갖추도록 하자.
아래의 url 주소로 이동하여 마저 읽으세요.
https://steemit.com/kr/@codingart/4-7-sentiment-processing-documents-into-tokens
'머신러닝' 카테고리의 다른 글
아두이노 블루투스 RC카 제작 (0) | 2019.04.02 |
---|---|
복소수 폴(Pole)기법에 의한 XOR 머신러닝과 비선형 Hypothesis 유도-I (0) | 2019.03.31 |
Sentiment 분석에 불필요한 HTML 및 이모티콘 텍스트 데이터 클리닝 (0) | 2019.03.27 |
복소수에 의한 AND 논리 머신러닝과 폴(Pole)계산, 선형 Hypothesis 유도 (0) | 2019.03.26 |
어느 스팀잇 작가분께서 가르쳐 주신 Markov Chain 예측 사례 (0) | 2019.03.20 |