개요

목표: 영화 수익 예측하기

데이터 분석 기법: 회귀분석

사용할 데이터: IMDB Movie Dataset

예상 결과: 대중들의 관심 수준이라고 볼 수 있는 투표수(votes)와의 상관관계가 가장 높을 것 같다.


데이터 분석_1차

데이터 불러오기:

- imdb_movie_dataset

 

 

set role(속성별 role 설정):

- Revenue (Millions) -> label(종속변수)

- Title -> id

 

select attributes: 분석에 사용할 속성 설정

- 회귀분석에 사용할 수 없는 명목형 변수(Actors, Description, Director, Genre) 제외

- 그러나, title은 id로 설정했기 때문에 그대로 사용

* 배우, 감독, 장르도 분명히 영향이 있을 것 같은데, one hot encoding(명목형 -> 수치형 기능)을 사용하려면 rapidminer 업그레이드가 필요하다고 해서 포기함

 

 

Filter Examples: 결측치 제거

- Revenue와 Metascore에서 결측치가 발견되어 제거함

 

 

split data: training set과 test set으로 분류

- 비율: training(0.7), test(0.3)으로 설정

- sampling type: shuffled sampling(임의로 섞어서 분할하는 방식)

 

 

Linear Regression: training set으로 회귀분석 실행

- feature selection: none으로 설정(나중에 결과값 보고 직접 수정)

 

 

Apply Model: 모델링

- traing data의 회귀분석 실행 모델을 apply modle의 모델로 연결

- test data를 unlabelled data로 연결

 

 

Performance: 모델 결과 평가

- root mean square error, absolute error, squared correlation 선택


데이터 분석_1차_결과:

ExampleSet

딱 봐도 실제 Revenue 값과 Prediction 값 차이가 크다

 

 

PerformanceVector

- RMSE, absolute_error 값: 너무 크다ㅜㅜ

- squared_correlation: 너무 작다ㅜㅜ

 

 

회귀분석 모형

- p-Value가 너무 높은 runtime과 metascore는 제거해야 할 것 같음

(*러닝타임은 그렇다 쳐도 평론가 점수는 왜 이러지..?)

 

 


 

 

데이터 분석_2차

Select Attributes

- p value가 높았던 Metascore와 Runtime 제거


데이터 분석_2차_결과: 

1차
2차

예측력이 조금 나아지긴 했지만 여전히 아쉽다

 

 

 

- Rank: 투표수와 평점으로 산출한 순위값인데 음의 상관관계??????

- Year: 연도가 커질수록 수익이 높다 => 영화 산업이 점점 커지고 있다

- Rating: 평점과 수익이 음의 상관관계????????

- Votes: 이게 가장 유의미한 속성일 것이라고 생각했는데 왜 계수가 0이 됐지?????

 

+ Recent posts