
개요
목표: 영화 수익 예측하기
데이터 분석 기법: 회귀분석
사용할 데이터: IMDB Movie Dataset
예상 결과: 대중들의 관심 수준이라고 볼 수 있는 투표수(votes)와의 상관관계가 가장 높을 것 같다.
데이터 분석_1차

데이터 불러오기:
- imdb_movie_dataset

set role(속성별 role 설정):
- Revenue (Millions) -> label(종속변수)
- Title -> id

select attributes: 분석에 사용할 속성 설정
- 회귀분석에 사용할 수 없는 명목형 변수(Actors, Description, Director, Genre) 제외
- 그러나, title은 id로 설정했기 때문에 그대로 사용
* 배우, 감독, 장르도 분명히 영향이 있을 것 같은데, one hot encoding(명목형 -> 수치형 기능)을 사용하려면 rapidminer 업그레이드가 필요하다고 해서 포기함

Filter Examples: 결측치 제거
- Revenue와 Metascore에서 결측치가 발견되어 제거함

split data: training set과 test set으로 분류
- 비율: training(0.7), test(0.3)으로 설정
- sampling type: shuffled sampling(임의로 섞어서 분할하는 방식)

Linear Regression: training set으로 회귀분석 실행
- feature selection: none으로 설정(나중에 결과값 보고 직접 수정)

Apply Model: 모델링
- traing data의 회귀분석 실행 모델을 apply modle의 모델로 연결
- test data를 unlabelled data로 연결

Performance: 모델 결과 평가
- root mean square error, absolute error, squared correlation 선택
데이터 분석_1차_결과:

ExampleSet
딱 봐도 실제 Revenue 값과 Prediction 값 차이가 크다

PerformanceVector
- RMSE, absolute_error 값: 너무 크다ㅜㅜ
- squared_correlation: 너무 작다ㅜㅜ

회귀분석 모형
- p-Value가 너무 높은 runtime과 metascore는 제거해야 할 것 같음
(*러닝타임은 그렇다 쳐도 평론가 점수는 왜 이러지..?)
데이터 분석_2차

Select Attributes
- p value가 높았던 Metascore와 Runtime 제거
데이터 분석_2차_결과:


예측력이 조금 나아지긴 했지만 여전히 아쉽다

- Rank: 투표수와 평점으로 산출한 순위값인데 음의 상관관계??????
- Year: 연도가 커질수록 수익이 높다 => 영화 산업이 점점 커지고 있다
- Rating: 평점과 수익이 음의 상관관계????????
- Votes: 이게 가장 유의미한 속성일 것이라고 생각했는데 왜 계수가 0이 됐지?????
'RapidMiner' 카테고리의 다른 글
| [RapidMiner] 의사결정나무로 타이타닉호 생존자 예측하기 (2) | 2024.11.21 |
|---|