@songying
2018-07-29T15:22:54.000000Z
字数 1103
阅读 1887
数据集
用于文本分类
文本分类数据集: http://ai.stanford.edu/~amaas/data/sentiment/
https://blog.csdn.net/greenlight_74110/article/details/77898307
1. 思考: 我们如何评价一部电影上映之前就判断处着是不是一部伟大的电影?
很多人依赖影视评论家来估计带你应的质量,也有一些人只凭自己的直觉,但电影上映之后需要花很多时间获得合理的影评,同时,人们的直觉有时候是靠不住的。
- 人类每年拍摄出数以千计的电影,除了依赖影视评论家的直觉,我们有更好的方式来判断出伟大的电影么?
- 电影中海报中的人物和电影评级有关系么?
作者在IMDB爬取了5000多条电影数据,整个爬取过程话费2个小时完成,最后,作者获取了需要的28个变量的来自5043部电影和4906张电影好饱的数据,涵盖66个国家,横跨100年的时间,这里有2399位独特的电影导演,数以千计的男女演员。
- movie_title(电影标题)
- color(颜色)
num_critic_for_reviews
(评论的评分数量)movie_facebook_likes
(电影facebook点赞数)duration
(电影时长)- director_name(导演名字)
director_facebook_likes
(导演facebook赞数)actor_3_name
( 演员3的姓名)actor_3_facebook_likes
( 演员3的facebook赞数)actor_2_name
(演员2的姓名)actor_2_facebook_likes
(演员2的姓名)- actor_1_name`( 演员1的姓名)
actor_1_facebook_likes
(演员1的姓名”)- gross(票房收入)
- genres(体裁)
num_voted_users
(投票用户数)
“cast_total_facebook_likes”
“演员总的facebook赞数”
“facenumber_in_poster”
“海报中的人脸数量”
“plot_keywords”
“情节关键词”
“movie_imdb_link”
“电影imdb链接”
“num_user_for_reviews”
“评论的用户数”
“language”
“语言”
“country”
“国家”
“content_rating”
“内容评级”
“budget”
“成本”
“title_year”
“上线日期”
“imdb_score”
“imdb评分”
“aspect_ratio”
“电影宽高比”