[关闭]
@songying 2018-07-29T15:22:54.000000Z 字数 1103 阅读 1887

IMDB 数据集

数据集


adversarial_text

用于文本分类
文本分类数据集: http://ai.stanford.edu/~amaas/data/sentiment/

1. IMDB 数据集介绍

https://blog.csdn.net/greenlight_74110/article/details/77898307
1. 思考: 我们如何评价一部电影上映之前就判断处着是不是一部伟大的电影?
很多人依赖影视评论家来估计带你应的质量,也有一些人只凭自己的直觉,但电影上映之后需要花很多时间获得合理的影评,同时,人们的直觉有时候是靠不住的。

  1. 问题:
    1. 人类每年拍摄出数以千计的电影,除了依赖影视评论家的直觉,我们有更好的方式来判断出伟大的电影么?
    2. 电影中海报中的人物和电影评级有关系么?

    作者在IMDB爬取了5000多条电影数据,整个爬取过程话费2个小时完成,最后,作者获取了需要的28个变量的来自5043部电影和4906张电影好饱的数据,涵盖66个国家,横跨100年的时间,这里有2399位独特的电影导演,数以千计的男女演员。
  1. 28个变量分别是:
  • movie_title(电影标题)
  • color(颜色)
  • num_critic_for_reviews(评论的评分数量)
  • movie_facebook_likes(电影facebook点赞数)
  • duration(电影时长)
  • director_name(导演名字)
  • director_facebook_likes(导演facebook赞数)
  • actor_3_name( 演员3的姓名)
  • actor_3_facebook_likes( 演员3的facebook赞数)
  • actor_2_name(演员2的姓名)
  • actor_2_facebook_likes (演员2的姓名)
  • actor_1_name`( 演员1的姓名)
  • actor_1_facebook_likes(演员1的姓名”)
  • gross(票房收入)
  • genres(体裁)
  • num_voted_users(投票用户数)
    “cast_total_facebook_likes”
    “演员总的facebook赞数”
    “facenumber_in_poster”
    “海报中的人脸数量”
    “plot_keywords”
    “情节关键词”
    “movie_imdb_link”
    “电影imdb链接”
    “num_user_for_reviews”
    “评论的用户数”
    “language”
    “语言”
    “country”
    “国家”
    “content_rating”
    “内容评级”
    “budget”
    “成本”
    “title_year”
    “上线日期”
    “imdb_score”
    “imdb评分”
    “aspect_ratio”
    “电影宽高比”
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注