机器学习--案例:流行电影统计
机器学习–案例:流行电影统计
现在我们有一组从2006年到2016年1000部最流行的电影数据
数据来源:https://www.kaggle.com/damianpanek/sunday-eda/data
- 问题1:我们想知道这些电影数据中评分的平均分,导演的人数等信息,我们应该怎么获取?
- 问题2:对于这一组电影数据,如果我们想rating,runtime的分布情况,应该如何呈现数据?
- 问题3:对于这一组电影数据,如果我们希望统计电影分类(genre)的情况,应该如何处理数据?
实现
首先获取导入包,获取数据
1 | %matplotlib inline |
1 | #文件的路径 |
问题一:
我们想知道这些电影数据中评分的平均分,导演的人数等信息,我们应该怎么获取?
- 得出评分的平均分
使用mean函数
1 | df["Rating"].mean() |
- 得出导演人数信息
求出唯一值,然后进行形状获取
1 | ## 导演的人数 |
问题二:
对于这一组电影数据,如果我们想Rating,**Runtime (Minutes)**的分布情况,应该如何呈现数据?
- 直接呈现,以直方图的形式
选择分数列数据,进行plot
1 | df["Rating"].plot(kind='hist',figsize=(20,8)) |
- Rating进行分布展示
进行绘制直方图
1 | plt.figure(figsize=(20,8),dpi=80) |
修改刻度的间隔
1 | # 求出最大最小值 |
- Runtime (Minutes)进行分布展示
进行绘制直方图
1 | plt.figure(figsize=(20,8),dpi=80) |
- 修改间隔
1 | # 求出最大最小值 |
问题三:对于这一组电影数据,如果我们希望统计电影分类**(genre)**的情况,应该如何处理数据?
- 思路
- 1、创建一个全为0的dataframe,列索引置为电影的分类,temp_df
- 2、遍历每一部电影,temp_df中把分类出现的列的值置为1
- 3、求和
- 1、创建一个全为0的dataframe,列索引置为电影的分类,temp_df
1 | # 进行字符串分割 |
2、遍历每一部电影,temp_df中把分类出现的列的值置为1
1 | for i in range(1000): |
3、求和,绘图
1 | temp_df.sum().sort_values(ascending=False).plot(kind="bar",figsize=(20,8),fontsize=20,colormap="cool") |
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 小江的博客!