今天给大家分享的案例就是关于电影的啦,我们一起来看看IMDBtop10000的电影排行榜数据
今天給大家分享的案例就是關于電影的啦,我們一起來看看IMDBtop10000的電影排行榜數據
首先第一步,相信大家已經是非常非常熟悉了對吧~那就是對數據進行處理,今天的案例中呢我們先來對數據進行整理和探索那數據整理有沒有一個標準啊,具有普適性一些的
來看一下基本的流程:構建數據框——清洗數據——探索全局特征——探索分組特征
這個流程在我們遇到新的數據集的時候可以給我們提供一些思路
經過以上幾步數據整理后,可以增加我們對數據特征的基本了解,同時也可以幫助我們去發現問題、提出新想法回到今天的案例本身哈,首先導入數據,生成數據集
?
編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
然后,我們在清洗數據的時候發現有幾個問題
1.電影時長不是數值,而是字符串;
2.電影流派不是原子數據,很難提取特定的流派做分析;
3.上映年份在名稱和時間上是重復的。
來修正一下電影的時長把字符串“142 mins”,轉換成數值142我們可以以列表解析的方式實現
?
編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
隨后對流派信息進行分割我們可以使用指示變量的概念將流派列分割成許多列。每個新的列將對應于一個單一的流派,每個單元格將為True或False。然后我們再從名稱里把年份信息移除掉可以通過移除最后7個字符的方式實現完成數據清洗之后,我們就可以著手探索全局特征啦~首先,通過describe方法來了解
?
編輯
添加圖片注釋,不超過 140 字(可選)
在此過程中,我們發現電影時長有一部分為0的,來看看一共有多少,順手標記為NAN將損壞的數據 標記完成后再看一下。
?
編輯
添加圖片注釋,不超過 140 字(可選)
然后我們來做一些基本的可視化
主要針對幾個問題:最近幾年的電影很多,但是更近一點的不是很多(是不是投票時間不足?)
?
編輯
添加圖片注釋,不超過 140 字(可選)
?
編輯
添加圖片注釋,不超過 140 字(可選)
?
編輯
添加圖片注釋,不超過 140 字(可選)
時間更近的電影評分較低,這是真實的情況還是選擇偏差?
?
編輯
添加圖片注釋,不超過 140 字(可選)
?
編輯
添加圖片注釋,不超過 140 字(可選)
在這個過程中,我們尋找到了一些異常點,比如:評價較低但是投票數高。
?
編輯
添加圖片注釋,不超過 140 字(可選)
來看看最低評分和最高評分的電影
?
編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
?
編輯
添加圖片注釋,不超過 140 字(可選)
今年評分最高的電影怕不是戰狼
然后,我們對一些行或列,使用聚合函數如 sum 進行分析,看看哪個流派出現的頻次是最高的?
?
添加圖片注釋,不超過 140 字(可選)
那平均一部電影有多少個流派標記呢?
?
編輯
添加圖片注釋,不超過 140 字(可選)
接下來,我們來探索一下分組的特征,先將電影按年代劃分
?
編輯
添加圖片注釋,不超過 140 字(可選)
我們用GroupBy 就可以很方便的將電影按年代分組看一下每個年代的平均分
?
編輯
添加圖片注釋,不超過 140 字(可選)
我們還可以進一步看下每年評分的分散情況也可以在GroupBy對象上進行迭代。每次迭代生成兩個變量:group key和與group key對應的數據子集。
找到每年最流行的電影
?
編輯
添加圖片注釋,不超過 140 字(可選)
接下來我們按照流派劃分數據,看看發行時間,時長,評分是如何分布的。 全部電影數據的分布作為灰色背景展示。
?
編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
因為這不是標準的groupby操作, 所以不能使用groupby函數。
從這里我們可以發現一些微妙的特征:
1.西部片和音樂劇有更水平的分布。
2.黑色電影在五六十年代更受歡迎。
?
編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
1.傳記和歷史題材電影時間更長
2.動畫電影較短
3.黑色電影和總數據的均值相同,但更集中在100分鐘時長左右
4.音樂劇和總數據的均值相同, 但時間更為分散
?
編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
從這張圖看出來:
1.黑色電影,歷史和傳記電影有更高的評分
2.恐怖和成人電影評分較低
成人電影看的人太多了,平均拉下來了
總結
以上是生活随笔為你收集整理的今天给大家分享的案例就是关于电影的啦,我们一起来看看IMDBtop10000的电影排行榜数据的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Dapr专题之06Actors
- 下一篇: 下载blob地址或m3u8格式视频方法以