kaggle电影数据分析报告
一、項(xiàng)目背景與介紹
數(shù)據(jù)來(lái)源:kaggle數(shù)據(jù)科學(xué)社區(qū)上TMDB 5000 Movie Dataset數(shù)據(jù)集:TMDB 5000 Movie Dataset
數(shù)據(jù)介紹:TMDB是一個(gè)電影資料庫(kù),本項(xiàng)目數(shù)據(jù)主要為歐美地區(qū)2017年之前的5000部電影
分析目的:對(duì)電影數(shù)據(jù)進(jìn)行分析研究,了解電影市場(chǎng)趨勢(shì),為電影制作提供決策。
二、定義問(wèn)題
1、各類型電影數(shù)量會(huì)隨時(shí)間如何變化嗎?是如何變化的?
2、不同類型的電影的盈利情況有何差異?
3、原創(chuàng)電影與改編電影的有何差異?
4、電影主要產(chǎn)自哪些地區(qū)?
5、觀眾喜好與哪些因素有關(guān)?
6、Universal Pictures與Paramount Pictures兩家巨頭公司的業(yè)績(jī)?nèi)绾?#xff1f;
三、理解數(shù)據(jù)
導(dǎo)入相關(guān)安裝包,讀取數(shù)據(jù)
查看數(shù)據(jù)信息觀察數(shù)據(jù),發(fā)現(xiàn) genres、keywords、production_companies、production_countries、spoken_languages、cast、crew列為JSON編碼的字符串。
刪去credits的列title,因?yàn)樵摿泻蚼ovies的列重復(fù)了,再把兩個(gè)數(shù)據(jù)集合并,刪去不在研究范圍內(nèi)的值。
credits中movie_id列 和 movies中id列是對(duì)應(yīng)關(guān)系,故以此為連接合并兩個(gè)數(shù)據(jù)集。
各字段含義:
● id:標(biāo)識(shí)號(hào)
● movie_id:標(biāo)識(shí)號(hào)
● popularity:在 Movie Database 上的相對(duì)頁(yè)面查看次數(shù)
● budget:預(yù)算(美元)
● revenue:收入(美元)
● original_language:原始語(yǔ)言
● spoken_languages:輸出語(yǔ)言
● original_title:原始電影名稱
● cast:演員列表,按 | 分隔,最多 5 名演員
● crew:劇組
● title:電影名稱
● status:電影狀態(tài)
● homepage:電影首頁(yè)的 URL
● tagline:電影的標(biāo)語(yǔ)
● keywords:與電影相關(guān)的關(guān)鍵字,按 | 分隔,最多 5 個(gè)關(guān)鍵字
● overview:劇情摘要
● runtime:電影時(shí)長(zhǎng)
● genres:風(fēng)格列表,按 | 分隔,最多 5 種風(fēng)格
● 制作公司列表:production_companies按 | 分隔,最多 5 家公司
● production_countries:制作國(guó)家
● release_date:首次上映日期
● vote_count:評(píng)分次數(shù)
● vote_average:平均評(píng)分
三、數(shù)據(jù)清洗
1、選擇子集
通過(guò) info()和describe ()方法查看要研究的數(shù)據(jù)是否存在異常情況
可以看到release_date、runtime存在缺失值。
可以看到budget,revenue,vote_average,vote_count最小值為0,這些列中可能存在異常值。
2、缺失值處理
查找資料,填充缺失值
查看runtime的缺失值
查找資料,填充缺失值
3、異常值處理
budget,revenue,vote_average,vote_count最小值為0,可能存在異常,用平均值填充。
4、數(shù)據(jù)格式轉(zhuǎn)換
查看release_date列的數(shù)據(jù)
需要轉(zhuǎn)換為日期類型并提取年份
5、特殊格式數(shù)據(jù)處理
本項(xiàng)目要進(jìn)行研究的數(shù)據(jù)中的genres,keywords,production_companies,production_countries列均為json格式,不便對(duì)其進(jìn)行分析。需通過(guò)json.loads先將json字符串轉(zhuǎn)換為字典列表形式,再使用循環(huán),選取需要的數(shù)據(jù),本次分析取出name鍵所對(duì)應(yīng)的值,并用“|”分隔。
四、數(shù)據(jù)分析及可視化
1、各類型電影數(shù)量變化和分布
(1)各類型電影逐年的數(shù)量變化
genre_set集合存放所有電影類型
genre_year_df存放各個(gè)年份的不同電影類型的電影總數(shù)
繪圖:
由圖可見(jiàn),約從1992開(kāi)始,電影市場(chǎng)開(kāi)始爆發(fā)式增長(zhǎng),其中戲劇類(Drama)和喜劇類(Comedy)這兩個(gè)類型是隨時(shí)間增長(zhǎng)幅度最大,其次是驚悚片(Thriller)和動(dòng)作片(Action)。
(2)各類型電影數(shù)量分布
各類型電影總數(shù)
各類型電影數(shù)量分布圖:
從圖中可看出,排名前5的類型為Drama、Comedy、Thriller、Action和Romance。其中即使是排名前5的類型中,每一類型之間的差距也不算小。Drama類穩(wěn)穩(wěn)的在榜首。
2、各類型電影的盈利情況
profit_df存放電影類型和利潤(rùn)數(shù)據(jù)
profit_by_genre存放計(jì)算后的各類型電影的利潤(rùn)平均值,利潤(rùn)=收入-支出成本
各電影類型平均收益分布圖:
3、原創(chuàng)電影與改編電影的差異
keywords中的包含"based on novel"的是改編電影,其余是原創(chuàng)電影。
創(chuàng)建一個(gè)DataFrame存放原創(chuàng)電影與改編電影original_recompose,包含type、 profit 、 budget 等字段,計(jì)算出利潤(rùn)率 profit_rate=profit/budget 。
(1)電影數(shù)量對(duì)比
原創(chuàng)電影占據(jù)了幾乎所有的市場(chǎng),只有少部分為改編電影
(2)利潤(rùn)及利潤(rùn)率對(duì)比
改編電影的支出要高于原創(chuàng)電影,且對(duì)應(yīng)的收入和利潤(rùn)也要高于原創(chuàng)電影
4、電影產(chǎn)地分布
統(tǒng)計(jì)出各個(gè)地區(qū)的電影數(shù)量,country_df存儲(chǔ)電影產(chǎn)地的數(shù)據(jù)
繪制餅圖:
由圖可見(jiàn),美國(guó)電影數(shù)量一騎絕塵,占比達(dá)到了61.4%,名副其實(shí)的產(chǎn)出大國(guó)(應(yīng)該也與該網(wǎng)站收錄的數(shù)據(jù)有關(guān))。其次是英國(guó),德國(guó),法國(guó),加拿大。
5、觀眾喜好與哪些因素有關(guān)
(1)電影類型與受歡迎度的關(guān)系
popularity字段是在 Movie Database 上的相對(duì)頁(yè)面查看次數(shù),根據(jù)這個(gè)數(shù)據(jù)來(lái)判斷電影的受歡迎度。
繪圖
可見(jiàn),最受觀眾歡迎的電影類型的前五名是
Adventure、Animation、Science Fiction、Fantasy 、Action
(2)電影時(shí)長(zhǎng)與受歡迎度的關(guān)系
受歡迎度較高的電影的時(shí)長(zhǎng)基本在90-150分鐘之間。 電影時(shí)長(zhǎng)太長(zhǎng)或太短的電影受歡迎程度較低。
(3)電影評(píng)分與受歡迎度的關(guān)系
評(píng)分高的電影不一定受歡迎度高,可能存在冷門好片。 但受眾歡迎度高的,電影評(píng)分基本也不低,群眾的眼睛是雪亮的,制作公司產(chǎn)出好片,獲得受眾喜愛(ài)的概率也更高。經(jīng)過(guò)更多受眾的檢驗(yàn),該電影為好片的可靠性也更高。
6、Universal Pictures與Paramount Pictures兩家巨頭公司的業(yè)績(jī)?nèi)绾?#xff1f;
company_df存放兩家公司、電影類型、盈利的數(shù)據(jù)
(1)利潤(rùn)對(duì)比
繪圖
由圖可見(jiàn),兩家公司利潤(rùn)總額并無(wú)明顯差異,Universal Pictures公司略高于Paramount Pictures公司。
(2)出品的電影類型對(duì)比
company_df存放兩家公司、各類型電影,數(shù)值為1的代表屬于該類型。
繪圖Universal Pictures:
繪圖Paramount Pictures:
7、電影關(guān)鍵詞
keywords_list存放從keywords中提取出的關(guān)鍵詞,去掉一些沒(méi)有實(shí)際含義的字符串和短語(yǔ)
通過(guò)WordCloud包生成詞云圖
總結(jié)
以上是生活随笔為你收集整理的kaggle电影数据分析报告的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 鸭子过河
- 下一篇: 基于C#的AE二次开发之GP工具的使用心