當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据教你实现预测未来，这不是梦

發布時間：2023/12/4 编程问答 42 豆豆

生活随笔收集整理的這篇文章主要介紹了大数据教你实现预测未来，这不是梦小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

隨著數據挖掘與人工智能技術的發展，越來越多的企業將大數據運用到生產實踐與決策指導中。其中，構建合適的模型對未來的趨勢進行預測，是數據挖掘中十分重要的一部分。

本文將通過一個小案例教會你如何利用數據挖掘技術實現預測未來不是夢。

【工具】R語言

【算法】多元線性回歸模型

【目標】預測2018年第一季度小賣部的周均客流量?

數據準備

線性回歸是指利用數理統計中回歸分析原理，來確定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法，運用十分廣泛，其表達形式為y = w'x+e。多元線性回歸預測，則是指利用兩個或兩個以上自變量的最優組合對因變量進行預測。

看不懂？沒關系，我舉個栗子你就明白了——在本文案例“預測2018年第一季度小賣部的周均客流量”的課題中，因變量就是我們需要預測的內容，即客流量；自變量則指的是可能對小賣部客流量產生影響的若干個因素。

自變量的選擇尤為重要，一個優秀的數據分析師應該運用其嚴密的邏輯、熟練的業務和天馬行空的想象力，盡可能地將所有的相關因素一列俱全！手機前的你也可以暫停幾秒，看看自己腦海中能想出什么樣的自變量因素呢？

經過思考和討論，分析師給出了以下一些自變量清單：

也許你會覺得這些變量——也太多了吧！怎么找啊！怎么處理啊！跟客流量有毛線關系啊！不用擔心，一方面，比我們更加機智的模型算法會幫我們挑選出最合適、預測效果最佳的幾個變量；另一方面，受現實因素的限制，許多的變量數據是我們無從搜集或無法獲取的。

我們采用了實地考察、走訪調查、蹲點采集、撒嬌賣萌等各種手段，最終獲取到了以下8個指標作為預測模型的自變量：

要注意，一家人呢，最重要的就是整整齊齊，數據也是。以上數據必須時間跨度統一（都是從2003年1月至2018年3月的數據）、粒度統一（都是周度數據），且獲取的數據越多，模型預測的效果也就越好。

當然還少不了已知的小賣部客流量數據（2003年至2017年的周度數據）。

構建預測模型

接下來是高大上的代碼實現階段，不要緊張，請跟著我一步步走——

1、輸入數據。

train為訓練集數據，即2003年至2017年所有字段的周度數據。test為預測數據，需要預測2018年第一季度的客流量，則，test數據集包括了2018年1月至3月共13周的自變量數據。

2、擬合線性模型。

R中實現擬合線性模型的基本函數是lm()，客流量即為需要擬合得因變量，英文字符“.”代表數據框df_train中的全部變量。

用summary查看擬合結果，結果中有四個指標需要關注：

3、逐步回歸，構建最優模型。

在step和drop過程中，模型會自動篩選出一些對于預測效果無影響或是起反作用的不好的自變量，也就是P值較大的變量。drop函數會給出下一步線性擬合的變量因素。有時也可以根據P值手動篩選掉效果不佳的變量因素。

在第2步summary(Lm)的結果中，“收銀臺數量”這一變量的P值約為0.08，其星級也小于其他變量，因此可以在下一步擬合中嘗試去掉該變量。

查看step2的擬合結果：去掉“收銀臺數量”這一變量后，擬合優度R-squared和修正擬合優度Adjusted R-squared和上一步的值相差不多，說明提出的變量并沒有對結果產生較大的影響。

在構建擬合模型過程中，可以不斷地剔除P值較大、星級較小、擬合效果不好的變量，直到模型能夠使用最少的因素達到最佳的預測效果。

預測結果

構建出最佳的擬合模型后，我們就可以用該模型來進行預測。predict函數的兩個參數分別為“構建出的擬合模型”和“預測集的變量數據”，即調用step2模型對test數據集進行預測。輸出predict結果，即得到了預測出的2018年第一季度共13周的小賣部客流量數據。

經過縝密的分析和精確的計算，我們最終得到了最終結果——2018年第一季度小賣部的周均客流量預計為：

同學們學會了嗎？代碼拿去，趕快練習練習，下一個數據分析高手就是你哦！

以上是生活随笔為你收集整理的大数据教你实现预测未来，这不是梦的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。