【数学建模】-多元线性回归分析
文章目錄
- 回歸的思想
- 回歸分析:研究X和Y之間相關性的分析。
- 相關性
- 因變量Y
- 自變量X
- 回歸分析的使命
- 回歸分析的分類
- 數據的分類
- 一元線性回歸
- 對于線性的理解
- 回歸系數的解釋
- 內生性的探究
- 內生性的蒙特卡羅模擬
- 核心解釋變量和控制變量
- 回歸系數的解釋
- 什么時候取對數?
- 四類模型回歸系數的解釋
- 特殊的自變量:虛擬變量X
- 多分類的虛擬變量設置
- 含有交互項的自變量
- 回歸實例
- 數據的描述性統計
- 定量數據
- 定性數據
- Excel中數據透視表
- 11個指標的總體情況介紹
- Stata回歸的語句
- 擬合優度 R^2^較低怎么辦
- 標準化回歸系數
學習來源:清風老師
回歸分析的任務就是,通過研究 自變量X和因變量Y的相關關系,嘗試去解釋Y的形成機制,進而達到通過X去 預測Y的目的。
常見的回歸分析有五類: 線性回歸、0‐1回歸、定序回歸、計數回歸和生存回歸,其劃分的依據是因變量Y的類型。
回歸的思想
回歸分析:研究X和Y之間相關性的分析。
相關性
相關性 ≠ 因果性
在絕大多數情況下,我們沒有能力去探究嚴格的因果關系,所以只好退而求其次,改成通過回歸分析,研究相關關系
因變量Y
- 經濟學家研究經濟增長的決定因素,那么Y可以選取GDP增長率(連續數值型變量)。
- P2P公司要研究借款人是否能按時還款,那么Y可以設計成一個二值變量,Y=0時代表可以還款,Y=1時代表不能還款(0‐1型變量)。
- 消費者調查得到的數據(1表示非常不喜歡,2表示有點不喜歡,3表示一般般,4表示有點喜歡,5表示非常喜歡)(定序變量)。
- 管理學中RFM模型:F代表一定時間內,客戶到訪的次數,次數其實就是一個非負的整數。(計數變量)
- 研究產品壽命、企業壽命甚至是人的壽命(這種數據往往不能精確的觀測,例如現在要研究吸煙對于壽命的影響,如果選取的樣本中老王60歲,
現在還活的非常好,我們不可能等到他去世了再做研究,那怎么辦呢?直接記他的壽命為60+,那這種數據就是截斷的數據)(生存變量)
自變量X
回歸分析的任務就是,通過研究X和Y的相關關系,嘗試去解釋Y的形成機制,進而達到通過X去預測Y的目的。
回歸分析的使命
使命1:回歸分析要去識別并判斷:哪些X變量是同Y真的相關,哪些不是。統計學中有一個非常重要的領域,叫做“變量選擇”。(逐步回歸法)
使命2:去除了那些同Y不相關的X變量,那么剩下的,就都是重要的、有用的X變量了。接下來回歸分析要回答的問題是:這些有用的X變量同Y的相關關系是正的呢,還是負的?
使命3:在確定了重要的X變量的前提下,我們還想賦予不同X不同的權重,也就是不同的回歸系數,進而我們可以知道不同變量之間的相對重要性。
第一、識別重要變量;
第二、判斷相關性的方向;
第三、要估計權重(回歸系數)。
回歸分析的分類
數據的分類
橫截面數據:在某一時點收集的不同對象的數據。
例如:
(1)我們自己發放問卷得到的數據
(2)全國各省份2018年GDP的數據
(3)大一新生今年體測的得到的數據
時間序列數據:對同一對象在不同時間連續觀察所取得的數據
例如:
(1)從出生到現在,你的體重的數據(每年生日稱一次)。
(2)中國歷年來GDP的數據。
(3)在某地方每隔一小時測得的溫度數據。
面板數據:橫截面數據與時間序列數據綜合起來的一種數據資源。
例如:
2008‐2018年,我國各省份GDP的數據。
數據的收集
一元線性回歸
對于線性的理解
回歸系數的解釋
內生性的探究
包含了所有與y相關,但未添加到回歸模型中的變量
如果這些變量和我們已經添加的自變量相關,則存在內生性
內生性的蒙特卡羅模擬
%% 蒙特卡洛模擬:內生性會造成回歸系數的巨大誤差 times = 300; % 蒙特卡洛的次數 R = zeros(times,1); % 用來儲存擾動項u和x1的相關系數 K = zeros(times,1); % 用來儲存遺漏了x2之后,只用y對x1回歸得到的回歸系數 for i = 1: timesn = 30; % 樣本數據量為nx1 = -10+rand(n,1)*20; % x1在-10和10上均勻分布,大小為30*1u1 = normrnd(0,5,n,1) - rand(n,1); % 隨機生成一組隨機數x2 = 0.3*x1 + u1; % x2與x1的相關性不確定, 因為我們設定了x2要加上u1這個隨機數% 這里的系數0.3我隨便給的,沒特殊的意義,你也可以改成其他的測試。u = normrnd(0,1,n,1); % 擾動項u服從標準正態分布y = 0.5 + 2 * x1 + 5 * x2 + u ; % 構造yk = (n*sum(x1.*y)-sum(x1)*sum(y))/(n*sum(x1.*x1)-sum(x1)*sum(x1)); % y = k*x1+b 回歸估計出來的kK(i) = k;u = 5 * x2 + u; % 因為我們回歸中忽略了5*x2,所以擾動項要加上5*x2r = corrcoef(x1,u); % 2*2的相關系數矩陣R(i) = r(2,1); end plot(R,K,'*') xlabel("x_1和u'的相關系數") ylabel("k的估計值")核心解釋變量和控制變量
無內生性(no endogeneity)要求所有解釋變量均與擾動項不相關。
這個假定通常太強,因為解釋變量一般很多(比如,5‐15個解釋變量),且需要保證它們全部外生。
是否可能弱化此條件?答案是肯定的,如果你的解釋變量可以區分為核心解釋變量與控制變量兩類。
核心解釋變量:我們最感興趣的變量,因此我們特別希望得到對其系數的
一致估計(當樣本容量無限增大時,收斂于待估計參數的真值 )。
控制變量:我們可能對于這些變量本身并無太大興趣;而之所以把它們也
放入回歸方程,主要是為了 “控制住” 那些對被解釋變量有影響的遺漏因素。
在實際應用中,我們只要保證核心解釋變量與𝝁不相關即可。
回歸系數的解釋
什么時候取對數?
目前,對于什么時候取對數還沒有固定的規則,但是有一些經驗法則:
(1)與市場價值相關的,例如,價格、銷售額、工資等都可以取對數;
(2)以年度量的變量,如受教育年限、工作經歷等通常不取對數;
(3)比例變量,如失業率、參與率等,兩者均可;
(4)變量取值必須是非負數,如果包含0,則可以對y取對數ln(1+y)
取對數的好處:(1)減弱數據的異方差性(2)如果變量本身不符合正態分布,取
了對數后可能漸近服從正態分布(3)模型形式的需要,讓模型具有經濟學意義。
四類模型回歸系數的解釋
特殊的自變量:虛擬變量X
多分類的虛擬變量設置
含有交互項的自變量
回歸實例
現有某電商平臺846條關于嬰幼兒奶粉的銷售信息,每條信息由11個指標組成。其中,評價量可以從一個側面反映顧客對產品的關注度。
請對所給數據進行以下方面的分析,要求最終的分析將不僅僅有益于商家,更有益于寶媽們為寶貝選擇適合自己的奶粉。
數據的描述性統計
定量數據
定性數據
Excel中數據透視表
11個指標的總體情況介紹
Stata回歸的語句
擬合優度 R2較低怎么辦
(1)回歸分為解釋型回歸和預測型回歸。
預測型回歸一般才會更看重𝑅2 。
解釋型回歸更多的關注模型整體顯著性以及自變量的統計顯著性和經濟意義顯著性即可。
(2)可以對模型進行調整,例如對數據取對數或者平方后再進行回歸。
(3)數據中可能有存在異常值或者數據的分布極度不均勻。
標準化回歸系數
總結
以上是生活随笔為你收集整理的【数学建模】-多元线性回归分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 新笔记本磁盘分区
- 下一篇: 操作系统-进程同步和进程互斥