拟合一条曲线_数据预测与曲线拟合
什么是曲線擬合
所謂的曲線擬合,就是使用某一個模型(或者稱為方程式),將一系列的數據擬成平滑的曲線,以便觀察兩組數據之間的內在聯系,了解數據之間的變化趨勢。
曲線擬合的作用
在數據分析時,我們有時需要通過已有數據來預測未來數據。在一些復雜的數據模型中,數據維度很多,數據之間的關系很復雜,我們可能會用到深度學習的算法。但是在一些簡單的數據模型中,數據之間有很明顯的相關性,那我們就可以使用簡單的曲線擬合來預測未來的數據。
曲線擬合的方法
Excel曲線工具
假設我們有一組用戶生命周期價值(LTV)和天數的對應數據
DayLTV1$0.202$0.353$0.454$0.525$0.576$0.607$0.628$0.63
將數據放進Excel中,插入折線圖
右擊藍色曲線,選擇“添加趨勢線”,并選擇趨勢線為“對數”,并勾選“顯示公式”
可以看到,曲線圖中出現了一條虛線的曲線,并顯示了對應的公式為
Excel的趨勢線工具提供了幾個常用的函數,包括指數函數、對數函數等,可以滿足一般需求。但是如果數據曲線相對復雜的話,就需要用到下面的工具了。
Excel Solver
要使用Solver,首先需要進入Excel的選項,啟用“規劃求解”工具
啟用之后,在工具欄“數據”標簽頁下,會多出一個“規劃求解”的工具
我們先看一下這個工具的界面,就可以大概了解它的功能。簡單來說,Solver可以通過改變一些單元格的值,來使一個目標單元格的值最接近理想值。
我們還是用之前的表格來舉例如何使用Solver。現在已經知道了LTV對于Day來說是一條類似對數函數的曲線,可以使用對數函數來模擬。我們假設這個函數是
其中a和b為參數,是可變的。我們調整一下表格,添加一列Estimate LTV,為根據a、b和Day列計算出來的值。再增加一列Diff,為Estimate LTV和Real LTV的差值的平方(平方是為了防止不同行的正負差值會互相抵消),最后加總這些差值。
我們希望通過改變a、b的值,使通過公式得出的LTV與真實LTV的偏差最小,即Total Diff(F18)的值最小。打開規劃求解工具,設置如下
點擊求解,片刻后即可計算出最接近目標的a、b值
可以看到,a、b的值和使用趨勢線得到的值是一樣的。
在線工具
介紹一個非常好用的在線曲線擬合工具:
http://www.qinms.com/webapp/curvefit/cf.aspx
Python matplotlib庫
Python的matplotlib庫有一個自定義公式來擬合曲線的功能。下面代碼演示了通過它來擬合上述例子的過程
# -*- coding: UTF-8 -*- import numpy as np import matplotlib.pyplot as plt from scipy import stats import scipy.optimize as optimizationdata_day = [1,2,3,4,5,6,7,8] #x坐標值|x coord data_ltv = [0.2,0.35,0.45,0.52,0.57,0.6,0.62,0.63] #y坐標值|y coordxdata = np.array(data_day) ydata = np.array(data_ltv)#定義使用的公式|customize equation def lnFunction(x, A, B):return A*np.log(x)+Bguess = [1, 1] #定義初始A、B|initialize a and b try:params, params_covariance = optimization.curve_fit(lnFunction, xdata, ydata, guess) #擬合,A、B結果存入params|curve fitting and store a, b values to paramsprint paramsresult = '' #輸出結果|to store resultfor i in range(1, 15):result += str(round(lnFunction(i, params[0], params[1]), 2)) #將i帶入公式中的x,使用擬合出的A、B值計算y值,并保留兩位小數|calculate result for each i as x using the a, b values, and round the result to 2 pointsif i != 14:result += ',' #每個結果用逗號隔開,并省略最后一個逗號|separate each result with comma, and omit the last commaprint result except:print ''輸出結果為:
[0.21482987 0.20772681] 0.21,0.36,0.44,0.51,0.55,0.59,0.63,0.65,0.68,0.7,0.72,0.74,0.76,0.77曲線擬合公式
在前面的例子中,我們使用了對數函數來進行擬合。在上文提到的在線曲線擬合工具網站中,也列出了一些常見的擬合方程,包括直線、多項式、對數、指數等。其中有一個方程對于擬合自然曲線非常好用,就是四參數方程。
四參數方程的格式為:
我們還是用最開始的Day/LTV數據來舉例,比較一下它和對數函數擬合的結果。
四參數方程 – Solver比較
修改一下之前的Excel表,將Estimate LTV列使用的公式修改成四參數方程
在規劃求解設置中,依然是期望Total Diff達到最小值,可變單元格增加了c、d兩個參數
點擊求解,獲得a、b、c、d四個參數的最優解。我們可以看到,Total Diff比使用對數函數時減少了將近一半
四參數方程 – matplotlib比較
同樣,我們修改一下python腳本,改為使用四參數方程。請注意,我們這次添加了一個param_bounds值,將C這個參數限定在了0.001到正無窮。這是因為C在公式中充當了分母,不能等于0,而我還沒找到一個有效的限制C不為0的方法。
# -*- coding: UTF-8 -*- import numpy as np import matplotlib.pyplot as plt from scipy import stats import scipy.optimize as optimizationdata_day = [1,2,3,4,5,6,7,8] #x坐標值|x coord data_ltv = [0.2,0.35,0.45,0.52,0.57,0.6,0.62,0.63] #y坐標值|y coordxdata = np.array(data_day) ydata = np.array(data_ltv)#定義使用的公式|customize equation def fourPL(x, A, B, C, D):return ((A-D)/(1.0+((x/C)**(B))) + D)guess = [1, 1, 1, 1] #定義初始A、B值|initialize a and b param_bounds = ([-np.inf,-np.inf,0.001,-np.inf],[np.inf,np.inf,np.inf,np.inf]) try:params, params_covariance = optimization.curve_fit(fourPL, xdata, ydata, guess, bounds = param_bounds) #擬合,A、B、C、D結果存入params|curve fitting and store a, b, c, d values to paramsprint paramsresult = '' #輸出結果|to store resultfor i in range(1, 15):result += str(round(fourPL(i, params[0], params[1], params[2], params[3]), 2)) #將i帶入公式中的x,使用擬合出的A、B、C、D值計算y值,并保留兩位小數|calculate result for each i as x using the a, b, c, d values, and round the result to 2 pointsif i != 14:result += ',' #每個結果用逗號隔開,并省略最后一個逗號|separate each result with comma, and omit the last commaprint result except:print ''輸出結果為
[0.0923509 1.73652154 2.41689489 0.70144044] 0.2,0.35,0.45,0.52,0.57,0.6,0.62,0.63,0.65,0.65,0.66,0.67,0.67,0.67可以看到,相對于Excel Solver來說,matplotlib庫獲得的結果更精準,預測值和真實值幾乎沒有偏差。
總結
以上是生活随笔為你收集整理的拟合一条曲线_数据预测与曲线拟合的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java sorted排序_【算法】排序
- 下一篇: 频域补零上采样_AURIX 学习笔记(1