-
當前位置:首頁 > 創(chuàng)意學院 > 技術 > 專題列表 > 正文
解決回歸任務的算法(解決回歸任務的算法是)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關于解決回歸任務的算法的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關鍵詞,就能返回你想要的內(nèi)容,越精準,寫出的就越詳細,有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com。
創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務客戶遍布全球各地,如需了解SEO相關業(yè)務請撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、GBDT 算法
GBDT (Gradient Boosting Decision Tree) 梯度提升迭代決策樹。GBDT 也是 Boosting 算法的一種,但是和 AdaBoost 算法不同(AdaBoost 算法上一篇文章已經(jīng)介紹);區(qū)別如下:AdaBoost 算法是利用前一輪的弱學習器的誤差來更新樣本權重值,然后一輪一輪的迭代;GBDT 也是迭代,但是 GBDT 要求弱學習器必須是 CART 模型,而且 GBDT 在模型訓練的時候,是要求模型預測的樣本損失盡可能的小。
GBDT 直觀理解:每一輪預測和實際值有殘差,下一輪根據(jù)殘差再進行預測,最后將所有預測相加,就是結果。
GBDT 模型可以表示為決策樹的加法模型:
其中,T(x;θm)表示決策樹;θm 為決策樹的參數(shù); M為樹的個數(shù)。
采用前向分布算法, 首先確定初始提升樹 fo(x) = 0, 第 m 步的模型是:
通過經(jīng)驗風險極小化確定下一棵樹的參數(shù):(其實就是讓殘差盡可能的小找到最優(yōu)劃分點)
這里的 L() 是損失函數(shù),回歸算法選擇的損失函數(shù)一般是均方差(最小二乘)或者絕對值誤差;而在分類算法中一般的損失函數(shù)選擇對數(shù)函數(shù)來表示
GBDT 既可以做回歸也可以做分類,下面先描述一下做回歸的算法流程:
已知一個訓練數(shù)據(jù)集 T = {(x1,y1),(x2,y2),...,(xn,yn)}, 如果將訓練集分為不同的區(qū)域 R1,R2,...,Rn,然后可以確定每個區(qū)域輸出的常識 c,c 的計算是將每個區(qū)域的 y 值相加再除以 y 的個數(shù),其實就是求一個平均值。樹可以表示為:
然后通過下圖方式來確定具體分割點:
我將李航的統(tǒng)計學方法里面的例子粘出來,就知道提升樹是如何計算的了:
以上就是 GBDT 選擇分割點的過程, 如果特征有多個的話也是一樣的道理,選擇特征和特征值使得誤差最小的點,作為分割點。所以其實 GBDT 也可以用作特征選擇,通過GBDT 可以將重要的特征選擇出來,當特征非常多的時候可以用來做降維。然后再融合類似邏輯回歸這樣的模型再進行訓練。
歡迎大家關注,vx公眾號同名
二、線性回歸怎么解
線性回歸方程公式:b=(x1y1+x2y2+...xnyn-nXY)/(x1+x2+...xn-nX)。線性回歸方程是利用數(shù)理統(tǒng)計中的回歸分析,來確定兩種或兩種以上變數(shù)間相互依賴的定量關系的一種統(tǒng)計分析方法之一,應用十分廣泛。
一、概念
線性回歸方程中變量的相關關系最為簡單的是線性相關關系,設隨機變量與變量之間存在線性相關關系,則由試驗數(shù)據(jù)得到的點,將散布在某一直線周圍。因此,可以認為關于的回歸函數(shù)的類型為線性函數(shù)。
分析按照自變量和因變量之間的關系類型,可分為線性回歸分析和非線性回歸分析。如果在回歸分析中,只包括一個自變量和一個因變量,且二者的關系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關系,則稱為多元線性回歸分析。
二、計算方法
線性回歸方程公式求法:
第一:用所給樣本求出兩個相關變量的(算術)平均值:
x_=(x1+x2+x3+...+xn)/n
y_=(y1+y2+y3+...+yn)/n
第二:分別計算分子和分母:(兩個公式任選其一)
分子=(x1y1+x2y2+x3y3+...+xnyn)-nx_Y_
分母=(x1^2+x2^2+x3^2+...+xn^2)-n*x_^2
第三:計算b:b=分子/分母
用最小二乘法估計參數(shù)b,設服從正態(tài)分布,分別求對a、b的偏導數(shù)并令它們等于零,得方程組解為
其中,且為觀測值的樣本方差.線性方程稱為關于的線性回歸方程,稱為回歸系數(shù),對應的直線稱為回歸直線.順便指出,將來還需用到,其中為觀測值的樣本方差。
先求x,y的平均值X,Y
再用公式代入求解:b=(x1y1+x2y2+...xnyn-nXY)/(x1+x2+...xn-nX)
后把x,y的平均數(shù)X,Y代入a=Y-bX
求出a并代入總的公式y(tǒng)=bx+a得到線性回歸方程
(X為xi的平均數(shù),Y為yi的平均數(shù))
三、應用
線性回歸方程是回歸分析中第一種經(jīng)過嚴格研究并在實際應用中廣泛使用的類型。這是因為線性依賴于其未知參數(shù)的模型比非線性依賴于其位置參數(shù)的模型更容易擬合,而且產(chǎn)生的估計的統(tǒng)計特性也更容易確定。
線性回歸有很多實際用途。分為以下兩大類:
如果目標是預測或者映射,線性回歸可以用來對觀測數(shù)據(jù)集的和X的值擬合出一個預測模型。當完成這樣一個模型以后,對于一個新增的X值,在沒有給定與它相配對的y的情況下,可以用這個擬合過的模型預測出一個y值。
給定一個變量y和一些變量X1,...,Xp,這些變量有可能與y相關,線性回歸分析可以用來量化y與Xj之間相關性的強度,評估出與y不相關的Xj,并識別出哪些Xj的子集包含了關于y的冗余信息。
在線性回歸中,數(shù)據(jù)使用線性預測函數(shù)來建模,并且未知的模型參數(shù)也是通過數(shù)據(jù)來估計。這些模型被叫做線性模型。最常用的線性回歸建模是給定X值的y的條件均值是X的仿射函數(shù)。
不太一般的情況,線性回歸模型可以是一個中位數(shù)或一些其他的給定X的條件下y的條件分布的分位數(shù)作為X的線性函數(shù)表示。像所有形式的回歸分析一樣,線性回歸也把焦點放在給定X值的y的條件概率分布,而不是X和y的聯(lián)合概率分布。
三、邏輯回歸算法原理是什么?
邏輯回歸就是這樣的一個過程:面對一個回歸或者分類問題,建立代價函數(shù),然后通過優(yōu)化方法迭代求解出最優(yōu)的模型參數(shù),測試驗證這個求解的模型的好壞。
Logistic回歸雖然名字里帶“回歸”,但是它實際上是一種分類方法,主要用于兩分類問題(即輸出只有兩種,分別代表兩個類別)。回歸模型中,y是一個定性變量,比如y=0或1,logistic方法主要應用于研究某些事件發(fā)生的概率。
Logistic回歸模型的適用條件
1、因變量為二分類的分類變量或某事件的發(fā)生率,并且是數(shù)值型變量。但是需要注意,重復計數(shù)現(xiàn)象指標不適用于Logistic回歸。
2、殘差和因變量都要服從二項分布。二項分布對應的是分類變量,所以不是正態(tài)分布,進而不是用最小二乘法,而是最大似然法來解決方程估計和檢驗問題。
3、自變量和Logistic概率是線性關系。
以上內(nèi)容參考:百度百科-logistic回歸
四、機器學習故事匯-邏輯回歸算法
機器學習故事匯-邏輯回歸算法
今天我們要來討論的一個分類算法-邏輯回歸(你有沒有搞錯,這不還是回歸嗎,雖然名字帶上了回歸其實它是一個非常實用的分類算法)。,適合對數(shù)學很頭疼的同學們,小板凳走起!
先來吹一吹邏輯回歸的應用,基本上所有的機器學習分類問題都可以使用邏輯回歸來求解,當前拿到一份數(shù)據(jù)想做一個分類任務的時候第一手準備一定要拿邏輯回歸來嘗試(雖然有很多復雜的模型比如神經(jīng)網(wǎng)絡,支持向量機的名氣更大,但是邏輯回歸卻更接地氣,用的最多的還是它)!在機器學習中無論是算法的推導還是實際的應用一直有這樣的一種思想,如果一個問題能用簡單的算法去解決那么絕對沒必要去套用復雜的模型。
在邏輯回歸中最核心的概念就是Sigmoid函數(shù)了,首先我們先來觀察一下它的自變量取值范圍以及值域,自變量可以是任何實數(shù)(這沒啥特別的?。┑俏覀冇^察值域的范圍是[0,1]也就是任意的一個輸入都會映射到[0,1]的區(qū)間上,我們來想一想這個區(qū)間有什么特別的含義嗎?在我們做分類任務的時候一般我都都會認為一個數(shù)據(jù)來了它要么是0要么是1(只考慮二分類問題),我們其實可以更細致一點得出來它是0或者1的可能性有多大,由此我們就得出了一個輸入屬于某一個類別的概率值,這個[0,1]不就恰好是這個概率嗎!
在這里我們的預測函數(shù)還是跟線性回歸沒有多大差別,只不過我們將結果又輸入到Sigmoid函數(shù)中,這樣得到了數(shù)據(jù)屬于類別的概率值。在推導過程中,我們假定分類是兩個類別的(邏輯回歸是經(jīng)典的而分類器)。設定y(標簽)要么取0要么取1,這樣就可以把兩個類別進行整合,得到一個更直觀的表達。
對于邏輯回歸的求解,已然沿用我們上次跟大家討論的梯度下降算法。給出似然函數(shù),轉換對數(shù)似然(跟線性回歸一致),但是我們現(xiàn)在的優(yōu)化目標卻跟之前不太一樣了,線性回歸的時候我們要求解的是最小值(最小二乘法),但是現(xiàn)在我們想得到的卻是使得該事件發(fā)生得最大值,為了沿用梯度下降來求解,可以做一個簡單的轉換添加一個負號以及一個常數(shù)很簡單的兩步就可以把原始問題依然轉換成梯度下降可以求解的問題。
此處求導過程看起來有些長,但也都是非常非?;镜倪\算了,感興趣拿起一支筆來實際算算吧!
最終就是參數(shù)更新了,迭代更新是機器學習的常規(guī)套路了。但是我們來簡單想一想另外的一個問題,現(xiàn)在我們說的邏輯回歸是一個二分類算法,那如果我的實際問題是一個多分類該怎么辦呢?這個時候就需要Softmax啦,引入了歸一化機制,來將得分值映射成概率值。
最后一句話總結一下吧,任何時候(沒錯就是這么狠)當我們一個實際任務來了,第一個算法就是邏輯回歸啦,可以把它當成我們的基礎模型,然后不斷改進對比!
以上就是關于解決回歸任務的算法相關問題的回答。希望能幫到你,如有更多相關問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。
推薦閱讀:
抖音不實名不讓登陸怎么解決(抖音不實名不讓登陸怎么解決問題)
手機蹭wifi被限速了怎么辦(手機蹭wifi被限速了怎么辦解決)
多個網(wǎng)店怎么解決ip問題(多個網(wǎng)店怎么解決ip問題的方法)
抖音實體商家入駐需要什么條件(抖音實體商家入駐需要什么條件呢)