HOME 首頁
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    回歸分析算法(回歸分析算法原理)

    發(fā)布時(shí)間:2023-04-13 11:42:43     稿源: 創(chuàng)意嶺    閱讀: 75        

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于回歸分析算法的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。

    開始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端

    官網(wǎng):https://ai.de1919.com。

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請撥打電話175-8598-2043,或添加微信:1454722008

    本文目錄:

    回歸分析算法(回歸分析算法原理)

    一、回歸分析二階三階都有顯著性嗎

    我覺得,第一階段不用很顯著,但是模型整體的擬合度要很高吧,因?yàn)橐?jì)算出“自選擇”的概率,這樣第二階段的逆米爾斯比率才更準(zhǔn)確(我也是初學(xué)者,個(gè)人這么理解的,希望多討論哈(´-ω-`))

    這正是回歸分析所追求的目標(biāo)。它是最常用的預(yù)測建模技術(shù)之一,有助于在重要情況下做出更明智的決策。在本文中,我們將討論什么是回歸分析,它是如何工作的。

    1

    什么是回歸分析?

    回歸分析是作為數(shù)據(jù)科學(xué)家需要掌握的第一個(gè)算法。它是數(shù)據(jù)分析中最常用的預(yù)測建模技術(shù)之一。即使在今天,大多數(shù)公司都使用回歸技術(shù)來實(shí)現(xiàn)大規(guī)模決策。

    要回答“什么是回歸分析”這個(gè)問題,我們需要深入了解基本面。簡單的回歸分析定義是一種用于基于一個(gè)或多個(gè)獨(dú)立變量(X)預(yù)測因變量(Y)的技術(shù)。

    經(jīng)典的回歸方程看起來像這樣:

    回歸方程

    回歸分析源DataAspirant.com

    在上面的等式中,hθ(x)是因變量Y,X是自變量,θ0是常數(shù),并且θ1是回歸系數(shù)。

    2

    回歸分析的應(yīng)用

    回歸分析用于在許多業(yè)務(wù)情況下做出決策?;貧w分析有三個(gè)主要應(yīng)用:

    解釋他們理解困難的事情。例如,為什么客戶服務(wù)電子郵件在上一季度有所下降。

    預(yù)測重要的商業(yè)趨勢。例如,明年會(huì)要求他們的產(chǎn)品看起來像什么?

    選擇不同的替代方案。例如,我們應(yīng)該進(jìn)行PPC(按點(diǎn)擊付費(fèi))還是內(nèi)容營銷活動(dòng)?

    3

    什么是不同類型的回歸分析技術(shù)?

    由于存在許多不同的回歸分析技術(shù),因此很難找到非常狹窄的回歸分析定義。大多數(shù)人傾向于將兩種常見的線性或邏輯回歸中的任何一種應(yīng)用于幾乎每個(gè)回歸問題。

    但是,有許多可用的回歸技術(shù),不同的技術(shù)更適合于不同的問題?;貧w分析技術(shù)的類型基于:

    自變量的數(shù)量(1,2或更多)

    因變量的類型(分類,連續(xù)等)

    回歸線的形狀

    回歸分析技術(shù)

    4

    主要類型的回歸分析

    1. 線性回歸

    線性回歸是最常用的回歸技術(shù)。線性回歸的目的是找到一個(gè)稱為Y的連續(xù)響應(yīng)變量的方程,它將是一個(gè)或多個(gè)變量(X)的函數(shù)。

    因此,線性回歸可以在僅知道X時(shí)預(yù)測Y的值。它不依賴于任何其他因素。

    Y被稱為標(biāo)準(zhǔn)變量,而X被稱為預(yù)測變量。線性回歸的目的是通過點(diǎn)找到稱為回歸線的最佳擬合線。這就是數(shù)學(xué)線性回歸公式 /等式的樣子:

    線性回歸公式

    在上面的等式中,hθ(x)是標(biāo)準(zhǔn)變量Y,X是預(yù)測變量,θ0是常數(shù),并且θ1是回歸系數(shù)

    線性回歸可以進(jìn)一步分為多元回歸分析和簡單回歸分析。在簡單線性回歸中,僅使用一個(gè)獨(dú)立變量X來預(yù)測因變量Y的值。

    另一方面,在多元回歸分析中,使用多個(gè)自變量來預(yù)測Y,當(dāng)然,在這兩種情況下,只有一個(gè)變量Y,唯一的區(qū)別在于自變量的數(shù)量。

    例如,如果我們僅根據(jù)平方英尺來預(yù)測公寓的租金,那么這是一個(gè)簡單的線性回歸。

    另一方面,如果我們根據(jù)許多因素預(yù)測租金; 平方英尺,房產(chǎn)的位置和建筑物的年齡,然后它成為多元回歸分析的一個(gè)例子。

    2. Logistic回歸

    要理解什么是邏輯回歸,我們必須首先理解它與線性回歸的不同之處。為了理解線性回歸和邏輯回歸之間的差異,我們需要首先理解連續(xù)變量和分類變量之間的區(qū)別。

    連續(xù)變量是數(shù)值。它們在任何兩個(gè)給定值之間具有無限數(shù)量的值。示例包括視頻的長度或收到付款的時(shí)間或城市的人口。

    另一方面,分類變量具有不同的組或類別。它們可能有也可能沒有邏輯順序。示例包括性別,付款方式,年齡段等。

    在線性回歸中,因變量Y始終是連續(xù)變量。如果變量Y是分類變量,則不能應(yīng)用線性回歸。

    如果Y是只有2個(gè)類的分類變量,則可以使用邏輯回歸來克服此問題。這些問題也稱為二元分類問題。

    理解標(biāo)準(zhǔn)邏輯回歸只能用于二元分類問題也很重要。如果Y具有多于2個(gè)類,則它變?yōu)槎囝惙诸?,并且不能?yīng)用標(biāo)準(zhǔn)邏輯回歸。

    邏輯回歸分析的最大優(yōu)點(diǎn)之一是它可以計(jì)算事件的預(yù)測概率分?jǐn)?shù)。這使其成為數(shù)據(jù)分析的寶貴預(yù)測建模技術(shù)。

    3. 多項(xiàng)式回歸

    如果自變量(X)的冪大于1,那么它被稱為多項(xiàng)式回歸。這是多項(xiàng)式回歸方程的樣子:y = a + b * x ^ 3

    與線性回歸不同,最佳擬合線是直線,在多項(xiàng)式回歸中,它是適合不同數(shù)據(jù)點(diǎn)的曲線。這是多項(xiàng)式回歸方程的圖形:

    多項(xiàng)式回歸

    對于多項(xiàng)式方程,人們傾向于擬合更高次多項(xiàng)式,因?yàn)樗鼘?dǎo)致更低的錯(cuò)誤率。但是,這可能會(huì)導(dǎo)致過度擬合。確保曲線真正符合問題的本質(zhì)非常重要。

    檢查曲線朝向兩端并確保形狀和趨勢落實(shí)到位尤為重要。多項(xiàng)式越高,它在解釋過程中產(chǎn)生奇怪結(jié)果的可能性就越大。

    4. 逐步回歸

    當(dāng)存在多個(gè)獨(dú)立變量時(shí),使用逐步回歸。逐步回歸的一個(gè)特點(diǎn)是自動(dòng)選擇自變量,而不涉及人的主觀性。

    像R-square和t-stats這樣的統(tǒng)計(jì)值用于識(shí)別正確的自變量。當(dāng)數(shù)據(jù)集具有高維度時(shí),通常使用逐步回歸。這是因?yàn)槠淠繕?biāo)是使用最少數(shù)量的變量最大化模型的預(yù)測能力。

    逐步回歸基于預(yù)定義的條件一次增加或減少一個(gè)共變量。它一直這樣做,直到適合回歸模型。

    5. 嶺回歸

    當(dāng)自變量高度相關(guān)(多重共線性)時(shí),使用嶺回歸。當(dāng)自變量高度相關(guān)時(shí),最小二乘估計(jì)的方差非常大。

    結(jié)果,觀察值與實(shí)際值有很大差異。嶺回歸通過在回歸估計(jì)中增加一定程度的偏差來解決這個(gè)問題。這是嶺回歸方程式的樣子:

    在上面的等式中,收縮參數(shù)λ(λ)用于解決多重共線性的問題。

    6. 套索回歸

    就像嶺回歸一樣,Lasso回歸也使用收縮參數(shù)來解決多重共線性問題。它還通過提高準(zhǔn)確性來幫助線性回歸模型。

    它與嶺回歸的不同之處在于懲罰函數(shù)使用絕對值而不是正方形。這是Lasso回歸方程:

    7. 彈性網(wǎng)絡(luò)回歸

    ElasticNet回歸方法線性地組合了Ridge和Lasso方法的L1和L2懲罰。以下是ElasticNet回歸方程的樣子:

    8、顯著性

    假設(shè)檢驗(yàn)

    我們要討論的第一個(gè)概念是假設(shè)檢驗(yàn)(hypothesis testing),這是一種使用數(shù)據(jù)評估理論的方法?!凹僭O(shè)”是指研究人員在進(jìn)行研究之前對情況的初始信念。這個(gè)初始信念被稱為備擇假設(shè)(alternative hypothesis),而相反的被稱為零假設(shè)(null hypothesis)(也叫原假設(shè))。具體到例子中就是:

    備擇假設(shè):本校學(xué)生的平均睡眠時(shí)間低于大學(xué)生的全國平均水平。

    零假設(shè):本校學(xué)生的平均睡眠事件不低于大學(xué)生的全國平均水平。

    需要注意的是,我們必須要謹(jǐn)慎用語:因?yàn)槲覀円獧z驗(yàn)一個(gè)非常具體的效應(yīng),所以需要在假設(shè)中規(guī)范用語,才能在事后說明我們確實(shí)驗(yàn)證了假設(shè)而非其他。

    假設(shè)檢驗(yàn)是統(tǒng)計(jì)學(xué)的基礎(chǔ)之一,用于評估大多數(shù)研究的結(jié)果。適用范圍覆蓋了從評估藥物有效性的醫(yī)學(xué)試驗(yàn)到評估運(yùn)動(dòng)計(jì)劃的觀察性研究等各種研究。

    這些研究的共同點(diǎn)是,他們關(guān)注兩組之間或樣本與整體之間進(jìn)行比較。例如,在醫(yī)學(xué)中,我們可以比較服用兩種不同藥物的群體之間得以恢復(fù)的平均時(shí)間。而在我們的問題中,需要比較本校學(xué)生和本國所有大學(xué)生之間的睡眠時(shí)間。

    有了假設(shè)檢驗(yàn),我們就可以使用證據(jù)來決定是零假設(shè)還是備擇假設(shè)。假設(shè)檢驗(yàn)有很多種,這里我們將使用z檢驗(yàn)。但是,在我們開始測試數(shù)據(jù)之前,還需要解釋另外兩個(gè)更重要的概念。

    正態(tài)分布

    第二個(gè)概念是正態(tài)分布(normal distribution),也稱為高斯(Gaussian)或鐘形曲線(Bell curve)。正態(tài)分布是利用平均數(shù)和標(biāo)準(zhǔn)差來定義的數(shù)據(jù)分布形態(tài),其中平均數(shù)用希臘字母μ (mu)表示,決定了分布的位置,標(biāo)準(zhǔn)差用σ (sigma)表示,決定了分布的幅度。

    正態(tài)分布,平均數(shù)μ和標(biāo)準(zhǔn)差σ

    正態(tài)分布的應(yīng)用原理是根據(jù)標(biāo)準(zhǔn)差來評估觀測值。我們可以根據(jù)與平均值的標(biāo)準(zhǔn)偏差數(shù)來確定觀測值的異常程度。正態(tài)分布具有以下屬性:

    68%的數(shù)據(jù)與平均值相差±1標(biāo)準(zhǔn)差

    95%的數(shù)據(jù)與平均值相差±2標(biāo)準(zhǔn)差

    99.7%的數(shù)據(jù)與平均值相差±3個(gè)標(biāo)準(zhǔn)差

    如果我們統(tǒng)計(jì)量呈正態(tài)分布,我們就可以根據(jù)與均值的標(biāo)準(zhǔn)偏差來表征任意觀測點(diǎn)。例如,美國女性的平均身高是65英寸(5英尺5英寸),標(biāo)準(zhǔn)差為4英寸。如果我們新認(rèn)識(shí)了73英寸高的女性,那么我們可以說她比平均身高高出兩個(gè)標(biāo)準(zhǔn)差,屬于2.5%的最高身高的女性(其中有2.5%的女性要矮于μ-2σ(57英寸),2.5%要高于μ+2σ)。

    在統(tǒng)計(jì)學(xué)中,我們不直接說我們的數(shù)據(jù)與平均值相差兩個(gè)標(biāo)準(zhǔn)差,而是用z分?jǐn)?shù)來評估,z分?jǐn)?shù)表示觀測值與平均值之間的標(biāo)準(zhǔn)差的數(shù)量。我們需要利用公式將數(shù)據(jù)轉(zhuǎn)化為z分?jǐn)?shù):觀測值減去平均值,除以標(biāo)準(zhǔn)差(見下圖)。在身高的示例中,我們可以得到朋友的身高的z分?jǐn)?shù)為2。如果我們對所有觀測值進(jìn)行z分?jǐn)?shù)轉(zhuǎn)化,就會(huì)得到一個(gè)新的分布——標(biāo)準(zhǔn)正態(tài)分布,其平均值為0,標(biāo)準(zhǔn)差為1,如圖所示:

    從正態(tài)分布(右)到標(biāo)準(zhǔn)正態(tài)分布(左)的轉(zhuǎn)換。

    每次我們進(jìn)行假設(shè)檢驗(yàn)時(shí),都需要假定一個(gè)檢驗(yàn)統(tǒng)計(jì)量,在我們的例子中是學(xué)生的平均睡眠時(shí)間。在z檢驗(yàn)中,我們通常假定統(tǒng)計(jì)檢驗(yàn)量的分布近似正態(tài)分布。因?yàn)?,根?jù)中心極限定理(central limit theorem),從總體數(shù)據(jù)中獲得越多的數(shù)據(jù)值,這些數(shù)據(jù)值的平均數(shù)則越接近于正態(tài)分布。

    然而,這始終是一個(gè)估計(jì),因?yàn)檎鎸?shí)世界的數(shù)據(jù)永遠(yuǎn)不會(huì)完全遵循正態(tài)分布。假設(shè)正態(tài)分布能夠讓我們確定在研究中觀察到的結(jié)果有多少意義,我們可以觀察z分?jǐn)?shù),z分?jǐn)?shù)越高或越低,結(jié)果越不可能是偶然發(fā)生,也就越具有意義。為了量化結(jié)果的意義,我們需要使用另一個(gè)概念。

    P值和α是個(gè)啥!

    最后的核心概念是p值。p值是當(dāng)零假設(shè)為真時(shí)所得觀察到的結(jié)果,或是更為極端的結(jié)果出現(xiàn)的概念。這有點(diǎn)令人費(fèi)解,所以讓我們來看一個(gè)例子。

    假設(shè)我們要比較美國佛羅里達(dá)州和華盛頓州人民的平均智商。我們的零假設(shè)是華盛頓的平均智商不高于佛羅里達(dá)的平均智商。

    通過研究發(fā)現(xiàn),華盛頓州的人民智商比佛羅里達(dá)州人民智商高2.2,其p值為0.346(大于顯著性水平)。這意味著,零假設(shè)“華盛頓的平均智商不高于佛羅里達(dá)的平均智商”為真,也就是說,華盛頓的智商實(shí)際上并沒有更高,但是由于隨機(jī)噪聲的影響,仍然有34.6%的概率我們會(huì)測量到其智商分?jǐn)?shù)會(huì)高出2.2分。之后隨著p值降低,結(jié)果就更有意義,因?yàn)樵肼暤挠绊懸矔?huì)越來越小。

    這個(gè)結(jié)果是否具有統(tǒng)計(jì)意義取決于我們在實(shí)驗(yàn)開始之前設(shè)定的顯著性水平——alpha。如果觀察到的p值小于α,則結(jié)果在統(tǒng)計(jì)學(xué)上具有意義。我們需要在實(shí)驗(yàn)前選擇alpha,因?yàn)槿绻鹊綄?shí)驗(yàn)結(jié)束再選擇的話,我們就可以根據(jù)我們的結(jié)果選一個(gè)數(shù)字來證明結(jié)果是顯著的,卻不管數(shù)據(jù)真正顯示了什么,這是一種數(shù)據(jù)欺騙的行為。

    α的選擇取決于實(shí)際情況和研究領(lǐng)域,但最常用的值是0.05,相當(dāng)于有5%的可能性結(jié)果是隨機(jī)發(fā)生的。在我的實(shí)驗(yàn)中,從0.1到0.001之間都是比較常用的數(shù)值。也有較為極端的例子,發(fā)現(xiàn)希格斯玻色子(Higgs Boson particle)的物理學(xué)家使用的p值為0.0000003,即350萬分之一的概率結(jié)果由偶然因素造成。(現(xiàn)代統(tǒng)計(jì)學(xué)之父R.A.Fischer不知為什么,隨便選擇了0.05為p值,很多統(tǒng)計(jì)學(xué)家極其不想承認(rèn)這一點(diǎn),并且這個(gè)值現(xiàn)在讓許多統(tǒng)計(jì)學(xué)家非常困擾與擔(dān)憂)!

    要從z值得到p值,我們需要使用像R這樣的表格統(tǒng)計(jì)軟件,它們會(huì)在結(jié)果中將顯示z值低于計(jì)算值的概率。例如,z值為2,p值為0.977,這意味著我們隨機(jī)觀察到z值高于2的概率只有2.3%。

    正態(tài)分布下z值低于2的概率為97.7%

    總結(jié)應(yīng)用

    我們做個(gè)總結(jié),截止到目前提到了三個(gè)概念

    1.假設(shè)檢驗(yàn):用來檢驗(yàn)理論的方法。

    2.正態(tài)分布:假設(shè)檢驗(yàn)中對數(shù)據(jù)分布形態(tài)的近似表示。

    3.P值:當(dāng)零假設(shè)為真時(shí)觀察到的或是出現(xiàn)更為極端結(jié)果的概率。

    現(xiàn)在讓我們把這些概念帶入到我們的例子中:

    根據(jù)國家睡眠基金會(huì)(the National Sleep Foundation)的數(shù)據(jù),全國學(xué)生平均每晚睡眠時(shí)間為7.02小時(shí)。

    針對本校202名學(xué)生進(jìn)行的一項(xiàng)調(diào)查發(fā)現(xiàn),本校學(xué)生的平均每晚睡眠時(shí)間為6.90小時(shí),標(biāo)準(zhǔn)差為0.84小時(shí)。

    我們的備擇假設(shè)是,本校學(xué)生的平均睡眠時(shí)間少于全國大學(xué)生的平均睡眠時(shí)間。

    我們將選取0.05為α值,這意味著當(dāng)p值低于0.05時(shí),結(jié)果是顯著的。

    首先,我們需要把測量值轉(zhuǎn)換成z分?jǐn)?shù),用測量值減去平均值(全國大學(xué)生平均睡眠時(shí)間),除以標(biāo)準(zhǔn)差與樣本量平方根的商(如下圖)。另外,隨樣本量的增加,標(biāo)準(zhǔn)差亦隨之減少,這一點(diǎn)可以用標(biāo)準(zhǔn)差除以樣本量的平方根來解釋。

    二、gbase8a支持什么分類算法?

    目前支持兩種分類算法:

    1、Logistic回歸算法,Logistic回歸又稱logistic回歸分析,是一種廣義的線性回歸分析模型,常用于數(shù)據(jù)挖掘、疾病自動(dòng)診斷和經(jīng)濟(jì)預(yù)測等領(lǐng)域。

    2、支持向量機(jī)算法,

    支持向量機(jī)是一種二分類模型,它的基本模型是定義在特征空間上的間隔最大的線性分類器。

    說的通俗一點(diǎn)就是就是在特征空間里面用某條線或某塊面將訓(xùn)練數(shù)據(jù)集分成兩類,而依據(jù)的原則就是間隔最大化,這里的間隔最大化是指特征空間里面距離分離線或面最近的點(diǎn)到這條線或面的間隔(距離)最大。

    三、spss簡單線性回歸分析 需要多少組數(shù)據(jù)

    沒有具體數(shù)據(jù)要求,一般來說,數(shù)據(jù)越多越好。

    通過線性回歸算法,我們可能會(huì)得到很多的線性回歸模型,但是不同的模型對于數(shù)據(jù)的擬合或者是描述能力是不一樣的。我們的目的最終是需要找到一個(gè)能夠最精確地描述數(shù)據(jù)之間關(guān)系的線性回歸模型。這是就需要用到代價(jià)函數(shù)。

    回歸分析算法(回歸分析算法原理)

    代價(jià)函數(shù)就是用來描述線性回歸模型與正式數(shù)據(jù)之前的差異。如果完全沒有差異,則說明此線性回歸模型完全描述數(shù)據(jù)之前的關(guān)系。

    一條趨勢線代表著時(shí)間序列數(shù)據(jù)的長期走勢。它告訴我們一組特定數(shù)據(jù)(如GDP、石油價(jià)格和股票價(jià)格)是否在一段時(shí)期內(nèi)增長或下降。雖然我們可以用肉眼觀察數(shù)據(jù)點(diǎn)在坐標(biāo)系的位置大體畫出趨勢線,更恰當(dāng)?shù)姆椒ㄊ抢镁€性回歸計(jì)算出趨勢線的位置和斜率。

    四、k近鄰算法如何做回歸分析?

    有兩類不同的樣本數(shù)據(jù),分別用藍(lán)色的小正方形和紅色的小三角形表示,而圖正中間的那個(gè)綠色的圓所標(biāo)示的數(shù)據(jù)則是待分類的數(shù)據(jù)。也就是說,現(xiàn)在, 我們不知道中間那個(gè)綠色的數(shù)據(jù)是從屬于哪一類(藍(lán)色小正方形or紅色小三角形),下面,我們就要解決這個(gè)問題:給這個(gè)綠色的圓分類。我們常說,物以類聚,人以群分,判別一個(gè)人是一個(gè)什么樣品質(zhì)特征的人,常??梢詮乃?#47;她身邊的朋友入手,所謂觀其友,而識(shí)其人。我們不是要判別上圖中那個(gè)綠色的圓是屬于哪一類數(shù)據(jù)么,好說,從它的鄰居下手。但一次性看多少個(gè)鄰居呢?從上圖中,你還能看到:

    如果K=3,綠色圓點(diǎn)的最近的3個(gè)鄰居是2個(gè)紅色小三角形和1個(gè)藍(lán)色小正方形,少數(shù)從屬于多數(shù),基于統(tǒng)計(jì)的方法,判定綠色的這個(gè)待分類點(diǎn)屬于紅色的三角形一類。 如果K=5,綠色圓點(diǎn)的最近的5個(gè)鄰居是2個(gè)紅色三角形和3個(gè)藍(lán)色的正方形,還是少數(shù)從屬于多數(shù),基于統(tǒng)計(jì)的方法,判定綠色的這個(gè)待分類點(diǎn)屬于藍(lán)色的正方形一類。 于此我們看到,當(dāng)無法判定當(dāng)前待分類點(diǎn)是從屬于已知分類中的哪一類時(shí),我們可以依據(jù)統(tǒng)計(jì)學(xué)的理論看它所處的位置特征,衡量它周圍鄰居的權(quán)重,而把它歸為(或分配)到權(quán)重更大的那一類。這就是K近鄰算法的核心思想。

    KNN算法中,所選擇的鄰居都是已經(jīng)正確分類的對象。該方法在定類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來決定待分樣本所屬的類別。

    KNN 算法本身簡單有效,它是一種 lazy-learning 算法,分類器不需要使用訓(xùn)練集進(jìn)行訓(xùn)練,訓(xùn)練時(shí)間復(fù)雜度為0。KNN 分類的計(jì)算復(fù)雜度和訓(xùn)練集中的文檔數(shù)目成正比,也就是說,如果訓(xùn)練集中文檔總數(shù)為 n,那么 KNN 的分類時(shí)間復(fù)雜度為O(n)。

    KNN方法雖然從原理上也依賴于極限定理,但在類別決策時(shí),只與極少量的相鄰樣本有關(guān)。由于KNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對于類域的交叉或重疊較多的待分樣本集來說,KNN方法較其他方法更為適合。

    K 近鄰算法使用的模型實(shí)際上對應(yīng)于對特征空間的劃分。K 值的選擇,距離度量和分類決策規(guī)則是該算法的三個(gè)基本要素: K 值的選擇會(huì)對算法的結(jié)果產(chǎn)生重大影響。K值較小意味著只有與輸入實(shí)例較近的訓(xùn)練實(shí)例才會(huì)對預(yù)測結(jié)果起作用,但容易發(fā)生過擬合;如果 K 值較大,優(yōu)點(diǎn)是可以減少學(xué)習(xí)的估計(jì)誤差,但缺點(diǎn)是學(xué)習(xí)的近似誤差增大,這時(shí)與輸入實(shí)例較遠(yuǎn)的訓(xùn)練實(shí)例也會(huì)對預(yù)測起作用,是預(yù)測發(fā)生錯(cuò)誤。在實(shí)際應(yīng)用中,K 值一般選擇一個(gè)較小的數(shù)值,通常采用交叉驗(yàn)證的方法來選擇最優(yōu)的 K 值。隨著訓(xùn)練實(shí)例數(shù)目趨向于無窮和 K=1 時(shí),誤差率不會(huì)超過貝葉斯誤差率的2倍,如果K也趨向于無窮,則誤差率趨向于貝葉斯誤差率。 該算法中的分類決策規(guī)則往往是多數(shù)表決,即由輸入實(shí)例的 K 個(gè)最臨近的訓(xùn)練實(shí)例中的多數(shù)類決定輸入實(shí)例的類別 距離度量一般采用 Lp 距離,當(dāng)p=2時(shí),即為歐氏距離,在度量之前,應(yīng)該將每個(gè)屬性的值規(guī)范化,這樣有助于防止具有較大初始值域的屬性比具有較小初始值域的屬性的權(quán)重過大。 KNN算法不僅可以用于分類,還可以用于回歸。通過找出一個(gè)樣本的k個(gè)最近鄰居,將這些鄰居的屬性的平均值賦給該樣本,就可以得到該樣本的屬性。更有用的方法是將不同距離的鄰居對該樣本產(chǎn)生的影響給予不同的權(quán)值(weight),如權(quán)值與距離成反比?!≡撍惴ㄔ诜诸悤r(shí)有個(gè)主要的不足是,當(dāng)樣本不平衡時(shí),如一個(gè)類的樣本容量很大,而其他類樣本容量很小時(shí),有可能導(dǎo)致當(dāng)輸入一個(gè)新樣本時(shí),該樣本的K個(gè)鄰居中大容量類的樣本占多數(shù)。 該算法只計(jì)算“最近的”鄰居樣本,某一類的樣本數(shù)量很大,那么或者這類樣本并不接近目標(biāo)樣本,或者這類樣本很靠近目標(biāo)樣本。無論怎樣,數(shù)量并不能影響運(yùn)行結(jié)果。可以采用權(quán)值的方法(和該樣本距離小的鄰居權(quán)值大)來改進(jìn)。

    該方法的另一個(gè)不足之處是計(jì)算量較大,因?yàn)閷γ恳粋€(gè)待分類的文本都要計(jì)算它到全體已知樣本的距離,才能求得它的K個(gè)最近鄰點(diǎn)。目前常用的解決方法是事先對已知樣本點(diǎn)進(jìn)行剪輯,事先去除對分類作用不大的樣本。該算法比較適用于樣本容量比較大的類域的自動(dòng)分類,而那些樣本容量較小的類域采用這種算法比較容易產(chǎn)生誤分。

    實(shí)現(xiàn) K 近鄰算法時(shí),主要考慮的問題是如何對訓(xùn)練數(shù)據(jù)進(jìn)行快速 K 近鄰搜索,這在特征空間維數(shù)大及訓(xùn)練數(shù)據(jù)容量大時(shí)非常必要。

    以上就是關(guān)于回歸分析算法相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。


    推薦閱讀:

    回歸營銷基本層面讀后感(銷售的常識(shí)-回歸銷售的本質(zhì),重構(gòu)你的銷售思維下載)

    北回歸線公園景觀設(shè)計(jì)(北回歸線主題公園)

    杭州樓市回暖了嗎(杭州樓市能否回歸理性)

    mac抹掉后進(jìn)不去了(m1芯片mac抹掉重裝系統(tǒng))

    眾的商標(biāo)圖片(眾字的商標(biāo)怎么設(shè)計(jì))