-
當(dāng)前位置:首頁 > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
回歸分析中數(shù)據(jù)缺失怎么處理(回歸分析中數(shù)據(jù)缺失怎么處理好)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于回歸分析中數(shù)據(jù)缺失怎么處理的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com。
創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、SPSS如何處理缺失值
1、以下表為例,生物成績中存在缺失值情況,因為樣本量本就不大,直接去掉缺失值很可能會影響最后的結(jié)果。
2、我們在菜單欄依次點擊“轉(zhuǎn)換”、“替換缺失值”。
3、之后會彈出“替換缺失值”對話框。我們將生物字段點選入右側(cè)選框??梢愿鶕?jù)個人需要重新命名名稱。
4、之后在查看器中可以看到對于缺失值的描述及處理方法。
5、返回SPSS主界面,可以看到新增的一列數(shù)據(jù),對于缺失值已經(jīng)進(jìn)行了補充。
二、數(shù)據(jù)分析中的缺失值處理
數(shù)據(jù)分析中的缺失值處理
沒有高質(zhì)量的數(shù)據(jù),就沒有高質(zhì)量的數(shù)據(jù)挖掘結(jié)果,數(shù)據(jù)值缺失是數(shù)據(jù)分析中經(jīng)常遇到的問題之一。當(dāng)缺失比例很小時,可直接對缺失記錄進(jìn)行舍棄或進(jìn)行手工處理。但在實際數(shù)據(jù)中,往往缺失數(shù)據(jù)占有相當(dāng)?shù)谋戎亍_@時如果手工處理非常低效,如果舍棄缺失記錄,則會丟失大量信息,使不完全觀測數(shù)據(jù)與完全觀測數(shù)據(jù)間產(chǎn)生系統(tǒng)差異,對這樣的數(shù)據(jù)進(jìn)行分析,你很可能會得出錯誤的結(jié)論。
造成數(shù)據(jù)缺失的原因
現(xiàn)實世界中的數(shù)據(jù)異常雜亂,屬性值缺失的情況經(jīng)常發(fā)全甚至是不可避免的。造成數(shù)據(jù)缺失的原因是多方面的:
信息暫時無法獲取。例如在醫(yī)療數(shù)據(jù)庫中,并非所有病人的所有臨床檢驗結(jié)果都能在給定的時間內(nèi)得到,就致使一部分屬性值空缺出來。
信息被遺漏??赡苁且驗檩斎霑r認(rèn)為不重要、忘記填寫了或?qū)?shù)據(jù)理解錯誤而遺漏,也可能是由于數(shù)據(jù)采集設(shè)備的故障、存儲介質(zhì)的故障、傳輸媒體的故障、一些人為因素等原因而丟失。
有些對象的某個或某些屬性是不可用的。如一個未婚者的配偶姓名、一個兒童的固定收入狀況等。
有些信息(被認(rèn)為)是不重要的。如一個屬性的取值與給定語境是無關(guān)。
獲取這些信息的代價太大。
系統(tǒng)實時性能要求較高。即要求得到這些信息前迅速做出判斷或決策。
對缺失值的處理要具體問題具體分析,為什么要具體問題具體分析呢?因為屬性缺失有時并不意味著數(shù)據(jù)缺失,缺失本身是包含信息的,所以需要根據(jù)不同應(yīng)用場景下缺失值可能包含的信息進(jìn)行合理填充。下面通過一些例子來說明如何具體問題具體分析,仁者見仁智者見智,僅供參考:
“年收入”:商品推薦場景下填充平均值,借貸額度場景下填充最小值;
“行為時間點”:填充眾數(shù);
“價格”:商品推薦場景下填充最小值,商品匹配場景下填充平均值;
“人體壽命”:保險費用估計場景下填充最大值,人口估計場景下填充平均值;
“駕齡”:沒有填寫這一項的用戶可能是沒有車,為它填充為0較為合理;
”本科畢業(yè)時間”:沒有填寫這一項的用戶可能是沒有上大學(xué),為它填充正無窮比較合理;
“婚姻狀態(tài)”:沒有填寫這一項的用戶可能對自己的隱私比較敏感,應(yīng)單獨設(shè)為一個分類,如已婚1、未婚0、未填-1。
缺失的類型
在對缺失數(shù)據(jù)進(jìn)行處理前,了解數(shù)據(jù)缺失的機(jī)制和形式是十分必要的。將數(shù)據(jù)集中不含缺失值的變量稱為完全變量,數(shù)據(jù)集中含有缺失值的變量稱為不完全變量。從缺失的分布來將缺失可以分為完全隨機(jī)缺失,隨機(jī)缺失和完全非隨機(jī)缺失。
完全隨機(jī)缺失(missing completely at random,MCAR):指的是數(shù)據(jù)的缺失是完全隨機(jī)的,不依賴于任何不完全變量或完全變量,不影響樣本的無偏性。如家庭地址缺失。
隨機(jī)缺失(missing at random,MAR):指的是數(shù)據(jù)的缺失不是完全隨機(jī)的,即該類數(shù)據(jù)的缺失依賴于其他完全變量。例如財務(wù)數(shù)據(jù)缺失情況與企業(yè)的大小有關(guān)。
非隨機(jī)缺失(missing not at random,MNAR):指的是數(shù)據(jù)的缺失與不完全變量自身的取值有關(guān)。如高收入人群的不原意提供家庭收入。
對于隨機(jī)缺失和非隨機(jī)缺失,刪除記錄是不合適的,隨機(jī)缺失可以通過已知變量對缺失值進(jìn)行估計;而非隨機(jī)缺失還沒有很好的解決辦法。
說明:對于分類問題,可以分析缺失的樣本中,類別之間的比例和整體數(shù)據(jù)集中,類別的比例
缺失值處理的必要性
數(shù)據(jù)缺失在許多研究領(lǐng)域都是一個復(fù)雜的問題。對數(shù)據(jù)挖掘來說,缺省值的存在,造成了以下影響:
系統(tǒng)丟失了大量的有用信息;
系統(tǒng)中所表現(xiàn)出的不確定性更加顯著,系統(tǒng)中蘊涵的確定性成分更難把握;
包含空值的數(shù)據(jù)會使挖掘過程陷入混亂,導(dǎo)致不可靠的輸出。
數(shù)據(jù)挖掘算法本身更致力于避免數(shù)據(jù)過分?jǐn)M合所建的模型,這一特性使得它難以通過自身的算法去很好地處理不完整數(shù)據(jù)。因此,缺省值需要通過專門的方法進(jìn)行推導(dǎo)、填充等,以減少數(shù)據(jù)挖掘算法與實際應(yīng)用之間的差距。
缺失值處理方法的分析與比較
處理不完整數(shù)據(jù)集的方法主要有三大類:刪除元組、數(shù)據(jù)補齊、不處理。
刪除元組
也就是將存在遺漏信息屬性值的對象(元組,記錄)刪除,從而得到一個完備的信息表。這種方法簡單易行,在對象有多個屬性缺失值、被刪除的含缺失值的對象與初始數(shù)據(jù)集的數(shù)據(jù)量相比非常小的情況下非常有效,類標(biāo)號缺失時通常使用該方法。
然而,這種方法卻有很大的局限性。它以減少歷史數(shù)據(jù)來換取信息的完備,會丟棄大量隱藏在這些對象中的信息。在初始數(shù)據(jù)集包含的對象很少的情況下,刪除少量對象足以嚴(yán)重影響信息的客觀性和結(jié)果的正確性;因此,當(dāng)缺失數(shù)據(jù)所占比例較大,特別當(dāng)遺漏數(shù)據(jù)非隨機(jī)分布時,這種方法可能導(dǎo)致數(shù)據(jù)發(fā)生偏離,從而引出錯誤的結(jié)論。
說明:刪除元組,或者直接刪除該列特征,有時候會導(dǎo)致性能下降。
數(shù)據(jù)補齊
這類方法是用一定的值去填充空值,從而使信息表完備化。通常基于統(tǒng)計學(xué)原理,根據(jù)初始數(shù)據(jù)集中其余對象取值的分布情況來對一個缺失值進(jìn)行填充。數(shù)據(jù)挖掘中常用的有以下幾種補齊方法:
人工填寫(filling manually)
由于最了解數(shù)據(jù)的還是用戶自己,因此這個方法產(chǎn)生數(shù)據(jù)偏離最小,可能是填充效果最好的一種。然而一般來說,該方法很費時,當(dāng)數(shù)據(jù)規(guī)模很大、空值很多的時候,該方法是不可行的。
特殊值填充(Treating Missing Attribute values as Special values)
將空值作為一種特殊的屬性值來處理,它不同于其他的任何屬性值。如所有的空值都用“unknown”填充。這樣將形成另一個有趣的概念,可能導(dǎo)致嚴(yán)重的數(shù)據(jù)偏離,一般不推薦使用。
平均值填充(Mean/Mode Completer)
將初始數(shù)據(jù)集中的屬性分為數(shù)值屬性和非數(shù)值屬性來分別進(jìn)行處理。
如果空值是數(shù)值型的,就根據(jù)該屬性在其他所有對象的取值的平均值來填充該缺失的屬性值;
如果空值是非數(shù)值型的,就根據(jù)統(tǒng)計學(xué)中的眾數(shù)原理,用該屬性在其他所有對象的取值次數(shù)最多的值(即出現(xiàn)頻率最高的值)來補齊該缺失的屬性值。與其相似的另一種方法叫條件平均值填充法(Conditional Mean Completer)。在該方法中,用于求平均的值并不是從數(shù)據(jù)集的所有對象中取,而是從與該對象具有相同決策屬性值的對象中取得。
這兩種數(shù)據(jù)的補齊方法,其基本的出發(fā)點都是一樣的,以最大概率可能的取值來補充缺失的屬性值,只是在具體方法上有一點不同。與其他方法相比,它是用現(xiàn)存數(shù)據(jù)的多數(shù)信息來推測缺失值。
熱卡填充(Hot deck imputation,或就近補齊)
對于一個包含空值的對象,熱卡填充法在完整數(shù)據(jù)中找到一個與它最相似的對象,然后用這個相似對象的值來進(jìn)行填充。不同的問題可能會選用不同的標(biāo)準(zhǔn)來對相似進(jìn)行判定。該方法概念上很簡單,且利用了數(shù)據(jù)間的關(guān)系來進(jìn)行空值估計。這個方法的缺點在于難以定義相似標(biāo)準(zhǔn),主觀因素較多。
K最近距離鄰法(K-means clustering)
先根據(jù)歐式距離或相關(guān)分析來確定距離具有缺失數(shù)據(jù)樣本最近的K個樣本,將這K個值加權(quán)平均來估計該樣本的缺失數(shù)據(jù)。
使用所有可能的值填充(Assigning All Possible values of the Attribute)
用空缺屬性值的所有可能的屬性取值來填充,能夠得到較好的補齊效果。但是,當(dāng)數(shù)據(jù)量很大或者遺漏的屬性值較多時,其計算的代價很大,可能的測試方案很多。
組合完整化方法(Combinatorial Completer)
用空缺屬性值的所有可能的屬性取值來試,并從最終屬性的約簡結(jié)果中選擇最好的一個作為填補的屬性值。這是以約簡為目的的數(shù)據(jù)補齊方法,能夠得到好的約簡結(jié)果;但是,當(dāng)數(shù)據(jù)量很大或者遺漏的屬性值較多時,其計算的代價很大。
回歸(Regression)
基于完整的數(shù)據(jù)集,建立回歸方程。對于包含空值的對象,將已知屬性值代入方程來估計未知屬性值,以此估計值來進(jìn)行填充。當(dāng)變量不是線性相關(guān)時會導(dǎo)致有偏差的估計。
期望值最大化方法(Expectation maximization,EM)
EM算法是一種在不完全數(shù)據(jù)情況下計算極大似然估計或者后驗分布的迭代算法。在每一迭代循環(huán)過程中交替執(zhí)行兩個步驟:E步(Excepctaion step,期望步),在給定完全數(shù)據(jù)和前一次迭代所得到的參數(shù)估計的情況下計算完全數(shù)據(jù)對應(yīng)的對數(shù)似然函數(shù)的條件期望;M步(Maximzation step,極大化步),用極大化對數(shù)似然函數(shù)以確定參數(shù)的值,并用于下步的迭代。算法在E步和M步之間不斷迭代直至收斂,即兩次迭代之間的參數(shù)變化小于一個預(yù)先給定的閾值時結(jié)束。該方法可能會陷入局部極值,收斂速度也不是很快,并且計算很復(fù)雜。
多重填補(Multiple Imputation,MI)
多重填補方法分為三個步驟:
為每個空值產(chǎn)生一套可能的填補值,這些值反映了無響應(yīng)模型的不確定性;每個值都被用來填補數(shù)據(jù)集中的缺失值,產(chǎn)生若干個完整數(shù)據(jù)集合。
每個填補數(shù)據(jù)集合都用針對完整數(shù)據(jù)集的統(tǒng)計方法進(jìn)行統(tǒng)計分析。
對來自各個填補數(shù)據(jù)集的結(jié)果進(jìn)行綜合,產(chǎn)生最終的統(tǒng)計推斷,這一推斷考慮到了由于數(shù)據(jù)填補而產(chǎn)生的不確定性。該方法將空缺值視為隨機(jī)樣本,這樣計算出來的統(tǒng)計推斷可能受到空缺值的不確定性的影響。該方法的計算也很復(fù)雜。
C4.5方法
通過尋找屬性間的關(guān)系來對遺失值填充。它尋找之間具有最大相關(guān)性的兩個屬性,其中沒有遺失值的一個稱為代理屬性,另一個稱為原始屬性,用代理屬性決定原始屬性中的遺失值。這種基于規(guī)則歸納的方法只能處理基數(shù)較小的名詞型屬性。
就幾種基于統(tǒng)計的方法而言,刪除元組法和平均值法差于熱卡填充法、期望值最大化方法和多重填充法;回歸是比較好的一種方法,但仍比不上hot deck和EM;EM缺少MI包含的不確定成分。值得注意的是,這些方法直接處理的是模型參數(shù)的估計而不是空缺值預(yù)測本身。它們合適于處理無監(jiān)督學(xué)習(xí)的問題,而對有監(jiān)督學(xué)習(xí)來說,情況就不盡相同了。譬如,你可以刪除包含空值的對象用完整的數(shù)據(jù)集來進(jìn)行訓(xùn)練,但預(yù)測時你卻不能忽略包含空值的對象。另外,C4.5和使用所有可能的值填充方法也有較好的補齊效果,人工填寫和特殊值填充則是一般不推薦使用的。
不處理
補齊處理只是將未知值補以我們的主觀估計值,不一定完全符合客觀事實,在對不完備信息進(jìn)行補齊處理的同時,我們或多或少地改變了原始的信息系統(tǒng)。而且,對空值不正確的填充往往將新的噪聲引入數(shù)據(jù)中,使挖掘任務(wù)產(chǎn)生錯誤的結(jié)果。因此,在許多情況下,我們還是希望在保持原始信息不發(fā)生變化的前提下對信息系統(tǒng)進(jìn)行處理。
不處理缺失值,直接在包含空值的數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘的方法包括貝葉斯網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)等。
貝葉斯網(wǎng)絡(luò)提供了一種自然的表示變量間因果信息的方法,用來發(fā)現(xiàn)數(shù)據(jù)間的潛在關(guān)系。在這個網(wǎng)絡(luò)中,用節(jié)點表示變量,有向邊表示變量間的依賴關(guān)系。貝葉斯網(wǎng)絡(luò)僅適合于對領(lǐng)域知識具有一定了解的情況,至少對變量間的依賴關(guān)系較清楚的情況。否則直接從數(shù)據(jù)中學(xué)習(xí)貝葉斯網(wǎng)的結(jié)構(gòu)不但復(fù)雜性較高(隨著變量的增加,指數(shù)級增加),網(wǎng)絡(luò)維護(hù)代價昂貴,而且它的估計參數(shù)較多,為系統(tǒng)帶來了高方差,影響了它的預(yù)測精度。
人工神經(jīng)網(wǎng)絡(luò)可以有效的對付缺失值,但人工神經(jīng)網(wǎng)絡(luò)在這方面的研究還有待進(jìn)一步深入展開。
知乎上的一種方案:
4.把變量映射到高維空間。比如性別,有男、女、缺失三種情況,則映射成3個變量:是否男、是否女、是否缺失。連續(xù)型變量也可以這樣處理。比如Google、百度的CTR預(yù)估模型,預(yù)處理時會把所有變量都這樣處理,達(dá)到幾億維。這樣做的好處是完整保留了原始數(shù)據(jù)的全部信息、不用考慮缺失值、不用考慮線性不可分之類的問題。缺點是計算量大大提升。
而且只有在樣本量非常大的時候效果才好,否則會因為過于稀疏,效果很差。
總結(jié)
大多數(shù)數(shù)據(jù)挖掘系統(tǒng)都是在數(shù)據(jù)挖掘之前的數(shù)據(jù)預(yù)處理階段采用第一、第二類方法來對空缺數(shù)據(jù)進(jìn)行處理。并不存在一種處理空值的方法可以適合于任何問題。無論哪種方式填充,都無法避免主觀因素對原系統(tǒng)的影響,并且在空值過多的情形下將系統(tǒng)完備化是不可行的。從理論上來說,貝葉斯考慮了一切,但是只有當(dāng)數(shù)據(jù)集較小或滿足某些條件(如多元正態(tài)分布)時完全貝葉斯分析才是可行的。而現(xiàn)階段人工神經(jīng)網(wǎng)絡(luò)方法在數(shù)據(jù)挖掘中的應(yīng)用仍很有限。值得一提的是,采用不精確信息處理數(shù)據(jù)的不完備性已得到了廣泛的研究。不完備數(shù)據(jù)的表達(dá)方法所依據(jù)的理論主要有可信度理論、概率論、模糊集合論、可能性理論,D-S的證據(jù)理論等。
三、SPSS如何處理缺失值
SPSS處理缺失值步驟如下:
1、調(diào)出相關(guān)操作界面。其數(shù)據(jù)的處理方法大致都是用變量的集中位置指標(biāo)來替代缺失值,主要適合于完全隨機(jī)缺失的資料,若不是完全隨機(jī)的,得用“缺失值分析”模塊分析缺失數(shù)據(jù)。
2、名稱:給替代后變量命名,方法:給出了5中缺失值的替代方法。
3、“附(鄰)近點的跨度”:系統(tǒng)默認(rèn)的是2,即缺失值上下兩個觀察值作為范圍。若選擇“全部”,即將所有的觀察值作為臨近點。這樣就可以處理好缺失值了。
四、spss分析方法-缺失值分析
spss 分析方法 - 缺失值分析
缺失值可能會導(dǎo)致嚴(yán)重的問題。如果帶有缺失值的個案與不帶缺失值的個案有著根本的不同,則結(jié)果將被誤導(dǎo)。此外,缺失的數(shù)據(jù)還可能降低所計算的統(tǒng)計量的精度,因為計算時的信息比原計劃的信息要少。
另一個問題是, 很多統(tǒng)計過程背后的假設(shè)都基于完整的個案,而缺失值可能使所需的理論復(fù)雜化。
下面我們主要從下面四個方面來解說:
[if !supportLineBreakNewLine]
[endif]
實際應(yīng)用
理論思想
建立模型
[if !supportLineBreakNewLine]
[endif]
分析結(jié)果
[if !supportLineBreakNewLine]
[endif]
一、實際應(yīng)用
[if !supportLineBreakNewLine]
[endif]
眾所周知,在諸如收入、交通事故等問題的研究中,因為被調(diào)查者拒絕回答或者由于調(diào)查研究中的損耗,會存在一些未回答的問題。
例如在一次人口調(diào)查中,15%的人沒有回答收入情況,高收入者的回答率比中等收入者要低,或者在嚴(yán)重交通事故報告中,諸如是否使用安全帶和酒精濃度等關(guān)鍵問題在很多個案中都沒有記錄,這些缺失的個案值便是缺失值。缺失值主要表現(xiàn)為以下3種: (1)完全隨機(jī)缺失(Missing Completely At Random,MCAR),表示缺失和變量的取值無關(guān)。 例如,假設(shè)在研究年齡和收入的關(guān)系,如果缺失的數(shù)據(jù)和年齡或收入數(shù)值無關(guān),則缺失值方式為MCAR。要評估MCAR是否為站得住腳的假設(shè),可以通過比較回答者和未回答者的分布來評估觀察數(shù)據(jù)。也可以使用單變量t-檢驗或Little's MCAR多變量檢驗來進(jìn)行更正規(guī)的評估。如果MCAR假設(shè)為真,可以使用列表刪除(listwise deletion)(完整個案分析),無須擔(dān)心估計偏差,盡管可能會喪失一些有效性。如果MCAR不成立,列表刪除、均值置換等逼近方法就可能不是好的選擇。 (2)隨機(jī)缺失(Missing At Random,MAR) , 缺失分布中調(diào)查變量只依賴于數(shù)據(jù)組中有記錄的變量。 繼續(xù)上面的例子,考慮年齡全部被觀察,而收入有時有缺失,如果收入缺失值僅依賴于年齡,缺失值就為MAR。 (3)非隨機(jī)缺失。 這是研究者最不愿意看到的情形,數(shù)據(jù)的缺失不僅和其他變量的取值有關(guān),也和自身有關(guān)。如果收入缺失值依賴于收入值,則既不是MCAR,也不是MAR。
[if !supportLineBreakNewLine]
[endif]
二、理論思想
SPSS主要對MCAR和MAR兩種缺失值情況進(jìn)行分析。
區(qū)別MCAR和MAR的含義在于:由于MCAR實際上很難遇到,應(yīng)該在進(jìn)行調(diào)查之前就考慮哪些重要變量可能會有非無效的未回答,還要盡量在調(diào)查中包括共變量,以便用這些變量來估算缺失值。
[if !supportLineBreakNewLine]
[endif]
針對不同情況的缺失值,SPSS操作給出了以下3種處理方法:
( 1 )刪除缺失值, 這種方法適用于缺失值非常少的時候,它不需要專門的步驟,通常在相應(yīng)的分析對話框的“選項”子對話框中進(jìn)行設(shè)置。
( 2 )替換缺失值 ,利用“轉(zhuǎn)換”菜單中的“替換缺失值”命令將所有的記錄看成一個序列,然后采用某種指標(biāo)對缺失值進(jìn)行填充。
( 3 )缺失值分析過程 ,缺失值分析過程是SPSS專門針對缺失值分析而提供的模塊。
缺失值分析過程有以下3個主要功能: ( 1 )描述缺失值的模式。 通過缺失值分析的診斷報告,用戶可以明確地知道缺失值所在位置及其出現(xiàn)的比例是多少,還可以推斷缺失值是否為隨機(jī)缺失等。 ( 2 )利用列表法、成對法、回歸法或 EM (期望最大化)法等為含缺失值的數(shù)據(jù)估算平均值、標(biāo)準(zhǔn)誤差、協(xié)方差和相關(guān)性,成對法還可顯示成對完整個案的計數(shù)。( 3 )使用回歸法或 EM 法用估算值填充(插補)缺失值,以此提高統(tǒng)計結(jié)果的可信度。 缺失數(shù)據(jù)可以是分類數(shù)據(jù)或定量數(shù)據(jù)(刻度或連續(xù)),盡管如此,SPSS只能為定量變量估計統(tǒng)計數(shù)據(jù)并插補缺失數(shù)據(jù)。對于每個變量,必須將未編碼為系統(tǒng)缺失值的缺失值定義為用戶缺失值。舍爾判別法利用投影的方法使多維問題簡化為一維問題來處理。其通過建立線性判別函數(shù)計算出各個觀測量在各典型變量維度上的坐標(biāo)并得出樣本距離各個類中心的距離,以此作為分類依據(jù)。
[if !supportLineBreakNewLine]
[endif]
[if !supportLineBreakNewLine]
[endif]
三、建立模型
缺失值分析案例:
[if !supportLineBreakNewLine]
[endif]
題目:下表的某些人口統(tǒng)計數(shù)據(jù)值已被缺失值替換。該假設(shè)數(shù)據(jù)文件涉及某電信公司在減少客戶群中的客戶流失方面的舉措,每個個案對應(yīng)一個單獨的客戶,并記錄各類人口統(tǒng)計和服務(wù)用途信息。下面將結(jié)合本數(shù)據(jù)文件詳細(xì)說明如何得到數(shù)據(jù)文件的缺失值,從而認(rèn)識SPSS的缺失值分析過程。
一、數(shù)據(jù)輸入
二、操作步驟 1、進(jìn)入SPSS,打開相關(guān)數(shù)據(jù)文件,“分析”|“缺失值分析”命令2、選擇“婚姻狀況[marital]”“受教育水平[ed]”“退休[retire]”及“性別[gender]”4個變量進(jìn)入“分類變量”列表框;選擇“服務(wù)月數(shù)[tenure]”“年齡[age]”“在現(xiàn)住址居住年數(shù)[address]”“家庭收入(千)[income]”“現(xiàn)職位工作年數(shù)[employ]”及“家庭人數(shù)[reside]”6個變量進(jìn)入“定量變量”列表框。
3、在“缺失值分析”對話框中單擊“模式”按鈕,彈出“缺失值分析:模式”對話框,選中“顯示”選項組中的“個案表(按缺失值模式分組)”復(fù)選框,從“以下對象的缺失模式”列表框中選中income、ed、retire和gender 4個變量進(jìn)入“以下對象的附加信息”列表框中。
其他采用默認(rèn)設(shè)置。設(shè)置完畢后,單擊“繼續(xù)”按鈕,回到“缺失值分析”對話框。
4、單擊“描述”按鈕,彈出“缺失值分析:描述”對話框。選中“單變量統(tǒng)計”復(fù)選框及“指示符變量統(tǒng)計”選項組中的“使用由指示符變量構(gòu)成的組執(zhí)行t檢驗”和“生成分類變量和指示符變量的交叉表”復(fù)選框,其他采用默認(rèn)設(shè)置。
5、勾選EM,其余設(shè)置采用系統(tǒng)默認(rèn)值即可。單擊“確定”按鈕,等待輸出結(jié)果。
[if !supportLineBreakNewLine]
[endif]
四、結(jié)果分析
1、單變量統(tǒng)計表下表給出了所有分析變量未缺失數(shù)據(jù)的頻數(shù)、平均值和標(biāo)準(zhǔn)差,同時給出了缺失值的個數(shù)和百分比以及極值的統(tǒng)計信息。通過這些信息,我們可以初步了解數(shù)據(jù)的概貌特征,以employ一欄為例,employ變量的有效數(shù)據(jù)有904個,它們的平均值為11,標(biāo)準(zhǔn)差為10.113,缺失數(shù)據(jù)有96個,占數(shù)據(jù)總數(shù)的比例為9.6%,有15個極大值。
2、估算表下兩個表使用EM法進(jìn)行缺失值的估算后,總體數(shù)據(jù)的均值和標(biāo)準(zhǔn)差的變化情況,其中“所有值”為原始數(shù)據(jù)的統(tǒng)計特征,EM為使用EM法后總體數(shù)據(jù)的統(tǒng)計特征。
3
、獨立方差t檢驗表獨立方差t測試結(jié)果,用戶可以從中找出影響其他定量變量的變量的缺失值模式, 即通過單個方差 t 統(tǒng)計量結(jié)果,檢驗缺失值是否為完全隨機(jī)缺失。 可以看出,年齡大的人傾向于不報告收入水平,當(dāng)收入值缺失時,age的均值是49.73,當(dāng)收入值完整時,age的均值為40.01。通過income一欄的t統(tǒng)計量可以看出,income的缺失將明顯影響其他定量變量,這就說明income的缺失不是完全隨機(jī)缺失。
4、分類變量和定量變量交叉表以marital為例給出了分類變量與其他定量變量間的交叉表。該表給出了在不同婚姻情況下,各分類變量非缺失的個數(shù)和百分比,以及各種缺失值的個數(shù)和百分比,圖中標(biāo)識了系統(tǒng)缺失值的取值,以及各變量在不同婚姻情況中的分布情況。
5、表格模式輸出結(jié)果下表給出了表格模式輸出結(jié)果(缺失值樣式表),它給出了缺失值分布的詳細(xì)信息,X為使用該模式下缺失的變量。由圖可以看出,所有顯示的950個個案中,9個變量值都完整的個案數(shù)有475個,缺失income值的個案有109個,同時缺失address和income值的個案有16個,其他數(shù)據(jù)的解釋類似。
6、EM估算統(tǒng)計表下面三個表給出了EM算法的相關(guān)統(tǒng)計量,包括EM平均值、協(xié)方差和相關(guān)性。從EM平均值輸出結(jié)果中可知,age變量的平均值為41.91,從EM協(xié)方差輸出結(jié)果中可知,age和tenture間的協(xié)方差值為135.326,從EM相關(guān)性輸出結(jié)果中可知,age與tenture的相關(guān)系數(shù)為0.496。另外,從三個表格下方的 利特爾的MCAR檢驗可知,卡方檢驗的顯著性值明顯小于0.05,因此,我們拒絕了缺失值為完全隨機(jī)缺失(MCAR)的假設(shè) ,這也驗證了3、獨立方差t檢驗表所得到的結(jié)論。
[if !supportLineBreakNewLine]
[endif]
參考案例數(shù)據(jù):
[if !supportLineBreakNewLine]
[endif]
[if !supportLists]【1】 [endif]spss統(tǒng)計分析從入門到精通 (第四版) 楊維忠,陳勝可,劉榮 清華大學(xué)出版社
(獲取更多知識,前往gz號程式解說)
原文來自https://mp.weixin.qq.com/s/CsMIoA_vu8HJoPvW16oNFg
以上就是關(guān)于回歸分析中數(shù)據(jù)缺失怎么處理相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。
推薦閱讀: