-
當前位置:首頁 > 創(chuàng)意學院 > 技術 > 專題列表 > 正文
數(shù)據分析有幾種方法(數(shù)據分析有幾種方法)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關于數(shù)據分析有幾種方法的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關鍵詞,就能返回你想要的內容,越精準,寫出的就越詳細,有微信小程序端、在線網頁版、PC客戶端
創(chuàng)意嶺作為行業(yè)內優(yōu)秀企業(yè),服務客戶遍布全國,網絡營銷相關業(yè)務請撥打175-8598-2043,或微信:1454722008
本文目錄:
一、數(shù)據分析的六種基本分析方法
數(shù)據分析的六種基本分析方法:
1、對比分析法 :常用于對縱向的、橫向的、最為突出的、計劃與實際的等各種相關數(shù)據的。例如:今年與去年同期工資收入的增長情況、3月CPI環(huán)比增長情況等。
2、趨勢分析法:常用于在一段時間周期內,通過分析數(shù)據運行的變化趨勢(上升或下降),為未來的發(fā)展方向提供幫助。例如:用電量的季節(jié)性波動、股市的漲跌趨勢等。
3、相關分析法:常用于分析兩個或多個變量之間的性質以及相關程度。例如:氣溫與用電量的相關性、運動量大小與體重的相關性等。
4、回歸分析法:常用于分析一個或多個自變量的變化對一個特定因變量的影響程度,從而確定其關系。例如:氣溫、用電設備、用電時長等因素對用電量數(shù)值大小的影響程度、工資收入的高低對生活消費支出大小的影響程度等。
5、描述性分析法:常用于對一組數(shù)據樣本的各種特征進行分析,以便于描述樣本的各種及其所代表的總體的特征。例如:本月日平均用電量、上海市工資收入中位數(shù)等。
6、結構分析法 :常用于分析數(shù)據總體的內部特征、性質和變化規(guī)律等。例如:各部分用電量占總用電的比重、生活消費支出構成情況等。
二、16種常用的數(shù)據分析方法匯總
一、描述統(tǒng)計
描述性統(tǒng)計是指運用制表和分類,圖形以及計筠概括性數(shù)據來描述數(shù)據的集中趨勢、離散趨勢、偏度、峰度。
1、缺失值填充:常用方法:剔除法、均值法、最小鄰居法、比率回歸法、決策樹法。
2、正態(tài)性檢驗:很多統(tǒng)計方法都要求數(shù)值服從或近似服從正態(tài)分布,所以之前需要進行正態(tài)性檢驗。常用方法:非參數(shù)檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。
二、假設檢驗
1、參數(shù)檢驗
參數(shù)檢驗是在已知總體分布的條件下(一股要求總體服從正態(tài)分布)對一些主要的參數(shù)(如均值、百分數(shù)、方差、相關系數(shù)等)進行的檢驗 。
1)U驗 使用條件:當樣本含量n較大時,樣本值符合正態(tài)分布
2)T檢驗 使用條件:當樣本含量n較小時,樣本值符合正態(tài)分布
A 單樣本t檢驗:推斷該樣本來自的總體均數(shù)μ與已知的某一總體均數(shù)μ0 (常為理論值或標準值)有無差別;
B 配對樣本t檢驗:當總體均數(shù)未知時,且兩個樣本可以配對,同對中的兩者在可能會影響處理效果的各種條件方面扱為相似;
C 兩獨立樣本t檢驗:無法找到在各方面極為相似的兩樣本作配對比較時使用。
2、非參數(shù)檢驗
非參數(shù)檢驗則不考慮總體分布是否已知,常常也不是針對總體參數(shù),而是針對總體的某些一股性假設(如總體分布的位罝是否相同,總體分布是否正態(tài))進行檢驗。
適用情況:順序類型的數(shù)據資料,這類數(shù)據的分布形態(tài)一般是未知的。
A 雖然是連續(xù)數(shù)據,但總體分布形態(tài)未知或者非正態(tài);
B 體分布雖然正態(tài),數(shù)據也是連續(xù)類型,但樣本容量極小,如10以下;
主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、游程檢驗、K-量檢驗等。
三、信度分析
檢査測量的可信度,例如調查問卷的真實性。
分類:
1、外在信度:不同時間測量時量表的一致性程度,常用方法重測信度
2、內在信度;每個量表是否測量到單一的概念,同時組成兩表的內在體項一致性如何,常用方法分半信度。
四、列聯(lián)表分析
用于分析離散變量或定型變量之間是否存在相關。
對于二維表,可進行卡方檢驗,對于三維表,可作Mentel-Hanszel分層分析。
列聯(lián)表分析還包括配對計數(shù)資料的卡方檢驗、行列均為順序變量的相關檢驗。
五、相關分析
研究現(xiàn)象之間是否存在某種依存關系,對具體有依存關系的現(xiàn)象探討相關方向及相關程度。
1、單相關: 兩個因素之間的相關關系叫單相關,即研究時只涉及一個自變量和一個因變量;
2、復相關 :三個或三個以上因素的相關關系叫復相關,即研究時涉及兩個或兩個以上的自變量和因變量相關;
3、偏相關:在某一現(xiàn)象與多種現(xiàn)象相關的場合,當假定其他變量不變時,其中兩個變量之間的相關關系稱為偏相關。
六、方差分析
使用條件:各樣本須是相互獨立的隨機樣本;各樣本來自正態(tài)分布總體;各總體方差相等。
分類
1、單因素方差分析:一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應變量的關系
2、多因素有交互方差分析:一頊實驗有多個影響因素,分析多個影響因素與響應變量的關系,同時考慮多個影響因素之間的關系
3、多因素無交互方差分析:分析多個影響因素與響應變量的關系,但是影響因素之間沒有影響關系或忽略影響關系
4、協(xié)方差分祈:傳統(tǒng)的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機因素,使之影響了分祈結果的準確度。協(xié)方差分析主要是在排除了協(xié)變量的影響后再對修正后的主效應進行方差分析,是將線性回歸與方差分析結合起來的一種分析方法,
七、回歸分析
分類:
1、一元線性回歸分析:只有一個自變量X與因變量Y有關,X與Y都必須是連續(xù)型變量,因變量y或其殘差必須服從正態(tài)分布。
2、多元線性回歸分析
使用條件:分析多個自變量與因變量Y的關系,X與Y都必須是連續(xù)型變量,因變量y或其殘差必須服從正態(tài)分布 。
1)變呈篩選方式:選擇最優(yōu)回歸方程的變里篩選法包括全橫型法(CP法)、逐步回歸法,向前引入法和向后剔除法
2)橫型診斷方法:
A 殘差檢驗: 觀測值與估計值的差值要艱從正態(tài)分布
B 強影響點判斷:尋找方式一般分為標準誤差法、Mahalanobis距離法
C 共線性診斷:
診斷方式:容忍度、方差擴大因子法(又稱膨脹系數(shù)VIF)、特征根判定法、條件指針CI、方差比例
處理方法:增加樣本容量或選取另外的回歸如主成分回歸、嶺回歸等
3、Logistic回歸分析
線性回歸模型要求因變量是連續(xù)的正態(tài)分布變里,且自變量和因變量呈線性關系,而Logistic回歸模型對因變量的分布沒有要求,一般用于因變量是離散時的情況
分類:
Logistic回歸模型有條件與非條件之分,條件Logistic回歸模型和非條件Logistic回歸模型的區(qū)別在于參數(shù)的估計是否用到了條件概率。
4、其他回歸方法 非線性回歸、有序回歸、Probit回歸、加權回歸等
八、聚類分析
樣本個體或指標變量按其具有的特性進行分類,尋找合理的度量事物相似性的統(tǒng)計量。
1、性質分類:
Q型聚類分析:對樣本進行分類處理,又稱樣本聚類分祈 使用距離系數(shù)作為統(tǒng)計量衡量相似度,如歐式距離、極端距離、絕對距離等
R型聚類分析:對指標進行分類處理,又稱指標聚類分析 使用相似系數(shù)作為統(tǒng)計量衡量相似度,相關系數(shù)、列聯(lián)系數(shù)等
2、方法分類:
1)系統(tǒng)聚類法: 適用于小樣本的樣本聚類或指標聚類,一般用系統(tǒng)聚類法來聚類指標,又稱分層聚類
2)逐步聚類法 :適用于大樣本的樣本聚類
3)其他聚類法 :兩步聚類、K均值聚類等
九、判別分析
1、判別分析:根據已掌握的一批分類明確的樣品建立判別函數(shù),使產生錯判的事例最少,進而對給定的一個新樣品,判斷它來自哪個總體
2、與聚類分析區(qū)別
1)聚類分析可以對樣本逬行分類,也可以對指標進行分類;而判別分析只能對樣本
2)聚類分析事先不知道事物的類別,也不知道分幾類;而判別分析必須事先知道事物的類別,也知道分幾類
3)聚類分析不需要分類的歷史資料,而直接對樣本進行分類;而判別分析需要分類歷史資料去建立判別函數(shù),然后才能對樣本進行分類
3、進行分類 :
1)Fisher判別分析法 :
以距離為判別準則來分類,即樣本與哪個類的距離最短就分到哪一類, 適用于兩類判別;
以概率為判別準則來分類,即樣本屬于哪一類的概率最大就分到哪一類,適用于
適用于多類判別。
2)BAYES判別分析法 :
BAYES判別分析法比FISHER判別分析法更加完善和先進,它不僅能解決多類判別分析,而且分析時考慮了數(shù)據的分布狀態(tài),所以一般較多使用;
十、主成分分析
將彼此梠關的一組指標變適轉化為彼此獨立的一組新的指標變量,并用其中較少的幾個新指標變量就能綜合反應原多個指標變量中所包含的主要信息 。
十一、因子分析
一種旨在尋找隱藏在多變量數(shù)據中、無法直接觀察到卻影響或支配可測變量的潛在因子、并估計潛在因子對可測變量的影響程度以及潛在因子之間的相關性的一種多元統(tǒng)計分析方法
與主成分分析比較:
相同:都能夠起到済理多個原始變量內在結構關系的作用
不同:主成分分析重在綜合原始變適的信息.而因子分析重在解釋原始變量間的關系,是比主成分分析更深入的一種多元統(tǒng)計方法
用途:
1)減少分析變量個數(shù)
2)通過對變量間相關關系探測,將原始變量進行分類
十二、時間序列分析
動態(tài)數(shù)據處理的統(tǒng)計方法,研究隨機數(shù)據序列所遵從的統(tǒng)計規(guī)律,以用于解決實際問題;時間序列通常由4種要素組成:趨勢、季節(jié)變動、循環(huán)波動和不規(guī)則波動。
主要方法:移動平均濾波與指數(shù)平滑法、ARIMA橫型、量ARIMA橫型、ARIMAX模型、向呈自回歸橫型、ARCH族模型
十三、生存分析
用來研究生存時間的分布規(guī)律以及生存時間和相關因索之間關系的一種統(tǒng)計分析方法
1、包含內容:
1)描述生存過程,即研究生存時間的分布規(guī)律
2)比較生存過程,即研究兩組或多組生存時間的分布規(guī)律,并進行比較
3)分析危險因素,即研究危險因素對生存過程的影響
4)建立數(shù)學模型,即將生存時間與相關危險因素的依存關系用一個數(shù)學式子表示出來。
2、方法:
1)統(tǒng)計描述:包括求生存時間的分位數(shù)、中數(shù)生存期、平均數(shù)、生存函數(shù)的估計、判斷生存時間的圖示法,不對所分析的數(shù)據作出任何統(tǒng)計推斷結論
2)非參數(shù)檢驗:檢驗分組變量各水平所對應的生存曲線是否一致,對生存時間的分布沒有要求,并且檢驗危險因素對生存時間的影響。
A 乘積極限法(PL法)
B 壽命表法(LT法)
3)半參數(shù)橫型回歸分析:在特定的假設之下,建立生存時間隨多個危險因素變化的回歸方程,這種方法的代表是Cox比例風險回歸分析法
4)參數(shù)模型回歸分析:已知生存時間服從特定的參數(shù)橫型時,擬合相應的參數(shù)模型,更準確地分析確定變量之間的變化規(guī)律
十四、典型相關分析
相關分析一般分析兩個變里之間的關系,而典型相關分析是分析兩組變里(如3個學術能力指標與5個在校成績表現(xiàn)指標)之間相關性的一種統(tǒng)計分析方法。
典型相關分析的基本思想和主成分分析的基本思想相似,它將一組變量與另一組變量之間單變量的多重線性相關性研究轉化為對少數(shù)幾對綜合變量之間的簡單線性相關性的研究,并且這少數(shù)幾對變量所包含的線性相關性的信息幾乎覆蓋了原變量組所包含的全部相應信息。
十五、R0C分析
R0C曲線是根據一系列不同的二分類方式(分界值或決定閾).以真陽性率(靈敏度)為縱坐標,假陽性率(1-特異度)為橫坐標繪制的曲線
用途:
1、R0C曲線能很容易地査出任意界限值時的對疾病的識別能力
用途
2、選擇最佳的診斷界限值。R0C曲線越靠近左上角,試驗的準確性就越高;
3、兩種或兩種以上不同診斷試驗對疾病識別能力的比較,一股用R0C曲線下面積反映診斷系統(tǒng)的準確性。
十六、其他分析方法
多重響應分析、距離分祈、項目分祈、對應分祈、決策樹分析、神經網絡、系統(tǒng)方程、蒙特卡洛模擬等。
三、三種數(shù)據分析方法
首先,常見的數(shù)據分析方法有9種: 對比分析,多維度拆解分析,漏斗觀察 ,分布分析,用戶留存分析,用戶畫像,歸因查找,路徑挖掘,行為序列分析。
這里將重點展開分享前三種數(shù)據分析方法: 對比分析,多維度拆解分析,漏斗觀察。
1、對比分析
對比分析是 最基礎最常見 的數(shù)據分析方法,能 直觀的看出事物某階段的變化,并且可以準確、量化地表達出這種變化/差距是多少 ,重點從「比什么」「怎么比」「跟誰比」三個維度進行分析。
(1)比什么
比什么,分為絕對值(#)和比例值(%)的比較。
絕對值本身已是具備“價值”的數(shù)據,比如銷售金額2000元,閱讀數(shù)10000萬,單看數(shù)字不易得知問題的嚴重程度;
比例值只有在具體環(huán)境中看比例才具備對比價值 ,比如活躍占比,注冊轉化率, 單看比例值容易受到極端值的影響。
(2)怎么比
怎么比,分為環(huán)比和同比。
常見的環(huán)比有日環(huán)比,月環(huán)比 ,是指 與當前時間范圍相鄰的上一個時間范圍對比 ,主要用于對短期內具備連續(xù)性的數(shù)據進行分析,如指標設定;
常見的同比有周同比,年同比 ,是指 與當前時間范圍上層時間范圍的前一范圍中同樣位置進行數(shù)據對比分析 ,主要用于觀察更長期的數(shù)據集,消除短期數(shù)據的干擾。
(3)和誰比
和誰比,分為和自己比、和行業(yè)比。
和自己比 ,可以從不同的時間維度,不同的業(yè)務線,過往經驗估計,跟自己比較;
和行業(yè)比 ,可以觀察分析得出是自身因素,還是行業(yè)趨勢,比如都跌的時候,能否比同行跌的少?都漲的時候,能都比同行漲的快?
現(xiàn)在回到上面這條「飛豬公關數(shù)據」“放假消息公布以后,10點到12點,國內機票的預定量,比上周同時段增長超過50%;國際機票的增長更加驚人,超過了150%?!?#160;
很顯然,
“50%,150%”都是比例值;
“比上周同時段增長...”由于是#五一放假4天#消息導致的數(shù)據短期內連續(xù)上漲,所以選擇的是周同比;
“國內機票的預定…國際機票...”飛豬是在跟自己比,若有行業(yè)數(shù)據公布作為依據,可以判斷飛豬是比同行漲的快/慢。
2、多維度拆解
多維度拆解,是最重要的一種思維方式, 一個單一指標是不具備分析價值的,我們需要從多個維度進行拆解分析才有意義,最終以獲得更加全面的數(shù)據洞察。
數(shù)據分析的本質是用不同的視角去拆分,觀察同一數(shù)據指標。多維度拆解的本質多維度拆分指標/業(yè)務流程,來觀察數(shù)據變動。
多維度拆解的適用場景:
(1) 分析單一指標的構成、比例時 ,比如分欄目的播放量、新老用戶比例;
(2) 針對流程進行拆解 ,比如不同渠道的瀏覽、購買轉化率,不同省份的活動參與漏斗;
(3) 還原行為發(fā)生時的場景 ,比如打賞主播的用戶的等級、性別、關注頻道,是否在WiFi或4G環(huán)境下。
現(xiàn)在回到第一個場景:“比如,某段時間公司做了一波網紅大V推廣,老板想看看推廣效果,你需要來個復盤分析…”
這時就需要用到多維度拆解分析方法,大致的分析思路這樣這樣:
(1)從APP啟動事件來分析
按照 設備類型 查看,比如Android、iPhone…不同機型的啟動情況;
按照 啟動來源 來看,比如是從桌面、短信、PUSH…不同來源的啟動情況;
按照 城市等級 觀察,比如一線、二線、三線及以下…不同城市的啟動情況;
按照 新老用戶 細分,比如總體、新用戶、老用戶...不同用戶群體的啟動情況。
(2)從業(yè)務流程拆解
比如對于簡單的“注冊——>下單——>支付”流程而言:
支付漏斗按照 渠道 查看,渠道可能分為百度、頭條、微信公眾號…
支付漏斗按照 城市 來看,城市可能分為一線、二線、三線及以下…
支付漏斗按照 設備 來看,設備可能分為Android、iPhone…
3、漏斗觀察
漏斗觀察的分析方法我們常見且熟悉,它的運作原理是 通過一連串向后影響的用戶行為來觀察目標。
適用于有明確的業(yè)務流程和業(yè)務目標的業(yè)務,不適用于沒有明確的業(yè)務流程、跳轉關系紛繁復雜的業(yè)務。
通過漏斗觀察核心業(yè)務流程的健康程度。
盤點一下在建立漏斗時容易掉的坑:
(1)首先漏斗觀察需要有一定的時間窗口 ,具體需要根據業(yè)務實際情況,選擇對應的時間窗口。
按天觀察 ,適用于對用戶心智的影響只在短期內有效的情況,比如一些短期活動(當前有效,倒計時設置等);
按周觀察 ,適用于業(yè)務本身復雜,用戶決策成本高,需要跨日才能完成的情況,比如投資理財,開戶注資;
按月觀察 ,適用于用戶決策周期更長的情況,比如裝修買房。
(2)其次漏斗觀察是有嚴格順序的 ,不可以用ABCDE(僅搜索途徑的數(shù)據)的漏斗,看ACE(包含分類、搜索、推薦位三條途徑的數(shù)據)的數(shù)據 。
(3)漏斗的計算單位可以基于用戶,也可以基于時間。
觀察用戶,是關心整個業(yè)務流程的推動;
觀察事件,是關心某一步具體的轉化率,但無法獲知事件流轉的真實情況。
(4)結果指標的數(shù)據不符合預期時,需要自查是否只有一個漏斗能夠觸達最終目標 ,也就是檢查下,是否出現(xiàn)第二個坑的情況。
四、案例分享——某款社交APP在國慶期間數(shù)據猛漲原因分析
場景是這樣,現(xiàn)在有一款匿名社交APP,類似于探探,數(shù)據范圍在 2018 年 9 月 1 日 - 10 月 14 日之間,其中在國慶期間數(shù)據猛漲,試分析其原因。
(1)首先定義“數(shù)據猛漲”
作為一款匿名社交產品,可以選擇觀察「注冊成功」事件。
由于產生行為數(shù)據的時間較短,所以最后選擇關注“注冊用戶數(shù)的日環(huán)比是否有比較大的增漲”,并按照「注冊成功」事件的「觸發(fā)用戶數(shù)」進行查看:
(2)發(fā)現(xiàn)異常定位問題
從上面這張注冊成功的觸發(fā)用戶數(shù)折線圖可以看出,國慶期間的注冊用戶日環(huán)比存在較高的數(shù)據增長差,就是折線右側出現(xiàn)的一段高峰。
由此判斷,國慶期間由于某種原因造成了注冊用戶數(shù)的大幅增長,具體原因,待進一步拆解分析。
(3)多維度拆解分析
按照操作系統(tǒng)區(qū)分觀察,可以發(fā)現(xiàn)Android的漲幅明顯高于iOS,iOS稍有漲幅,但漲幅不明顯。
這一步仍無法直接定位問題,需進一步拆解分析。
上圖 按照注冊方式觀察 ,微信、微博、手機號這三種注冊方式,在國慶期間均有漲幅且漲幅相似,可初步判斷注冊方式與此次數(shù)據異常無關。
上圖 按照性別觀察 ,男生和女生在國慶期間均有漲幅,男生略高于女生,但仍無法直接定位問題,需進一步拆解分析;
上圖 按照年齡觀察 ,不同年齡層的用戶在國慶期間均有漲幅且漲幅相似,可初步判斷年齡與此次數(shù)據異常無關。
問題來了!按照省份觀察 ,上圖明顯看到有一根折現(xiàn)異常升高!
其實是海南省的日環(huán)比漲幅增高,除此之外,云南省的環(huán)比漲幅相較其他省份也明顯升高。
綜上觀察分析基本可以判斷,國慶期間數(shù)據猛漲,跟海南省、云南省的注冊用戶數(shù)大幅增長有關,具體原因待進一步拆解分析。
繼續(xù) 按照城市觀察 ,篩選條件設置為省份等于海南省,云南省,直觀看到麗江市、大理市、三亞市、??谑袊鴳c期間數(shù)據猛漲。
綜合以上多維度分析發(fā)現(xiàn),國慶期間數(shù)據猛漲,主要是由于 麗江市、大理市、三亞市、??谑?四個城市有明顯漲幅。
而這四個城市都屬于旅游城市,且數(shù)據增長時期伴隨國慶假期。
于是猜測可能是,該款匿名社交產品在國慶期間,面向這四個熱門旅游目的地,做了推廣活動,關于數(shù)據猛漲真實的具體原因,還需要與市場、運營、或負責增長相關的同事溝通確認。
四、論文數(shù)據分析方法有哪些
論文數(shù)據方法有多選題研究、聚類分析和權重研究三種。
1、多選題研究:多選題分析可分為四種類型包括:多選題、單選-多選、多選-單選、多選-多選。
2、聚類分析:聚類分析以多個研究標題作為基準,對樣本對象進行分類。如果是按樣本聚類,則使用SPSSAU的進階方法模塊中的“聚類”功能,系統(tǒng)會自動識別出應該使用K-means聚類算法還是K-prototype聚類算法。
3、權重研究:權重研究是用于分析各因素或指標在綜合體系中的重要程度,最終構建出權重體系。權重研究有多種方法包括:因子分析、熵值法、AHP層次分析法、TOPSIS、模糊綜合評價、灰色關聯(lián)等。
拓展資料:
一、回歸分析
在實際問題中,經常會遇到需要同時考慮幾個變量的情況,比如人的身高與體重,血壓與年齡的關系,他們之間的關系錯綜復雜無法精確研究,以致于他們的關系無法用函數(shù)形式表達出來。為研究這類變量的關系,就需要通過大量實驗觀測獲得數(shù)據,用統(tǒng)計方法去尋找他們之間的關系,這種關系反映了變量間的統(tǒng)計規(guī)律。而統(tǒng)計方法之一就是回歸分析。
最簡單的就是一元線性回歸,只考慮一個因變量y和一個自變量x之間的關系。例如,我們想研究人的身高與體重的關系,需要搜集大量不同人的身高和體重數(shù)據,然后建立一個一元線性模型。接下來,需要對未知的參數(shù)進行估計,這里可以采用最小二乘法。最后,要對回歸方程進行顯著性檢驗,來驗證y是否隨著x線性變化。這里,我們通常采用t檢驗。
二、方差分析
在實際工作中,影響一件事的因素有很多,人們希望通過實驗來觀察各種因素對實驗結果的影響。方差分析是研究一種或多種因素的變化對實驗結果的觀測值是否有顯著影響,從而找出較優(yōu)的實驗條件或生產條件的一種數(shù)理統(tǒng)計方法。
人們在實驗中所觀察到的數(shù)量指標稱為觀測值,影響觀測值的條件稱為因素,因素的不同狀態(tài)稱為水平,一個因素可能有多種水平。
在一項實驗中,可以得到一系列不同的觀測值,有的是處理方式不同或條件不同引起的,稱為因素效應。有的是誤差引起的,稱做實驗誤差。方差分析的主要工作是將測量數(shù)據的總變異按照變異原因的不同分解為因素效應和試驗誤差,并對其作出數(shù)量分析,比較各種原因在總變異中所占的重要程度,作為統(tǒng)計推斷的依據。
例如,我們有四種不同配方下生產的元件,想判斷他們的使用壽命有無顯著差異。在這里,配方是影響元件使用壽命的因素,四種不同的配方成為四種水平??梢岳梅讲罘治鰜砼袛唷?/p>
三、判別分析
判別分析是用來進行分類的統(tǒng)計方法。我來舉一個判別分析的例子,想要對一個人是否有心臟病進行判斷,可以取一批沒有心臟病的病人,測其一些指標的數(shù)據,然后再取一批有心臟病的病人,測量其同樣指標的數(shù)據,利用這些數(shù)據建立一個判別函數(shù),并求出相應的臨界值。
這時候,對于需要判別的病人,還是測量相同指標的數(shù)據,將其帶入判別函數(shù),求得判別得分和臨界值,即可判別此人是否屬于有心臟病的群體。
四、聚類分析
聚類分析同樣是用于分類的統(tǒng)計方法,它可以用來對樣品進行分類,也可以用來對變量進行分類。我們常用的是系統(tǒng)聚類法。首先,將n個樣品看成n類,然后將距離最近的兩類合并成一個新類,我們得到n-1類,再找出最接近的兩類加以合并變成n-2類,如此下去,最后所有的樣品均在一類,將上述過程畫成一張圖。在圖中可以看出分成幾類時候每類各有什么樣品。
比如,對中國31個省份的經濟發(fā)展情況進行分類,可以通過收集各地區(qū)的經濟指標,例如GDP,人均收入,物價水平等等,并進行聚類分析,就能夠得到不同類別數(shù)量下是如何分類的。
五、主成分分析
主成分分析是對數(shù)據做降維處理的統(tǒng)計分析方法,它能夠從數(shù)據中提取某些公共部分,然后對這些公共部分進行分析和處理。
在用統(tǒng)計分析方法研究多變量的課題時,變量個數(shù)太多就會增加課題的復雜性。人們自然希望變量個數(shù)較少而得到的信息較多。在很多情形,變量之間是有一定的相關關系的,當兩個變量之間有一定相關關系時,可以解釋為這兩個變量反映此課題的信息有一定的重疊。
主成分分析是對于原先提出的所有變量,將重復的變量(關系緊密的變量)刪去多余,建立盡可能少的新變量,使得這些新變量是兩兩不相關的,而且這些新變量在反映課題的信息方面盡可能保持原有的信息。
最經典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。
如果第一主成分不足以代表原來P個指標的信息,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2中,用數(shù)學語言表達就是要求Cov(F1, F2)=0,則稱F2為第二主成分,依此類推可以構造出第三、第四,……,第P個主成分。
六、因子分析
因子分析是主成分分析的推廣和發(fā)展,它也是多元統(tǒng)計分析中降維的一種方法。因子分析將多個變量綜合為少數(shù)幾個因子,以再現(xiàn)原始變量與因子之間的相關關系。
在主成分分析中,每個原始變量在主成分中都占有一定的分量,這些分量(載荷)之間的大小分布沒有清晰的分界線,這就造成無法明確表述哪個主成分代表哪些原始變量,也就是說提取出來的主成分無法清晰的解釋其代表的含義。
因子分析解決主成分分析解釋障礙的方法是通過因子軸旋轉。因子軸旋轉可以使原始變量在公因子(主成分)上的載荷重新分布,從而使原始變量在公因子上的載荷兩級分化,這樣公因子(主成分)就能夠用哪些載荷大的原始變量來解釋。以上過程就解決了主成分分析的現(xiàn)實含義解釋障礙。
例如,為了了解學生的學習能力,觀測了許多學生數(shù)學,語文,英語,物理,化學,生物,政治,歷史,地理九個科目的成績。為了解決這個問題,可以建立一個因子模型,用幾個互不相關的公共因子來代表原始變量。我們還可以根據公共因子在原始變量上的載荷,給公共因子命名。
例如,一個公共因子在英語,政治,歷史變量上的載荷較大,由于這些課程需要記憶的內容很多,我們可以將它命名為記憶因子。以此類推,我們可以得到幾個能評價學生學習能力的因子,假設有記憶因子,數(shù)學推導因子,計算能力因子等。
接下來,可以計算每個學生的各個公共因子得分,并且根據每個公共因子的方差貢獻率,計算出因子總得分。通過因子分析,能夠對學生各方面的學習能力有一個直觀的認識。
七、典型相關分析
典型相關分析同樣是用于數(shù)據降維處理,它用來研究兩組變量之間的關系。它分別對兩組變量提取主成分。從同一組內部提取的主成分之間互不相關。用從兩組之間分別提取的主成分的相關性來描述兩組變量整體的線性相關關系。
以上就是關于數(shù)據分析有幾種方法相關問題的回答。希望能幫到你,如有更多相關問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內容。
推薦閱讀:
問卷調查數(shù)據造假有人查嗎(問卷調查數(shù)據造假有人查嗎知乎)
快手平臺數(shù)據免費查詢(快手平臺數(shù)據免費查詢官網)
常州企業(yè)景觀設計施工招聘(常州企業(yè)景觀設計施工招聘網)