HOME 首頁
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    數(shù)據(jù)分析實(shí)戰(zhàn)45講百度云(數(shù)據(jù)分析實(shí)戰(zhàn)45講pdf)

    發(fā)布時(shí)間:2023-03-21 09:13:35     稿源: 創(chuàng)意嶺    閱讀: 369        問大家

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于數(shù)據(jù)分析實(shí)戰(zhàn)45講百度云的問題,以下是小編對(duì)此問題的歸納整理,讓我們一起來看看吧。

    開始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端

    官網(wǎng):https://ai.de1919.com

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀企業(yè),服務(wù)客戶遍布全國,網(wǎng)絡(luò)營銷相關(guān)業(yè)務(wù)請(qǐng)撥打175-8598-2043,或微信:1454722008

    本文目錄:

    數(shù)據(jù)分析實(shí)戰(zhàn)45講百度云(數(shù)據(jù)分析實(shí)戰(zhàn)45講pdf)

    一、《數(shù)據(jù)科學(xué)實(shí)戰(zhàn)手冊(cè)數(shù)據(jù)科學(xué)實(shí)戰(zhàn)手冊(cè)(R+Python)》pdf下載在線閱讀,求百度網(wǎng)盤云資源

    《數(shù)據(jù)科學(xué)實(shí)戰(zhàn)手冊(cè)數(shù)據(jù)科學(xué)實(shí)戰(zhàn)手冊(cè)(R+Python)》TonyOjeda(托尼·奧杰德)SeanPatrickMurphy(肖恩·派特里克·莫非)BenjaminBengfort(本杰明·班福特)電子書網(wǎng)盤下載免費(fèi)在線閱讀  

    鏈接:https://pan.baidu.com/s/1EqFNGdBQW46Nj8UdHnVLmA

    提取碼:bb2u  

    書名:數(shù)據(jù)科學(xué)實(shí)戰(zhàn)手冊(cè)

    作者名:Tony Ojeda(托尼·奧杰德) / Sean Patrick Murphy(肖恩·派特里克·莫非) / Benjamin Bengfort(本杰明·班福特)

    豆瓣評(píng)分:6.2

    出版社:人民郵電出版社

    出版年份:2016-8-1

    頁數(shù):326

    內(nèi)容介紹:

    這本書是基于R和Python的數(shù)據(jù)科學(xué)項(xiàng)目案例集錦,內(nèi)容涵蓋了基于數(shù)據(jù)科學(xué)的所有要素,包括數(shù)據(jù)采集、處理、清洗、分析、建模、可視化以及數(shù)據(jù)產(chǎn)品的搭建。案例包含了汽車數(shù)據(jù)分析、股票市場(chǎng)建模、社交網(wǎng)絡(luò)分析、推薦系統(tǒng)、地理信息分析,以及Python代碼的計(jì)算優(yōu)化。通過手把手的案例解析,令讀者知其然并知其所以然。業(yè)界的數(shù)據(jù)分析師、數(shù)據(jù)挖掘工程師、數(shù)據(jù)科學(xué)家都可以讀一讀。想要了解實(shí)際工作中如何用數(shù)據(jù)產(chǎn)生價(jià)值的在校學(xué)生,或者對(duì)數(shù)據(jù)科學(xué)感興趣的人也值得一讀。

    作者介紹:

    Tony Ojeda(托尼·奧杰德),華盛頓DC數(shù)據(jù)社區(qū)的聯(lián)合創(chuàng)始人,一位經(jīng)驗(yàn)豐富的數(shù)據(jù)科學(xué)家和企業(yè)家,他在佛羅里達(dá)國際大學(xué)獲得金融碩士學(xué)位,并且在德保羅大學(xué)獲得了MBA學(xué)位。        Sean Patrick Murphy(肖恩·派特里克·莫非),華盛頓DC數(shù)據(jù)社區(qū)的聯(lián)合創(chuàng)始人,曾在約翰霍普金斯大學(xué)的應(yīng)用物理實(shí)驗(yàn)室做了15年的高級(jí)科學(xué)家,他專注于機(jī)器學(xué)習(xí)、信號(hào)處理、高性能計(jì)算以及建模和模擬。現(xiàn)在他是舊金山、紐約和華盛頓DC多家公司的數(shù)據(jù)顧問。                        Benjamin Bengfort(本杰明·班福特),一位非常有經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家和Python開發(fā)者。他曾在軍方、業(yè)界和學(xué)術(shù)界工作過8年。他目前在馬里蘭大學(xué)派克學(xué)院攻讀計(jì)算機(jī)博士學(xué)位,研究元識(shí)別和自然語言處理。他擁有北達(dá)科塔州立大學(xué)的計(jì)算機(jī)碩士學(xué)位,并是喬治城大學(xué)的客座教授。  

    二、《人人都是數(shù)據(jù)分析師Tableau應(yīng)用實(shí)戰(zhàn)》pdf下載在線閱讀,求百度網(wǎng)盤云資源

    《人人都是數(shù)據(jù)分析師》(劉紅閣)電子書網(wǎng)盤下載免費(fèi)在線閱讀

    鏈接:https://pan.baidu.com/s/1u70VFNpeeKW5dunEtMP9Tg

    密碼:8rfi

    書名:人人都是數(shù)據(jù)分析師

    作者:劉紅閣

    豆瓣評(píng)分:7.3

    出版社:人民郵電出版社

    出版年份:2015-11

    頁數(shù):344

    內(nèi)容簡(jiǎn)介:

    本書基于Tableau 9.1 最新版本編寫,詳細(xì)介紹了Tableau 的數(shù)據(jù)連接與編輯、圖形編輯與展示功能,包括數(shù)據(jù)連接與管理、基礎(chǔ)與高級(jí)圖形分析、地圖分析、高級(jí)數(shù)據(jù)操作、基礎(chǔ)統(tǒng)計(jì)分析、如何與R 集成進(jìn)行高級(jí)分析、分析圖表整合以及分析成果共享等主要內(nèi)容。同時(shí),書中以目前電力行業(yè)已有的監(jiān)測(cè)、分析業(yè)務(wù)實(shí)踐為基礎(chǔ),以豐富的實(shí)際案例貫穿始終,對(duì)各類方法、技術(shù)進(jìn)行了詳細(xì)說明,方便讀者快速掌握數(shù)據(jù)分析方法。

    本書適用于互聯(lián)網(wǎng)、銀行證券、咨詢審計(jì)、快消品、能源等行業(yè)數(shù)據(jù)分析用戶以及媒體、網(wǎng)站等數(shù)據(jù)可視化用戶。

    作者簡(jiǎn)介:

    劉紅閣博士

    百度鳳巢分析經(jīng)理,專注于數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化等領(lǐng)域。

    王淑娟

    埃森哲咨詢顧問,專注于電力行業(yè)運(yùn)營咨詢、數(shù)據(jù)分析及數(shù)據(jù)可視化等領(lǐng)域。

    溫融冰

    埃森哲咨詢經(jīng)理,專注于企業(yè)價(jià)值管理、預(yù)算與績(jī)效管理及數(shù)據(jù)分析等領(lǐng)域。

    三、《IBMSPSS數(shù)據(jù)分析與挖掘?qū)崙?zhàn)案例精粹》pdf下載在線閱讀,求百度網(wǎng)盤云資源

    《IBM SPSS數(shù)據(jù)分析與挖掘?qū)崙?zhàn)案例精粹》(張文彤)電子書網(wǎng)盤下載免費(fèi)在線閱讀

    鏈接:https://pan.baidu.com/s/1JLuFxmTN_B4UzyVOH-7PkQ

    提取碼:ue0n  

    書名:IBM SPSS數(shù)據(jù)分析與挖掘?qū)崙?zhàn)案例精粹

    作者:張文彤

    豆瓣評(píng)分:9.0

    出版社:清華大學(xué)出版社

    出版年份:2013-2-22

    頁數(shù):501

    內(nèi)容簡(jiǎn)介:

    《IBM SPSS數(shù)據(jù)分析與挖掘?qū)崙?zhàn)案例精粹》以IBM SPSS Statistics 20.0和IBM SPSS Modeler 14.1為工具,提供了醫(yī)療、金融、保險(xiǎn)、汽車、快速消費(fèi)品、市場(chǎng)研究、互聯(lián)網(wǎng)等多個(gè)行業(yè)的數(shù)據(jù)分析/挖掘案例,基于實(shí)戰(zhàn)需求,詳細(xì)講解整個(gè)案例的完整分析過程,并將模型和軟件的介紹融于案例講解之中,使讀者在閱讀時(shí)能突破方法和工具的局限,真正聚集于對(duì)數(shù)據(jù)分析精髓的領(lǐng)悟?!禝BM SPSS數(shù)據(jù)分析與挖掘?qū)崙?zhàn)案例精粹》所附光盤包括案例數(shù)據(jù)和分析程序/流文件,讀者可完整重現(xiàn)全部的分析內(nèi)容。

    四、決策樹的原理及算法

    決策樹基本上就是把我們以前的經(jīng)驗(yàn)總結(jié)出來。我給你準(zhǔn)備了一個(gè)打籃球的訓(xùn)練集。如果我們要出門打籃球,一般會(huì)根據(jù)“天氣”、“溫度”、“濕度”、“刮風(fēng)”這幾個(gè)條件來判斷,最后得到結(jié)果:去打籃球?還是不去?

    上面這個(gè)圖就是一棵典型的決策樹。我們?cè)谧鰶Q策樹的時(shí)候,會(huì)經(jīng)歷兩個(gè)階段:構(gòu)造和剪枝。

    構(gòu)造就是生成一棵完整的決策樹。簡(jiǎn)單來說,構(gòu)造的過程就是選擇什么屬性作為節(jié)點(diǎn)的過程,那么在構(gòu)造過程中,會(huì)存在三種節(jié)點(diǎn):

    根節(jié)點(diǎn):就是樹的最頂端,最開始的那個(gè)節(jié)點(diǎn)。在上圖中,“天氣”就是一個(gè)根節(jié)點(diǎn);

    內(nèi)部節(jié)點(diǎn):就是樹中間的那些節(jié)點(diǎn),比如說“溫度”、“濕度”、“刮風(fēng)”;

    葉節(jié)點(diǎn):就是樹最底部的節(jié)點(diǎn),也就是決策結(jié)果。

    剪枝就是給決策樹瘦身,防止過擬合。分為“預(yù)剪枝”(Pre-Pruning)和“后剪枝”(Post-Pruning)。

    預(yù)剪枝是在決策樹構(gòu)造時(shí)就進(jìn)行剪枝。方法是在構(gòu)造的過程中對(duì)節(jié)點(diǎn)進(jìn)行評(píng)估,如果對(duì)某個(gè)節(jié)點(diǎn)進(jìn)行劃分,在驗(yàn)證集中不能帶來準(zhǔn)確性的提升,那么對(duì)這個(gè)節(jié)點(diǎn)進(jìn)行劃分就沒有意義,這時(shí)就會(huì)把當(dāng)前節(jié)點(diǎn)作為葉節(jié)點(diǎn),不對(duì)其進(jìn)行劃分。

    后剪枝就是在生成決策樹之后再進(jìn)行剪枝,通常會(huì)從決策樹的葉節(jié)點(diǎn)開始,逐層向上對(duì)每個(gè)節(jié)點(diǎn)進(jìn)行評(píng)估。如果剪掉這個(gè)節(jié)點(diǎn)子樹,與保留該節(jié)點(diǎn)子樹在分類準(zhǔn)確性上差別不大,或者剪掉該節(jié)點(diǎn)子樹,能在驗(yàn)證集中帶來準(zhǔn)確性的提升,那么就可以把該節(jié)點(diǎn)子樹進(jìn)行剪枝。

    1是欠擬合,3是過擬合,都會(huì)導(dǎo)致分類錯(cuò)誤。

    造成過擬合的原因之一就是因?yàn)橛?xùn)練集中樣本量較小。如果決策樹選擇的屬性過多,構(gòu)造出來的決策樹一定能夠“完美”地把訓(xùn)練集中的樣本分類,但是這樣就會(huì)把訓(xùn)練集中一些數(shù)據(jù)的特點(diǎn)當(dāng)成所有數(shù)據(jù)的特點(diǎn),但這個(gè)特點(diǎn)不一定是全部數(shù)據(jù)的特點(diǎn),這就使得這個(gè)決策樹在真實(shí)的數(shù)據(jù)分類中出現(xiàn)錯(cuò)誤,也就是模型的“泛化能力”差。

    p(i|t) 代表了節(jié)點(diǎn) t 為分類 i 的概率,其中 log2 為取以 2 為底的對(duì)數(shù)。這里我們不是來介紹公式的,而是說存在一種度量,它能幫我們反映出來這個(gè)信息的不確定度。當(dāng)不確定性越大時(shí),它所包含的信息量也就越大,信息熵也就越高。

    ID3 算法計(jì)算的是信息增益,信息增益指的就是劃分可以帶來純度的提高,信息熵的下降。它的計(jì)算公式,是父親節(jié)點(diǎn)的信息熵減去所有子節(jié)點(diǎn)的信息熵。

    公式中 D 是父親節(jié)點(diǎn),Di 是子節(jié)點(diǎn),Gain(D,a) 中的 a 作為 D 節(jié)點(diǎn)的屬性選擇。

    因?yàn)?ID3 在計(jì)算的時(shí)候,傾向于選擇取值多的屬性。為了避免這個(gè)問題,C4.5 采用信息增益率的方式來選擇屬性。信息增益率 = 信息增益 / 屬性熵,具體的計(jì)算公式這里省略。

    當(dāng)屬性有很多值的時(shí)候,相當(dāng)于被劃分成了許多份,雖然信息增益變大了,但是對(duì)于 C4.5 來說,屬性熵也會(huì)變大,所以整體的信息增益率并不大。

    ID3 構(gòu)造決策樹的時(shí)候,容易產(chǎn)生過擬合的情況。在 C4.5 中,會(huì)在決策樹構(gòu)造之后采用悲觀剪枝(PEP),這樣可以提升決策樹的泛化能力。

    悲觀剪枝是后剪枝技術(shù)中的一種,通過遞歸估算每個(gè)內(nèi)部節(jié)點(diǎn)的分類錯(cuò)誤率,比較剪枝前后這個(gè)節(jié)點(diǎn)的分類錯(cuò)誤率來決定是否對(duì)其進(jìn)行剪枝。這種剪枝方法不再需要一個(gè)單獨(dú)的測(cè)試數(shù)據(jù)集。

    C4.5 可以處理連續(xù)屬性的情況,對(duì)連續(xù)的屬性進(jìn)行離散化的處理。比如打籃球存在的“濕度”屬性,不按照“高、中”劃分,而是按照濕度值進(jìn)行計(jì)算,那么濕度取什么值都有可能。該怎么選擇這個(gè)閾值呢,C4.5 選擇具有最高信息增益的劃分所對(duì)應(yīng)的閾值。

    針對(duì)數(shù)據(jù)集不完整的情況,C4.5 也可以進(jìn)行處理。

    暫無

    請(qǐng)你用下面的例子來模擬下決策樹的流程,假設(shè)好蘋果的數(shù)據(jù)如下,請(qǐng)用 ID3 算法來給出好蘋果的決策樹。

    「紅」的信息增益為:1「大」的信息增益為:0

    因此選擇「紅」的作為根節(jié)點(diǎn),「大」沒有用,剪枝。

    數(shù)據(jù)分析實(shí)戰(zhàn)45講.17 丨決策樹(上):要不要去打籃球?決策樹來告訴你

    以上就是關(guān)于數(shù)據(jù)分析實(shí)戰(zhàn)45講百度云相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。


    推薦閱讀:

    直播的時(shí)候?yàn)槭裁礇]有數(shù)據(jù)(直播的時(shí)候?yàn)槭裁礇]有數(shù)據(jù)了)

    短視頻的相關(guān)數(shù)據(jù)(短視頻的相關(guān)數(shù)據(jù)2021)

    抖音數(shù)據(jù)運(yùn)營的工作內(nèi)容(抖音數(shù)據(jù)運(yùn)營的工作內(nèi)容怎么寫)

    公司業(yè)務(wù)推廣文案(公司業(yè)務(wù)推廣文案范文)

    上海園林景觀設(shè)計(jì)報(bào)價(jià)(上海園林景觀設(shè)計(jì)免費(fèi)設(shè)計(jì))