HOME 首頁
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    關(guān)聯(lián)規(guī)則算法原理(關(guān)聯(lián)規(guī)則算法原理圖)

    發(fā)布時間:2023-04-14 02:19:56     稿源: 創(chuàng)意嶺    閱讀: 133        

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于關(guān)聯(lián)規(guī)則算法原理的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。

    開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端

    官網(wǎng):https://ai.de1919.com。

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請撥打電話175-8598-2043,或添加微信:1454722008

    本文目錄:

    關(guān)聯(lián)規(guī)則算法原理(關(guān)聯(lián)規(guī)則算法原理圖)

    一、apriori關(guān)聯(lián)規(guī)則算法

    解釋如下:

    Apriori是基于廣度優(yōu)先的關(guān)聯(lián)規(guī)則算法,即從頻繁1項(xiàng)集開始,采用頻繁k項(xiàng)集搜索頻繁k+1項(xiàng)集,直到不能找到包含更多項(xiàng)的頻繁項(xiàng)集為止。

    二、利用關(guān)聯(lián)規(guī)則實(shí)現(xiàn)推薦算法

    關(guān)聯(lián)規(guī)則是以規(guī)則的方式呈現(xiàn)項(xiàng)目之間的相關(guān)性:關(guān)聯(lián)規(guī)則(Association Rules)是反映一個事物與其他事物之間的相互依存性和關(guān)聯(lián)性,是數(shù)據(jù)挖掘的一個重要技術(shù),用于從大量數(shù)據(jù)中挖掘出有價值的數(shù)據(jù)項(xiàng)之間的相關(guān)關(guān)系。

    關(guān)聯(lián)規(guī)則的經(jīng)典例子是通過發(fā)現(xiàn)顧客放入其購物籃中的不同商品之間的聯(lián)系,可分析顧客的購買習(xí)慣。通過了解哪些商品頻繁地被顧客同時購買,可以幫助零售商制定營銷策略。在醫(yī)學(xué)方面,研究人員希望能夠從已有的成千上萬份病歷中找到患某種疾病的病人的共同特征,尋找出更好的預(yù)防措施。

    它是一種購物車的分析方法,用于揭示產(chǎn)品之間的關(guān)聯(lián)關(guān)系。

    他有三個簡單的公式:

    Support(X, Y) = Freq(X, Y) / N :它表示 X 和 Y 一起出現(xiàn)的概率。它是 X 和 Y 一起出現(xiàn)的頻率除以 N。

    Confidence(X, Y) = Freq(X, Y) / Freq(X) :表示購買產(chǎn)品X時購買產(chǎn)品Y的概率。X 和 Y 一起出現(xiàn)的頻率除以 X 出現(xiàn)的頻率。

    Lift = Support(X, Y) / (Support(x) * Support (Y)) :當(dāng)購買X時,購買Y的概率增加了lift的倍數(shù)。X 和 Y 一起出現(xiàn)的概率是 X 和 Y 分別出現(xiàn)的概率的乘積。它陳述了一個表達(dá)式,例如當(dāng)我們購買一種產(chǎn)品時,購買另一種產(chǎn)品的概率會增加多少倍。

    下面我們將使用Apriori Algorithm向用戶推薦相應(yīng)的產(chǎn)品

    這里我們使用的數(shù)據(jù)集是online retail II dataset

    我們使用這個函數(shù)來確定數(shù)據(jù)的閾值。

    下面這個函用閾值替換了異常值。

    第三個函數(shù)中我們從數(shù)據(jù)中提取包含“C”的值。“C”表示退回的物品。要計算總價,變量數(shù)量和價格必須大于零。在這個函數(shù)中還調(diào)用了 Outlier 和 Threshold 函數(shù)。

    數(shù)據(jù)集中的收據(jù)(Invoice)包含了產(chǎn)品的購買,所以我們先處理這個

    根據(jù) Invoice 和 Description,我們通過 groupby 計算 Quantities,可以計算產(chǎn)品的數(shù)量。

    我們使用 unstack 來避免重復(fù)的索引,使用 iloc 來顯示前 5 個觀察結(jié)果。如果產(chǎn)品不在收據(jù)中,則 使用NA 表示。

    進(jìn)行獨(dú)熱編碼。把 NA 的地方寫 0。

    如果發(fā)票中的產(chǎn)品數(shù)量大于0,我們就寫1,如果小于0或0,我們就寫0。用apply對行或列進(jìn)行操作。這里將通過應(yīng)用 applymap 并執(zhí)行操作來遍歷所有單元格。

    我們創(chuàng)建了一個名為 create_invoice_df 的函數(shù)。如果想根據(jù)id變量搜索并得到結(jié)果,它會根據(jù)stockcode進(jìn)行與上述相同的操作。如果我們輸入的id為False,它會根據(jù)Description執(zhí)行上面的操作。

    通過將我們用 Apriori 找到的Support插入到 association_rules 函數(shù)中,找到一些其他的統(tǒng)計數(shù)據(jù),例如置信度和提升度。

    POST產(chǎn)品和編號為22326的產(chǎn)品同時出現(xiàn)的概率為0.225383。被一起買的概率是0.275401。同時購買這兩種產(chǎn)品的概率增加為1.123735。

    數(shù)據(jù)集地址: https://archive.ics.uci.edu/ml/datasets/Online+Retail+II

    原文地址: https://www.overfit.cn/post/2f372e4dc8254fd3bd5ceb6e20aaa75d

    三、關(guān)聯(lián)規(guī)則算法的關(guān)聯(lián)規(guī)則的定義

    所謂關(guān)聯(lián),反映的是一個事件和其他事件之間依賴或關(guān)聯(lián)的知識。當(dāng)我們查找英文文獻(xiàn)的時候,可以發(fā)現(xiàn)有兩個英文詞都能形容關(guān)聯(lián)的含義。第一個是相關(guān)性relevance,第二個是關(guān)聯(lián)性association,兩者都可以用來描述事件之間的關(guān)聯(lián)程度。

    設(shè)I={i1,i2…,im}為所有項(xiàng)目的集合,設(shè)A是一個由項(xiàng)目構(gòu)成的集合,稱為項(xiàng)集。事務(wù)T是一個項(xiàng)目子集,每一個事務(wù)具有唯一的事務(wù)標(biāo)識Tid。事務(wù)T包含項(xiàng)集A,當(dāng)且僅當(dāng)AT。如果項(xiàng)集A中包含k個項(xiàng)目,則稱其為k項(xiàng)集。D為事務(wù)數(shù)據(jù)庫,項(xiàng)集A在事務(wù)數(shù)據(jù)庫D中出現(xiàn)的次數(shù)占D中總事務(wù)的百分比叫做項(xiàng)集的支持度(support)。如果項(xiàng)集的支持度超過用戶給定的最小支持度閾值,就稱該項(xiàng)集是頻繁項(xiàng)集(或大項(xiàng)集)。

    關(guān)聯(lián)規(guī)則就是形如XY的邏輯蘊(yùn)含關(guān)系,其中XI,YI且XY=Φ,X稱作規(guī)則的前件,Y是結(jié)果,對于關(guān)聯(lián)規(guī)則XY,存在支持度和信任度。

    支持度是指規(guī)則中所出現(xiàn)模式的頻率,如果事務(wù)數(shù)據(jù)庫有s%的事務(wù)包含XY,則稱關(guān)聯(lián)規(guī)則XY在D中的支持度為s%,實(shí)際上,可以表示為概率P(XY),即support(XY)= P(XY)。信任度是指蘊(yùn)含的強(qiáng)度,即事務(wù)D中c%的包含X的交易同時包含XY。若X的支持度是support(x),規(guī)則的信任度為即為:support(XY)/support(X),這是一個條件概率P(Y|X),即confidence(XY)= P(Y|X)。

    關(guān)聯(lián)規(guī)則算法原理(關(guān)聯(lián)規(guī)則算法原理圖)

    四、apriori算法是什么?

    經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法包括Apriori算法和FP-growth算法。

    apriori算法多次掃描交易數(shù)據(jù)庫,每次利用候選頻繁集產(chǎn)生頻繁集;而FP-growth則利用樹形結(jié)構(gòu),無需產(chǎn)生候選頻繁集而是直接得到頻繁集,大大減少掃描交易數(shù)據(jù)庫的次數(shù),從而提高了算法的效率,但是apriori的算法擴(kuò)展性較好,可以用于并行計算等領(lǐng)域。

    關(guān)聯(lián)規(guī)則算法原理(關(guān)聯(lián)規(guī)則算法原理圖)

    基本算法:

    Apriori algorithm是關(guān)聯(lián)規(guī)則里一項(xiàng)基本算法

    Apriori算法將發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的過程分:

    第一通過迭代,檢索出事務(wù)數(shù)據(jù)庫1中的所有頻繁項(xiàng)集,即支持度不低于用戶設(shè)定的閾值的項(xiàng)集;

    第二利用頻繁項(xiàng)集構(gòu)造出滿足用戶最小信任度的規(guī)則。其中,挖掘或識別出所有頻繁項(xiàng)集是該算法的核心,占整個計算量的大部分。

    以上就是關(guān)于關(guān)聯(lián)規(guī)則算法原理相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。


    推薦閱讀:

    視頻號需要認(rèn)證嗎(企業(yè)微信關(guān)聯(lián)視頻號需要認(rèn)證嗎)

    關(guān)聯(lián)營銷人(關(guān)聯(lián)營銷有什么好處)

    小學(xué)生常用的八種關(guān)聯(lián)詞視頻

    景觀設(shè)計理論知識點(diǎn)(景觀設(shè)計理論知識點(diǎn)匯總)

    景觀設(shè)計不會手繪怎么辦(景觀設(shè)計不會手繪怎么辦呀)