-
當(dāng)前位置:首頁 > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
關(guān)聯(lián)分析的目的(關(guān)聯(lián)分析的目的和意義)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于關(guān)聯(lián)分析的目的的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細,有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com
本文目錄:
一、數(shù)據(jù)挖掘的經(jīng)典算法
1. C4.5:是機器學(xué)習(xí)算法中的一種分類決策樹算法,其核心算法是ID3算法。
2. K-means算法:是一種聚類算法。
3.SVM:一種監(jiān)督式學(xué)習(xí)的方法,廣泛運用于統(tǒng)計分類以及回歸分析中
4.Apriori :是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。
5.EM:最大期望值法。
6.pagerank:是google算法的重要內(nèi)容。
7. Adaboost:是一種迭代算法,其核心思想是針對同一個訓(xùn)練集訓(xùn)練不同的分類器然后把弱分類器集合起來,構(gòu)成一個更強的最終分類器。
8.KNN:是一個理論上比較成熟的的方法,也是最簡單的機器學(xué)習(xí)方法之一。
9.Naive Bayes:在眾多分類方法中,應(yīng)用最廣泛的有決策樹模型和樸素貝葉斯(Naive Bayes)
10.Cart:分類與回歸樹,在分類樹下面有兩個關(guān)鍵的思想,第一個是關(guān)于遞歸地劃分自變量空間的想法,第二個是用驗證數(shù)據(jù)進行減枝。
關(guān)聯(lián)規(guī)則規(guī)則定義
在描述有關(guān)關(guān)聯(lián)規(guī)則的一些細節(jié)之前,我們先來看一個有趣的故事: 尿布與啤酒的故事。
在一家超市里,有一個有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措?yún)s使尿布和啤酒的銷量雙雙增加了。這不是一個笑話,而是發(fā)生在美國沃爾瑪連鎖店超市的真實案例,并一直為商家所津津樂道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng),為了能夠準(zhǔn)確了解顧客在其門店的購買習(xí)慣,沃爾瑪對其顧客的購物行為進行購物籃分析,想知道顧客經(jīng)常一起購買的商品有哪些。沃爾瑪數(shù)據(jù)倉庫里集中了其各門店的詳細原始交易數(shù)據(jù)。在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對這些數(shù)據(jù)進行分析和挖掘。一個意外的發(fā)現(xiàn)是:跟尿布一起購買最多的商品竟是啤酒!經(jīng)過大量實際調(diào)查和分析,揭示了一個隱藏在尿布與啤酒背后的美國人的一種行為模式:在美國,一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買尿布后又隨手帶回了他們喜歡的啤酒。
按常規(guī)思維,尿布與啤酒風(fēng)馬牛不相及,若不是借助數(shù)據(jù)挖掘技術(shù)對大量交易數(shù)據(jù)進行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價值的規(guī)律的。
數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。Agrawal等于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫中項集間的關(guān)聯(lián)規(guī)則問題,以后諸多的研究人員對關(guān)聯(lián)規(guī)則的挖掘問題進行了大量的研究。他們的工作包括對原有的算法進行優(yōu)化,如引入隨機采樣、并行的思想等,以提高算法挖掘規(guī)則的效率;對關(guān)聯(lián)規(guī)則的應(yīng)用進行推廣。關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘中是一個重要的課題,最近幾年已被業(yè)界所廣泛研究。
二、量化投資的主要方法和前沿進展
量化投資是通過計算機對金融大數(shù)據(jù)進行量化分析的基礎(chǔ)上產(chǎn)生交易決策機制。設(shè)計金融數(shù)學(xué)和計算機的知識和技術(shù),主要有人工智能、數(shù)據(jù)挖掘、小波分析、支持向量機、分形理論和隨機過程這幾種。
1.人工智能
人工智能(Artificial Intelligence,AI)是研究使用計算機來模擬人的某些思維過程和智能行為(如學(xué)習(xí)、推理、思考、規(guī)劃等)的學(xué)科,主要包括計算機實現(xiàn)智能的原理、制造類似于人腦智能的計算機,使計算機能實現(xiàn)更高層次的應(yīng)用。人工智能將涉及計算機科學(xué)、心理學(xué)、哲學(xué)和語言學(xué)等學(xué)科,可以說幾乎是自然科學(xué)和社會科學(xué)的所有學(xué)科,其范圍已遠遠超出了計算機科學(xué)的范疇,人工智能與思維科學(xué)的關(guān)系是實踐和理論的關(guān)系,人工智能是處于思維科學(xué)的技術(shù)應(yīng)用層次,是它的一個應(yīng)用分支。
從思維觀點看,人工智能不僅限于邏輯思維,還要考慮形象思維、靈感思維才能促進人工智能的突破性發(fā)展,數(shù)學(xué)常被認為是多種學(xué)科的基礎(chǔ)科學(xué),因此人工智能學(xué)科也必須借用數(shù)學(xué)工具。數(shù)學(xué)不僅在標(biāo)準(zhǔn)邏輯、模糊數(shù)學(xué)等范圍發(fā)揮作用,進入人工智能學(xué)科后也能促進其得到更快的發(fā)展。
金融投資是一項復(fù)雜的、綜合了各種知識與技術(shù)的學(xué)科,對智能的要求非常高。所以人工智能的很多技術(shù)可以用于量化投資分析中,包括專家系統(tǒng)、機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、遺傳算法等。
2.?dāng)?shù)據(jù)挖掘
數(shù)據(jù)挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識的過程。
與數(shù)據(jù)挖掘相近的同義詞有數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。在量化投資中,數(shù)據(jù)挖掘的主要技術(shù)包括關(guān)聯(lián)分析、分類/預(yù)測、聚類分析等。
關(guān)聯(lián)分析是研究兩個或兩個以上變量的取值之間存在某種規(guī)律性。例如,研究股票的某些因子發(fā)生變化后,對未來一段時間股價之間的關(guān)聯(lián)關(guān)系。關(guān)聯(lián)分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)和因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。一般用支持度和可信度兩個閾值來度量關(guān)聯(lián)規(guī)則的相關(guān)性,還不斷引入興趣度、相關(guān)性等參數(shù),使得所挖掘的規(guī)則更符合需求。
分類就是找出一個類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,即該類的內(nèi)涵描述,并用這種描述來構(gòu)造模型,一般用規(guī)則或決策樹模式表示。分類是利用訓(xùn)練數(shù)據(jù)集通過一定的算法而求得分類規(guī)則。分類可被用于規(guī)則描述和預(yù)測。
預(yù)測是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對未來數(shù)據(jù)的種類及特征進行預(yù)測。預(yù)測關(guān)心的是精度和不確定性,通常用預(yù)測方差來度量。
聚類就是利用數(shù)據(jù)的相似性判斷出數(shù)據(jù)的聚合程度,使得同一個類別中的數(shù)據(jù)盡可能相似,不同類別的數(shù)據(jù)盡可能相異。
3.小波分析
小波(Wavelet)這一術(shù)語,顧名思義,小波就是小的波形。所謂“小”是指它具有衰減性;而稱之為“波”則是指它的波動性,其振幅正負相間的震蕩形式。與傅里葉變換相比,小波變換是時間(空間)頻率的局部化分析,它通過伸縮平移運算對信號(函數(shù))逐步進行多尺度細化,最終達到高頻處時間細分,低頻處頻率細分,能自動適應(yīng)時頻信號分析的要求,從而可聚焦到信號的任意細節(jié),解決了傅里葉變換的困難問題,成為繼傅里葉變換以來在科學(xué)方法上的重大突破,因此也有人把小波變換稱為數(shù)學(xué)顯微鏡。
小波分析在量化投資中的主要作用是進行波形處理。任何投資品種的走勢都可以看做是一種波形,其中包含了很多噪音信號。利用小波分析,可以進行波形的去噪、重構(gòu)、診斷、識別等,從而實現(xiàn)對未來走勢的判斷。
4.支持向量機
支持向量機(Support Vector Machine,SVM)方法是通過一個非線性映射,把樣本空間映射到一個高維乃至無窮維的特征空間中(Hilbert空間),使得在原來的樣本空間中非線性可分的問題轉(zhuǎn)化為在特征空間中的線性可分的問題,簡單地說,就是升維和線性化。升維就是把樣本向高維空間做映射,一般情況下這會增加計算的復(fù)雜性,甚至?xí)鹁S數(shù)災(zāi)難,因而人們很少問津。但是作為分類、回歸等問題來說,很可能在低維樣本空間無法線性處理的樣本集,在高維特征空間中卻可以通過一個線性超平面實現(xiàn)線性劃分(或回歸)。
一般的升維都會帶來計算的復(fù)雜化,SVM方法巧妙地解決了這個難題:應(yīng)用核函數(shù)的展開定理,就不需要知道非線性映射的顯式表達式;由于是在高維特征空間中建立線性學(xué)習(xí)機,所以與線性模型相比,不但幾乎不增加計算的復(fù)雜性,而且在某種程度上避免了維數(shù)災(zāi)難。這一切要歸功于核函數(shù)的展開和計算理論。
正因為有這個優(yōu)勢,使得SVM特別適合于進行有關(guān)分類和預(yù)測問題的處理,這就使得它在量化投資中有了很大的用武之地。
5.分形理論
被譽為大自然的幾何學(xué)的分形理論(Fractal),是現(xiàn)代數(shù)學(xué)的一個新分支,但其本質(zhì)卻是一種新的世界觀和方法論。它與動力系統(tǒng)的混沌理論交叉結(jié)合,相輔相成。它承認世界的局部可能在一定條件下,在某一方面(形態(tài)、結(jié)構(gòu)、信息、功能、時間、能量等)表現(xiàn)出與整體的相似性,它承認空間維數(shù)的變化既可以是離散的也可以是連續(xù)的,因而極大地拓展了研究視野。
自相似原則和迭代生成原則是分形理論的重要原則。它表示分形在通常的幾何變換下具有不變性,即標(biāo)度無關(guān)性。分形形體中的自相似性可以是完全相同的,也可以是統(tǒng)計意義上的相似。迭代生成原則是指可以從局部的分形通過某種遞歸方法生成更大的整體圖形。
分形理論既是非線性科學(xué)的前沿和重要分支,又是一門新興的橫斷學(xué)科。作為一種方法論和認識論,其啟示是多方面的:一是分形整體與局部形態(tài)的相似,啟發(fā)人們通過認識部分來認識整體,從有限中認識無限;二是分形揭示了介于整體與部分、有序與無序、復(fù)雜與簡單之間的新形態(tài)、新秩序;三是分形從一特定層面揭示了世界普遍聯(lián)系和統(tǒng)一的圖景。
由于這種特征,使得分形理論在量化投資中得到了廣泛的應(yīng)用,主要可以用于金融時序數(shù)列的分解與重構(gòu),并在此基礎(chǔ)上進行數(shù)列的預(yù)測。
6.隨機過程
隨機過程(Stochastic Process)是一連串隨機事件動態(tài)關(guān)系的定量描述。隨機過程論與其他數(shù)學(xué)分支如位勢論、微分方程、力學(xué)及復(fù)變函數(shù)論等有密切的聯(lián)系,是在自然科學(xué)、工程科學(xué)及社會科學(xué)各領(lǐng)域中研究隨機現(xiàn)象的重要工具。隨機過程論目前已得到廣泛的應(yīng)用,在諸如天氣預(yù)報、統(tǒng)計物理、天體物理、運籌決策、經(jīng)濟數(shù)學(xué)、安全科學(xué)、人口理論、可靠性及計算機科學(xué)等很多領(lǐng)域都要經(jīng)常用到隨機過程的理論來建立數(shù)學(xué)模型。
研究隨機過程的方法多種多樣,主要可以分為兩大類:一類是概率方法,其中用到軌道性質(zhì)、隨機微分方程等;另一類是分析的方法,其中用到測度論、微分方程、半群理論、函數(shù)堆和希爾伯特空間等,實際研究中常常兩種方法并用。另外組合方法和代數(shù)方法在某些特殊隨機過程的研究中也有一定作用。研究的主要內(nèi)容有:多指標(biāo)隨機過程、無窮質(zhì)點與馬爾科夫過程、概率與位勢及各種特殊過程的專題討論等。
其中,馬爾科夫過程很適于金融時序數(shù)列的預(yù)測,是在量化投資中的典型應(yīng)用。
現(xiàn)階段量化投資在基金投資方面使用的比較多,也有部分投資機構(gòu)合券商的交易系統(tǒng)應(yīng)用了智能選股的技術(shù)。
三、數(shù)據(jù)挖掘技術(shù)與客戶關(guān)系管理的應(yīng)用綜述
數(shù)據(jù)挖掘技術(shù)與客戶關(guān)系管理的應(yīng)用綜述
企業(yè)通過實施客戶關(guān)系管理,可以降低成本,增加收入,提高業(yè)務(wù)運作效率。對于每一個面臨競爭的公司,數(shù)據(jù)倉庫是必須最終擁有的市場武器。通過它可以更多地了解客戶的需求以及處理這些需求的方法。數(shù)據(jù)挖掘能夠?qū)淼内厔莺托袨檫M行預(yù)測,從而很好地支持人們的決策。作為專門管理企業(yè)前臺的客戶關(guān)系管理為企業(yè)提供了一個收集、分析和利用各種客戶信息的系統(tǒng),幫助企業(yè)充分利用其客戶管理資源,也為企業(yè)在電子商務(wù)時代從容自如地面對客戶提供了科學(xué)手段和方法。建立和維持客戶關(guān)系是取得競爭優(yōu)勢的唯一的最重要的基礎(chǔ), 這是網(wǎng)絡(luò)化經(jīng)濟和電子商務(wù)對傳統(tǒng)商業(yè)模式變革的直接結(jié)果。
1 客戶關(guān)系管理(CRM)
1.1 內(nèi)容
CRM的概念由美國Gartner集團率先提出。我們認為,CRM是辨識、獲取、保持和增加“可獲利客戶”的理論、實踐和技術(shù)手段的總稱。它既是一種國際領(lǐng)先的、以“客戶價值”為中心的企業(yè)管理理論、商業(yè)策略和企業(yè)運作實踐,也是一種以信息技術(shù)為手段、有效提高企業(yè)收益、客戶滿意度、雇員生產(chǎn)力的管理軟件。
客戶關(guān)系管理(CRM)源于以“客戶為中心”的新型商業(yè)模式,是一種旨在改善企業(yè)與客戶之間關(guān)系的新型管理機制。通過向企業(yè)的銷售、市場和客戶服務(wù)的專業(yè)人士提供全面、個性化的客戶資料,并強化跟蹤服務(wù)、信息分析的能力,使他們能夠協(xié)同建立和維護一系列與客戶和生意伙伴之間卓有成效的“一對一關(guān)系”,使企業(yè)得以提供更快捷和周到的優(yōu)質(zhì)服務(wù)、提高客戶滿意度、吸引和保持更多的客戶,增加營業(yè)額。通過信息共享和優(yōu)化商業(yè)流程有效地降低企業(yè)經(jīng)營成本。
1.2 CRM解決方案的組成
CRM作為企業(yè)管理系統(tǒng)軟件,通常由以下三部分組成:
(1)網(wǎng)絡(luò)化銷售管理系統(tǒng)(Sales Distributor Management,SDM)。該模塊以市場和銷售業(yè)務(wù)為主導(dǎo),對銷售的流程進行了詳細的管理,是銷售管理人員進行管理和銷售業(yè)務(wù)員銷售自動化的重要工具。它實現(xiàn)了銷售過程中對客戶的集中管理和協(xié)同管理,銷售管理人員可以隨時對銷售情況進行分析,具體功能包括客戶接待管理、報價單處理、銷售合同管理、回款單處理、綜合查詢功能、綜合統(tǒng)計功能。
(2)客戶服務(wù)管理系統(tǒng)(Customer Service Management,CSM)。該模塊主要對企業(yè)的售后服務(wù)進行管理,加快售后服務(wù)的響應(yīng)速度,提高客戶滿意度,對服務(wù)人員進行考核,加強對產(chǎn)品質(zhì)量的監(jiān)督。
客戶服務(wù)系統(tǒng)最典型的代表就是呼叫中心環(huán)境,通過呼叫中心環(huán)境布署并且實現(xiàn)基于電話、Web的自助服務(wù)。它們使企業(yè)能夠以更快的速度和更高的效率來滿足其客戶的獨特需求。由于在多數(shù)情況下,客戶忠實度和是否能從該客戶身上贏利取決于企業(yè)能否提供優(yōu)質(zhì)的服務(wù),因此,客戶服務(wù)和支持對許多企業(yè)就變得十分關(guān)鍵。
(3)企業(yè)決策信息系統(tǒng)(Executive Information System,EIS)。隨著電子商務(wù)時代的到來, 各行各業(yè)業(yè)務(wù)操作流程的自動化,企業(yè)內(nèi)產(chǎn)生了數(shù)以幾十或上百GB計的大量業(yè)務(wù)數(shù)據(jù)。這些數(shù)據(jù)和由此產(chǎn)生的信息是企業(yè)的財富,它如實地記錄著企業(yè)運作的本質(zhì)狀況。但是面對如此海量的數(shù)據(jù),迫使人們不斷尋找新的工具,來對企業(yè)的運營規(guī)律進行探索,為商業(yè)決策提供有價值的知識,使企業(yè)獲得利潤。能滿足企業(yè)這一迫切需求的強有力的工具就是數(shù)據(jù)挖掘。
1.3 CRM的實施
CRM項目的實施可以分為3步:①應(yīng)用業(yè)務(wù)集成。將獨立的市場管理,銷售管理與售后服務(wù)進行集成,提供統(tǒng)一的運作平臺。將多渠道來源的數(shù)據(jù)進行整合,實現(xiàn)業(yè)務(wù)數(shù)據(jù)的集成與共享;②業(yè)務(wù)數(shù)據(jù)分析。對CRM系統(tǒng)中的數(shù)據(jù)進行加工、處理與分析這將使企業(yè)受益匪淺。對數(shù)據(jù)的分析可以采用OLAP的方式進行,生成各類報告。也可以采用業(yè)務(wù)數(shù)據(jù)倉庫(Business Information Warehouse)的處理手段,對數(shù)據(jù)做進一步的加工與數(shù)據(jù)挖掘,分析各數(shù)據(jù)指標(biāo)間的關(guān)聯(lián)關(guān)系,建立關(guān)聯(lián)性的數(shù)據(jù)模型用于模擬和預(yù)測;③決策執(zhí)行。依據(jù)數(shù)據(jù)分析所提供的可預(yù)見性的分析報告,企業(yè)可以將在業(yè)務(wù)過程中所學(xué)到的知識加以總結(jié)利用,對業(yè)務(wù)過程和業(yè)務(wù)計劃等做出調(diào)整。[page] 2數(shù)據(jù)挖掘
2.1 什么是數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(data mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解模式的非平凡過程。數(shù)據(jù)挖掘的廣義觀點:數(shù)據(jù)挖掘就是從存放在數(shù)據(jù)庫,數(shù)據(jù)倉庫或其它信息庫中的大量的數(shù)據(jù)中“挖掘”有趣知識的過程。數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識發(fā)現(xiàn)過程的一個基本步驟。知識發(fā)現(xiàn)過程由以下步驟組成:
①數(shù)據(jù)清理;②數(shù)據(jù)集成;③數(shù)據(jù)選擇;④數(shù)據(jù)變換;⑤數(shù)據(jù)挖掘;⑥模式評估;⑦知識表示。數(shù)據(jù)挖掘可以與用戶或知識庫交互。數(shù)據(jù)挖掘就是為順應(yīng)這種需要應(yīng)運而生發(fā)展起來的數(shù)據(jù)處理技術(shù)。在客戶關(guān)系管理(CRM)中,數(shù)據(jù)挖掘的應(yīng)用是非常廣泛的。CRM中的客戶分類,客戶贏利率分析,客戶識別與客戶保留等功能都要借助數(shù)據(jù)挖掘來實現(xiàn)。
2.2數(shù)據(jù)挖掘在CRM中的應(yīng)用
比較典型的數(shù)據(jù)挖掘方法有關(guān)聯(lián)分析、序列模式分析、分類分析、聚類分析等。它們可以在以客戶為中心的企業(yè)決策分析和管理的各個不同領(lǐng)域與階段得到應(yīng)用。
2.2.1 關(guān)聯(lián)分析
關(guān)聯(lián)分析,即利用關(guān)聯(lián)規(guī)則進行數(shù)據(jù)挖掘。關(guān)聯(lián)分析的目的是挖掘隱藏在數(shù)據(jù)間的相互關(guān)系,它能發(fā)現(xiàn)數(shù)據(jù)庫中形如“90%的顧客在一次購買活動中購買商品A的同時購買商品B”之類的知識。
2.2.2 序列模式分析
序列模式分析和關(guān)聯(lián)分析相似,但側(cè)重點在于分析數(shù)據(jù)間的前后序列關(guān)系。它能發(fā)現(xiàn)數(shù)據(jù)庫中形如“在某一段時間內(nèi),顧客購買商品A,接著購買商品B,而后購買商品C,即序列A→B→C出現(xiàn)的頻度較高”之類的知識。序列模式分析描述的問題是:在給定交易序列數(shù)據(jù)庫中,每個序列是按照交易時間排列的一組交易集, 挖掘序列函數(shù)作用在這個交易序列數(shù)據(jù)庫上,返回該數(shù)據(jù)庫中出現(xiàn)的高頻序列。在進行序列模式分析時,同樣也需要由用戶輸入最小置信度C和最小支持度S。
2.2.3 分類分析
設(shè)有一個數(shù)據(jù)庫和一組具有不同特征的類別(標(biāo)記),該數(shù)據(jù)庫中的每一個記錄都賦予一個類別的標(biāo)記,這樣的數(shù)據(jù)庫稱為示例數(shù)據(jù)庫或訓(xùn)練集。分類分析就是通過分析示例數(shù)據(jù)庫中的數(shù)據(jù),為每個類別做出準(zhǔn)確的描述或建立分析模型或挖掘出分類規(guī)則,然后用這個分類規(guī)則對其它數(shù)據(jù)庫中的記錄進行分類。
2.2.4 聚類分析
聚類分析輸入的是一組未分類記錄,并且這些記錄應(yīng)分成幾類事先也不知道,通過分析數(shù)據(jù)庫中的記錄數(shù)據(jù),根據(jù)一定的分類規(guī)則,合理地劃分記錄集合,確定每個記錄所在類別。它所采用的分類規(guī)則是由聚類分析工具決定的。采用不同的聚類方法,對于相同的記錄集合可能有不同的劃分結(jié)果。
3 結(jié)束語
應(yīng)用數(shù)據(jù)挖掘技術(shù),較為理想的起點就是從一個數(shù)據(jù)倉庫開始。這個數(shù)據(jù)倉庫,里面應(yīng)保存著所有客戶的合同信息,并且還應(yīng)該有相應(yīng)的市場競爭對手的相關(guān)數(shù)據(jù)。數(shù)據(jù)挖掘可以直接跟蹤數(shù)據(jù),輔助用戶快速作出商業(yè)決策。用戶還可以在更新數(shù)據(jù)的時候不斷發(fā)現(xiàn)更好的行為模式,并將其運用于未來的決策當(dāng)中。
四、如何做好關(guān)聯(lián)分析
關(guān)聯(lián)分析是指如果兩個或多個事物之間存在一定的關(guān)聯(lián),那么其中一個事物就能通過其他事物進行預(yù)測.它的目的是為了挖掘隱藏在數(shù)據(jù)間的相互關(guān)系
以上就是關(guān)于關(guān)聯(lián)分析的目的相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。
推薦閱讀:
關(guān)聯(lián)促銷是什么意思(關(guān)聯(lián)促銷是什么意思呀)
三年級什么叫關(guān)聯(lián)詞語有哪些(三年級什么叫關(guān)聯(lián)詞語有哪些詞)
抖音極速版和抖音怎么綁定在一起(抖音極速版和抖音怎么關(guān)聯(lián))