-
當前位置:首頁 > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
人工智能十大經(jīng)典算法(人工智能十大經(jīng)典算法是什么)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于人工智能十大經(jīng)典算法的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
ChatGPT國內(nèi)免費在線使用,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準,寫出的就越詳細,有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com
本文目錄:
一、人工智能方面有哪些算法
模式識別需要非常好的概率論,數(shù)理統(tǒng)計;另外會用到少量矩陣代數(shù),隨機過程和高數(shù)中的一些運算,當然是比較基礎(chǔ)的;如果要深入的話恐怕需要學(xué)泛函,但是一般情況下不需要達到這種深度。神經(jīng)網(wǎng)絡(luò),遺傳算法等智能算法在模式識別有非常重要的應(yīng)用,但是一般不需要學(xué)習(xí)計算機學(xué)科的人工智能,我們控制有一個交叉學(xué)科叫做智能控制是講這些的,智能控制不需要什么基礎(chǔ),有中學(xué)數(shù)學(xué)的集合和對空間有一點點的了解就足夠了,模糊數(shù)學(xué)的基礎(chǔ)是包含在這門學(xué)科里的。
二、數(shù)據(jù)挖掘相關(guān)課程
Ⅰ 數(shù)據(jù)挖掘與數(shù)據(jù)分析是學(xué)什么的
數(shù)據(jù)挖掘(英語:Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。
數(shù)據(jù)挖掘?qū)W習(xí)的主要方向在于,挖掘的算法,使用什么算法能夠得到最好的結(jié)果。
國際權(quán)威的學(xué)術(shù)組織the IEEE International Conference on Data Mining (ICDM) 2006年12月評選出了數(shù)據(jù)挖掘領(lǐng)域的十大經(jīng)典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.
數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細研究和概括總結(jié)的過程。這一過程也是質(zhì)量管理體系的支持過程。在實用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當行動。
數(shù)據(jù)分析的工具:
Excel作為常用的分析工具,可以實現(xiàn)基本的分析工作,在商業(yè)智能領(lǐng)域Cognos、Style Intelligence、Microstrategy、Brio、BO和Oracle以及國內(nèi)產(chǎn)品如Yonghong Z-Suite BI套件等。
非要說數(shù)據(jù)挖掘和分析的區(qū)別可分為以下幾點:
1、“數(shù)據(jù)分析”的重點是觀察數(shù)據(jù),而“數(shù)據(jù)挖掘”的重點是從數(shù)據(jù)中發(fā)現(xiàn)“知識規(guī)則”KDD(Knowledge Discover in Database);
2、“數(shù)據(jù)分析”得出的結(jié)論是人的智能活動結(jié)果,而“數(shù)據(jù)挖掘”得出的結(jié)論是機器從學(xué)習(xí)集(或訓(xùn)練集、樣本集)發(fā)現(xiàn)的知識規(guī)則;
3、“數(shù)據(jù)分析”得出結(jié)論的運用是人的智力活動,而“數(shù)據(jù)挖掘”發(fā)現(xiàn)的知識規(guī)則,可以直接應(yīng)用到預(yù)測。
4、“數(shù)據(jù)分析”不能建立數(shù)學(xué)模型,需要人工建模,而“數(shù)據(jù)挖掘”直接完成了數(shù)學(xué)建模。如傳統(tǒng)的控制論建模的本質(zhì)就是描述輸入變量與輸出變量之間的函數(shù)關(guān)系,“數(shù)據(jù)挖掘”可以通過機器學(xué)習(xí)自動建立輸入與輸出的函數(shù)關(guān)系,根據(jù)KDD得出的“規(guī)則”,給定一組輸入?yún)?shù),就可以得出一組輸出量。
Ⅱ 請問你是數(shù)據(jù)挖掘的研究生數(shù)據(jù)挖掘研究生階段都學(xué)什么
數(shù)據(jù)挖掘(Data Mining)就是從大量數(shù)據(jù)中發(fā)現(xiàn)潛在規(guī)律、提取有用知識的方法和技術(shù)。因為與數(shù)據(jù)庫密切相關(guān),又稱為數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD) ,就是將高級智能計算技術(shù)應(yīng)用于大量數(shù)據(jù)中,讓計算機在有人或無人指導(dǎo)的情況下從海量數(shù)據(jù)中發(fā)現(xiàn)潛在的,有用的模式(也叫知識)。
廣義上說,任何從數(shù)據(jù)庫中挖掘信息的過程都叫做數(shù)據(jù)挖掘。從這點看來,數(shù)據(jù)挖掘就是BI(商業(yè)智能)。但從技術(shù)術(shù)語上說,數(shù)據(jù)挖掘(Data Mining)特指的是:源數(shù)據(jù)經(jīng)過清洗和轉(zhuǎn)換等成為適合于挖掘的數(shù)據(jù)集。數(shù)據(jù)挖掘在這種具有固定形式的數(shù)據(jù)集上完成知識的提煉,最后以合適的知識模式用于進一步分析決策工作。從這種狹義的觀點上,我們可以定義:數(shù)據(jù)挖掘是從特定形式的數(shù)據(jù)集中提煉知識的過程。數(shù)據(jù)挖掘往往針對特定的數(shù)據(jù)、特定的問題,選擇一種或者多種挖掘算法,找到數(shù)據(jù)下面隱藏的規(guī)律,這些規(guī)律往往被用來預(yù)測、支持決策。
數(shù)據(jù)挖掘的主要功能
1.分類:按照分析對象的屬性、特征,建立不同的組類來描述事物。例如:銀行部門根據(jù)以前的數(shù)據(jù)將客戶分成了不同的類別,現(xiàn)在就可以根據(jù)這些來區(qū)分新申請貸款的客戶,以采取相應(yīng)的貸款方案。
2.聚類:識別出分析對內(nèi)在的規(guī)則,按照這些規(guī)則把對象分成若干類。例如:將申請人分為高度風(fēng)險申請者,中度風(fēng)險申請者,低度風(fēng)險申請者。
3.關(guān)聯(lián)規(guī)則和序列模式的發(fā)現(xiàn):關(guān)聯(lián)是某種事物發(fā)生時其他事物會發(fā)生的這樣一種聯(lián)系。例如:每天購買啤酒的人也有可能購買香煙,比重有多大,可以通過關(guān)聯(lián)的支持度和可信度來描述。與關(guān)聯(lián)不同,序列是一種縱向的聯(lián)系。例如:今天銀行調(diào)整利率,明天股市的變化。
4.預(yù)測:把握分析對象發(fā)展的規(guī)律,對未來的趨勢做出預(yù)見。例如:對未來經(jīng)濟發(fā)展的判斷。
5.偏差的檢測:對分析對象的少數(shù)的、極端的特例的描述,揭示內(nèi)在的原因。例如:在銀行的100萬筆交易中有500例的欺詐行為,銀行為了穩(wěn)健經(jīng)營,就要發(fā)現(xiàn)這500例的內(nèi)在因素,減小以后經(jīng)營的風(fēng)險。
需要注意的是:數(shù)據(jù)挖掘的各項功能不是獨立存在的,在數(shù)據(jù)挖掘中互相聯(lián)系,發(fā)揮作用。
數(shù)據(jù)挖掘的方法及工具
作為一門處理數(shù)據(jù)的新興技術(shù),數(shù)據(jù)挖掘有許多的新特征。首先,數(shù)據(jù)挖掘面對的是海量的數(shù)據(jù),這也是數(shù)據(jù)挖掘產(chǎn)生的原因。其次,數(shù)據(jù)可能是不完全的、有噪聲的、隨機的,有復(fù)雜的數(shù)據(jù)結(jié)構(gòu),維數(shù)大。最后,數(shù)據(jù)挖掘是許多學(xué)科的交叉,運用了統(tǒng)計學(xué),計算機,數(shù)學(xué)等學(xué)科的技術(shù)。以下是常見和應(yīng)用最廣泛的算法和模型:
(1) 傳統(tǒng)統(tǒng)計方法:① 抽樣技術(shù):我們面對的是大量的數(shù)據(jù),對所有的數(shù)據(jù)進行分析是不可能的也是沒有必要的,就要在理論的指導(dǎo)下進行合理的抽樣。② 多元統(tǒng)計分析:因子分析,聚類分析等。③ 統(tǒng)計預(yù)測方法,如回歸分析,時間序列分析等。
(2) 可視化技術(shù):用圖表等方式把數(shù)據(jù)特征用直觀地表述出來,如直方圖等,這其中運用的許多描述統(tǒng)計的方法??梢暬夹g(shù)面對的一個難題是高維數(shù)據(jù)的可視化。
職業(yè)能力要求
基本能力要求
數(shù)據(jù)挖掘人員需具備以下基本條件,才可以完成數(shù)據(jù)挖掘項目中的相關(guān)任務(wù)。
一、專業(yè)技能
碩士以上學(xué)歷,數(shù)據(jù)挖掘、統(tǒng)計學(xué)、數(shù)據(jù)庫相關(guān)專業(yè),熟練掌握關(guān)系數(shù)據(jù)庫技術(shù),具有數(shù)據(jù)庫系統(tǒng)開發(fā)經(jīng)驗
熟練掌握常用的數(shù)據(jù)挖掘算法
具備數(shù)理統(tǒng)計理論基礎(chǔ),并熟悉常用的統(tǒng)計工具軟件
二、行業(yè)知識
具有相關(guān)的行業(yè)知識,或者能夠很快熟悉相關(guān)的行業(yè)知識
三、合作精神
具有良好的團隊合作精神,能夠主動和項目中其他成員緊密合作
四、客戶關(guān)系能力
具有良好的客戶溝通能力,能夠明確闡述數(shù)據(jù)挖掘項目的重點和難點,善于調(diào)整客戶對數(shù)據(jù)挖掘的誤解和過高期望
具有良好的知識轉(zhuǎn)移能力,能夠盡快地讓模型維護人員了解并掌握數(shù)據(jù)挖掘方法論及建模實施能力
進階能力要求
數(shù)據(jù)挖掘人員具備如下條件,可以提高數(shù)據(jù)挖掘項目的實施效率,縮短項目周期。
具有數(shù)據(jù)倉庫項目實施經(jīng)驗,熟悉數(shù)據(jù)倉庫技術(shù)及方法論
熟練掌握SQL語言,包括復(fù)雜查詢、性能調(diào)優(yōu)
熟練掌握ETL開發(fā)工具和技術(shù)
熟練掌握Microsoft Office軟件,包括Excel和PowerPoint中的各種統(tǒng)計圖形技術(shù)
善于將挖掘結(jié)果和客戶的業(yè)務(wù)管理相結(jié)合,根據(jù)數(shù)據(jù)挖掘的成果向客戶提供有價值的可行性操作方案
應(yīng)用及就業(yè)領(lǐng)域
當前數(shù)據(jù)挖掘應(yīng)用主要集中在電信(客戶分析),零售(銷售預(yù)測),農(nóng)業(yè)(行業(yè)數(shù)據(jù)預(yù)測),網(wǎng)絡(luò)日志(網(wǎng)頁定制),銀行(客戶欺詐),電力(客戶呼叫),生物(基因),天體(星體分類),化工,醫(yī)藥等方面。當前它能解決的問題典型在于:數(shù)據(jù)庫營銷(Database Marketing)、客戶群體劃分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉銷售(Cross-selling)等市場分析行為,以及客戶流失性分析(Churn Analysis)、客戶信用記分(Credit Scoring)、欺詐發(fā)現(xiàn)(Fraud Detection)等等,在許多領(lǐng)域得到了成功的應(yīng)用。如果你訪問著名的亞馬遜網(wǎng)上書店(amazon),會發(fā)現(xiàn)當你選中一本書后,會出現(xiàn)相關(guān)的推薦數(shù)目“Customers who bought this book also bought”,這背后就是數(shù)據(jù)挖掘技術(shù)在發(fā)揮作用。
數(shù)據(jù)挖掘的對象是某一專業(yè)領(lǐng)域中積累的數(shù)據(jù);挖掘過程是一個人機交互、多次反復(fù)的過程;挖掘的結(jié)果要應(yīng)用于該專業(yè)。因此數(shù)據(jù)挖掘的整個過程都離不開應(yīng)用領(lǐng)域的專業(yè)知識?!癇usiness First, technique second”是數(shù)據(jù)挖掘的特點。因此學(xué)習(xí)數(shù)據(jù)挖掘不意味著丟棄原有專業(yè)知識和經(jīng)驗。相反,有其它行業(yè)背景是從事數(shù)據(jù)挖掘的一大優(yōu)勢。如有銷售,財務(wù),機械,制造,call center等工作經(jīng)驗的,通過學(xué)習(xí)數(shù)據(jù)挖掘,可以提升個人職業(yè)層次,在不改變原專業(yè)的情況下,從原來的事務(wù)型角色向分析型角色轉(zhuǎn)變。從80年代末的初露頭角到90年代末的廣泛應(yīng)用,以數(shù)據(jù)挖掘為核心的商業(yè)智能(BI)已經(jīng)成為IT及其它行業(yè)中的一個新寵。
數(shù)據(jù)采集分析專員
職位介紹:數(shù)據(jù)采集分析專員的主要職責(zé)是把公司運營的數(shù)據(jù)收集起來,再從中挖掘出規(guī)律性的信息來指導(dǎo)公司的戰(zhàn)略方向。這個職位常被忽略,但相當重要。由于數(shù)據(jù)庫技術(shù)最先出現(xiàn)于計算機領(lǐng)域,同時計算機數(shù)據(jù)庫具有海量存儲、查找迅速、分析半自動化等特點,數(shù)據(jù)采集分析專員最先出現(xiàn)于計算機行業(yè),后來隨著計算機應(yīng)用的普及擴展到了各個行業(yè)。該職位一般提供給懂數(shù)據(jù)庫應(yīng)用和具有一定統(tǒng)計分析能力的人。有計算機特長的統(tǒng)計專業(yè)人員,或?qū)W過數(shù)據(jù)挖掘的計算機專業(yè)人員都可以勝任此工作,不過最好能夠?qū)λ谛袠I(yè)的市場情況具有一定的了解。
求職建議:由于很多公司追求短期利益而不注重長期戰(zhàn)略的現(xiàn)狀,目前國內(nèi)很多企業(yè)對此職位的重視程度不夠。但大型公司、外企對此職位的重視程度較高,隨著時間的推移該職位會有升溫的趨勢。另外,數(shù)據(jù)采集分析專員很容易獲得行業(yè)經(jīng)驗,他們在分析過程中能夠很輕易地把握該行業(yè)的市場情況、客戶習(xí)慣、渠道分布等關(guān)鍵情況,因此如果想在某行創(chuàng)業(yè),從數(shù)據(jù)采集分析專員干起是一個不錯的選擇。
市場/數(shù)據(jù)分析師
1. 市場數(shù)據(jù)分析是現(xiàn)代市場營銷科學(xué)必不可少的關(guān)鍵環(huán)節(jié): Marketing/Data Analyst從業(yè)最多的行業(yè): Direct Marketing (直接面向客戶的市場營銷) 吧,自90年代以來, Direct Marketing越來越成為公司推銷其產(chǎn)品的主要手段。根據(jù)加拿大市場營銷組織(Canadian Marketing Association)的統(tǒng)計數(shù)據(jù): 僅1999年一年 Direct Marketing就創(chuàng)造了470000 個工作機會。從1999至2000,工作職位又增加了30000個。為什么Direct Marketing需要這么多Analyst呢? 舉個例子, 隨著商業(yè)競爭日益加劇,公司希望能最大限度的從廣告中得到銷售回報, 他們希望能有更多的用戶來響應(yīng)他們的廣告。所以他們就必需要在投放廣告之前做大量的市場分析工作。例如,根據(jù)自己的產(chǎn)品結(jié)合目標市場顧客的家庭收入,教育背景和消費趨向分析出哪些地區(qū)的住戶或居民最有可能響應(yīng)公司的銷售廣告,購買自己的產(chǎn)品或成為客戶,從而廣告只針對這些特定的客戶群。這樣有的放矢的篩選廣告的投放市場既節(jié)省開銷又提高了銷售回報率。但是所有的這些分析都是基于數(shù)據(jù)庫,通過數(shù)據(jù)處理,挖掘,建模得出的,其間,市場分析師的工作是必不可少的。
2. 行業(yè)適應(yīng)性強: 幾乎所有的行業(yè)都會應(yīng)用到數(shù)據(jù), 所以作為一名數(shù)據(jù)/市場分析師不僅僅可以在華人傳統(tǒng)的IT行業(yè)就業(yè),也可以在 *** ,銀行,零售,醫(yī)藥業(yè),制造業(yè)和交通傳輸?shù)阮I(lǐng)域服務(wù)。
現(xiàn)狀與前景
數(shù)據(jù)挖掘是適應(yīng)信息社會從海量的數(shù)據(jù)庫中提取信息的需要而產(chǎn)生的新學(xué)科。它是統(tǒng)計學(xué)、機器學(xué)習(xí)、數(shù)據(jù)庫、模式識別、人工智能等學(xué)科的交叉。在中國各重點院校中都已經(jīng)開了數(shù)據(jù)挖掘的課程或研究課題。比較著名的有中科院計算所、復(fù)旦大學(xué)、清華大學(xué)等。另外, *** 機構(gòu)和大型企業(yè)也開始重視這個領(lǐng)域。
據(jù)IDC對歐洲和北美62家采用了商務(wù)智能技術(shù)的企業(yè)的調(diào)查分析發(fā)現(xiàn),這些企業(yè)的3年平均投資回報率為401%,其中25%的企業(yè)的投資回報率超過600%。調(diào)查結(jié)果還顯示,一個企業(yè)要想在復(fù)雜的環(huán)境中獲得成功,高層管理者必須能夠控制極其復(fù)雜的商業(yè)結(jié)構(gòu),若沒有詳實的事實和數(shù)據(jù)支持,是很難辦到的。因此,隨著數(shù)據(jù)挖掘技術(shù)的不斷改進和日益成熟,它必將被更多的用戶采用,使更多的管理者得到更多的商務(wù)智能。
根據(jù)IDC(International Data Corporation)預(yù)測說2004年估計BI行業(yè)市場在140億美元?,F(xiàn)在,隨著我國加入WTO,我國在許多領(lǐng)域,如金融、保險等領(lǐng)域?qū)⒅鸩綄ν忾_放,這就意味著許多企業(yè)將面臨來自國際大型跨國公司的巨大競爭壓力。國外發(fā)達國家各種企業(yè)采用商務(wù)智能的水平已經(jīng)遠遠超過了我國。美國Palo Alto 管理集團公司1999年對歐洲、北美和日本375家大中型企業(yè)的商務(wù)智能技術(shù)的采用情況進行了調(diào)查。結(jié)果顯示,在金融領(lǐng)域,商務(wù)智能技術(shù)的應(yīng)用水平已經(jīng)達到或接近70%,在營銷領(lǐng)域也達到50%,并且在未來的3年中,各個應(yīng)用領(lǐng)域?qū)υ摷夹g(shù)的采納水平都將提高約50%。
現(xiàn)在,許多企業(yè)都把數(shù)據(jù)看成寶貴的財富,紛紛利用商務(wù)智能發(fā)現(xiàn)其中隱藏的信息,借此獲得巨額的回報。國內(nèi)暫時還沒有官方關(guān)于數(shù)據(jù)挖掘行業(yè)本身的市場統(tǒng)計分析報告,但是國內(nèi)數(shù)據(jù)挖掘在各個行業(yè)都有一定的研究。據(jù)國外專家預(yù)測,在今后的5—10年內(nèi),隨著數(shù)據(jù)量的日益積累以及計算機的廣泛應(yīng)用,數(shù)據(jù)挖掘?qū)⒃谥袊纬梢粋€產(chǎn)業(yè)。
眾所周知,IT就業(yè)市場競爭已經(jīng)相當激烈,而數(shù)據(jù)處理的核心技術(shù)---數(shù)據(jù)挖掘更是得到了前所未有的重視。數(shù)據(jù)挖掘和商業(yè)智能技術(shù)位于整個企業(yè)IT-業(yè)務(wù)構(gòu)架的金字塔塔尖,目前國內(nèi)數(shù)據(jù)挖掘?qū)I(yè)的人才培養(yǎng)體系尚不健全,人才市場上精通數(shù)據(jù)挖掘技術(shù)、商業(yè)智能的供應(yīng)量極小,而另一方面企業(yè)、 *** 機構(gòu)和和科研單位對此類人才的潛在需求量極大,供需缺口極大。如果能將數(shù)據(jù)挖掘技術(shù)與個人已有專業(yè)知識相結(jié)合,您必將開辟職業(yè)生涯的新天地!
職業(yè)薪酬
就目前來看,和大多IT業(yè)的職位一樣,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘方面的人才在國內(nèi)的需求工作也是低端飽和,高端緊缺,在二線成熟,高端數(shù)據(jù)倉庫和數(shù)據(jù)挖掘方面的人才尤其稀少。高端數(shù)據(jù)倉庫和數(shù)據(jù)挖掘人才需要熟悉多個行業(yè),至少有3年以上大型DWH和BI經(jīng)驗,英語讀寫流利,具有項目推動能力,這樣的人才年薪能達到20萬以上。
職業(yè)認證
1、SAS認證的應(yīng)用行業(yè)及職業(yè)前景
SAS全球?qū)I(yè)認證是國際上公認的數(shù)據(jù)挖掘和商業(yè)智能領(lǐng)域的權(quán)威認證,隨著我國IT環(huán)境和應(yīng)用的日漸成熟,以上兩個領(lǐng)域?qū)⒂袠O大的行業(yè)發(fā)展空間。獲取SAS全球?qū)I(yè)認證,為您在數(shù)據(jù)挖掘、分析方法論領(lǐng)域積累豐富經(jīng)驗奠定良好的基礎(chǔ),幫助您開辟職業(yè)發(fā)展的新天地。
2、SAS認證的有效期
目前SAS五級認證沒有特定有效期,但是時間太久或版本太老的認證證書會有所貶值。
3、五級認證的關(guān)系
五級認證為遞進式關(guān)系,即只有通過上一級考試科目才能參加下一級認證考試。
4、SAS全球認證的考試方式
考試為上機考試,時間2個小時,共70道客觀題。
相關(guān)鏈接
隨著中國物流行業(yè)的整體快速發(fā)展,物流信息化建設(shè)也取得一定進展。無論在IT硬件市場、軟件市場還是信息服務(wù)市場,物流行業(yè)都具有了一定的投資規(guī)模,近兩年的總投資額均在20-30億元之間。 *** 對現(xiàn)代物流業(yè)發(fā)展的積極支持、物流市場競爭的加劇等因素有力地促進了物流信息化建設(shè)的穩(wěn)步發(fā)展。
易觀國際最新報告《中國物流行業(yè)信息化年度綜合報告2006》中指出,中國物流業(yè)正在從傳統(tǒng)模式向現(xiàn)代模式實現(xiàn)整體轉(zhuǎn)變,現(xiàn)代物流模式將引導(dǎo)物流業(yè)信息化需求,而產(chǎn)生這種轉(zhuǎn)變的基本動力來自市場需求。報告中的數(shù)據(jù)顯示:2006-2010年,傳統(tǒng)物流企業(yè)IT投入規(guī)模將累計超過100億元人民幣。2006-2010年,第三方物流企業(yè)IT投入規(guī)模將累計超過20億元人民幣。
由于目前行業(yè)應(yīng)用軟件系統(tǒng)在作業(yè)層面對終端設(shè)備的硬件提出的應(yīng)用要求較高,而軟件與硬件的集成性普遍不理想,對應(yīng)性單一,因此企業(yè)將對軟件硬件設(shè)備的集成提出更高要求。
物流行業(yè)軟件系統(tǒng)研發(fā)將更多的考慮運籌學(xué)與數(shù)據(jù)挖掘技術(shù),專業(yè)的服務(wù)商將更有利于幫助解決研發(fā)問題。
物流科學(xué)的理論基礎(chǔ)來源于運籌學(xué),并且非常強調(diào)在繁雜的數(shù)據(jù)處理中找到關(guān)聯(lián)關(guān)系(基于成本-服務(wù)水平體系),因此數(shù)據(jù)挖掘技術(shù)對于相關(guān)的軟件系統(tǒng)顯得更為重。
Ⅲ 數(shù)據(jù)挖掘統(tǒng)計的課程內(nèi)容是什么
哥們,我是做數(shù)據(jù)挖掘的研狗,了解一些生物科技方面大數(shù)據(jù)的應(yīng)用。
首先聽回過的所有的數(shù)據(jù)答挖掘的報告中,有具體成果的全都是國外的機構(gòu),可能是我聽的少,國內(nèi)的生物科技數(shù)據(jù)挖掘都是講理論。這東西講理論有個毛用。
如果有資本的話(年齡、家庭支持),還是找個好學(xué)校讀研,本身生物科技+數(shù)據(jù)挖掘就比較高端。
數(shù)據(jù)挖掘和數(shù)據(jù)統(tǒng)計不是一樣的。。。。
簡單的拿工資講,北京碩士畢業(yè)進數(shù)據(jù)分析崗位,8k一月,如果進的是數(shù)據(jù)挖掘團隊,大概能有20w~30w
每年。
Ⅳ 數(shù)據(jù)分析有哪些相關(guān)的培訓(xùn)課程
據(jù)分析師的課程包括兩個層面的內(nèi)容,只有把數(shù)據(jù)分析師的這些課程都學(xué)會并且運用,你就可以成為一名頂級的大數(shù)據(jù)分析師。
一、課程層面
第一級別:數(shù)據(jù)分析課程內(nèi)容主要是從理論-實操-案例應(yīng)用步步進階,能讓學(xué)員充分掌握概率論和統(tǒng)計理論基礎(chǔ),能夠熟練運用Excel、SPSS、SAS等一門專業(yè)分析軟件,有良好的商業(yè)理解能力,能夠根據(jù)業(yè)務(wù)問題指標利用常用數(shù)據(jù)分析方法進行數(shù)據(jù)的處理與分析,并得出邏輯清晰的業(yè)務(wù)報告。
第二級別:在第一級別的基礎(chǔ)上,第二級別包括建模分析師與大數(shù)據(jù)分析師,即為企業(yè)決策提供及時有效、易實現(xiàn)、可信賴的數(shù)據(jù)支持。建模分析師,指在ZF、金融、電信、零售、互聯(lián)網(wǎng)、電商、醫(yī)學(xué)等行業(yè)專門從事數(shù)據(jù)分析與數(shù)據(jù)挖掘的人員。本課程針對數(shù)據(jù)挖掘整套流程,以金融、電信、電商和零售業(yè)為案例背景深入講授數(shù)據(jù)挖掘的主要算法。并將SAS Enterprise Miner、SPSS Moderler、SAS編程和SQL進行有效的結(jié)合,讓學(xué)員勝任全方位的數(shù)據(jù)挖掘運用場景。大數(shù)據(jù)分析師,本課程以大數(shù)據(jù)分析為目標,從數(shù)據(jù)分析基礎(chǔ)、JAVA語言入門和linux操作系統(tǒng)入門知識學(xué)起,系統(tǒng)介紹Hadoop、HDFS、MapRece和Hbase等理論知識和hadoop的生態(tài)環(huán)境,詳細演示hadoop三種模式的安裝配置,以案例的形式,重點講解基于mahout項目的大數(shù)據(jù)分析之聚類、分類以及主題推薦。通過演示實際的大數(shù)據(jù)分析案例,使學(xué)員能在較短的時間內(nèi)理解大數(shù)據(jù)分析的真實價值,掌握如何使用hadoop架構(gòu)應(yīng)用于大數(shù)據(jù)分析過程,使學(xué)員能有一個快速提升成為兼有理論和實戰(zhàn)的大數(shù)據(jù)分析師,從而更好地適應(yīng)當前互聯(lián)網(wǎng)經(jīng)濟背景下對大數(shù)據(jù)分析師需求的旺盛的就業(yè)形勢。
二、數(shù)據(jù)分析師的知識結(jié)構(gòu)
Ⅳ 大數(shù)據(jù)挖掘?qū)W習(xí)課程一般學(xué)習(xí)多長時間
在北京學(xué)過,5個月。魔據(jù)據(jù)說條件不錯,但是還是要試聽考察的。不管是否有基礎(chǔ)學(xué)習(xí)都是沒有問題的,主要看的是自身學(xué)習(xí)是不是用心,夠不夠努力,也可以去實際了解一下。
Ⅵ SAS數(shù)據(jù)挖掘的課程內(nèi)容是什么
數(shù)據(jù)挖掘課程包括:
sas/data miner模塊,包括sas/data
miner模塊的常用工具,對商業(yè)問題的界定、導(dǎo)入數(shù)據(jù)、內(nèi)數(shù)據(jù)探視、變量轉(zhuǎn)換、數(shù)據(jù)集設(shè)置容、缺失值處理、各種預(yù)測、描述類分析算法、模型評估、顯示得分結(jié)果等。通過培訓(xùn)使學(xué)員掌握使用sas的data
miner(數(shù)據(jù)挖掘)模塊,能夠利用sas/data miner對一些常見的商業(yè)數(shù)據(jù)進行數(shù)據(jù)分析,挖掘出商業(yè)價值。
來源。商業(yè)智能和數(shù)據(jù)倉庫愛好者
提供,,,,商業(yè)智能和云計算,。、,,陪訓(xùn),。,。包含SAS數(shù)據(jù)挖掘課程
Ⅶ 數(shù)據(jù)分析數(shù)據(jù)挖掘培訓(xùn)課程哪個好
你好,多比較多分析,要多聽一聽大家的口述意見。
Ⅷ 大數(shù)據(jù)挖掘?qū)W習(xí)課程需要多久
去年學(xué)的學(xué)了5個月,魔據(jù)條件不錯,我自己認為五十人左右還是可以接受的,但是還是自身要足夠努力才行,像有些機構(gòu)一百人以上,那就有點接受不了了,感覺老師也顧忌不過來不要去,可以去實際考察一下。
Ⅸ 大數(shù)據(jù)專業(yè)主要學(xué)什么課程
大數(shù)據(jù)技術(shù)專業(yè)屬于交叉學(xué)科:以統(tǒng)計學(xué)、數(shù)學(xué)、計算機為三大支撐性學(xué)科;生物、醫(yī)學(xué)、環(huán)境科學(xué)、經(jīng)濟學(xué)、社會學(xué)、管理學(xué)為應(yīng)用拓展性學(xué)科。
此外還需學(xué)習(xí)數(shù)據(jù)采集、分析、處理軟件,學(xué)習(xí)數(shù)學(xué)建模軟件及計算機編程語言等,知識結(jié)構(gòu)是二專多能復(fù)合的跨界人才(有專業(yè)知識、有數(shù)據(jù)思維)。
以中國人民大學(xué)為例:
基礎(chǔ)課程:數(shù)學(xué)分析、高等代數(shù)、普通物理數(shù)學(xué)與信息科學(xué)概論、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)科學(xué)導(dǎo)論、程序設(shè)計導(dǎo)論、程序設(shè)計實踐。
必修課:離散數(shù)學(xué)、概率與統(tǒng)計、算法分析與設(shè)計、數(shù)據(jù)計算智能、數(shù)據(jù)庫系統(tǒng)概論、計算機系統(tǒng)基礎(chǔ)、并行體系結(jié)構(gòu)與編程、非結(jié)構(gòu)化大數(shù)據(jù)分析。
選修課:數(shù)據(jù)科學(xué)算法導(dǎo)論、數(shù)據(jù)科學(xué)專題、數(shù)據(jù)科學(xué)實踐、互聯(lián)網(wǎng)實用開發(fā)技術(shù)、抽樣技術(shù)、統(tǒng)計學(xué)習(xí)、回歸分析、隨機過程。
(9)數(shù)據(jù)挖掘相關(guān)課程擴展閱讀:
大數(shù)據(jù)崗位:
1、大數(shù)據(jù)系統(tǒng)架構(gòu)師
大數(shù)據(jù)平臺搭建、系統(tǒng)設(shè)計、基礎(chǔ)設(shè)施。
技能:計算機體系結(jié)構(gòu)、網(wǎng)絡(luò)架構(gòu)、編程范式、文件系統(tǒng)、分布并行處理等。
2、大數(shù)據(jù)系統(tǒng)分析師
面向?qū)嶋H行業(yè)領(lǐng)域,利用大數(shù)據(jù)技術(shù)進行數(shù)據(jù)安全生命周期管理、分析和應(yīng)用。
技能:人工智能、機器學(xué)習(xí)、數(shù)理統(tǒng)計、矩陣計算、優(yōu)化方法。
3、hadoop開發(fā)工程師。
解決大數(shù)據(jù)存儲問題。
4、數(shù)據(jù)分析師
不同行業(yè)中,專門從事行業(yè)數(shù)據(jù)搜集、整理、分析,并依據(jù)數(shù)據(jù)做出行業(yè)研究、評估和預(yù)測的專業(yè)人員。在工作中通過運用工具,提取、分析、呈現(xiàn)數(shù)據(jù),實現(xiàn)數(shù)據(jù)的商業(yè)意義。
5、數(shù)據(jù)挖掘工程師
做數(shù)據(jù)挖掘要從海量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,這就需要一定的數(shù)學(xué)知識,最基本的比如線性代數(shù)、高等代數(shù)、凸優(yōu)化、概率論等。經(jīng)常會用到的語言包括Python、Java、C或者C++,我自己用Python或者Java比較多。有時用MapRece寫程序,再用Hadoop或者Hyp來處理數(shù)據(jù),如果用Python的話會和Spark相結(jié)合。
Ⅹ 攻讀數(shù)據(jù)挖掘方向的研究生需要本科學(xué)習(xí)過哪些課程
就學(xué)基礎(chǔ)的計算機課程即可,因為研究生的時候還會開設(shè)一些有關(guān)數(shù)據(jù)挖掘的課程。
三、游戲開發(fā)中會用到哪些常用AI算法
游戲開發(fā)指利用計算機編程語言,如C編程語言、C++、java等,編寫計算機、手機或游戲機上的游戲。 目前流行的游戲開發(fā)語言為C++編程語言,目前流行的游戲開發(fā)接口為DirectX9.0,還有OpenGL、SDL(Simple DirectMedia Layer)等?,F(xiàn)在手機上玩的游戲分為Android與IOS兩種不同平臺,分別是用eclipse/MyEclipse和xcode?,F(xiàn)在也流行一些跨平臺的編程引擎,例如cocos2d-x、unity 3D等。
接下來,再看看游戲開發(fā)的課程,游戲開發(fā)的課程除了理論知識還包括軟件的操作。
C++程序基礎(chǔ):通過學(xué)習(xí)C++語言,奠定編程基礎(chǔ)。使用VS.net2005編譯工具,高效構(gòu)建代碼。
算法與數(shù)據(jù)結(jié)構(gòu):通過學(xué)習(xí)算法與數(shù)據(jù)結(jié)構(gòu)的基本概念,了解常用的數(shù)據(jù)結(jié)構(gòu)及相關(guān)的抽象數(shù)據(jù)定義,認識計算機求解的基本思路與方法。
Win32程序入門:通過API和MFC的學(xué)習(xí),熟悉Windows環(huán)境下程序設(shè)計基本方法。通過使用DirectX繪制2D圖形。
游戲數(shù)學(xué)和智能應(yīng)用:游戲中的坐標系,矢量、矩陣,幾何碰撞,物理模擬,人工智能與尋路算法。
2D游戲技術(shù)與應(yīng)用:2D 游戲技術(shù)概論,游戲地圖系統(tǒng),GUI 系統(tǒng),戰(zhàn)斗系統(tǒng)設(shè)計,任務(wù)系統(tǒng)優(yōu)秀的聲音引擎 BASS,Cocos2D-X 引擎,Box2D 物理引擎。
游戲開發(fā)的常用軟件有C++、DirectX、Box2D、Cocos2d-x、Unity,不能說哪款最好用,因為這是游戲開發(fā)過程中都要用到的軟件,必須都精通。
C++是在C語言的基礎(chǔ)上開發(fā)的一種通用編程語言,應(yīng)用廣泛。
DirectX,(Direct eXtension,簡稱DX)是由微軟公司創(chuàng)建的多媒體編程接口。
Box2D是一個用于模擬2D剛體物體的C++引擎。zlib許可是一個自由軟件授權(quán)協(xié)議,但并非copyleft。
Cocos2d-x是一個開源的移動2D游戲框架,MIT許可證下發(fā)布的。這是一個C++ Cocos2d-iPhone項目的版本。
Unity是由Unity Technologies開發(fā)的一個讓玩家輕松創(chuàng)建諸如三維視頻游戲、建筑可視化、實時三維動畫等類型互動內(nèi)容的多平臺的綜合型游戲開發(fā)工具,是一個全面整合的專業(yè)游戲引擎。
四、生活中的人工智能之搜索和推薦算法
姓名:陳心語 學(xué)號:21009102266 書院:海棠1號書院
轉(zhuǎn)自: 人工智能在搜索中的應(yīng)用_u014033218的專欄-CSDN博客
人工智能在搜索的應(yīng)用和實踐_qq_40954115的博客-CSDN博客
【嵌牛導(dǎo)讀】日常生活中的搜索和推薦算法也與人工智能有所關(guān)聯(lián),讓我們一起來看看吧!
【嵌牛鼻子】人工智能運用于搜索和推薦算法。
【嵌牛提問】人工智能在搜索和推薦算法中有什么運用呢?
【嵌牛正文】
智能交互
智能交互有三個方面的這部分組成,第一個就是Query推薦,這是比較古老的課題;第二個做智能導(dǎo)購,這是現(xiàn)在正在做的一個原形,后面我會講為什么做智能導(dǎo)購;第三個內(nèi)容的展示和個性化的創(chuàng)意。就是說你把商品怎么展示給用戶,也是我們認為是交互的一部分。
第一個是Query推薦,這個問題怎么來抽象呢?Query推薦是一個用戶當前Query下面我們怎么推薦其它Query,這是我們相關(guān)搜索一樣的。我們推薦這樣的一個Query以后,如果用戶一旦點了其中的一個Query,用戶的狀態(tài)就會發(fā)生變化,從當前的Query跳到另外一個Query,這是用戶狀態(tài)的變化。第二個就是說我們怎么評價我們推薦的Query的好壞,它由幾部分組成,一個Query有沒有被點,第二個就是說推薦Query里面,它的SRP頁會不會點,因為Query推薦本質(zhì)上不是Query推薦做的最好就是最好的,它是說最終要在搜索SRP用戶有沒有買,有沒有點擊,這才是做的好的,這是第二個收益。還有一個更加間接的,通過Query推,這個狀態(tài)轉(zhuǎn)到下一個狀態(tài)以后,這個里面還會推其它Query,還會有其它點擊,這個時候也是個間接推薦。如果我不推Query就不能到這個狀態(tài),不到狀態(tài)不會有這個Query,不會有這個收益。我們了解,這就是典型的一個馬爾科夫決策過程,我們是用強化學(xué)習(xí)來做的,Actions就是我們的Query list,根據(jù)用戶和當前Query推薦其他Query,狀態(tài)就是User + Query,收益就是包括推薦Query擊,還有一個間接收益,間接收益通過bellman 公式可以算出來,這就是一個DQN的強化學(xué)習(xí)項目。
智能導(dǎo)購
現(xiàn)在的搜索呈現(xiàn)的問題就是說,如果去看搜索的Query都是一些品類詞、品牌詞、型號詞或者屬性詞。假定用戶他知道買什么再來搜索搜,但是有各很大的東西用戶不知道買什么嗎?智能導(dǎo)購就是做做一個類似智能導(dǎo)購機器人的產(chǎn)品,引導(dǎo)用戶怎么搜,用戶也可以主動問,獲取知識或購物經(jīng)驗。這是后臺的算法的一個原形,不久后會上線。
智能內(nèi)容
因為淘寶的商品,賣家為了適應(yīng)我們的引擎,做了大量的SEO,里面都是羅列熱門的關(guān)健詞,導(dǎo)致問題淘寶的標題沒什么差異,都寫的差不多,看標題也不知道什么東西,或者知道但里面沒有很多特色的內(nèi)容。我們做智能內(nèi)容很重要的出發(fā)點是怎么從商品的評價、詳情頁、屬性里面挖出一些比較有賣點,或者商品比較有特色的東西展示給用戶,讓用戶更好的了解商品,這是第一個。第二個淘寶上面還有類似商品聚合的,比如清單,生成一個清單,怎么給清單生成一個比較好的導(dǎo)入的描述,讓用戶描述這個清單干什么。這里面主要做了這兩個事情。具體怎么做的?一個會生成一些Topic,比如行業(yè)運營加上我們挖的一些點,比如像手機一般大家關(guān)注點會是手機的性價比,拍照是不是清晰,還有速度是不是快,是不是發(fā)熱什么的,這是用戶關(guān)注的興趣點。然后它會根據(jù)這個商品會選擇一個興趣點,通過Seq2seq生成短文本。
語義搜索
我們的商品屬性基本上是比較標準化的,因為這里淘寶有一個這樣的商品庫,非標準化的內(nèi)容是沒法上傳的。導(dǎo)致的問題是我們的商品內(nèi)容相對來說是比較規(guī)范化的,但是用戶的輸入的Query不是這樣的,比如我這里舉一些例子,比如一個新品有各種表達,2017新品,2017冬季新品,是吧?新品,有很多的表達。所以就是從從用戶的需求跟商品的內(nèi)容,就存在了一個語義的Gap。還有我們經(jīng)常舉例,比如三口之家用的電飯鍋,很多這種語義的問題,這個語義從語義角度解決語義Match的事情。
大概會有這么幾個方面。比如一個就是意圖的理解,還有意圖的Mapping,比如大容量冰箱,首先知道大的是跟冰箱的容量相關(guān)的,冰箱是個類目,最后要Mapping到人的冰箱,把‘大’改寫成一個容量大于多少升,類目是冰箱這樣才能夠比較好的解決我們這個搜索的這個召回的問題。 第二個語義理解,這里面包括Query和商品都要做語義理解,比如通過image tagging計算從圖片里面抽取很多文本的語義標簽補充到商品文本索引中。 第三個就是現(xiàn)在有這個端到端的深度學(xué)習(xí)技術(shù)來直接學(xué)Query和商品的Similarity,通過端到端的深度學(xué)習(xí)技術(shù)來做語義的召回和語義的相關(guān)性。
智能匹配
主要就是講個性化,做個性化的首要就是個性化數(shù)據(jù)。個性化本質(zhì)上就是說以用戶為中心構(gòu)建用戶的標簽,用戶的行為,還有用戶的偏好,再通過這些數(shù)據(jù)找到,去Match到商品,比如說你看過相似商品,典型的協(xié)同過濾,還有你偏好的品牌的其它商品。那就是基于這些經(jīng)歷了一個以用戶為中心的電商圖譜,這里面還加了一些輔助的數(shù)據(jù),比如商品的相似度,店鋪之間的相似度,這樣構(gòu)建了我們這樣的叫電商圖譜。
個性化召回與向量化召回
召回是這樣的,首先從咱們的電商圖譜里取出用戶的信息,包括比如說年齡性別,還有當?shù)販囟仁嵌嗌?,還有行為足跡等等之類的,社交現(xiàn)在沒用了,因為這是幾年前社交特別火,什么都要摻和一下,其實社交,信息的社交到電商其實風(fēng)馬牛不相及的領(lǐng)域,沒有任何價值。所以現(xiàn)在好友這東西幾乎沒有用。因為不同Query中,用戶信息重要性是不一樣的,我們根據(jù)上下文會做用戶信息的篩選或者排序,會找出比較重要的信息做個性化召回。以上是淘寶商品索引結(jié)構(gòu),傳統(tǒng)的搜索關(guān)鍵字是通過搜索關(guān)鍵字召回,而個性化商品索引,除了Query還會有商品簇,簇與簇之間的關(guān)系,品牌店鋪等等之類的,會加很多個性化的特征做召回,通過這種帶的好處是召回的結(jié)果跟用戶是直接相關(guān)的,就召回這一步帶來個性化。
但是這種基于行為召回還是存在一個問題的。最重要的問題它的泛化能力會比較差。最典型的比如說你通過協(xié)同過濾來做,如果兩個商品,沒有用戶同時看過的話,這兩個商品你認為他們相似度是零,這個結(jié)論是錯的,但是如果通過協(xié)同過濾就有這個問題。我們今年實現(xiàn)了向量化召回,包括兩步:一個是Similarity learning,通過這個深度學(xué)習(xí)做端到端的Similarity learning,就會把這個我們的User 和Item會變成一個向量;第二步就是做向量化召回,比如層次聚類,隨機游走,learning to hash等,這樣的話就是說會極大的提升召回的深度。
個性化工作
在個性化領(lǐng)域其實最重要的一個核心的問題就是怎么去理解用戶,怎么感知用戶和預(yù)測用戶行為及偏好。
首先是數(shù)據(jù),用戶在淘寶有兩個中類型重要的基本信息:一個是用戶標簽,比如年齡、性別、職業(yè)等;第二是用戶足跡,比如 點過,買過的商品,店鋪等;
其次是用戶感知要和搜索上下文相關(guān),即這個用戶的表征和要用戶搜索意圖相關(guān);
第三是搜索有很多差異化的任務(wù),比如用戶消費能力的預(yù)估, User到Item的CTR預(yù)估和用戶購物狀態(tài)預(yù)估等,是為每個任務(wù)做個端到端的深度學(xué)習(xí)模型還是用統(tǒng)一的用戶表征來完成不同的Task?如果每一個任務(wù)都做端到端深度學(xué)習(xí)會有很多問題,比如離線和在線的性能開銷會大很多,或部分任務(wù)樣本太少。
如圖是用戶感知深度模型,輸入X是用戶的點擊行為序列,下一步是embedding,embedding完以后,通過LSTM把用戶行為序列做embedding,因為在搜索用戶感知和Query相關(guān),所以加入query 的 attention層,選擇和當前query有關(guān)系的行為,表征完是Multi-task learning 網(wǎng)絡(luò)。整個這個網(wǎng)絡(luò)的參數(shù)大概有一百億個參數(shù),我在雙11我們還實現(xiàn)了在線學(xué)習(xí)。
算法包括智能交互、語義搜索、智能匹配和搜索策略四個方向。
智能交互
商品搜索就是帶交互的商品推薦,用戶通過關(guān)鍵字輸入搜索意圖,引擎返回和搜索意圖匹配的個性化推薦結(jié)果,好的交互技術(shù)能夠幫助到用戶更好的使用搜索引擎,目前搜索的交互主要是主動關(guān)鍵字輸入和關(guān)鍵字推薦,比如搜索框中的默認查詢詞和搜索結(jié)果中的文字鏈等,推薦引擎根據(jù)用戶搜索歷史、上下文、行為和狀態(tài)推薦關(guān)鍵字。和商品推薦的區(qū)別是,關(guān)鍵字推薦是搜索鏈路的中間環(huán)節(jié),關(guān)鍵字推薦的收益除了關(guān)鍵字的點擊行為外,還需要考慮對整個購物鏈路的影響,包括在推薦關(guān)鍵字的后續(xù)行為中是否有商品點擊、加購和成交或跳轉(zhuǎn)到另外一個關(guān)鍵字的后繼行為,這是一個典型的強化學(xué)習(xí)問題,action 是推薦的關(guān)鍵字候選集合,狀態(tài)是用戶當前搜索關(guān)鍵詞、上下文等,收益是搜索引導(dǎo)的成交。除了被動的關(guān)鍵字推薦,我們也在思考搜索中更加主動的交互方式,能夠做到像導(dǎo)購員一樣的雙向互動,主動詢問用戶需求,挑選個性化的商品和給出個性化的推薦理由,目前我們已經(jīng)在做智能導(dǎo)購和智能內(nèi)容方向的技術(shù)原型及論證,智能導(dǎo)購在技術(shù)上主要是借鑒對話系統(tǒng),通過引導(dǎo)用戶和引擎對話與關(guān)鍵字推薦方式互為補充,包括自然語言理解,對話策略,對話生成,知識推理、知識問答和商品搜索等模塊,功能主要包括:a. 根據(jù)用戶搜索上下文生成引導(dǎo)用戶主動交互的文本,比如搜索“奶粉”時,會生成“您寶寶多大?0~6個月,6個月到1歲….”引導(dǎo)文案,提示用戶細化搜索意圖,如果用戶輸入“3個月”后,會召回相應(yīng)段位的奶粉,并在后續(xù)的搜索中會記住對話狀態(tài)“3個月”寶寶和提示用戶“以下是適合3個月寶寶的奶粉”,b. 知識導(dǎo)購,包含提高售前知識問答或知識提示,比如“3個月寶寶吃什么奶粉” 回答“1段”,目前對話技術(shù)還不太成熟,尤其是在多輪對話狀態(tài)跟蹤、知識問答和自動評價幾個方面,但隨著深度學(xué)習(xí)、強化學(xué)習(xí)和生成對抗學(xué)習(xí)等技術(shù)在NLP、對話策略、閱讀理解等領(lǐng)域的應(yīng)用,越來越多的訓(xùn)練數(shù)據(jù)和應(yīng)用場景,domain specific 的對話技術(shù)未來幾年應(yīng)該會突飛猛進;智能內(nèi)容生成,包括生成或輔助人工生成商品和清單的“賣點”,短標題和文本摘要等,讓淘寶商品表達更加個性化和多元化。
語義搜索
語義搜索主要是解決關(guān)鍵字和商品內(nèi)容之間的語義鴻溝,比如搜索“2~3周歲寶寶外套”,如果按照關(guān)鍵字匹配召回結(jié)果會遠小于實際語義匹配的商品。語義搜索的范圍主要包括:a. query tagging和改寫,比如新品,年齡,尺碼,店鋪名,屬性,類目等搜索意圖識別和歸一化,query tagging模型是用的經(jīng)典的序列標注模型 bi-lstm + CRF,而標簽分類(歸一化) 作為模型另外一個任務(wù),將序列標注和分類融合在一起學(xué)習(xí);b. query 改寫,主要是計算query之間相似度,把一個query改寫成多個語義相似的query,通常做法是先用不同改寫策略生成改寫候選query集合,比如詞替換、向量化后top k、點擊商品相似度等,然后在用ltr對后續(xù)集合排序找出合適的改寫集合,模型設(shè)計和訓(xùn)練相對簡單,比較難的是如何構(gòu)建高質(zhì)量的訓(xùn)練樣本集合,線上我們用bandit 的方法探測部分query 改寫結(jié)果的優(yōu)劣,離線則用規(guī)則和生成對抗網(wǎng)絡(luò)生成一批質(zhì)量較高的樣本; c. 商品內(nèi)容理解和語義標簽,通過商品圖片,詳情頁,評價和同義詞,上下位詞等給商品打標簽或擴充商品索引內(nèi)容,比如用 image tagging技術(shù)生成圖片的文本標簽豐富商品內(nèi)容,或者更進一步用直接用圖片向量和文本向量融合,實現(xiàn)富媒體的檢索和查詢;d. 語義匹配,經(jīng)典的DSSM 模型技術(shù)把query 和商品變成向量,用向量內(nèi)積表達語義相似度,在問答或閱讀理解中大量用到多層LSTM + attention 做語義匹配,同樣高質(zhì)量樣本,特別是高質(zhì)量負樣本很大程度上決定了模型的質(zhì)量,我們沒有采樣效率很低的隨機負采樣,而是基于電商知識圖譜,通過生成字面相似但不相關(guān)的query及相關(guān)文檔的方法生成負樣本。從上面可以看到query tagging、query相似度、語義匹配和語義相關(guān)性是多個目標不同但關(guān)聯(lián)程度非常高的任務(wù),下一步我們計劃用統(tǒng)一的語義計算框架支持不同的語義計算任務(wù),具體包括1. 開發(fā)基于商品內(nèi)容的商品表征學(xué)習(xí)框架,為商品內(nèi)容理解,內(nèi)容生成,商品召回和相關(guān)性提供統(tǒng)一的商品表征學(xué)習(xí)框架,重點包括商品標題,屬性,詳情頁和評價等文本信息抽取,圖像特征抽取和多模信號融合;2. query 表征學(xué)習(xí)框架,為query 類目預(yù)測,query改寫,query 推薦等提供統(tǒng)一的表征學(xué)習(xí)框架,重點通過多個query 相似任務(wù)訓(xùn)練統(tǒng)一的query表征學(xué)習(xí)模型;3. 語義召回,語義相關(guān)性等業(yè)務(wù)應(yīng)用模型框架。語義搜索除了增加搜索結(jié)果相關(guān)性,提升用戶體驗外,也可以一定程度上遏制淘寶商品標題堆砌熱門關(guān)鍵詞的問題。
智能匹配
這里主要是指個性化和排序。內(nèi)容包括:a. ibrain (深度用戶感知網(wǎng)絡(luò)),搜索或推薦中個性化的重點是用戶的理解與表達,基于淘寶的用戶畫像靜態(tài)特征和用戶行為動態(tài)特征,我們基于multi-modals learning、multi-task representation learning以及LSTM的相關(guān)技術(shù),從海量用戶行為日志中直接學(xué)習(xí)用戶的通用表達,該學(xué)習(xí)方法善于“總結(jié)經(jīng)驗”、“觸類旁通”,使得到的用戶表達更基礎(chǔ)且更全面,能夠直接用于用戶行為識別、偏好預(yù)估、個性化召回、個性化排序等任務(wù),在搜索、推薦和廣告等個性化業(yè)務(wù)中有廣泛的應(yīng)用場景,感知網(wǎng)絡(luò)超過10B個參數(shù),已經(jīng)學(xué)習(xí)了幾千億次的用戶行為,并且會保持不間斷的增量學(xué)習(xí)越來越聰明; b. 多模學(xué)習(xí),淘寶商品有文本、圖像、標簽、id 、品牌、類目、店鋪及統(tǒng)計特征,這些特征彼此有一定程度的冗余和互補,我們利用多模學(xué)習(xí)通過多模聯(lián)合學(xué)習(xí)方法把多維度特征融合在一起形成統(tǒng)一的商品標準,并多模聯(lián)合學(xué)習(xí)中引入self-attention實現(xiàn)特征維度在不同場景下的差異,比如女裝下圖片特征比較重要,3C下文本比較重要等;c. deepfm,相對wide & deep 模型,deepfm 增加了特征組合能力,基于先驗知識的組合特征能夠應(yīng)用到深度學(xué)習(xí)模型中,提升模型預(yù)測精度;d. 在線深度排序模型,由于行為類型和商品重要性差異,每個樣本學(xué)習(xí)權(quán)重不同,通過樣本池對大權(quán)重樣本重復(fù)copy分批學(xué)習(xí),有效的提升了模型學(xué)習(xí)穩(wěn)定性,同時通過融合用戶狀態(tài)深度ltr模型實現(xiàn)了千人千面的排序模型學(xué)習(xí);e. 全局排序,ltr 只對單個文檔打分然后按照ltr分數(shù)和打散規(guī)則排序,容易導(dǎo)致搜索結(jié)果同質(zhì)化,影響總頁效率,全局排序通過已知排序結(jié)果做為上下文預(yù)測下一個位置的商品點擊概率,有效提升了總頁排序效率;f. 另外工程還實現(xiàn)了基于用戶和商品向量的向量召回引擎,相對倒排索引,向量化召回泛化能力更強,對語義搜索和提高個性化匹配深度是非常有價值的。以上實現(xiàn)了搜索從召回、排序特征、排序模型、個性化和重排的深度學(xué)習(xí)升級,在雙11無線商品搜索中帶來超過10% (AB-Test)的搜索指標提升。
智能決策
搜索中個性化產(chǎn)品都是成交最大化,導(dǎo)致的問題是搜索結(jié)果趨同,浪費曝光,今年做的一個重要工作是利用多智能體協(xié)同學(xué)習(xí)技術(shù),實現(xiàn)了搜索多個異構(gòu)場景間的環(huán)境感知、場景通信、單獨決策和聯(lián)合學(xué)習(xí),實現(xiàn)聯(lián)合收益最大化,而不是此消彼長,在今年雙11中聯(lián)合優(yōu)化版本帶來的店鋪內(nèi)和無線搜索綜合指標提升12% (AB-Test),比非聯(lián)合優(yōu)化版本高3% (AB-Test)。
性能優(yōu)化
在深度學(xué)習(xí)剛起步的時候,我們意識到深度模型inference 性能會是一個瓶頸,所以在這方面做了大量的調(diào)研和實驗,包括模型壓縮(剪枝),低秩分解,量化和二值網(wǎng)絡(luò),由于缺少相應(yīng)的指令集和硬件支持,最終只在個別場景下上線,期待支持低精度矩陣計算和稀疏矩陣計算的硬件早日出現(xiàn)。
未來計劃
通用用戶表征學(xué)習(xí)。前面介紹的DUPN 是一個非常不錯的用戶表征學(xué)習(xí)模型,但基于query 的attention 只適合搜索,同時缺少基于日志來源的attention,難以推廣到其他業(yè)務(wù),在思考做一個能夠適合多個業(yè)務(wù)場景的用戶表征模型,非搜索業(yè)務(wù)做些簡單fine tuning 就能取得比較好的效果;同時用戶購物偏好受季節(jié)和周期等影響,時間跨度非常大,最近K個行為序列假設(shè)太簡單,我們在思考能夠做life-long learning 的模型,能夠?qū)W習(xí)用戶過去幾年的行為序列;搜索鏈路聯(lián)合優(yōu)化。從用戶進入搜索到離開搜索鏈路中的整體優(yōu)化,比如 搜索前的query 引導(dǎo)(底紋),搜索中的商品和內(nèi)容排序,搜索后的 query推薦(錦囊)等場景;跨場景聯(lián)合優(yōu)化。今年搜索內(nèi)部主搜索和店鋪內(nèi)搜索聯(lián)合優(yōu)化取得了很好的結(jié)果,未來希望能夠拓展在更多大流量場景,提高手淘的整體購物體驗;多目標聯(lián)合優(yōu)化。搜索除了成交外,還需要承擔(dān)賣家多樣性,流量公平性,流量商業(yè)化等居多平臺和賣家的訴求,搜索產(chǎn)品中除了商品搜索外還有“穹頂”,“主題搜索”,“錦囊”,“內(nèi)容搜索”等非商品搜索內(nèi)容,不同搜索目標和不同內(nèi)容(物種)之間的聯(lián)合優(yōu)化未來很值得深挖。
以上就是關(guān)于人工智能十大經(jīng)典算法相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。
推薦閱讀:
人工智能專業(yè)畢業(yè)后從事什么工作(人工智能專業(yè)畢業(yè)后做什么工作)