-
當前位置:首頁 > 創(chuàng)意學院 > 技術(shù) > 專題列表 > 正文
是google提出的用于處理海量數(shù)據(jù)(是google提出的用于處理海量數(shù)據(jù)的方法)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于是google提出的用于處理海量數(shù)據(jù)的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準,寫出的就越詳細,有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com。
創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務請撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、大數(shù)據(jù)分析工具詳盡介紹&數(shù)據(jù)分析算法
大數(shù)據(jù)分析工具詳盡介紹&數(shù)據(jù)分析算法
1、 Hadoop
Hadoop 是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的,因為它假設(shè)計算元素和存儲會失敗,因此它維護多個工作數(shù)據(jù)副本,確保能夠針對失敗的節(jié)點重新分布處理。Hadoop 是高效的,因為它以并行的方式工作,通過并行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級數(shù)據(jù)。此外,Hadoop 依賴于社區(qū)服務器,因此它的成本比較低,任何人都可以使用。
Hadoop是一個能夠讓用戶輕松架構(gòu)和使用的分布式計算平臺。用戶可以輕松地在Hadoop上開發(fā)和運行處理海量數(shù)據(jù)的應用程序。它主要有以下幾個優(yōu)點:
⒈高可靠性。Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。
⒉高擴展性。Hadoop是在可用的計算機集簇間分配數(shù)據(jù)并完成計算任務的,這些集簇可以方便地擴展到數(shù)以千計的節(jié)點中。
⒊高效性。Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡,因此處理速度非???。
⒋高容錯性。Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務重新分配。
Hadoop帶有用 Java 語言編寫的框架,因此運行在 Linux 生產(chǎn)平臺上是非常理想的。Hadoop 上的應用程序也可以使用其他語言編寫,比如 C++。
2、 HPCC
HPCC,High Performance Computing and Communications(高性能計算與通信)的縮寫。1993年,由美國科學、工程、技術(shù)聯(lián)邦協(xié)調(diào)理事會向國會提交了“重大挑戰(zhàn)項目:高性能計算與 通信”的報告,也就是被稱為HPCC計劃的報告,即美國總統(tǒng)科學戰(zhàn)略項目,其目的是通過加強研究與開發(fā)解決一批重要的科學與技術(shù)挑戰(zhàn)問題。HPCC是美國 實施信息高速公路而上實施的計劃,該計劃的實施將耗資百億美元,其主要目標要達到:開發(fā)可擴展的計算系統(tǒng)及相關(guān)軟件,以支持太位級網(wǎng)絡傳輸性能,開發(fā)千兆 比特網(wǎng)絡技術(shù),擴展研究和教育機構(gòu)及網(wǎng)絡連接能力。
該項目主要由五部分組成:
1、高性能計算機系統(tǒng)(HPCS),內(nèi)容包括今后幾代計算機系統(tǒng)的研究、系統(tǒng)設(shè)計工具、先進的典型系統(tǒng)及原有系統(tǒng)的評價等;
2、先進軟件技術(shù)與算法(ASTA),內(nèi)容有巨大挑戰(zhàn)問題的軟件支撐、新算法設(shè)計、軟件分支與工具、計算計算及高性能計算研究中心等;
3、國家科研與教育網(wǎng)格(NREN),內(nèi)容有中接站及10億位級傳輸?shù)难芯颗c開發(fā);
4、基本研究與人類資源(BRHR),內(nèi)容有基礎(chǔ)研究、培訓、教育及課程教材,被設(shè)計通過獎勵調(diào)查者-開始的,長期 的調(diào)查在可升級的高性能計算中來增加創(chuàng)新意識流,通過提高教育和高性能的計算訓練和通信來加大熟練的和訓練有素的人員的聯(lián)營,和來提供必需的基礎(chǔ)架構(gòu)來支 持這些調(diào)查和研究活動;
5、信息基礎(chǔ)結(jié)構(gòu)技術(shù)和應用(IITA ),目的在于保證美國在先進信息技術(shù)開發(fā)方面的領(lǐng)先地位。
3、 Storm
Storm是自由的開源軟件,一個分布式的、容錯的實時計算系統(tǒng)。Storm可以非??煽康奶幚睚嫶蟮臄?shù)據(jù)流,用于處理Hadoop的批量數(shù)據(jù)。Storm很簡單,支持許多種編程語言,使用起來非常有趣。Storm由Twitter開源而來,其它知名的應用企業(yè)包括Groupon、淘寶、支付寶、阿里巴巴、樂元素、Admaster等等。
Storm有許多應用領(lǐng)域:實時分析、在線機器學習、不停頓的計算、分布式RPC(遠過程調(diào)用協(xié)議,一種通過網(wǎng)絡從遠程計算機程序上請求服務)、 ETL(Extraction-Transformation-Loading的縮寫,即數(shù)據(jù)抽取、轉(zhuǎn)換和加載)等等。Storm的處理速度驚人:經(jīng)測 試,每個節(jié)點每秒鐘可以處理100萬個數(shù)據(jù)元組。Storm是可擴展、容錯,很容易設(shè)置和操作。
4、 Apache Drill
為了幫助企業(yè)用戶尋找更為有效、加快Hadoop數(shù)據(jù)查詢的方法,Apache軟件基金會近日發(fā)起了一項名為“Drill”的開源項目。Apache Drill 實現(xiàn)了 Google’s Dremel.
據(jù)Hadoop廠商MapR Technologies公司產(chǎn)品經(jīng)理Tomer Shiran介紹,“Drill”已經(jīng)作為Apache孵化器項目來運作,將面向全球軟件工程師持續(xù)推廣。
該項目將會創(chuàng)建出開源版本的谷歌Dremel Hadoop工具(谷歌使用該工具來為Hadoop數(shù)據(jù)分析工具的互聯(lián)網(wǎng)應用提速)。而“Drill”將有助于Hadoop用戶實現(xiàn)更快查詢海量數(shù)據(jù)集的目的。
“Drill”項目其實也是從谷歌的Dremel項目中獲得靈感:該項目幫助谷歌實現(xiàn)海量數(shù)據(jù)集的分析處理,包括分析抓取Web文檔、跟蹤安裝在Android Market上的應用程序數(shù)據(jù)、分析垃圾郵件、分析谷歌分布式構(gòu)建系統(tǒng)上的測試結(jié)果等等。
通過開發(fā)“Drill”Apache開源項目,組織機構(gòu)將有望建立Drill所屬的API接口和靈活強大的體系架構(gòu),從而幫助支持廣泛的數(shù)據(jù)源、數(shù)據(jù)格式和查詢語言。
5、 RapidMiner
RapidMiner是世界領(lǐng)先的數(shù)據(jù)挖掘解決方案,在一個非常大的程度上有著先進技術(shù)。它數(shù)據(jù)挖掘任務涉及范圍廣泛,包括各種數(shù)據(jù)藝術(shù),能簡化數(shù)據(jù)挖掘過程的設(shè)計和評價。
功能和特點
免費提供數(shù)據(jù)挖掘技術(shù)和庫
100%用Java代碼(可運行在操作系統(tǒng))
數(shù)據(jù)挖掘過程簡單,強大和直觀
內(nèi)部XML保證了標準化的格式來表示交換數(shù)據(jù)挖掘過程
可以用簡單腳本語言自動進行大規(guī)模進程
多層次的數(shù)據(jù)視圖,確保有效和透明的數(shù)據(jù)
圖形用戶界面的互動原型
命令行(批處理模式)自動大規(guī)模應用
Java API(應用編程接口)
簡單的插件和推廣機制
強大的可視化引擎,許多尖端的高維數(shù)據(jù)的可視化建模
400多個數(shù)據(jù)挖掘運營商支持
耶魯大學已成功地應用在許多不同的應用領(lǐng)域,包括文本挖掘,多媒體挖掘,功能設(shè)計,數(shù)據(jù)流挖掘,集成開發(fā)的方法和分布式數(shù)據(jù)挖掘。
6、 Pentaho BI
Pentaho BI 平臺不同于傳統(tǒng)的BI 產(chǎn)品,它是一個以流程為中心的,面向解決方案(Solution)的框架。其目的在于將一系列企業(yè)級BI產(chǎn)品、開源軟件、API等等組件集成起來,方便商務智能應用的開發(fā)。它的出現(xiàn),使得一系列的面向商務智能的獨立產(chǎn)品如Jfree、Quartz等等,能夠集成在一起,構(gòu)成一項項復雜的、完整的商務智能解決方案。
Pentaho BI 平臺,Pentaho Open BI 套件的核心架構(gòu)和基礎(chǔ),是以流程為中心的,因為其中樞控制器是一個工作流引擎。工作流引擎使用流程定義來定義在BI 平臺上執(zhí)行的商業(yè)智能流程。流程可以很容易的被定制,也可以添加新的流程。BI 平臺包含組件和報表,用以分析這些流程的性能。目前,Pentaho的主要組成元素包括報表生成、分析、數(shù)據(jù)挖掘和工作流管理等等。這些組件通過 J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技術(shù)集成到Pentaho平臺中來。 Pentaho的發(fā)行,主要以Pentaho SDK的形式進行。
Pentaho SDK共包含五個部分:Pentaho平臺、Pentaho示例數(shù)據(jù)庫、可獨立運行的Pentaho平臺、Pentaho解決方案示例和一個預先配制好的 Pentaho網(wǎng)絡服務器。其中Pentaho平臺是Pentaho平臺最主要的部分,囊括了Pentaho平臺源代碼的主體;Pentaho數(shù)據(jù)庫為 Pentaho平臺的正常運行提供的數(shù)據(jù)服務,包括配置信息、Solution相關(guān)的信息等等,對于Pentaho平臺來說它不是必須的,通過配置是可以用其它數(shù)據(jù)庫服務取代的;可獨立運行的Pentaho平臺是Pentaho平臺的獨立運行模式的示例,它演示了如何使Pentaho平臺在沒有應用服務器支持的情況下獨立運行;
Pentaho解決方案示例是一個Eclipse工程,用來演示如何為Pentaho平臺開發(fā)相關(guān)的商業(yè)智能解決方案。
Pentaho BI 平臺構(gòu)建于服務器,引擎和組件的基礎(chǔ)之上。這些提供了系統(tǒng)的J2EE 服務器,安全,portal,工作流,規(guī)則引擎,圖表,協(xié)作,內(nèi)容管理,數(shù)據(jù)集成,分析和建模功能。這些組件的大部分是基于標準的,可使用其他產(chǎn)品替換之。
7、 SAS Enterprise Miner
§ 支持整個數(shù)據(jù)挖掘過程的完備工具集
§ 易用的圖形界面,適合不同類型的用戶快速建模
§ 強大的模型管理和評估功能
§ 快速便捷的模型發(fā)布機制, 促進業(yè)務閉環(huán)形成
數(shù)據(jù)分析算法
大數(shù)據(jù)分析主要依靠機器學習和大規(guī)模計算。機器學習包括監(jiān)督學習、非監(jiān)督學習、強化學習等,而監(jiān)督學習又包括分類學習、回歸學習、排序?qū)W習、匹配學習等(見圖1)。分類是最常見的機器學習應用問題,比如垃圾郵件過濾、人臉檢測、用戶畫像、文本情感分析、網(wǎng)頁歸類等,本質(zhì)上都是分類問題。分類學習也是機器學習領(lǐng)域,研究最徹底、使用最廣泛的一個分支。
最近、Fernández-Delgado等人在JMLR(Journal of Machine Learning Research,機器學習頂級期刊)雜志發(fā)表了一篇有趣的論文。他們讓179種不同的分類學習方法(分類學習算法)在UCI 121個數(shù)據(jù)集上進行了“大比武”(UCI是機器學習公用數(shù)據(jù)集,每個數(shù)據(jù)集的規(guī)模都不大)。結(jié)果發(fā)現(xiàn)Random Forest(隨機森林)和SVM(支持向量機)名列第一、第二名,但兩者差異不大。在84.3%的數(shù)據(jù)上、Random Forest壓倒了其它90%的方法。也就是說,在大多數(shù)情況下,只用Random Forest 或 SVM事情就搞定了。
KNN
K最近鄰算法。給定一些已經(jīng)訓練好的數(shù)據(jù),輸入一個新的測試數(shù)據(jù)點,計算包含于此測試數(shù)據(jù)點的最近的點的分類情況,哪個分類的類型占多數(shù),則此測試點的分類與此相同,所以在這里,有的時候可以復制不同的分類點不同的權(quán)重。近的點的權(quán)重大點,遠的點自然就小點。詳細介紹鏈接
Naive Bayes
樸素貝葉斯算法。樸素貝葉斯算法是貝葉斯算法里面一種比較簡單的分類算法,用到了一個比較重要的貝葉斯定理,用一句簡單的話概括就是條件概率的相互轉(zhuǎn)換推導。詳細介紹鏈接
樸素貝葉斯分類是一種十分簡單的分類算法,叫它樸素貝葉斯分類是因為這種方法的思想真的很樸素,樸素貝葉斯的思想基礎(chǔ)是這樣的:對于給出的待分類項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個最大,就認為此待分類項屬于哪個類別。通俗來說,就好比這么個道理,你在街上看到一個黑人,我問你你猜這哥們哪里來的,你十有八九猜非洲。為什么呢?因為黑人中非洲人的比率最高,當然人家也可能是美洲人或亞洲人,但在沒有其它可用信息下,我們會選擇條件概率最大的類別,這就是樸素貝葉斯的思想基礎(chǔ)。
SVM
支持向量機算法。支持向量機算法是一種對線性和非線性數(shù)據(jù)進行分類的方法,非線性數(shù)據(jù)進行分類的時候可以通過核函數(shù)轉(zhuǎn)為線性的情況再處理。其中的一個關(guān)鍵的步驟是搜索最大邊緣超平面。詳細介紹鏈接
Apriori
Apriori算法是關(guān)聯(lián)規(guī)則挖掘算法,通過連接和剪枝運算挖掘出頻繁項集,然后根據(jù)頻繁項集得到關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則的導出需要滿足最小置信度的要求。詳細介紹鏈接
PageRank
網(wǎng)頁重要性/排名算法。PageRank算法最早產(chǎn)生于Google,核心思想是通過網(wǎng)頁的入鏈數(shù)作為一個網(wǎng)頁好快的判定標準,如果1個網(wǎng)頁內(nèi)部包含了多個指向外部的鏈接,則PR值將會被均分,PageRank算法也會遭到LinkSpan攻擊。詳細介紹鏈接
RandomForest
隨機森林算法。算法思想是決策樹+boosting.決策樹采用的是CART分類回歸數(shù),通過組合各個決策樹的弱分類器,構(gòu)成一個最終的強分類器,在構(gòu)造決策樹的時候采取隨機數(shù)量的樣本數(shù)和隨機的部分屬性進行子決策樹的構(gòu)建,避免了過分擬合的現(xiàn)象發(fā)生。詳細介紹鏈接
Artificial Neural Network
“神經(jīng)網(wǎng)絡”這個詞實際是來自于生物學,而我們所指的神經(jīng)網(wǎng)絡正確的名稱應該是“人工神經(jīng)網(wǎng)絡(ANNs)”。
人工神經(jīng)網(wǎng)絡也具有初步的自適應與自組織能力。在學習或訓練過程中改變突觸權(quán)重值,以適應周圍環(huán)境的要求。同一網(wǎng)絡因?qū)W習方式及內(nèi)容不同可具有不同的功能。人工神經(jīng)網(wǎng)絡是一個具有學習能力的系統(tǒng),可以發(fā)展知識,以致超過設(shè)計者原有的知識水平。通常,它的學習訓練方式可分為兩種,一種是有監(jiān)督或稱有導師的學習,這時利用給定的樣本標準進行分類或模仿;另一種是無監(jiān)督學習或稱無為導師學習,這時,只規(guī)定學習方式或某些規(guī)則,則具體的學習內(nèi)容隨系統(tǒng)所處環(huán)境 (即輸入信號情況)而異,系統(tǒng)可以自動發(fā)現(xiàn)環(huán)境特征和規(guī)律性,具有更近似人腦的功能。
二、常用的搜索引擎有哪些
索引擎(search engines)是對互聯(lián)網(wǎng)上的信息資源進行搜集整理,然后供你查詢的系統(tǒng),它包括信息搜集、信息整理和用戶查詢?nèi)糠帧?/p>
搜索引擎是一個為你提供信息“檢索”服務的網(wǎng)站,它使用某些程序把因特網(wǎng)上的所有信息歸類以幫助人們在茫茫網(wǎng)海中搜尋到所需要的信息。
早期的搜索引擎是把因特網(wǎng)中的資源服務器的地址收集起來,由其提供的資源的類型不同而分成不同的目錄,再一層層地進行分類。
人們要找自己想要的信息可按他們的分類一層層進入,就能最后到達目的地,找到自己想要的信息。
這其實是最原始的方式,只適用于因特網(wǎng)信息并不多的時候。
隨著因特網(wǎng)信息按幾何式增長,出現(xiàn)了真正意義上的搜索引擎,這些搜索引擎知道網(wǎng)站上每一頁的開始,隨后搜索因特網(wǎng)上的所有超級鏈接,把代表超級鏈接的所有詞匯放入一個數(shù)據(jù)庫。
這就是現(xiàn)在搜索引擎的原型。
隨著yahoo!的出現(xiàn),搜索引擎的發(fā)展也進入了黃金時代,相比以前其性能更加優(yōu)越。
現(xiàn)在的搜索引擎已經(jīng)不只是單純的搜索網(wǎng)頁的信息了,它們已經(jīng)變得更加綜合化,完美化了。
以搜索引擎權(quán)威yahoo!為例,從1995年3月由美籍華裔楊致遠等人創(chuàng)辦yahoo!開始,到現(xiàn)在,他們從一個單一的搜索引擎發(fā)展到現(xiàn)在有電子商務、新聞信息服務、個人免費電子信箱服務等多種網(wǎng)絡服務,充分說明了搜索引擎的發(fā)展從單一到綜合的過程。
然而由于搜索引擎的工作方式和因特網(wǎng)的快速發(fā)展,使其搜索的結(jié)果讓人越來越不滿意。
例如,搜索“電腦”這個詞匯,就可能有數(shù)百萬頁的結(jié)果。
這是由于搜索引擎通過對網(wǎng)站的相關(guān)性來優(yōu)化搜索結(jié)果,這種相關(guān)性又是由關(guān)鍵字在網(wǎng)站的位置、網(wǎng)站的名稱、 標簽等公式來決定的。
這就是使搜索引擎搜索結(jié)果多而雜的原因。
而搜索引擎中的數(shù)據(jù)庫因為因特網(wǎng)的發(fā)展變化也必然包含了死鏈接。
這篇文章中,我們介紹了google,它是一個大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中應用廣泛。
Google的設(shè)計能夠高效地抓網(wǎng)頁并建立索引,它的查詢結(jié)果比其它現(xiàn)有系統(tǒng)都高明。
這個原型的全文和超連接的數(shù)據(jù)庫至少包含24‘000‘000個網(wǎng)頁。
我們可以從://google.stanford.edu/ 下載。
設(shè)計搜索引擎是一項富有挑戰(zhàn)性的工作。
搜索引擎為上億個網(wǎng)頁建立索引,其中包含大量迥然不同的詞匯。
而且每天要回答成千上萬個查詢。
在網(wǎng)絡中,盡管大型搜索引擎非常重要,但是學術(shù)界卻很少研究它。
此外由于技術(shù)的快速發(fā)展和網(wǎng)頁的大量增加,現(xiàn)在建立一個搜索引擎和三年前完全不同。
本文詳細介紹了我們的大型搜索引擎,據(jù)我們所知,在公開發(fā)表的論文中,這是第一篇描述地如此詳細。
除了把傳統(tǒng)數(shù)據(jù)搜索技術(shù)應用到如此大量級網(wǎng)頁中所遇到的問題,還有許多新的技術(shù)挑戰(zhàn),包括應用超文本中的附加信息改進搜索結(jié)果。
本文將解決這個問題,描述如何運用超文本中的附加信息,建立一個大型實用系統(tǒng)。
任何人都可以在網(wǎng)上隨意發(fā)布信息,如何有效地處理這些無組織的超文本 *** ,也是本文要關(guān)注的問題。
關(guān)鍵詞 World Wide Web,搜索引擎,信息檢索,PageRank, Google 1 緒論 Web 給信息檢索帶來了新的挑戰(zhàn)。
Web上的信息量快速增長,同時不斷有毫無經(jīng)驗的新用戶來體驗Web這門藝術(shù)。
人們喜歡用超級鏈接來網(wǎng)上沖浪,通常都以象Yahoo這樣重要的網(wǎng)頁或搜索引擎開始。
大家認為List(目錄)有效地包含了大家感興趣的主題,但是它具有主觀性,建立和維護的代價高,升級慢,不能包括所有深奧的主題。
基于關(guān)鍵詞的自動搜索引擎通常返回太多的低質(zhì)量的匹配。
使問題更遭的是,一些廣告為了贏得人們的關(guān)注想方設(shè)法誤導自動搜索引擎。
我們建立了一個大型搜索引擎解決了現(xiàn)有系統(tǒng)中的很多問題。
應用超文本結(jié)構(gòu),大大提高了查詢質(zhì)量。
我們的系統(tǒng)命名為google,取名自googol的通俗拼法,即10的100次方,這和我們的目標建立一個大型搜索引擎不謀而合。
1.1網(wǎng)絡搜索引擎—升級換代(scaling up):1994-2000 搜索引擎技術(shù)不得不快速升級(scale dramatically)跟上成倍增長的web數(shù)量。
1994年,第一個Web搜索引擎,World Wide Web Worm(WWWW)可以檢索到110,000個網(wǎng)頁和Web的文件。
到1994年11月,頂級的搜索引擎聲稱可以檢索到2‘000’000(WebCrawler)至100‘000’000個網(wǎng)絡文件(來自 Search Engine Watch)。
可以預見到2000年,可檢索到的網(wǎng)頁將超過1‘000’000‘000。
同時,搜索引擎的訪問量也會以驚人的速度增長。
在1997年的三四月份,World Wide Web Worm 平均每天收到1500個查詢。
在1997年11月,Altavista 聲稱它每天要處理大約20’000’000個查詢。
隨著網(wǎng)絡用戶的增長,到2000年,自動搜索引擎每天將處理上億個查詢。
我們系統(tǒng)的設(shè)計目標要解決許多問題,包括質(zhì)量和可升級性,引入升級搜索引擎技術(shù)(scaling search engine technology),把它升級到如此大量的數(shù)據(jù)上。
1.2 Google:跟上Web的步伐(Scaling with the Web)建立一個能夠和當今web規(guī)模相適應的搜索引擎會面臨許多挑戰(zhàn)。
抓網(wǎng)頁技術(shù)必須足夠快,才能跟上網(wǎng)頁變化的速度(keep them up to date)。
存儲索引和文檔的空間必須足夠大。
索引系統(tǒng)必須能夠有效地處理上千億的數(shù)據(jù)。
處理查詢必須快,達到每秒能處理成百上千個查詢(hundreds to thousands per second.)。
隨著Web的不斷增長,這些任務變得越來越艱巨。
然而硬件的執(zhí)行效率和成本也在快速增長,可以部分抵消這些困難。
還有幾個值得注意的因素,如磁盤的尋道時間(disk seek time),操作系統(tǒng)的效率(operating system robustness)。
在設(shè)計Google的過程中,我們既考慮了Web的增長速度,又考慮了技術(shù)的更新。
Google的設(shè)計能夠很好的升級處理海量數(shù)據(jù)集。
它能夠有效地利用存儲空間來存儲索引。
優(yōu)化的數(shù)據(jù)結(jié)構(gòu)能夠快速有效地存?。▍⒖?.2節(jié))。
進一步,我們希望,相對于所抓取的文本文件和HTML網(wǎng)頁的數(shù)量而言,存儲和建立索引的代價盡可能的?。▍⒖几戒汢)。
對于象Google這樣的集中式系統(tǒng),采取這些措施得到了令人滿意的系統(tǒng)可升級性(scaling properties)。
1. 3設(shè)計目標 1.3.1提高搜索質(zhì)量我們的主要目標是提高Web搜索引擎的質(zhì)量。
1994年,有人認為建立全搜索索引(a plete search index)可以使查找任何數(shù)據(jù)都變得容易。
根據(jù)Best of the Web 1994 -- Navigators ,“最好的導航服務可以使在Web上搜索任何信息都很容易(當時所有的數(shù)據(jù)都可以被登錄)”。
然而1997年的Web就迥然不同。
近來搜索引擎的用戶已經(jīng)證實索引的完整性不是評價搜索質(zhì)量的唯一標準。
用戶感興趣的搜索結(jié)果往往湮沒在“垃圾結(jié)果Junk result”中。
實際上,到1997年11月為止,四大商業(yè)搜索引擎中只 有一個能夠找到它自己(搜索自己名字時返回的前十個結(jié)果中有它自己)。
導致這一問題的主要原因是文檔的索引數(shù)目增加了好幾個數(shù)量級,但是用戶能夠看的文檔數(shù)卻沒有增加。
用戶仍然只希望看前面幾十個搜索結(jié)果。
因此,當 *** 增大時,我們就需要工具使結(jié)果精確(在返回的前幾十個結(jié)果中,有關(guān)文檔的數(shù)量)。
由于是從成千上萬個有點相關(guān)的文檔中選出幾十個,實際上,相關(guān)的概念就是指最好的文檔。
高精確非常重要,甚至以響應(系統(tǒng)能夠返回的有關(guān)文檔的總數(shù))為代價。
令人高興的是利用超文本鏈接提供的信息有助于改進搜索和其它應用 。
尤其是鏈接結(jié)構(gòu)和鏈接文本,為相關(guān)性的判斷和高質(zhì)量的過濾提供了大量的信息。
Google既利用了鏈接結(jié)構(gòu)又用到了anchor文本(見2.1和2.2節(jié))。
1.3.2搜索引擎的學術(shù)研究隨著時間的流逝,除了發(fā)展迅速,Web越來越商業(yè)化。
1993年,只有1.5%的Web服務是來自域名。
到1997年,超過了60%。
同時,搜索引擎從學術(shù)領(lǐng)域走進商業(yè)。
到現(xiàn)在大多數(shù)搜索引擎被公司所有,很少技公開術(shù)細節(jié)。
這就導致搜索引擎技術(shù)很大程度上仍然是暗箱操作,并傾向做廣告(見附錄A)。
Google的主要目標是推動學術(shù)領(lǐng)域在此方面的發(fā)展,和對它的了解。
另一個設(shè)計目標是給大家一個實用的系統(tǒng)。
應用對我們來說非常重要,因為現(xiàn)代網(wǎng)絡系統(tǒng)中存在大量的有用數(shù)據(jù)(us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems)。
例如,每天有幾千萬個研究。
然而,得到這些數(shù)據(jù)卻非常困難,主要因為它們沒有商業(yè)價值。
我們最后的設(shè)計目標是建立一個體系結(jié)構(gòu)能夠支持新的關(guān)于海量Web數(shù)據(jù)的研究。
為了支持新研究,Google以壓縮的形式保存了實際所抓到的文檔。
設(shè)計google的目標之一就是要建立一個環(huán)境使其他研究者能夠很快進入這個領(lǐng)域,處理海量Web數(shù)據(jù),得到滿意的結(jié)果,而通過其它方法卻很難得到結(jié)果。
系統(tǒng)在短時間內(nèi)被建立起來,已經(jīng)有幾篇論文用到了Google建的數(shù)據(jù)庫,更多的在起步中。
我們的另一個目標是建立一個宇宙空間實驗室似的環(huán)境,在這里研究者甚至學生都可以對我們的海量Web數(shù)據(jù)設(shè)計或做一些實驗。
2. 系統(tǒng)特點 Google搜索引擎有兩個重要特點,有助于得到高精度的搜索結(jié)果。
第一點,應用Web的鏈接結(jié)構(gòu)計算每個網(wǎng)頁的Rank值,稱為PageRank,將在98頁詳細描述它。
第二點,Google利用超鏈接改進搜索結(jié)果。
2.1 PageRank:給網(wǎng)頁排序 Web的引用(鏈接)圖是重要的資源,卻被當今的搜索引擎很大程度上忽視了。
我們建立了一個包含518‘000’000個超鏈接的圖,它是一個具有重要意義的樣本。
這些圖能夠快速地計算網(wǎng)頁的PageRank值,它是一個客觀的標準,較好的符合人們心目中對一個網(wǎng)頁重要程度的評價,建立的基礎(chǔ)是通過引用判斷重要性。
因此在web中,PageRank能夠優(yōu)化關(guān)鍵詞查詢的結(jié)果。
對于大多數(shù)的主題,在網(wǎng)頁標題查詢中用PageRank優(yōu)化簡單文本匹配,我們得到了令人驚嘆的結(jié)果(從google.stanford.edu可以得到演示)。
對于Google主系統(tǒng)中的全文搜索,PageRank也幫了不少忙。
2.1.1計算PageRank 文獻檢索中的引用理論用到Web中,引用網(wǎng)頁的鏈接數(shù),一定程度上反映了該網(wǎng)頁的重要性和質(zhì)量。
PageRank發(fā)展了這種思想,網(wǎng)頁間的鏈接是不平等的。
PageRank定義如下: 我們假設(shè)T1…Tn指向網(wǎng)頁A(例如,被引用)。
參數(shù)d是制動因子,使結(jié)果在0,1之間。
通常d等于0.85。
在下一節(jié)將詳細介紹d。
C(A)定義為網(wǎng)頁A指向其它網(wǎng)頁的鏈接數(shù),網(wǎng)頁A的PageRank值由下式給出: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 注意PageRank的形式,分布到各個網(wǎng)頁中,因此所有網(wǎng)頁的PageRank和是1。
PageRank或PR(A)可以用簡單的迭代算法計算,相應規(guī)格化Web鏈接矩陣的主特征向量。
中等規(guī)模的網(wǎng)站計算26‘000’000網(wǎng)頁的PageRank值要花費幾小時。
還有一些技術(shù)細節(jié)超出了本文論述的范圍。
2.1.2直覺判斷 PageRank被看作用戶行為的模型。
我們假設(shè)網(wǎng)上沖浪是隨機的,不斷點擊鏈接,從不返回,最終煩了,另外隨機選一個網(wǎng)頁重新開始沖浪。
隨機訪問一個網(wǎng)頁的可能性就是它的PageRank值。
制動因子d是隨機訪問一個網(wǎng)頁煩了的可能性,隨機另選一個網(wǎng)頁。
對單個網(wǎng)頁或一組網(wǎng)頁,一個重要的變量加入到制動因子d中。
這允許個人可以故意地誤導系統(tǒng),以得到較高的PageRank值。
我們還有其它的PageRank算法,見98頁。
另外的直覺判斷是一個網(wǎng)頁有很多網(wǎng)頁指向它,或者一些PageRank值高的網(wǎng)頁指向它,則這個網(wǎng)頁很重要。
直覺地,在Web中,一個網(wǎng)頁被很多網(wǎng)頁引用,那么這個網(wǎng)頁值得一看。
一個網(wǎng)頁被象Yahoo這樣重要的主頁引用即使一次,也值得一看。
如果一個網(wǎng)頁的質(zhì)量不高,或者是死鏈接,象Yahoo這樣的主頁不會鏈向它。
PageRank處理了這兩方面因素,并通過網(wǎng)絡鏈接遞歸地傳遞。
& nbsp; 2.2鏈接描述文字(Anchor Text)我們的搜索引擎對鏈接文本進行了特殊的處理。
大多數(shù)搜索引擎把鏈接文字和它所鏈向的網(wǎng)頁(the page that the link is on)聯(lián)系起來。
另外,把它和鏈接所指向的網(wǎng)頁聯(lián)系起來。
這有幾點好處。
第一,通常鏈接描述文字比網(wǎng)頁本身更精確地描述該網(wǎng)頁。
第二,鏈接描述文字可能鏈向的文檔不能被文本搜索引擎檢索到,例如圖像,程序和數(shù)據(jù)庫。
有可能使返回的網(wǎng)頁不能被抓到。
注意哪些抓不到的網(wǎng)頁將會帶來一些問題。
在返回給用戶前檢測不了它們的有效性。
這種情況搜索引擎可能返回一個根本不存在的網(wǎng)頁,但是有超級鏈接指向它。
然而這種結(jié)果可以被挑出來的,所以此類的問題很少發(fā)生。
鏈接描述文字是對被鏈向網(wǎng)頁的宣傳,這個思想被用在World Wide Web Worm 中,主要因為它有助于搜索非文本信息,能夠用少量的已下載文檔擴大搜索范圍。
我們大量應用鏈接描述文字,因為它有助于提高搜索結(jié)果的質(zhì)量。
有效地利用鏈接描述文字技術(shù)上存在一些困難,因為必須處理大量的數(shù)據(jù)。
現(xiàn)在我們能抓到24‘000’000個網(wǎng)頁,已經(jīng)檢索到259‘000’000多個鏈接描述文字。
2.3其它特點除了PageRank和應用鏈接描述文字外,Google還有一些其它特點。
第一,所有hit都有位置信息,所以它可以在搜索中廣泛應用鄰近性(proximity)。
第二,Google跟蹤一些可視化外表細節(jié),例如字號。
黑體大號字比其它文字更重要。
第三,知識庫存儲了原始的全文網(wǎng)頁。
3有關(guān)工作 Web檢索研究的歷史簡短。
World Wide Web Worm()是最早的搜索引擎之一。
后來出現(xiàn)了一些用于學術(shù)研究的搜索引擎,現(xiàn)在它們中的大多數(shù)被上市公司擁有。
與Web的增長和搜索引擎的重要性相比,有關(guān)當今搜索引擎技術(shù)的優(yōu)秀論文相當少。
根據(jù)Michael Mauldin(Lycos Inc的首席科學家)) ,“各種各樣的服務(包括Lycos)非常關(guān)注這些數(shù)據(jù)庫的細節(jié)。
”雖然在搜索引擎的某些特點上做了大量工作。
具有代表性的工作有,對現(xiàn)有商業(yè)搜索引擎的結(jié)果進行傳遞,或建立小型的個性化的搜索引擎。
最后有關(guān)信息檢索系統(tǒng)的研究很多,尤其在有組織機構(gòu) *** (well controlled collections)方面。
在下面兩節(jié),我們將討論在信息檢索系統(tǒng)中的哪些領(lǐng)域需要改進以便更好的工作在Web上。
3.1信息檢索信息檢索系統(tǒng)誕生在幾年前,并發(fā)展迅速。
然而大多數(shù)信息檢索系統(tǒng)研究的對象是小規(guī)模的單一的有組織結(jié)構(gòu)的 *** ,例如科學論文集,或相關(guān)主題的新聞故事。
實際上,信息檢索的主要基準,the Text Retrieval Conference(),用小規(guī)模的、有組織結(jié)構(gòu)的 *** 作為它們的基準。
大型文集基準只有20GB,相比之下,我們抓到的24000000個網(wǎng)頁占147GB。
在TREC上工作良好的系統(tǒng),在Web上卻不一定產(chǎn)生好的結(jié)果。
例如,標準向量空間模型企圖返回和查詢請求最相近的文檔,把查詢請求和文檔都看作由出現(xiàn)在它們中的詞匯組成的向量。
在Web環(huán)境下,這種策略常常返回非常短的文檔,這些文檔往往是查詢詞再加幾個字。
例如,查詢“Bill Clinton”,返回的網(wǎng)頁只包含“Bill Clinton Sucks”,這是我們從一個主要搜索引擎中看到的。
網(wǎng)絡上有些爭議,用戶應該更準確地表達他們想查詢什么,在他們的查詢請求中用更多的詞。
我們強烈反對這種觀點。
如果用戶提出象“Bill Clinton”這樣的查詢請求,應該得到理想的查詢結(jié)果,因為這個主題有許多高質(zhì)量的信息。
象所給的例子,我們認為信息檢索標準需要發(fā)展,以便有效地處理Web數(shù)據(jù)。
3.2有組織結(jié)構(gòu)的 *** (Well Controlled Collections)與Web的不同點 Web是完全無組織的異構(gòu)的大量文檔的 *** 。
Web中的文檔無論內(nèi)在信息還是隱含信息都存在大量的異構(gòu)性。
例如,文檔內(nèi)部就用了不同的語言(既有人類語言又有程序),詞匯([email]地址,鏈接,郵政編碼,電話號碼,產(chǎn)品號),類型(文本,HTML,PDF,圖像,聲音),有些甚至是機器創(chuàng)建的文件(log文件,或數(shù)據(jù)庫的輸出)。
可以從文檔中推斷出來,但并不包含在文檔中的信息稱為隱含信息。
隱含信息包括來源的信譽,更新頻率,質(zhì)量,訪問量和引用。
不但隱含信息的可能來源各種各樣,而且被檢測的信息也大不相同,相差可達好幾個數(shù)量級。
例如,一個重要主頁的使用量,象Yahoo 每天瀏覽數(shù)達到上百萬次,于此相比無名的歷史文章可能十年才被訪問一次。
很明顯,搜索引擎對這兩類信息的處理是不同的。
Web與有組織結(jié)構(gòu) *** 之間的另外一個明顯區(qū)別是,事實上,向Web上傳信息沒有任何限制。
靈活利用這點可以發(fā)布任何對搜索引擎影響重大的信息,使路由阻塞,加上為牟利故意操縱搜索引擎,這些已經(jīng)成為一個嚴重的問題。
這些問題還沒有被傳統(tǒng)的封閉的信息檢索系統(tǒng)所提出來。
它關(guān)心的是元數(shù)據(jù)的努力,這在Web搜索引擎中卻不適用,因為網(wǎng)頁中的任何文本都不會向用戶聲稱企圖操縱搜索引擎。
甚至有些公司為牟利專門操縱搜索引擎。
4 系統(tǒng)分析(System Anatomy)首先,我們提供高水平的有關(guān)體系結(jié)構(gòu)的討論。
然后 ,詳細描述重要的數(shù)據(jù)結(jié)構(gòu)。
最后,主要應用:抓網(wǎng)頁,索引,搜索將被嚴格地檢查。
Figure 1. High Level Google Architecture 4.1Google體系結(jié)構(gòu)概述這一節(jié),我們將看看整個系統(tǒng)是如何工作的(give a high level),見圖1。
本節(jié)不討論應用和數(shù)據(jù)結(jié)構(gòu),在后幾節(jié)中討論。
為了效率大部分Google是用c或c++實現(xiàn)的,既可以在Solaris也可以在Linux上運行。
Google系統(tǒng)中,抓網(wǎng)頁(下載網(wǎng)頁)是由幾個分布式crawlers完成的。
一個URL服務器負責向crawlers提供URL列表。
抓來的網(wǎng)頁交給存儲服務器storeserver。
然后,由存儲服務器壓縮網(wǎng)頁并把它們存到知識庫repository中。
每個網(wǎng)頁都有一個ID,稱作docID,當新URL從網(wǎng)頁中分析出時,就被分配一個docID。
由索引器和排序器負責建立索引index function。
索引器從知識庫中讀取文檔,對其解壓縮和分析。
每個文檔被轉(zhuǎn)換成一組詞的出現(xiàn)情況,稱作命中hits。
Hits紀錄了詞,詞在文檔中的位置,最接近的字號,大小寫。
索引器把這些hits分配到一組桶barrel中,產(chǎn)生經(jīng)過部分排序后的索引。
索引器的另一個重要功能是分析網(wǎng)頁中所有的鏈接,將有關(guān)的重要信息存在鏈接描述anchors文件中。
該文件包含了足夠的信息,可以用來判斷每個鏈接鏈出鏈入節(jié)點的信息,和鏈接文本。
URL分解器resolver閱讀鏈接描述anchors文件,并把相對URL轉(zhuǎn)換成絕對URL,再轉(zhuǎn)換成docID。
為鏈接描述文本編制索引,并與它所指向的docID關(guān)聯(lián)起來。
同時建立由docID對組成的鏈接數(shù)據(jù)庫。
用于計算所有文檔的PageRank值。
用docID分類后的barrels,送給排序器sorter,再根據(jù)wordID進行分類,建立反向索引inverted index。
這個操作要恰到好處,以便幾乎不需要暫存空間。
排序器還給出docID和偏移量列表,建立反向索引。
一個叫DumpLexicon的程序把這個列表和由索引器產(chǎn)生的字典結(jié)合在一起,建立一個新的字典,供搜索器使用。
這個搜索器就是利用一個Web服務器,使用由DumpLexicon所生成的字典,利用上述反向索引以及頁面等級PageRank來回答用戶的提問。
4.2主要數(shù)據(jù)結(jié)構(gòu)經(jīng)過優(yōu)化的Google數(shù)據(jù)結(jié)構(gòu),能夠用較小的代價抓取大量文檔,建立索引和查詢。
雖然近幾年CPU和輸入輸出速率迅速提高。
磁盤尋道仍然需要10ms。
任何時候Google系統(tǒng)的設(shè)計都盡可能地避免磁盤尋道。
這對數(shù)據(jù)結(jié)構(gòu)的設(shè)計影響很大。
4.2.1大文件大文件BigFiles是指虛擬文件生成的多文件系統(tǒng),用長度是64位的整型數(shù)據(jù)尋址。
多文件系統(tǒng)之間的空間分配是自動完成的。
BigFiles包也處理已分配和未分配文件描述符。
由于操縱系統(tǒng)不能滿足我們的需要,BigFiles也支持基本的壓縮選項。
4.2.2知識庫 Figure 2. Repository Data Structure 知識庫包含每個網(wǎng)頁的全部HTML。
每個網(wǎng)頁用zlib(見RFC1950)壓縮。
壓縮技術(shù)的選擇既要考慮速度又要考慮壓縮率。
我們選擇zlib的速度而不是壓縮率很高的bzip。
知識庫用bzip的壓縮率接近4:1。
而用zlib的壓縮率是3:1。
文檔一個挨著一個的存儲在知識庫中,前綴是docID,長度,URL,見圖2。
訪問知識庫不需要其它的數(shù)據(jù)結(jié)構(gòu)。
這有助于數(shù)據(jù)一致性和升級。
用其它數(shù)據(jù)結(jié)構(gòu)重構(gòu)系統(tǒng),我們只需要修改知識庫和crawler錯誤列表文件。
4.2.3文件索引文件索引保存了有關(guān)文檔的一些信息。
索引以docID的順序排列,定寬ISAM(Index sequential access mode)。
每條記錄包括當前文件狀態(tài),一個指向知識庫的指針,文件校驗和,各種統(tǒng)計表。
如果一個文檔已經(jīng)被抓到,指針指向docinfo文件,該文件的寬度可變,包含了URL和標題。
否則指針指向包含這個URL的URL列表。
這種設(shè)計考慮到簡潔的數(shù)據(jù)結(jié)構(gòu),以及在查詢中只需要一個磁盤尋道時間就能夠訪問一條記錄。
還有一個文件用于把URL轉(zhuǎn)換成docID。
它是URL校驗和與相應docID的列表,按校驗和排序。
要想知道某個URL的docID,需要計算URL的校驗和,然后在校驗和文件中執(zhí)行二進制查找,找到它的docID。
通過對這個文件進行合并,可以把一批URL轉(zhuǎn)換成對應的docID。
URL分析器用這項技術(shù)把URL轉(zhuǎn)換成docID。
這種成批更新的模式是至關(guān)重要的,否則每個鏈接都需要一次查詢,假如用一塊磁盤,322‘000’000個鏈接的數(shù)據(jù) *** 將花費一個多月的時間。
4.2.4詞典詞典有幾種不同的形式。
和以前系統(tǒng)的重要不同是,詞典對內(nèi)存的要求可以在合理的價格內(nèi)。
現(xiàn)在實現(xiàn)的系統(tǒng),一臺256M內(nèi)存的機器就可以把詞典裝入到內(nèi)存中。
現(xiàn)在的詞典包含14000000詞匯(雖然一些很少用的詞匯沒有加入到詞典中)。
它執(zhí)行分兩部分—詞匯表(用null分隔的連續(xù)串)和指針的哈希表。
不同的函數(shù),詞匯表有一些輔助信息,這超出了本文論述的范圍。
4.2.5 hit list hit list是一篇文檔中所出現(xiàn)的詞的列表,包括位置,字號,大小寫。
Hit list占很大空間,用在正向和反向索引中。
因此,它的表示形式越有效越好。
我們考慮了幾種方案來編碼位置,字號,大小寫—簡單編碼(3個整型數(shù)),緊湊編碼(支持優(yōu)化分配比特位),哈夫曼編碼。
Hit的詳細信息見圖3。
我們的緊湊編碼每個hit用2字節(jié)。
有兩種類型hit,特殊hit和普通hit。
特殊hit包含URL,標題,鏈接描述文字,meta tag。
普通hit包含其它每件事。
它包括大小寫特征位,字號,12比特用于描述詞在文檔中的位置(所有超過4095的位置標記為4096)。
字號采用相對于文檔的其它部分的相對大小表示,占3比特(實際只用7個值,因為111標志是特殊hit)。
特殊hit由大小寫特征位,字號位為7表示它是特殊hit,用4比特表示特殊hit的類型,8比特表示位置。
對于anchor hit八比特位置位分出4比特用來表示在anchor中的位置,4比特用于表明anchor出現(xiàn)的哈希表hash of the docID。
短語查詢是有限的,對某些詞沒有足夠多的anchor。
我們希望更新anchor hit的存儲方式,以便解決地址位和docIDhash域位數(shù)不足的問題。
三、大數(shù)據(jù)概念是在哪一年由誰首次提出的
大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。
在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》 中大數(shù)據(jù)指不用隨機分析法(抽樣調(diào)查)這樣捷徑,而采用所有數(shù)據(jù)進行分析處理。
于“大數(shù)據(jù)”(Big data)研究機構(gòu)Gartner給出了這樣的定義?!按髷?shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應海量、高增長率和多樣化的信息資產(chǎn)。
麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換而言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。
從技術(shù)上看,大數(shù)據(jù)與云計算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘。但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術(shù)。
隨著云時代的來臨,大數(shù)據(jù)(Big data)也吸引了越來越多的關(guān)注。分析師團隊認為,大數(shù)據(jù)(Big data)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。
大數(shù)據(jù)需要特殊的技術(shù),以有效地處理大量的容忍經(jīng)過時間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網(wǎng)和可擴展的存儲系統(tǒng)。
資料參考百度百科大數(shù)據(jù)
四、介紹一下云計算的核心技術(shù)
云計算系統(tǒng)運用了許多技術(shù),其中以編程模型、數(shù)據(jù)管理技術(shù)、數(shù)據(jù)存儲技術(shù)、虛擬化技術(shù)、云計算平臺管理技術(shù)最為關(guān)鍵。
(1)編程模型
MapReduce是Google開發(fā)的java、Python、C++編程模型,它是一種簡化的分布式編程模型和高效的任務調(diào)度模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算。嚴格的編程模型使云計算環(huán)境下的編程十分簡單。MapReduce模式的思想是將要執(zhí)行的問題分解成Map(映射)和Reduce(化簡)的方式,先通過Map程序?qū)?shù)據(jù)切割成不相關(guān)的區(qū)塊,分配(調(diào)度)給大量計算機處理,達到分布式運算的效果,再通過Reduce程序?qū)⒔Y(jié)果匯整輸出。
(2) 海量數(shù)據(jù)分布存儲技術(shù)
云計算系統(tǒng)由大量服務器組成,同時為大量用戶服務,因此云計算系統(tǒng)采用分布式存儲的方式存儲數(shù)據(jù),用冗余存儲的方式保證數(shù)據(jù)的可靠性。云計算系統(tǒng)中廣泛使用的數(shù)據(jù)存儲系統(tǒng)是Google的GFS和Hadoop團隊開發(fā)的GFS的開源實現(xiàn)HDFS。
GFS即Google文件系統(tǒng)(Google File System),是一個可擴展的分布式文件系統(tǒng),用于大型的、分布式的、對大量數(shù)據(jù)進行訪問的應用。GFS的設(shè)計思想不同于傳統(tǒng)的文件系統(tǒng),是針對大規(guī)模數(shù)據(jù)處理和Google應用特性而設(shè)計的。它運行于廉價的普通硬件上,但可以提供容錯功能。它可以給大量的用戶提供總體性能較高的服務。
一個GFS集群由一個主服務器(master)和大量的塊服務器(chunkserver)構(gòu)成,并被許多客戶(Client)訪問。主服務器存儲文件系統(tǒng)所以的元數(shù)據(jù),包括名字空間、訪問控制信息、從文件到塊的映射以及塊的當前位置。它也控制系統(tǒng)范圍的活動,如塊租約(lease)管理,孤兒塊的垃圾收集,塊服務器間的塊遷移。主服務器定期通過HeartBeat消息與每一個塊服務器通信,給塊服務器傳遞指令并收集它的狀態(tài)。GFS中的文件被切分為64MB的塊并以冗余存儲,每份數(shù)據(jù)在系統(tǒng)中保存3個以上備份。
客戶與主服務器的交換只限于對元數(shù)據(jù)的操作,所有數(shù)據(jù)方面的通信都直接和塊服務器聯(lián)系,這大大提高了系統(tǒng)的效率,防止主服務器負載過重。
(3) 海量數(shù)據(jù)管理技術(shù)
云計算需要對分布的、海量的數(shù)據(jù)進行處理、分析,因此,數(shù)據(jù)管理技術(shù)必需能夠高效的管理大量的數(shù)據(jù)。云計算系統(tǒng)中的數(shù)據(jù)管理技術(shù)主要是Google的BT(BigTable)數(shù)據(jù)管理技術(shù)和Hadoop團隊開發(fā)的開源數(shù)據(jù)管理模塊HBase。
BT是建立在GFS, Scheduler, Lock Service和MapReduce之上的一個大型的分布式數(shù)據(jù)庫,與傳統(tǒng)的關(guān)系數(shù)據(jù)庫不同,它把所有數(shù)據(jù)都作為對象來處理,形成一個巨大的表格,用來分布存儲大規(guī)模結(jié)構(gòu)化數(shù)據(jù)。
Google的很多項目使用BT來存儲數(shù)據(jù),包括網(wǎng)頁查詢,Google earth和Google金融。這些應用程序?qū)T的要求各不相同:數(shù)據(jù)大?。◤腢RL到網(wǎng)頁到衛(wèi)星圖象)不同,反應速度不同(從后端的大批處理到實時數(shù)據(jù)服務)。對于不同的要求,BT都成功的提供了靈活高效的服務。
(4)虛擬化技術(shù)
通過虛擬化技術(shù)可實現(xiàn)軟件應用與底層硬件相隔離,它包括將單個資源劃分成多個虛擬資源的裂分模式,也包括將多個資源整合成一個虛擬資源的聚合模式。虛擬化技術(shù)根據(jù)對象可分成存儲虛擬化、計算虛擬化、網(wǎng)絡虛擬化等,計算虛擬化又分為系統(tǒng)級虛擬化、應用級虛擬化和桌面虛擬化。
(5)云計算平臺管理技術(shù)
云計算資源規(guī)模龐大,服務器數(shù)量眾多并分布在不同的地點,同時運行著數(shù)百種應用,如何有效的管理這些服務器,保證整個系統(tǒng)提供不間斷的服務是巨大的挑戰(zhàn)。
云計算系統(tǒng)的平臺管理技術(shù)能夠使大量的服務器協(xié)同工作,方便的進行業(yè)務部署和開通,快速發(fā)現(xiàn)和恢復系統(tǒng)故障,通過自動化、智能化的手段實現(xiàn)大規(guī)模系統(tǒng)的可靠運營。
我是從IT號外知道的。
以上就是關(guān)于是google提出的用于處理海量數(shù)據(jù)相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。
推薦閱讀:
m2固態(tài)選mbr還是guid(m2固態(tài)用mbr還是guid)
固態(tài)硬盤用mbr還是guid分區(qū)(固態(tài)gpt和mbr哪個啟動速度快)
抖音預訂的酒店不讓使用(抖音預訂的酒店不讓使用優(yōu)惠券)