-
當(dāng)前位置:首頁(yè) > 創(chuàng)意學(xué)院 > 營(yíng)銷推廣 > 專題列表 > 正文
數(shù)據(jù)采集平臺(tái)開(kāi)源(數(shù)據(jù)采集 開(kāi)源)
大家好!今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于數(shù)據(jù)采集平臺(tái)開(kāi)源的問(wèn)題,以下是小編對(duì)此問(wèn)題的歸納整理,讓我們一起來(lái)看看吧。
開(kāi)始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,有小程序、在線網(wǎng)頁(yè)版、PC客戶端和批量生成器
問(wèn)友Ai官網(wǎng):https://ai.de1919.com。
本文目錄:
有哪些值得推薦的開(kāi)源數(shù)據(jù)管理系統(tǒng)
一、Facebook?Scribe
貢獻(xiàn)者:Facebook
簡(jiǎn)介:Scribe是Facebook開(kāi)源的日志收集系統(tǒng),在Facebook內(nèi)部已經(jīng)得到大量的應(yīng)用。它能夠從各種日志源上收集日志,存儲(chǔ)到一個(gè)中央存儲(chǔ)系統(tǒng)(可以是NFS,分布式文件系統(tǒng)等)上,以便于進(jìn)行集中統(tǒng)計(jì)分析處理。它為日志的“分布式收集,統(tǒng)一處理”提供了一個(gè)可擴(kuò)展的,高容錯(cuò)的方案。當(dāng)中央存儲(chǔ)系統(tǒng)的網(wǎng)絡(luò)或者機(jī)器出現(xiàn)故障時(shí),scribe會(huì)將日志轉(zhuǎn)存到本地或者另一個(gè)位置,當(dāng)中央存儲(chǔ)系統(tǒng)恢復(fù)后,scribe會(huì)將轉(zhuǎn)存的日志重新傳輸給中央存儲(chǔ)系統(tǒng)。其通常與Hadoop結(jié)合使用,scribe用于向HDFS中push日志,而Hadoop通過(guò)MapReduce作業(yè)進(jìn)行定期處理。
Scribe的系統(tǒng)架構(gòu)
二、Cloudera Flume
貢獻(xiàn)者:Cloudera
簡(jiǎn)介:Flume是Cloudera提供的一個(gè)高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時(shí),F(xiàn)lume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫(xiě)到各種數(shù)據(jù)接受方(可定制)的能力。
Flume提供了從console(控制臺(tái))、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog日志系統(tǒng),支持TCP和UDP等2種模式),exec(命令執(zhí)行)等數(shù)據(jù)源上收集數(shù)據(jù)的能力。
當(dāng)前Flume有兩個(gè)版本Flume 0.9X版本的統(tǒng)稱Flume-og,F(xiàn)lume1.X版本的統(tǒng)稱Flume-ng。由于Flume-ng經(jīng)過(guò)重大重構(gòu),與Flume-og有很大不同,使用時(shí)請(qǐng)注意區(qū)分。
Cloudera Flume構(gòu)架:
三、logstash
簡(jiǎn)介:logstash 是一個(gè)應(yīng)用程序日志、事件的傳輸、處理、管理和搜索的平臺(tái)。你可以用它來(lái)統(tǒng)一對(duì)應(yīng)用程序日志進(jìn)行收集管理,提供 Web 接口用于查詢和統(tǒng)計(jì)。他可以對(duì)你的日志進(jìn)行收集、分析,并將其存儲(chǔ)供以后使用(如,搜索),您可以使用它。說(shuō)到搜索,logstash帶有一個(gè)web界面,搜索和展示所有日志。
有哪些好用的大數(shù)據(jù)采集平臺(tái)?
1.數(shù)據(jù)超市
一款基于云平臺(tái)的大數(shù)據(jù)計(jì)算、分析系統(tǒng)。擁有豐富高質(zhì)量的數(shù)據(jù)資源,通過(guò)自身渠道資源獲取了百余款擁有版權(quán)的大數(shù)據(jù)資源,所有數(shù)據(jù)都經(jīng)過(guò)審核,保證數(shù)據(jù)的高可用性。
2. Rapid Miner
數(shù)據(jù)科學(xué)軟件平臺(tái),為數(shù)據(jù)準(zhǔn)備、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、文本挖掘和預(yù)測(cè)分析提供一種集成環(huán)境。
3. Oracle Data Mining
它是Oracle高級(jí)分析數(shù)據(jù)庫(kù)的代表。市場(chǎng)領(lǐng)先的公司用它最大限度地發(fā)掘數(shù)據(jù)的潛力,做出準(zhǔn)確的預(yù)測(cè)。
4. IBM SPSS Modeler
適合大規(guī)模項(xiàng)目。在這個(gè)建模器中,文本分析及其最先進(jìn)的可視化界面極具價(jià)值。它有助于生成數(shù)據(jù)挖掘算法,基本上不需要編程。
5. KNIME
開(kāi)源數(shù)據(jù)分析平臺(tái)。你可以迅速在其中部署、擴(kuò)展和熟悉數(shù)據(jù)。
6. Python
一種免費(fèi)的開(kāi)源語(yǔ)言。
關(guān)于有哪些好用的大數(shù)據(jù)采集平臺(tái),青藤小編就和您分享到這里了。如果您對(duì)大數(shù)據(jù)工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關(guān)于數(shù)據(jù)分析師、大數(shù)據(jù)工程師的技巧及素材等內(nèi)容,可以點(diǎn)擊本站的其他文章進(jìn)行學(xué)習(xí)。
大數(shù)據(jù)采集平臺(tái)有哪些?
針對(duì)這個(gè)問(wèn)題,我們先來(lái)了解下大數(shù)據(jù)采集平臺(tái)提供的服務(wù)平臺(tái)流程包括:
1,首先平臺(tái)針對(duì)需求對(duì)數(shù)據(jù)進(jìn)行采集。
2,平臺(tái)對(duì)采集的數(shù)據(jù)進(jìn)行存儲(chǔ)。
3,再對(duì)數(shù)據(jù)進(jìn)行分析處理。
4,最后對(duì)數(shù)據(jù)進(jìn)行可視化展現(xiàn),有報(bào)表,還有監(jiān)控?cái)?shù)據(jù)。
優(yōu)秀的大數(shù)據(jù)平臺(tái)要能在大數(shù)據(jù)分析方法,大數(shù)據(jù)編程,大數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)案例,人工智能,數(shù)據(jù)挖掘方面都能表現(xiàn)出優(yōu)秀的性能。
現(xiàn)在來(lái)推薦幾個(gè)主流且優(yōu)秀的大數(shù)據(jù)平臺(tái):
1,ApacheFlume
Apache旗下的一款開(kāi)源、高可靠、高擴(kuò)展、容易管理、支持客戶擴(kuò)展的數(shù)據(jù)采集系統(tǒng),它是一個(gè)分布式、可靠、可用的系統(tǒng),是java運(yùn)行時(shí)環(huán)境j用于從大量不同的源有效地收集、聚合、移動(dòng)大量日志數(shù)據(jù)進(jìn)行集中式數(shù)據(jù)存儲(chǔ)。
主要的功能表現(xiàn)在:
1.日志收集:日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù)。
2.數(shù)據(jù)處理:提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫(xiě)到各種數(shù)據(jù)接受方(可定制)的能力,提供了從console(控制臺(tái))、RPC(Thrift-RPC)、text(文件)、tail(UNIXtail)、syslog(syslog日志系統(tǒng),支持TCP和UDP等2種模式),exec(命令執(zhí)行)等數(shù)據(jù)源上收集數(shù)據(jù)的能力。
2,F(xiàn)luentd
Fluentd是一個(gè)用于統(tǒng)一日志層的開(kāi)源數(shù)據(jù)收集器。Fluentd允許您統(tǒng)一數(shù)據(jù)收集和使用,以便更好地使用和理解數(shù)據(jù)。Fluentd是云端原生計(jì)算基金會(huì)(CNCF)的成員項(xiàng)目之一,遵循Apache2License協(xié)議。FLuentd的擴(kuò)展性非常好,客戶可以自己定制(Ruby)Input/Buffer/Output。
官網(wǎng):
articles/quickstart
主要的功能表現(xiàn)在:
1,Input:負(fù)責(zé)接收數(shù)據(jù)或者主動(dòng)抓取數(shù)據(jù)。支持syslog,http,filetail等。
2,Buffer:負(fù)責(zé)數(shù)據(jù)獲取的性能和可靠性,也有文件或內(nèi)存等不同類型的Buffer可以配置。
3,Output:負(fù)責(zé)輸出數(shù)據(jù)到目的地例如文件,AWSS3或者其它的Fluentd。
3,Chukwa
Chukwa可以將各種各樣類型的數(shù)據(jù)收集成適合Hadoop處理的文件保存在HDFS中供Hadoop進(jìn)行各種MapReduce操作。Chukwa本身也提供了很多內(nèi)置的功能,幫助我們進(jìn)行數(shù)據(jù)的收集和整理。
1,對(duì)應(yīng)用的各個(gè)節(jié)點(diǎn)實(shí)時(shí)監(jiān)控日志文件的變化,并將增量文件內(nèi)容寫(xiě)入HDFS,同時(shí)還可以將數(shù)據(jù)去除重復(fù),排序等。
2,監(jiān)控來(lái)自Socket的數(shù)據(jù),定時(shí)執(zhí)行我們指定的命令獲取輸出數(shù)據(jù)。
優(yōu)秀的平臺(tái)還有很多,筆記淺談為止,開(kāi)發(fā)者根據(jù)官方提供的文檔進(jìn)行解讀,才能深入了解,并可根據(jù)項(xiàng)目的特征與需求來(lái)為之選擇所需的平臺(tái)。
以上就是關(guān)于數(shù)據(jù)采集平臺(tái)開(kāi)源相關(guān)問(wèn)題的回答。希望能幫到你,如有更多相關(guān)問(wèn)題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。
推薦閱讀:
一鍵查詢對(duì)方手機(jī)號(hào)(大數(shù)據(jù)找人平臺(tái))
算法和大數(shù)據(jù)(數(shù)據(jù)挖掘算法)
杭州城市大數(shù)據(jù)運(yùn)營(yíng)(杭州大數(shù)據(jù))
杭州和廣州哪個(gè)實(shí)力更強(qiáng)(杭州和廣州哪個(gè)實(shí)力更強(qiáng)一些)
朋友圈廣告語(yǔ)大全集(朋友圈廣告語(yǔ)大全集圖片)