正文

常見的數(shù)據(jù)采集系統(tǒng)（常見的數(shù)據(jù)采集系統(tǒng)有哪些）

發(fā)布時(shí)間：2023-05-22 05:37:57 稿源：創(chuàng)意嶺閱讀： 124

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于常見的數(shù)據(jù)采集系統(tǒng)的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

開始之前先推薦一個(gè)非常厲害的Ai人工智能工具，一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，有小程序、在線網(wǎng)頁版、PC客戶端和批量生成器

問友Ai官網(wǎng)：https://ai.de1919.com。

本文目錄:

以下哪些屬于集中化大數(shù)據(jù)平臺外部采集數(shù)據(jù)
數(shù)據(jù)采集系統(tǒng)
常見mes系統(tǒng)有哪些
大數(shù)據(jù)采集平臺有哪些？

常見的數(shù)據(jù)采集系統(tǒng)（常見的數(shù)據(jù)采集系統(tǒng)有哪些）

以下哪些屬于集中化大數(shù)據(jù)平臺外部采集數(shù)據(jù)

如何從0到1搭建大數(shù)據(jù)平臺
大數(shù)據(jù)時(shí)代這個(gè)詞被提出已有10年了吧，越來越多的企業(yè)已經(jīng)完成了大數(shù)據(jù)平臺的搭建。隨著移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的爆發(fā)，大數(shù)據(jù)價(jià)值在越來越多的場景中被挖掘，隨著大家都在使用歐冠大數(shù)據(jù)，大數(shù)據(jù)平臺的搭建門檻也越來越低。借助開源的力量，任何有基礎(chǔ)研發(fā)能力的組織完全可以搭建自己的大數(shù)據(jù)平臺。但是對于沒有了解過大數(shù)據(jù)平臺、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘概念的同學(xué)可能還是無法順利完成搭建，因?yàn)槟闳グ俣炔榈臅r(shí)候會發(fā)現(xiàn)太多的東西，和架構(gòu)，你不知道如何去選擇。今天給大家分享下大數(shù)據(jù)平臺是怎么玩的。
00 架構(gòu)總覽
通常大數(shù)據(jù)平臺的架構(gòu)如上，從外部采集數(shù)據(jù)到數(shù)據(jù)處理，數(shù)據(jù)顯現(xiàn)，應(yīng)用等模塊。
01 數(shù)據(jù)采集
用戶訪問我們的產(chǎn)品會產(chǎn)生大量的行為日志，因此我們需要特定的日志采集系統(tǒng)來采集并輸送這些日志。Flume是目前常用的開源選擇，F(xiàn)lume是Cloudera提供的一個(gè)高可用的，高可靠的，分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)，F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方，用于收集數(shù)據(jù)；同時(shí)，F(xiàn)lume提供對數(shù)據(jù)進(jìn)行簡單處理，并寫到各種數(shù)據(jù)接受方的能力。
02 數(shù)據(jù)存儲
無論上層采用何種的大規(guī)模數(shù)據(jù)計(jì)算引擎，底層的數(shù)據(jù)存儲系統(tǒng)基本還是以HDFS為主。HDFS（Hadoop Distributed File System）是Hadoop項(xiàng)目的核心子項(xiàng)目，是分布式計(jì)算中數(shù)據(jù)存儲管理的基礎(chǔ)。具備高容錯(cuò)性、高可靠、高吞吐等特點(diǎn)。
HDFS存儲的是一個(gè)個(gè)的文本，而我們在做分析統(tǒng)計(jì)時(shí)，結(jié)構(gòu)化會方便需要。因此，在HDFS的基礎(chǔ)上，會使用Hive來將數(shù)據(jù)文件映射為結(jié)構(gòu)化的表結(jié)構(gòu)，以便后續(xù)對數(shù)據(jù)進(jìn)行類SQL的查詢和管理。
03 數(shù)據(jù)處理
數(shù)據(jù)處理就是我們常說的ETL。在這部分，我們需要三樣?xùn)|西：計(jì)算引擎、調(diào)度系統(tǒng)、元數(shù)據(jù)管理。
對于大規(guī)模的非實(shí)時(shí)數(shù)據(jù)計(jì)算來講，目前一樣采用Hive和spark引擎。Hive是基于MapReduce的架構(gòu)，穩(wěn)定可靠，但是計(jì)算速度較慢；Spark則是基于內(nèi)存型的計(jì)算，一般認(rèn)為比MapReduce的速度快很多，但是其對內(nèi)存性能的要求較高，且存在內(nèi)存溢出的風(fēng)險(xiǎn)。Spark同時(shí)兼容hive數(shù)據(jù)源。從穩(wěn)定的角度考慮，一般建議以Hive作為日常ETL的主要計(jì)算引擎，特別是對于一些實(shí)時(shí)要求不高的數(shù)據(jù)。Spark等其他引擎根據(jù)場景搭配使用。
實(shí)時(shí)計(jì)算引擎方面，目前大體經(jīng)過了三代，依次是：storm、spark streaming、Flink。Flink已被阿里收購，大廠一直在推，社區(qū)活躍度很好，國內(nèi)也有很多資源。
調(diào)度系統(tǒng)上，建議采用輕量級的Azkaban，Azkaban是由Linkedin開源的一個(gè)批量工作流任務(wù)調(diào)度器。https://azkaban.github.io/
一般需要自己開發(fā)一套元數(shù)據(jù)管理系統(tǒng)，用來規(guī)劃數(shù)據(jù)倉庫和ETL流程中的元數(shù)據(jù)。元數(shù)據(jù)分為業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)。
業(yè)務(wù)元數(shù)據(jù)，主要用于支撐數(shù)據(jù)服務(wù)平臺Web UI上面的各種業(yè)務(wù)條件選項(xiàng)，比如，常用的有如下一些：移動設(shè)備機(jī)型、品牌、運(yùn)營商、網(wǎng)絡(luò)、價(jià)格范圍、設(shè)備物理特性、應(yīng)用名稱等。這些元數(shù)據(jù)，有些來自于基礎(chǔ)數(shù)據(jù)部門提供的標(biāo)準(zhǔn)庫，比如品牌、價(jià)格范圍等，可以從對應(yīng)的數(shù)據(jù)表中同步或直接讀?。欢行┚哂袝r(shí)間含義的元數(shù)據(jù)，需要每天通過ETL處理生成，比如應(yīng)用信息。為支撐應(yīng)用計(jì)算使用，被存儲在MySQL數(shù)據(jù)庫中；而對于填充頁面上對應(yīng)的條件選擇的數(shù)據(jù)，則使用Redis存儲，每天/月會根據(jù)MySQL中的數(shù)據(jù)進(jìn)行加工處理，生成易于快速查詢的鍵值對類數(shù)據(jù)，存儲到Redis中。
技術(shù)元數(shù)據(jù)，主要包括數(shù)據(jù)倉庫中的模型說明、血緣關(guān)系、變更記錄、需求來源、模型字段信息等，詳細(xì)的可以查看數(shù)據(jù)分析師應(yīng)該了解的數(shù)據(jù)倉庫(3)
04 數(shù)據(jù)流轉(zhuǎn)
通過上面一張圖了解數(shù)據(jù)采集，數(shù)據(jù)處理，到數(shù)據(jù)展現(xiàn)的數(shù)據(jù)流轉(zhuǎn)。通常我們在實(shí)際工作中，從數(shù)據(jù)源到分析報(bào)告或系統(tǒng)應(yīng)用的過程中，主要包括數(shù)據(jù)采集同步、數(shù)據(jù)倉庫存儲、ETL、統(tǒng)計(jì)分析、寫入上層應(yīng)用數(shù)據(jù)庫進(jìn)行指標(biāo)展示。這是最基礎(chǔ)的一條線，現(xiàn)在還有基于數(shù)據(jù)倉庫進(jìn)行的數(shù)據(jù)分析挖掘工作，會基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)對已有模型數(shù)據(jù)進(jìn)一步挖掘分析，形成更深層的數(shù)據(jù)應(yīng)用產(chǎn)品。
05 數(shù)據(jù)應(yīng)用
俗話說的好，“酒香也怕巷子深”。數(shù)據(jù)應(yīng)用前面我們做了那么多工作為了什么，對于企業(yè)來說，我們做的每一件事情都需要體現(xiàn)出價(jià)值，而此時(shí)的數(shù)據(jù)應(yīng)用就是大數(shù)據(jù)的價(jià)值體現(xiàn)。數(shù)據(jù)應(yīng)用包括輔助經(jīng)營分析的一些報(bào)表指標(biāo)，商城上基于用戶畫像的個(gè)性化推送，還有各種數(shù)據(jù)分析報(bào)告等等。
數(shù)據(jù)采集系統(tǒng)
01 “大”數(shù)據(jù)
海量的數(shù)據(jù)
當(dāng)你需要搭建大數(shù)據(jù)平臺的時(shí)候一定是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫無法滿足業(yè)務(wù)的存儲計(jì)算要求了，所以首先我們面臨的是海量的數(shù)據(jù)。
復(fù)雜的數(shù)據(jù)
復(fù)雜數(shù)據(jù)的概念和理想數(shù)據(jù)完全相反。所有數(shù)據(jù)集都有一定的復(fù)雜性，但有一些天生更難處理。通常這些復(fù)雜數(shù)據(jù)集沒有定義結(jié)構(gòu)(沒有行列結(jié)構(gòu))，經(jīng)常變化，數(shù)據(jù)質(zhì)量很差。比如更新的網(wǎng)頁日志，json數(shù)據(jù)，xml數(shù)據(jù)等。
高速的數(shù)據(jù)
高速數(shù)據(jù)通常被認(rèn)為是實(shí)時(shí)的或是準(zhǔn)實(shí)時(shí)的數(shù)據(jù)流。數(shù)據(jù)流本質(zhì)上是在生成后就發(fā)給處理器的數(shù)據(jù)包，比如物聯(lián)網(wǎng)的穿戴設(shè)備，制造業(yè)的傳感器，車聯(lián)網(wǎng)的終端芯片等等。處理實(shí)時(shí)數(shù)據(jù)流有很多挑戰(zhàn)，包括在采集時(shí)不丟失數(shù)據(jù)、處理數(shù)據(jù)流中的重復(fù)記錄、數(shù)據(jù)如何實(shí)時(shí)寫入磁盤存儲、以及如何進(jìn)行實(shí)時(shí)分析。
02 采集工具
日志采集
我們業(yè)務(wù)平臺每天都會有大量用戶訪問，會產(chǎn)生大量的訪問日志數(shù)據(jù)，比如電商系統(tǒng)的瀏覽，加入購物車，下訂單，付款等一系列流程我們都可以通過埋點(diǎn)獲取到用戶的訪問路徑以及訪問時(shí)長這些數(shù)據(jù)；再比智能穿戴設(shè)備，實(shí)時(shí)都會采集我們的血壓、脈搏、心率等數(shù)據(jù)實(shí)時(shí)上報(bào)到云端。通過分析這些日志信息，我們可以得到出很多業(yè)務(wù)價(jià)值。通過對這些日志信息進(jìn)行日志采集、收集，然后進(jìn)行數(shù)據(jù)分析，挖掘公司業(yè)務(wù)平臺日志數(shù)據(jù)中的潛在價(jià)值。為公司決策和公司后臺服務(wù)器平臺性能評估提高可靠的數(shù)據(jù)保證。系統(tǒng)日志采集系統(tǒng)做的事情就是收集日志數(shù)據(jù)提供離線和在線的實(shí)時(shí)分析使用。目前常用的開源日志收集系統(tǒng)有Flume、Logstash、Filebeat。可以根據(jù)自己公司的技術(shù)棧儲備或者組件的優(yōu)缺點(diǎn)選擇合適的日志采集系統(tǒng)，目前了解到的Flume使用的比較多。各個(gè)采集工具的對比如下：
具體組件的相關(guān)配置可以參考之前的文章《日志收集組件—Flume、Logstash、Filebeat對比》
數(shù)據(jù)庫抽取
企業(yè)一般都會會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL或Oracle等來存儲業(yè)務(wù)系統(tǒng)數(shù)據(jù)。每時(shí)每刻產(chǎn)生的業(yè)務(wù)數(shù)據(jù)，以數(shù)據(jù)庫一行記錄的形式被直接寫入到數(shù)據(jù)庫中保存。
大數(shù)據(jù)分析一般是基于歷史海量數(shù)據(jù)，多維度分析，我們不能直接在原始的業(yè)務(wù)數(shù)據(jù)庫上直接操作，因?yàn)榉治龅囊恍?fù)雜SQL查詢會明顯的影響業(yè)務(wù)數(shù)據(jù)庫的效率，導(dǎo)致業(yè)務(wù)系統(tǒng)不可用。所以我們通常通過數(shù)據(jù)庫采集系統(tǒng)直接與企業(yè)業(yè)務(wù)后臺數(shù)據(jù)庫服務(wù)器結(jié)合，在業(yè)務(wù)不那么繁忙的凌晨，抽取我們想要的數(shù)據(jù)到分析數(shù)據(jù)庫或者到HDFS上，最后有大數(shù)據(jù)處理系統(tǒng)對這些數(shù)據(jù)進(jìn)行清洗、組合進(jìn)行數(shù)據(jù)分析。
常用數(shù)據(jù)庫抽取工具：
阿里開源軟件：DataX
DataX 是一個(gè)異構(gòu)數(shù)據(jù)源離線同步工具，致力于實(shí)現(xiàn)包括關(guān)系型數(shù)據(jù)庫(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各種異構(gòu)數(shù)據(jù)源之間穩(wěn)定高效的數(shù)據(jù)同步功能。開源的DataX貌似只能單機(jī)部署。
Apache開源軟件：Sqoop
Sqoop(發(fā)音:skup)是一款開源的工具，主要用于在HADOOP(Hive)與傳統(tǒng)的數(shù)據(jù)庫(mysql、postgresql...)間進(jìn)行數(shù)據(jù)的傳遞，可以將一個(gè)關(guān)系型數(shù)據(jù)庫(例如 : MySQL ,Oracle ,Postgres等)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中，也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫中。可以集群化部署。
爬蟲爬取
有很多外部數(shù)據(jù)，比如天氣、IP地址等數(shù)據(jù)，我們通常會爬取相應(yīng)的網(wǎng)站數(shù)據(jù)存儲。目前常用的爬蟲工具是Scrapy，它是一個(gè)爬蟲框架，提供給開發(fā)人員便利的爬蟲API接口。開發(fā)人員只需要關(guān)心爬蟲API接口的實(shí)現(xiàn)，不需要關(guān)心具體框架怎么爬取數(shù)據(jù)。Scrapy框架大大降低了開發(fā)人員開發(fā)速率，開發(fā)人員可以很快的完成一個(gè)爬蟲系統(tǒng)的開發(fā)。
03 數(shù)據(jù)存儲
HDFS
2003年，Google發(fā)布論文GFS，啟發(fā)Apache Nutch開發(fā)了HDFS。2004年，Google 又發(fā)布了論文《MapReduce: Simplified Data Processing on Large Clusters》，Doug Cutting等人實(shí)現(xiàn)計(jì)算框架MapReduce ，并與HDFS結(jié)合來更好的支持該框架。2006年項(xiàng)目從Butch搜索引擎中獨(dú)立出來，成為了現(xiàn)在的Hadoop。
GFS隱藏了底層的負(fù)載均衡，切片備份等細(xì)節(jié)，使復(fù)雜性透明化，并提供統(tǒng)一的文件系統(tǒng)接口。其成本低，容錯(cuò)高，高吞吐，適合超大數(shù)據(jù)集應(yīng)用場景。
HDFS原理:橫向擴(kuò)展，增加“數(shù)據(jù)節(jié)點(diǎn)”就能增加容量。
增加協(xié)調(diào)部門，“命名節(jié)點(diǎn)”維護(hù)元數(shù)據(jù)，負(fù)責(zé)文件系統(tǒng)的命名空間，控
外部訪問，將數(shù)據(jù)塊映射到數(shù)據(jù)節(jié)點(diǎn)。還會備份元數(shù)據(jù)從命名節(jié)點(diǎn)，它只與命名節(jié)點(diǎn)通信。
數(shù)據(jù)在多個(gè)數(shù)據(jù)節(jié)點(diǎn)備份。
通常關(guān)系型數(shù)據(jù)庫存儲的都是結(jié)構(gòu)化的數(shù)據(jù)，我們抽取后會直接放到HDFS上作為離線分析的數(shù)據(jù)源。
HBase
在實(shí)際應(yīng)用中，我們有很多數(shù)據(jù)可能不需要復(fù)雜的分析，只需要我們能存儲，并且提供快速查詢的功能。HBase在HDFS基礎(chǔ)上提供了Bigtable的能力; 并且基于列的模式進(jìn)行存儲。列存儲設(shè)計(jì)的優(yōu)勢是減少不必要的字段占用存儲，同時(shí)查詢的時(shí)候也可以只對查詢的指定列有IO操作。HBase可以存儲海量的數(shù)據(jù)，并且可以根據(jù)rowkey提供快速的查詢性能，是非常好的明細(xì)數(shù)據(jù)存儲方案，比如電商的訂單數(shù)據(jù)就可以放入HBase提供高效的查詢。
當(dāng)然還有其他的存儲引擎，比如ES適合文本搜索查詢等。
04 總結(jié)
了解了上面的技術(shù)棧后，在實(shí)際數(shù)據(jù)接入中，你還會面臨各種問題，比如如何考慮確保數(shù)據(jù)一致性，保障數(shù)據(jù)不能丟失，數(shù)據(jù)采集存儲的效率，不能產(chǎn)生數(shù)據(jù)積壓等，這些都需要對每個(gè)組件進(jìn)行研究，適配適合你自己業(yè)務(wù)系統(tǒng)的參數(shù)，用最少的資源，達(dá)到最好的結(jié)果。
調(diào)度系統(tǒng)
目前大數(shù)據(jù)平臺經(jīng)常會用來跑一些批任務(wù)，跑批處理當(dāng)然就離不開定時(shí)任務(wù)。比如定時(shí)抽取業(yè)務(wù)數(shù)據(jù)庫的數(shù)據(jù)，定時(shí)跑hive/spark任務(wù)，定時(shí)推送日報(bào)、月報(bào)指標(biāo)數(shù)據(jù)。任務(wù)調(diào)度系統(tǒng)已經(jīng)儼然成為了大數(shù)據(jù)處理平臺不可或缺的一部分，可以說是ETL任務(wù)的靈魂。
01 原始任務(wù)調(diào)度
記得第一次參與大數(shù)據(jù)平臺從無到有的搭建，最開始任務(wù)調(diào)度就是用的Crontab，分時(shí)日月周，各種任務(wù)腳本配置在一臺主機(jī)上。Crontab 使用非常方便，配置也很簡單。剛開始任務(wù)很少，用著還可以，每天起床巡檢一下日志。隨著任務(wù)越來越多，出現(xiàn)了任務(wù)不能在原來計(jì)劃的時(shí)間完成，出現(xiàn)了上級任務(wù)跑完前，后面依賴的任務(wù)已經(jīng)起來了，這時(shí)候沒有數(shù)據(jù)，任務(wù)就會報(bào)錯(cuò)，或者兩個(gè)任務(wù)并行跑了，出現(xiàn)了錯(cuò)誤的結(jié)果。排查任務(wù)錯(cuò)誤原因越來麻煩，各種任務(wù)的依賴關(guān)系越來越復(fù)雜，最后排查任務(wù)問題就行從一團(tuán)亂麻中，一根一根梳理出每天麻繩。crontab雖然簡單，穩(wěn)定，但是隨著任務(wù)的增加和依賴關(guān)系越來越復(fù)雜，已經(jīng)完全不能滿足我們的需求了，這時(shí)候就需要建設(shè)自己的調(diào)度系統(tǒng)了。
02 調(diào)度系統(tǒng)
調(diào)度系統(tǒng)，關(guān)注的首要重點(diǎn)是在正確的時(shí)間點(diǎn)啟動正確的作業(yè)，確保作業(yè)按照正確的依賴關(guān)系及時(shí)準(zhǔn)確的執(zhí)行。資源的利用率通常不是第一關(guān)注要點(diǎn)，業(yè)務(wù)流程的正確性才是最重要的。（但是到隨著業(yè)務(wù)的發(fā)展，ETL任務(wù)越來越多，你會發(fā)現(xiàn)經(jīng)常有任務(wù)因?yàn)橘Y源問題沒有按時(shí)啟動！）
實(shí)際調(diào)度中，多個(gè)任務(wù)單元之間往往有著強(qiáng)依賴關(guān)系，上游任務(wù)執(zhí)行并成功，下游任務(wù)才可以執(zhí)行。比如上游任務(wù)1結(jié)束后拿到結(jié)果，下游任務(wù)2、任務(wù)3需結(jié)合任務(wù)1的結(jié)果才能執(zhí)行，因此下游任務(wù)的開始一定是在上游任務(wù)成功運(yùn)行拿到結(jié)果之后才可以開始。而為了保證數(shù)據(jù)處理結(jié)果的準(zhǔn)確性，就必須要求這些任務(wù)按照上下游依賴關(guān)系有序、高效的執(zhí)行，最終確保能按時(shí)正常生成業(yè)務(wù)指標(biāo)。
一款成熟易用，便于管理和維護(hù)的作業(yè)調(diào)度系統(tǒng)，需要和大量的周邊組件對接，要處理或使用到包括：血緣管理，權(quán)限控制，負(fù)載流控，監(jiān)控報(bào)警，質(zhì)量分析等各種服務(wù)或事務(wù)。
03 調(diào)度系統(tǒng)分類
調(diào)度系統(tǒng)一般分為兩類：定時(shí)分片類作業(yè)調(diào)度系統(tǒng)和DAG工作流類作業(yè)調(diào)度系統(tǒng)
定時(shí)分片類作業(yè)調(diào)度系統(tǒng)
這種功能定位的作業(yè)調(diào)度系統(tǒng)，其最早的需要來源和出發(fā)點(diǎn)往往是做一個(gè)分布式的Crontab。
核心：
將一個(gè)大的任務(wù)拆成多個(gè)小任務(wù)分配到不同的服務(wù)器上執(zhí)行，難點(diǎn)在于要做到不漏，不重，保證負(fù)載平衡，節(jié)點(diǎn)崩潰時(shí)自動進(jìn)行任務(wù)遷移等。
保證任務(wù)觸發(fā)的強(qiáng)實(shí)時(shí)和可靠性
所以，負(fù)載均衡，彈性擴(kuò)容，狀態(tài)同步和失效轉(zhuǎn)移通常是這類調(diào)度系統(tǒng)在架構(gòu)設(shè)計(jì)時(shí)重點(diǎn)考慮的特性。
DGA工作流調(diào)度系統(tǒng)
這一類系統(tǒng)的方向，重點(diǎn)定位于任務(wù)的調(diào)度依賴關(guān)系的正確處理，分片執(zhí)行的邏輯通常不是系統(tǒng)關(guān)注的核心，或者不是系統(tǒng)核心流程的關(guān)鍵組成部分。
核心：
足夠豐富和靈活的依賴觸發(fā)機(jī)制：比如時(shí)間觸發(fā)任務(wù)，依賴觸發(fā)任務(wù)，混合觸發(fā)任務(wù)
作業(yè)的計(jì)劃，變更和執(zhí)行流水的管理和同步
任務(wù)的優(yōu)先級管理，業(yè)務(wù)隔離，權(quán)限管理等
各種特殊流程的處理，比如暫停任務(wù)，重刷歷史數(shù)據(jù)，人工標(biāo)注失?。晒?，臨時(shí)任務(wù)和周期任務(wù)的協(xié)同等
完備的監(jiān)控報(bào)警通知機(jī)制
04 幾個(gè)調(diào)度系統(tǒng)
Airflow
Apache Airflow是一種功能強(qiáng)大的工具，可作為任務(wù)的有向無環(huán)圖（DAG）編排、任務(wù)調(diào)度和任務(wù)監(jiān)控的工作流工具。Airflow在DAG中管理作業(yè)之間的執(zhí)行依賴，并可以處理作業(yè)失敗，重試和警報(bào)。開發(fā)人員可以編寫Python代碼以將數(shù)據(jù)轉(zhuǎn)換為工作流中的操作。
主要有如下幾種組件構(gòu)成：
web server: 主要包括工作流配置，監(jiān)控，管理等操作
scheduler: 工作流調(diào)度進(jìn)程，觸發(fā)工作流執(zhí)行，狀態(tài)更新等操作
消息隊(duì)列：存放任務(wù)執(zhí)行命令和任務(wù)執(zhí)行狀態(tài)報(bào)告
worker: 執(zhí)行任務(wù)和匯報(bào)狀態(tài)
mysql: 存放工作流，任務(wù)元數(shù)據(jù)信息
具體執(zhí)行流程：
scheduler掃描dag文件存入數(shù)據(jù)庫，判斷是否觸發(fā)執(zhí)行
到達(dá)觸發(fā)執(zhí)行時(shí)間的dag,生成dag_run，task_instance 存入數(shù)據(jù)庫
發(fā)送執(zhí)行任務(wù)命令到消息隊(duì)列
worker從隊(duì)列獲取任務(wù)執(zhí)行命令執(zhí)行任務(wù)
worker匯報(bào)任務(wù)執(zhí)行狀態(tài)到消息隊(duì)列
schduler獲取任務(wù)執(zhí)行狀態(tài)，并做下一步操作
schduler根據(jù)狀態(tài)更新數(shù)據(jù)庫
Kettle
將各個(gè)任務(wù)操作組件拖放到工作區(qū)，kettle支持各種常見的數(shù)據(jù)轉(zhuǎn)換。此外，用戶可以將Python，Java，JavaScript和SQL中的自定義腳本拖放到畫布上。kettle可以接受許多文件類型作為輸入，還可以通過JDBC，ODBC連接到40多個(gè)數(shù)據(jù)庫，作為源或目標(biāo)。社區(qū)版本是免費(fèi)的，但提供的功能比付費(fèi)版本少。
XXL-JOB
XXL-JOB是一個(gè)分布式任務(wù)調(diào)度平臺，其核心設(shè)計(jì)目標(biāo)是開發(fā)迅速、學(xué)習(xí)簡單、輕量級、易擴(kuò)展。將調(diào)度行為抽象形成“調(diào)度中心”公共平臺，而平臺自身并不承擔(dān)業(yè)務(wù)邏輯，“調(diào)度中心”負(fù)責(zé)發(fā)起調(diào)度請求；將任務(wù)抽象成分散的JobHandler，交由“執(zhí)行器”統(tǒng)一管理，“執(zhí)行器”負(fù)責(zé)接收調(diào)度請求并執(zhí)行對應(yīng)的JobHandler中業(yè)務(wù)邏輯；因此，“調(diào)度”和“任務(wù)”兩部分可以相互解耦，提高系統(tǒng)整體穩(wěn)定性和擴(kuò)展性。（后來才知道XXL是作者名字拼音首字母縮寫）
調(diào)度系統(tǒng)開源工具有很多，可以結(jié)合自己公司人員的熟悉程度和需求選擇合適的進(jìn)行改進(jìn)。
海豚調(diào)度
Apache DolphinScheduler是一個(gè)分布式去中心化，易擴(kuò)展的可視化DAG工作流任務(wù)調(diào)度平臺。致力于解決數(shù)據(jù)處理流程中錯(cuò)綜復(fù)雜的依賴關(guān)系，使調(diào)度系統(tǒng)在數(shù)據(jù)處理流程中開箱即用。
高可靠性
去中心化的多Master和多Worker服務(wù)對等架構(gòu), 避免單Master壓力過大，另外采用任務(wù)緩沖隊(duì)列來避免過載
簡單易用
DAG監(jiān)控界面，所有流程定義都是可視化，通過拖拽任務(wù)完成定制DAG，通過API方式與第三方系統(tǒng)集成, 一鍵部署
豐富的使用場景
支持多租戶，支持暫?；謴?fù)操作. 緊密貼合大數(shù)據(jù)生態(tài)，提供Spark, Hive, M/R, Python, Sub_process, Shell等近20種任務(wù)類型
高擴(kuò)展性
支持自定義任務(wù)類型，調(diào)度器使用分布式調(diào)度，調(diào)度能力隨集群線性增長，Master和Worker支持動態(tài)上下線
05 如何自己開發(fā)一個(gè)調(diào)度系統(tǒng)
調(diào)度平臺其實(shí)需要解決三個(gè)問題：任務(wù)編排、任務(wù)執(zhí)行和任務(wù)監(jiān)控。
任務(wù)編排，采用調(diào)用外部編排服務(wù)的方式，主要考慮的是編排需要根據(jù)業(yè)務(wù)的一些屬性進(jìn)行實(shí)現(xiàn)，所以將易變的業(yè)務(wù)部分從作業(yè)調(diào)度平臺分離出去。如果后續(xù)有對編排邏輯進(jìn)行調(diào)整和修改，都無需操作業(yè)務(wù)作業(yè)調(diào)度平臺。
任務(wù)排隊(duì)，支持多隊(duì)列排隊(duì)配置，后期根據(jù)不同類型的開發(fā)人員可以配置不同的隊(duì)列和資源，比如面向不同的開發(fā)人員需要有不同的服務(wù)隊(duì)列，面向不同的任務(wù)也需要有不同的隊(duì)列優(yōu)先級支持。通過隊(duì)列來隔離調(diào)度，能夠更好地滿足具有不同需求的用戶。不同隊(duì)列的資源不同，合理的利用資源，達(dá)到業(yè)務(wù)價(jià)值最大化。
任務(wù)調(diào)度，是對任務(wù)、以及屬于該任務(wù)的一組子任務(wù)進(jìn)行調(diào)度，為了簡單可控起見，每個(gè)任務(wù)經(jīng)過編排后會得到一組有序的任務(wù)列表，然后對每個(gè)任務(wù)進(jìn)行調(diào)度。這里面，稍有點(diǎn)復(fù)雜的是，任務(wù)里還有子任務(wù)，子任務(wù)是一些處理組件，比如字段轉(zhuǎn)換、數(shù)據(jù)抽取，子任務(wù)需要在上層任務(wù)中引用實(shí)現(xiàn)調(diào)度。任務(wù)是調(diào)度運(yùn)行的基本單位。被調(diào)度運(yùn)行的任務(wù)會發(fā)送到消息隊(duì)列中，然后等待任務(wù)協(xié)調(diào)計(jì)算平臺消費(fèi)并運(yùn)行任務(wù)，這時(shí)調(diào)度平臺只需要等待任務(wù)運(yùn)行完成的結(jié)果消息到達(dá)，然后對作業(yè)和任務(wù)的狀態(tài)進(jìn)行更新，根據(jù)實(shí)際狀態(tài)確定下一次調(diào)度的任務(wù)。
調(diào)度平臺設(shè)計(jì)中還需要注意以下幾項(xiàng)：
調(diào)度運(yùn)行的任務(wù)需要進(jìn)行超時(shí)處理，比如某個(gè)任務(wù)由于開發(fā)人員設(shè)計(jì)不合理導(dǎo)致運(yùn)行時(shí)間過長，可以設(shè)置任務(wù)最大的執(zhí)行時(shí)長，超過最大時(shí)長的任務(wù)需要及時(shí)kill掉，以免占用大量資源，影響正常的任務(wù)運(yùn)行。
控制同時(shí)能夠被調(diào)度的作業(yè)的數(shù)量，集群資源是有限的，我們需要控制任務(wù)的并發(fā)量，后期任務(wù)上千上萬后我們要及時(shí)調(diào)整任務(wù)的啟動時(shí)間，避免同時(shí)啟動大量的任務(wù)，減少調(diào)度資源和計(jì)算資源壓力；
作業(yè)優(yōu)先級控制，每個(gè)業(yè)務(wù)都有一定的重要級別，我們要有限保障最重要的業(yè)務(wù)優(yōu)先執(zhí)行，優(yōu)先給與調(diào)度資源分配。在任務(wù)積壓時(shí)候，先執(zhí)行優(yōu)先級高的任務(wù)，保障業(yè)務(wù)影響最小化。
06 總結(jié)與展望
ETL 開發(fā)是數(shù)據(jù)工程師必備的技能之一，在數(shù)據(jù)倉庫、BI等場景中起到重要的作用。但很多從業(yè)者連 ETL 對應(yīng)的英文是什么都不了解，更不要談對 ETL 的深入解析，這無疑是非常不稱職的。做ETL 你可以用任何的編程語言來完成開發(fā)，無論是 shell、python、java 甚至數(shù)據(jù)庫的存儲過程，只要它最終是讓數(shù)據(jù)完成抽?。‥）、轉(zhuǎn)化（T）、加載（L）的效果即可。由于ETL是極為復(fù)雜的過程，而手寫程序不易管理，所以越來越多的可視化調(diào)度編排工具出現(xiàn)了。
調(diào)度系統(tǒng)作為大數(shù)據(jù)平臺的核心部分之一，牽扯的業(yè)務(wù)邏輯比較復(fù)雜，場景不同，也許需求就會差別很多，所以，有自研能力的公司都會選擇市面上開源系統(tǒng)二次開發(fā)或者完全自研一套調(diào)度系統(tǒng)，已滿足自身ETL任務(wù)調(diào)度需求。
不管是哪種工具，只要具備高效運(yùn)行、穩(wěn)定可靠、易于維護(hù)特點(diǎn)，都是一款好工具

數(shù)據(jù)采集系統(tǒng)

數(shù)據(jù)采集系統(tǒng)分別采集高精度三軸加速度計(jì)組合輸出的模擬信號、陀螺信號、加速度計(jì)信號等信號，實(shí)現(xiàn)數(shù)據(jù)采集與GPS秒脈沖（PPS）的精確同步。

數(shù)據(jù)采集的主要功能：

1）采集捷聯(lián)系統(tǒng)加表、陀螺的信號輸出；

2）采集陀螺的狀態(tài)信息；

3）采集加表、陀螺的溫度信息；

4）記錄陀螺、加表的原始數(shù)據(jù)，頻率一般為1000～2000 Hz;

5）對陀螺、加表的原始數(shù)據(jù)進(jìn)行低通濾波，濾除陀螺抖動的影響，并記錄濾波后的數(shù)據(jù)，頻率一般為100 Hz。

常見mes系統(tǒng)有哪些

mes系統(tǒng)的主要功能：

1、數(shù)據(jù)采集

mes系統(tǒng)數(shù)據(jù)采集系統(tǒng)非常靈活，也能與市面上常見的ERP系統(tǒng)進(jìn)行無縫銜接。mes系統(tǒng)數(shù)據(jù)采集技術(shù)也非常成熟。比如條碼采集，產(chǎn)品批號、物料批號、加工資源編號、運(yùn)輸資源編號、人員編號、異常類別、異?，F(xiàn)象、設(shè)備狀態(tài)、作業(yè)開始、作業(yè)結(jié)束等。比如二維碼采集，將產(chǎn)品合格證信息生產(chǎn)二維碼，通過簡單的掃碼，即可獲取生產(chǎn)的全量數(shù)據(jù)。

2、生產(chǎn)監(jiān)視

傳統(tǒng)制造業(yè)工廠管理的“黑匣子”，遮住了管理層眼睛，mes系統(tǒng)通過對在制品的追蹤、對產(chǎn)量的監(jiān)控、對生產(chǎn)過程的原料和零件監(jiān)控、對設(shè)備的精度和運(yùn)行情況監(jiān)控、對生產(chǎn)關(guān)鍵過程監(jiān)控、對生產(chǎn)相關(guān)文件的監(jiān)控等，實(shí)現(xiàn)生產(chǎn)進(jìn)度的可視化，從而便于及時(shí)發(fā)現(xiàn)生產(chǎn)過程中的問題，即時(shí)預(yù)警和調(diào)整。

3、工藝管理

傳統(tǒng)的制造業(yè)，工藝數(shù)據(jù)的錄入還是停留在手動錄入紙質(zhì)文檔的方式，不僅容易丟失，也對工藝信息保密性不利，當(dāng)出現(xiàn)生產(chǎn)異常時(shí)，更改工藝?yán)щy，造成生產(chǎn)問題。mes系統(tǒng)的工藝管理模塊，將全部生產(chǎn)工藝錄入系統(tǒng)，并且對員工開設(shè)不同等級權(quán)限。

對應(yīng)權(quán)限的員工，只需更更改系統(tǒng)的文件即可，操作簡單，也防止了有效信息泄露。MES系統(tǒng)的工藝信息管理，將已錄入好的工藝與生產(chǎn)任務(wù)、產(chǎn)品技術(shù)文件及車間資源信息相結(jié)合，快捷有效的傳達(dá)給一線工人，更好的指導(dǎo)員工完成生產(chǎn)任務(wù)。

4、質(zhì)量過程管理

mes系統(tǒng)質(zhì)量管理包括生產(chǎn)過程質(zhì)量數(shù)據(jù)管理、半成品質(zhì)量管理、質(zhì)量跟蹤與追溯、質(zhì)量統(tǒng)計(jì)分析等。mes系統(tǒng)能夠迅速識別生產(chǎn)異常點(diǎn)，實(shí)時(shí)報(bào)警，提早采取措施消除異常。通過數(shù)據(jù)追溯及早發(fā)現(xiàn)原材料問題，推動供應(yīng)商質(zhì)量改善。

5、設(shè)備管理

查看設(shè)備臺賬、管理設(shè)備、附屬設(shè)備登記、設(shè)備轉(zhuǎn)移調(diào)撥、操作流程、查看設(shè)備操作日志和折舊信息詳情。管理設(shè)備報(bào)修，報(bào)修送審，分派人員，維修處理成果。針對不同設(shè)備設(shè)置重要維修事項(xiàng)，有效預(yù)防故障發(fā)生。

設(shè)備備品備件出庫入庫全流程管理，對采購生成的入庫單進(jìn)行入庫操作，領(lǐng)料申請生成的領(lǐng)料單進(jìn)行出庫，完善設(shè)備檔案功能，集中管理設(shè)備文檔、說明、記錄等檔案。知識庫記錄維修信息，總結(jié)維修經(jīng)驗(yàn)等功能。

6、計(jì)劃排程

對生產(chǎn)過程管理以及排程計(jì)算所需要的基礎(chǔ)數(shù)據(jù)信息進(jìn)行管理及維護(hù)，維護(hù)的類別包括工作日歷、產(chǎn)品信息及BOM結(jié)構(gòu)、工序信息、工藝路線、設(shè)備信息等。按照設(shè)定的基礎(chǔ)信息，以及相應(yīng)的限制條件，對生產(chǎn)訂單進(jìn)行排程計(jì)劃。

并根據(jù)當(dāng)前車間實(shí)際情況，合理分配產(chǎn)能，給出最優(yōu)生產(chǎn)順序，提高訂單交付績效。允許用戶在不影響主排程計(jì)劃的情況下，可以建立多種分析場景，并對場景當(dāng)中的排程數(shù)據(jù)進(jìn)行任意更改，并查看由此引起的績效變化，并獲得最優(yōu)的調(diào)整方案。

7、庫存管理

庫房管理針對車間內(nèi)的所有庫存物資進(jìn)行管理。車間內(nèi)物資有自制件、外協(xié)件、外購件、刀具、工裝和周轉(zhuǎn)原材料等。其功能包括：通過庫存管理實(shí)現(xiàn)庫房存貯物資檢索，查詢當(dāng)前庫存情況及歷史記錄；提供庫存盤點(diǎn)與庫房調(diào)撥功能。

常見的數(shù)據(jù)采集系統(tǒng)（常見的數(shù)據(jù)采集系統(tǒng)有哪些）

大數(shù)據(jù)采集平臺有哪些？

針對這個(gè)問題，我們先來了解下大數(shù)據(jù)采集平臺提供的服務(wù)平臺流程包括：

1，首先平臺針對需求對數(shù)據(jù)進(jìn)行采集。

2，平臺對采集的數(shù)據(jù)進(jìn)行存儲。

3，再對數(shù)據(jù)進(jìn)行分析處理。

4，最后對數(shù)據(jù)進(jìn)行可視化展現(xiàn)，有報(bào)表，還有監(jiān)控?cái)?shù)據(jù)。

優(yōu)秀的大數(shù)據(jù)平臺要能在大數(shù)據(jù)分析方法,大數(shù)據(jù)編程，大數(shù)據(jù)倉庫，大數(shù)據(jù)案例，人工智能,數(shù)據(jù)挖掘方面都能表現(xiàn)出優(yōu)秀的性能。

現(xiàn)在來推薦幾個(gè)主流且優(yōu)秀的大數(shù)據(jù)平臺：

1，ApacheFlume

Apache旗下的一款開源、高可靠、高擴(kuò)展、容易管理、支持客戶擴(kuò)展的數(shù)據(jù)采集系統(tǒng),它是一個(gè)分布式、可靠、可用的系統(tǒng)，是java運(yùn)行時(shí)環(huán)境j用于從大量不同的源有效地收集、聚合、移動大量日志數(shù)據(jù)進(jìn)行集中式數(shù)據(jù)存儲。

主要的功能表現(xiàn)在:

1.日志收集:日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方，用于收集數(shù)據(jù)。

2.數(shù)據(jù)處理:提供對數(shù)據(jù)進(jìn)行簡單處理，并寫到各種數(shù)據(jù)接受方（可定制）的能力,提供了從console（控制臺）、RPC（Thrift-RPC）、text（文件）、tail（UNIXtail）、syslog（syslog日志系統(tǒng)，支持TCP和UDP等2種模式），exec（命令執(zhí)行）等數(shù)據(jù)源上收集數(shù)據(jù)的能力。

2，F(xiàn)luentd

Fluentd是一個(gè)用于統(tǒng)一日志層的開源數(shù)據(jù)收集器。Fluentd允許您統(tǒng)一數(shù)據(jù)收集和使用，以便更好地使用和理解數(shù)據(jù)。Fluentd是云端原生計(jì)算基金會(CNCF)的成員項(xiàng)目之一，遵循Apache2License協(xié)議。FLuentd的擴(kuò)展性非常好，客戶可以自己定制(Ruby)Input/Buffer/Output。

官網(wǎng)：

articles/quickstart

主要的功能表現(xiàn)在:

1,Input:負(fù)責(zé)接收數(shù)據(jù)或者主動抓取數(shù)據(jù)。支持syslog，http，filetail等。

2,Buffer:負(fù)責(zé)數(shù)據(jù)獲取的性能和可靠性，也有文件或內(nèi)存等不同類型的Buffer可以配置。

3,Output:負(fù)責(zé)輸出數(shù)據(jù)到目的地例如文件，AWSS3或者其它的Fluentd。

3，Chukwa

Chukwa可以將各種各樣類型的數(shù)據(jù)收集成適合Hadoop處理的文件保存在HDFS中供Hadoop進(jìn)行各種MapReduce操作。Chukwa本身也提供了很多內(nèi)置的功能，幫助我們進(jìn)行數(shù)據(jù)的收集和整理。

1，對應(yīng)用的各個(gè)節(jié)點(diǎn)實(shí)時(shí)監(jiān)控日志文件的變化，并將增量文件內(nèi)容寫入HDFS，同時(shí)還可以將數(shù)據(jù)去除重復(fù)，排序等。

2，監(jiān)控來自Socket的數(shù)據(jù)，定時(shí)執(zhí)行我們指定的命令獲取輸出數(shù)據(jù)。

優(yōu)秀的平臺還有很多，筆記淺談為止，開發(fā)者根據(jù)官方提供的文檔進(jìn)行解讀，才能深入了解，并可根據(jù)項(xiàng)目的特征與需求來為之選擇所需的平臺。

以上就是關(guān)于常見的數(shù)據(jù)采集系統(tǒng)相關(guān)問題的回答。希望能幫到你，如有更多相關(guān)問題，您也可以聯(lián)系我們的客服進(jìn)行咨詢，客服也會為您講解更多精彩的知識和內(nèi)容。