-
當前位置:首頁 > 創(chuàng)意學院 > 營銷推廣 > 專題列表 > 正文
火車頭小說采集規(guī)則(火車頭采集器小說采集)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于火車頭小說采集規(guī)則的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,有小程序、在線網(wǎng)頁版、PC客戶端和批量生成器
問友Ai官網(wǎng):https://ai.de1919.com。
本文目錄:
飛飛火車頭采集器怎么寫發(fā)布規(guī)則
1首先講一講網(wǎng)站結(jié)構(gòu),通常網(wǎng)站結(jié)構(gòu)為樹形結(jié)構(gòu),一個網(wǎng)站主要包以下幾種頁面:首頁、欄目頁、文章頁,其結(jié)構(gòu)如下圖。
其次講一講火車頭采集原理,火車頭的運行需要一套規(guī)則來指定該如何采集所需數(shù)據(jù),即需要編寫火車頭采集規(guī)則,編寫采集規(guī)則也是新手最頭痛的問題。
火車頭采集器通常通過網(wǎng)址抓取網(wǎng)站返回的源代碼,然后在源代碼中提取需要的信息。因此,采集數(shù)據(jù)需要先采集網(wǎng)址,然后再采集數(shù)據(jù)。
2
下面開始編寫采集規(guī)則:
運行LocoyPlatform.exe
3
在左側(cè)“任務列表樹”選擇一個分組點擊右鍵,選擇“新建任務”彈出新建任務對話框。填寫任務名,網(wǎng)站編碼一般選擇自動即可。
添加起始網(wǎng)址
填寫“第一步:采集網(wǎng)址規(guī)則”這里需要按照網(wǎng)站的樹形結(jié)構(gòu)逐級獲取下一級結(jié)構(gòu)的網(wǎng)址,直至獲取到內(nèi)容頁的網(wǎng)址。先填寫起始網(wǎng)址,通常為目標站首頁地址。點擊“添加”,在單條網(wǎng)址處填上火車頭博客的首頁地址,然后依次點擊“添加” ->“完成”。
編寫“多級網(wǎng)址獲取”規(guī)則
這里需要先在起始地址頁面找到所有需要采集的欄目頁的代碼區(qū)域,先查看起始頁地址的源碼,找到如圖所示代碼區(qū)域:
點擊右側(cè)“添加”按鈕打開“添加多級網(wǎng)址采集規(guī)則”,選擇“從頁面自動分析得到地址鏈接”單選按鈕,在下面“從該選定區(qū)域中提取網(wǎng)址”,“從”(左側(cè))文本框填上欄目地址代碼區(qū)域開始之前的標志性代碼(要保證其在該頁的唯一性),“到”右側(cè)文本框填上欄目地址代碼區(qū)域結(jié)束之后的標志性代碼,在“結(jié)果網(wǎng)址過濾”的“必須包含”和“不得包含”文本框填上相應代碼,如果該區(qū)域沒有多余的鏈接不需要過濾,可以不填,這里的欄目頁網(wǎng)址必須包含“category-”。然后點擊“保存”返回。
現(xiàn)在需要獲取內(nèi)容頁的地址。先打開欄目頁查看源碼,查找內(nèi)容頁地址存在的區(qū)域及地址規(guī)律。按照上一步的方法先填寫內(nèi)容頁所在區(qū)域的起始和結(jié)束標志性代碼,然后分析這個區(qū)域中包含的鏈接與我們說需要的內(nèi)容頁地址鏈接規(guī)律,添加過濾代碼。這里起始代碼為“<!--顯示-->”,結(jié)束代碼為“<div class="page" style="float:right">”過濾代碼為必須包含“read-”不得包含“#”。如圖:
需要注意的是這里文章比較多會有很多分頁,所以需要填寫“列表分頁獲取”規(guī)則。通常只需要指定分頁代碼的區(qū)域,如有必要可以填寫“組合生成列表頁分頁”規(guī)則。這里的列表分頁規(guī)則其實代碼為“<li class="pageNumber">”,結(jié)束代碼為“title="下一頁">”。如果勾選“自動識別分頁”的話,會自動提取a標簽的href屬性,如果不勾選自動識別的話,需要填寫組合生成列表頁分頁”規(guī)則。
然后保存返回,可以通過“測試網(wǎng)址采集”來測試規(guī)則是否正確,不正確可以返回修改規(guī)則,正確的話可以開始編寫“第二步采集內(nèi)容規(guī)則”。
編寫“第二步采集內(nèi)容規(guī)則”
先打開內(nèi)容頁以及內(nèi)容頁的源碼,找到需要提取的信息的前后代碼特征。以提取標題和內(nèi)容為例。首先復制文章標題,然后在源碼中查看該標題出現(xiàn)的幾處地方,找一處前后代碼在每一篇文章都一樣的地方,該例共出現(xiàn)了3處,第二處的代碼沒有其他干擾代碼。點擊“添加”,標簽名填“標題”,提取數(shù)據(jù)方式選擇前后截取,前后代碼分別為“<h1 class="ContentTitle"><strong>”和“</strong></h1>”。如果采集的內(nèi)容需要作進一步處理(如替換刪除編碼轉(zhuǎn)換過濾html等),在下方“數(shù)據(jù)處理”點擊添加填寫相應規(guī)則。
再添加一個標簽,標簽名為“內(nèi)容”,按照上述方法填寫內(nèi)容的前后代碼片段,需要注意的是,前后代碼片段最好不要出現(xiàn)不完整的標簽(如:“<div class="Content-body"” 應該寫作“<div class="Content-body">”,一個完整的標簽應該是以“<”開始,以“>”結(jié)束,如果<>之間的內(nèi)容在各個內(nèi)容頁有一部分不一樣,將不一樣的部分用(*)代替即可),否則提取的內(nèi)容會包含部分不完整的標簽。通常正文包含的HTML會比較多,可以添加HTML過濾功能,建議僅保留段落(p)、圖片(img)、換行(br)等標簽。
測試內(nèi)容采集規(guī)則
保存規(guī)則后返回采集內(nèi)容規(guī)則頁面,在右側(cè)“規(guī)則測試”的典型頁面文本框填上一個內(nèi)容頁的地址,然后點擊測試,如果下面顯示到的內(nèi)容符合預期說明可以了,如果未獲取到內(nèi)容或者獲取到內(nèi)容不正確,返回檢查并修改規(guī)則。
開始采集
選擇要采集的任務規(guī)則,勾選“采網(wǎng)址”和“采內(nèi)容”復選框,點擊工具欄“開始”按鈕。
后續(xù)工作
采集到的數(shù)據(jù)保存在數(shù)據(jù)庫,可以通過在任務名上點右鍵,選擇“打開DATA下任務文件夾”打開數(shù)據(jù)庫所在位置,該數(shù)據(jù)庫可以通過ACCESS打開和編輯。如果想要重新采集,需要通過右鍵選擇“清空該任務網(wǎng)址庫”和“清空任務所有采集數(shù)據(jù)”。
如何寫火車頭采集器的采集規(guī)則,采集頁面上圖片內(nèi)的文字?
不得不說火車頭是有一定用處,但是個人覺得不怎么好用,光是寫那些采集規(guī)則,設定什么的就一大堆不明不白的東西。拿錢購買嘛,一開始那客服還很熱情的為你解答,一交完錢買下來了,寫規(guī)則,好了,有問題要找客服解決,結(jié)果一拖再拖,弄了一個多月還沒弄好,整個網(wǎng)站的工作進程全拖慢了,還不如自己辛苦點自己手動寫文章,還采集啥啊~言歸正傳,火車頭使用:新建站點—>新建任務—>填寫你要采集的網(wǎng)站文章列表—>點下面的開始測試網(wǎng)址—>如果有采集到很多文章,看各個地址相同部分(如system/2012/03/07),點返回修改,把system/2012/03/07這部分加到“文章內(nèi)容必須包含”那里,再測試一下,就可以采集到3月7日的文章地址了—>前面準備好網(wǎng)址后接下來就是第二步的采集內(nèi)容規(guī)則了,點第二步,設定標簽,一般采集包括標題<title></title>、關(guān)鍵字<meta name=keyword...>、內(nèi)容<div>...</div>,這些設置從你要采集的網(wǎng)站代碼上可以找到相應的——>采集頁面上的圖片,在第四步,“文件保存及高級設置”,選擇所有文件本地保存文件夾(這里是從頁面下載圖片存放的位置),然后下面有個FTP同步文件上傳的,填好服務器、用戶名、密碼什么的,文件上傳根目錄就是你網(wǎng)站服務器放置圖片的文件夾位置,你可以在服務器新建一個文件夾試試看,OK!到此為止,不過有一些網(wǎng)站寫了反采集代碼,有可能會被封IP,整體來說,個人不提倡使用火車頭采集器,還不如個人手動來得實在,就算一天少發(fā)點也行,只要保證每天更新量、偽原創(chuàng)和原創(chuàng),一樣有很大效果。
火車頭如何采集還有縮略圖的文章呢
1、首先在采集列表頁的源碼中將帶有縮略圖的那部分源碼復制下來,如圖:
2、查看網(wǎng)站的源碼,找到這行代碼,如圖:
3、打開火車頭,進入采集網(wǎng)址規(guī)則—添加多級網(wǎng)址采集規(guī)則,選中手動填寫鏈接地址規(guī)則,并將第二步驟中選中的代碼粘貼進去,如圖:
4、將代碼進行如下修改:
5、改好后保存并進行采集測試,如圖所示
6、然后再在采集內(nèi)容規(guī)則里進行修改,選中“縮略圖”標簽,打開,進行內(nèi)容替換,如圖:
7、然后點擊文件下載,選中下載圖片,并填好縮略圖保存路徑及命名方式,如圖:
8、在“文件保存及部分高級設置”里設定縮略圖的保存盤符及其前綴,我設定為桌面,前綴為“./”,如圖:
9、我們保存后測試一下,一起順利,縮略圖順利采集下來了
是最近版本的嗎?
以上就是關(guān)于火車頭小說采集規(guī)則相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。
推薦閱讀:
景區(qū)火車站臺景觀設計(景區(qū)火車站臺景觀設計方案)
杭州職業(yè)技術(shù)學院是大專還是??疲ê贾萋殬I(yè)技術(shù)學院是不是本科)