-
當(dāng)前位置:首頁 > 創(chuàng)意學(xué)院 > 營銷推廣 > 專題列表 > 正文
- 八爪魚采集器可以下載網(wǎng)站整站的源碼和數(shù)據(jù)庫嗎?
- 八爪魚采集器能免費(fèi)用幾次
- 八爪魚數(shù)據(jù)采集器的內(nèi)置功能有哪些
- 有什么辦法可以將圖片的URL地址采集下來?
八爪魚數(shù)據(jù)采集器官網(wǎng)下載(八爪魚數(shù)據(jù)采集)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于八爪魚數(shù)據(jù)采集器官網(wǎng)下載的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,有小程序、在線網(wǎng)頁版、PC客戶端和批量生成器
問友Ai官網(wǎng):https://ai.de1919.com。
本文目錄:
八爪魚采集器可以下載網(wǎng)站整站的源碼和數(shù)據(jù)庫嗎?
下載你沒有權(quán)限登錄的網(wǎng)站源碼和數(shù)據(jù)庫,除非滲透入侵進(jìn)去才能做到?;ヂ?lián)網(wǎng)上流傳的合法工具。沒有任何一個工具可以做到,包括八爪魚。
不過可以使用整站下載工具,可以把HTML代碼和樣式圖片下載下來。作為離線瀏覽和樣式學(xué)習(xí)還是有工具的。如:iis7整站下載
八爪魚采集器能免費(fèi)用幾次
八爪魚采集器升級后可以一直免費(fèi)使用。八爪魚采集器為推廣市場,只要用戶升級八爪魚采集器為最新免費(fèi)版就可以一直免費(fèi)使用,八爪魚采集器是一款全網(wǎng)通用的互聯(lián)網(wǎng)數(shù)據(jù)采集器,模擬人瀏覽網(wǎng)頁的行為,通過簡單的頁面點(diǎn)選,生成自動化的采集流程,從而將網(wǎng)頁數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),存儲于EXCEL或數(shù)據(jù)庫等多種形式。并提供基于云計算的大數(shù)據(jù)云采集解決方案,實(shí)現(xiàn)數(shù)據(jù)采集。八爪魚數(shù)據(jù)采集器的內(nèi)置功能有哪些
八爪魚數(shù)據(jù)采集器的內(nèi)置功能比較多,一時半會難以說完,只能根據(jù)你 的實(shí)際使用需求來,能滿足你的需求就夠了,其他的功能對于你來說就都是多余的,但是你慢慢研究你會發(fā)現(xiàn)他有多強(qiáng)大,簡直無所不能!處處給你驚喜。下面我簡單說一下:
1 入門詞匯介紹
1.1.1 積分
積
分是用來支付八爪魚增值服務(wù)的一種方式,主要的用途包括:通過八爪魚采集器采集并導(dǎo)出數(shù)據(jù),在規(guī)則市場下載規(guī)則,在數(shù)據(jù)市場下載數(shù)據(jù)包,不同的賬號類型在
使用上述增值服務(wù)時會有不同的收費(fèi)策略,具體的收費(fèi)策略和區(qū)別在下面版本說明里面有詳細(xì)的解釋。積分可以通過八爪魚官方購買專業(yè)版或者旗艦版每月贈送,也
可以單獨(dú)購買積分,還可以通過關(guān)注,簽到,分享規(guī)則,關(guān)注微信,綁定社交賬號等多種方式獲得。
1.1.2 規(guī)則
規(guī)則是八爪魚用來配置程序按照人工操作流程記錄的一條程序規(guī)則,當(dāng)軟件配置好的則的時候,則可以按照您所配置的規(guī)則進(jìn)行數(shù)據(jù)的采集,代替人工步驟。
1.1.3 云加速
八爪魚系統(tǒng)是通過分布式集群部署的方式,每個集群由數(shù)量龐大的云節(jié)點(diǎn)組成,單個節(jié)點(diǎn)的采集能力相當(dāng)于一臺PC機(jī)的采集能力,通過八爪魚后臺的版本資源分配策略,分配到多少個云節(jié)點(diǎn)資源就享有幾倍的加速,版本高的賬戶有更高的加加速倍數(shù)。
1.1.4 云優(yōu)先
如果是多用戶共享一個云集群的資源,一個集群的規(guī)模大小是有上限的,如果同一時間提交云集群任務(wù)過多,造成資源擁堵,那么根據(jù)用戶賬號版本的不同,八爪魚系統(tǒng)會進(jìn)行默認(rèn)排序,版本高的,優(yōu)先級高,將有優(yōu)先獲得資源分配的權(quán)益。暫時未分配到資源的任務(wù)將進(jìn)行排隊輪候。
1.1.5 URL
URL指正常網(wǎng)站的網(wǎng)址。
1.1.6 單機(jī)采集
單機(jī)采集是指不占用云集群的資源,只能通過八爪魚客戶端所在的PC進(jìn)行工作,在工作期間,需要電腦和軟件都處于運(yùn)行狀態(tài),電源中斷或者網(wǎng)路中斷都會導(dǎo)致數(shù)據(jù)采集任務(wù)的中斷
1.1.7 云采集
云
采集是指通過使用八爪魚提供的服務(wù)器集群進(jìn)行工作,該集群是7*24小時的工作狀態(tài),在客戶端將任務(wù)設(shè)置完成并提交到云服務(wù)執(zhí)行進(jìn)行云采集之后,可以關(guān)閉
軟件,關(guān)閉電腦進(jìn)行脫機(jī)采集,真正的實(shí)現(xiàn)無人值守。除此之外云采集通過云服務(wù)器集群的分布式部署方式,多節(jié)點(diǎn)同時進(jìn)行作業(yè),可以提高采集效率,并且可以高
效的避開各種網(wǎng)站的IP封鎖策略。
1.1.8 定時采集
定時采集指的是用戶在設(shè)定好八爪魚的采集規(guī)則時,定時的啟動 采集程序。
1.1.9 URL循環(huán)
URL循環(huán)是指設(shè)定八爪魚在制定的URL網(wǎng)址里面循環(huán)采集。
1.1.10 自動導(dǎo)出
自動導(dǎo)出是指用戶在設(shè)定好導(dǎo)出.
1.1.11 Cookie
1)
Cookie誕生
當(dāng)某個用戶打開瀏覽器發(fā)出頁面請求時,web服務(wù)器只是進(jìn)行簡單相應(yīng),然后就關(guān)閉與該用戶的連接。所以當(dāng)用戶每發(fā)起一個打開網(wǎng)頁請求到web服務(wù)器的時
候,無論是否是第一次打開同一個網(wǎng)頁,web服務(wù)器都會把這個請求當(dāng)作第一次來對待,那這樣的缺陷可想而知,比如每次打開登錄頁面的時候都需要輸入用戶
名、密碼。為了彌補(bǔ)這個缺陷,Cookie應(yīng)運(yùn)而生。
2) Cookie概述
Cookie就是服務(wù)器暫時存放在你計算機(jī)上的一筆資料,好讓服務(wù)器來辨認(rèn)你的計算機(jī)。當(dāng)你在瀏覽網(wǎng)站的時候,web服務(wù)器會先送出小小資料放在你的計算
機(jī)上,cookie會幫你在網(wǎng)站上所打的文字(如用戶名、密碼)和其他一些操作都記錄下來。當(dāng)下次你再打開同一個網(wǎng)站。web服務(wù)器會先看看有沒有它上次
留下的cookie資料,有的話就會依據(jù)cookie的內(nèi)容來判斷使用者,送出特定的網(wǎng)頁內(nèi)容給你。
3) Cookie工作原理
1.1.12 XPATH
XPATH:是一種路徑查詢語言,簡單的說就是利用一個路徑表達(dá)式找到我們需要的數(shù)據(jù)位置。
XPATH專用于XML中沿著路徑查找數(shù)據(jù)用的,但是八爪魚采集器內(nèi)部有一套針對HTML的XPATH引擎,使得直接用XPATH就能精準(zhǔn)的查找定位網(wǎng)頁里面的數(shù)據(jù)。
1.1.13 HTML
1)
HTML概念
HTML:超文本標(biāo)記語言,是用來描述網(wǎng)頁的一種語言。主要用于控制數(shù)據(jù)的顯示和外觀。HTML文檔也被稱為網(wǎng)頁。
2) HTML結(jié)構(gòu)
完整的HTML文件至少包括<HTML>標(biāo)簽、<HEAD>標(biāo)簽、<TITLE>標(biāo)簽和<BODY>標(biāo)
簽,并且這些標(biāo)簽都是成對出現(xiàn)的,開頭標(biāo)簽為<>,結(jié)束標(biāo)簽為</>,在這兩個標(biāo)簽之間添加內(nèi)容。通過這些標(biāo)簽中的相關(guān)屬性可以
設(shè)置頁面的背景色、背景圖像等。
2 八爪魚基本流程教程
2.1 打開網(wǎng)頁
該步驟根據(jù)設(shè)定的網(wǎng)址打開網(wǎng)頁,一般為網(wǎng)頁采集流程的第一個步驟,用來打開指定的網(wǎng)站或者網(wǎng)頁。如果有多個類似的網(wǎng)址需要分別打開執(zhí)行同樣的采集流程,則應(yīng)該放置在循環(huán)的內(nèi)部,并作為第一個子步驟。
1) 網(wǎng)頁地址
網(wǎng)址,一般可以從網(wǎng)頁瀏覽器如IE等的地址欄中復(fù)制得到,如:http://www.skieer.com
2) 使用當(dāng)前循環(huán)項(xiàng)
配合循環(huán)驟來使用,用以重復(fù)打開多個類似的網(wǎng)頁,然后執(zhí)行同樣的一套流程,循環(huán)打開網(wǎng)頁時,應(yīng)為作為循環(huán)步驟的第一個子步驟。 如果勾選此項(xiàng),則無需手動設(shè)置網(wǎng)頁地址,網(wǎng)頁地址會自動顯示循環(huán)設(shè)定的網(wǎng)址列表的當(dāng)前循環(huán)項(xiàng)。
3) 阻止彈出窗口
用以屏蔽網(wǎng)頁彈窗廣告,如果打開的網(wǎng)頁偶爾會變成另外一個廣告頁面,則可以使用本選項(xiàng)阻止廣告頁面彈出。
4) 超時
在網(wǎng)頁加載完成前等待的最大時間,如果網(wǎng)頁打開緩慢,或者長時間無法打開,則流程最多等待超時指定的時間,之后無論網(wǎng)頁是否加載完成,都直接執(zhí)行下一步驟,應(yīng)盡量避免設(shè)置過長的超時時間,因?yàn)檫@會影響采集速度。
5) 滾動到底部
個別網(wǎng)頁在打開網(wǎng)頁后并沒有顯示所有數(shù)據(jù),需要滾動鼠標(biāo)滾輪或者拖動頁面滾動條到底部,才會加載沒有顯示的數(shù)據(jù),使用此選項(xiàng)在頁面加載完成后滾動到底部
6) 激活重試
如果網(wǎng)頁沒有按照成功打開預(yù)期頁面,例如顯示服務(wù)器錯誤(500),訪問頻率太快等,或者跳轉(zhuǎn)到其他正常執(zhí)行不應(yīng)該出現(xiàn)的頁面,可以使用本選項(xiàng)進(jìn)行重試,但必須配合以下幾個重試參數(shù)執(zhí)行,請注意以下幾種判斷的情況任意一種出現(xiàn)都會導(dǎo)致重試。
7) 結(jié)果頁面網(wǎng)址包含
如果出現(xiàn)的頁面網(wǎng)址中總是出現(xiàn)某個特殊的字符串,例如網(wǎng)頁找不到時一般會出現(xiàn)500.htm等,則使用此選項(xiàng)可以判斷沒有打開預(yù)期頁面,需要重試
8) 結(jié)果頁面文本包含
如果出現(xiàn)的頁面文字中中總是出現(xiàn)某個特殊的字符串,例如"訪問頻率太快",則使用此選項(xiàng)可以判斷沒有打開預(yù)期頁面,需要重試
9) 結(jié)果頁面文本不包含
如果正常打開網(wǎng)頁一定會出現(xiàn)某個特殊的字符串,但沒有正常打開的時候一定不會出現(xiàn)該字符串,則可以據(jù)此判斷判斷沒有打開預(yù)期頁面,需要重試
10) 最大重試次數(shù)
為了避免無限制重復(fù)嘗試,請示用本選項(xiàng)限制最大重復(fù)嘗試的次數(shù),如果重試到達(dá)最大允許的次數(shù),任然沒有成功,則流程將停止重試,繼續(xù)執(zhí)行下一步驟
11) 重試間隔
在兩次重試之間等待的時間,一般情況下,當(dāng)打開網(wǎng)頁出錯時,立即重試很有可能是同樣的錯誤,適當(dāng)?shù)却齽t可能成功打開預(yù)期網(wǎng)頁,但應(yīng)該盡量避免設(shè)置過長的等待時間,因?yàn)檫@會影響采集速度
2.2 點(diǎn)擊元素
該步驟對網(wǎng)頁上指定的元素執(zhí)行鼠標(biāo)左鍵單擊動作,比如點(diǎn)擊按鈕,點(diǎn)擊超鏈接等。
1) 使用當(dāng)前循環(huán)項(xiàng)
配
合循環(huán)步驟來使用,用以重復(fù)點(diǎn)擊循環(huán)中設(shè)置的多個元素,適用于循環(huán)單個固定元素,循環(huán)固定元素列表,循環(huán)可變元素列表。
如果勾選此項(xiàng),則無需設(shè)置點(diǎn)擊的元素,要點(diǎn)擊的元素會自動顯示循環(huán)設(shè)定的當(dāng)前循環(huán)項(xiàng),使用該選項(xiàng)時,應(yīng)當(dāng)作為循環(huán)步驟的子步驟,但不必是第一個子元素。
2) 新標(biāo)簽頁中打開
如
果點(diǎn)擊元素時希望在新的標(biāo)簽頁中打開,而不是在當(dāng)前頁打開,請勾選此選項(xiàng)。
一般情況下,在需要循環(huán)打開一個頁面上的多個超鏈接時,需要勾選此選項(xiàng)以便保留列表頁面,以便點(diǎn)擊列表頁上的下一個超鏈接;但是如果是循環(huán)點(diǎn)擊下一頁時,
則不要勾選此選項(xiàng),以在當(dāng)前頁面打開下一頁。
3) 滾動到底部
個別網(wǎng)頁在加載完成后并沒有顯示所有數(shù)據(jù),需要滾動鼠標(biāo)滾輪或者拖動頁面滾動條到底部,才會加載沒有顯示的數(shù)據(jù),使用此選項(xiàng)在頁面加載完成后滾動到底部
4) 異步加載數(shù)據(jù)
異步加載也叫Ajax,是一種無需重新加載網(wǎng)頁就能刷新局部數(shù)據(jù)的技術(shù),因此流程不能檢測到網(wǎng)頁加載完成,就不能決定何時該執(zhí)行下一個步驟, 使用此選項(xiàng),流程會在等待設(shè)定的超時時間后默認(rèn)數(shù)據(jù)已經(jīng)加載完成,從而繼續(xù)執(zhí)行后續(xù)流程步驟。本選項(xiàng)需要配合異步加載超時使用.
5) 異步加載超時
等待異步加載完成的時間,在點(diǎn)擊元素之后,流程會開始計時,超時時間到達(dá)后,執(zhí)行下一個流程步驟。本選項(xiàng)需要配合異步加載使用,通常使用本選項(xiàng)時,不能勾選“新標(biāo)簽頁中打開”
6) 激活重試
如果網(wǎng)頁沒有按照成功打開預(yù)期頁面,例如顯示服務(wù)器錯誤(500),訪問頻率太快等,或者跳轉(zhuǎn)到其他正常執(zhí)行不應(yīng)該出現(xiàn)的頁面,可以使用本選項(xiàng)進(jìn)行重試,但必須配合以下幾個重試參數(shù)執(zhí)行,請注意以下幾種判斷的情況任意一種出現(xiàn)都會導(dǎo)致重試。
7) 結(jié)果頁面網(wǎng)址包含
如果出現(xiàn)的頁面網(wǎng)址中總是出現(xiàn)某個特殊的字符串,例如網(wǎng)頁找不到時一般會出現(xiàn)500.htm等,則使用此選項(xiàng)可以判斷沒有打開預(yù)期頁面,需要重試
8) 結(jié)果頁面文本包含
如果出現(xiàn)的頁面文字中中總是出現(xiàn)某個特殊的字符串,例如"訪問頻率太快",則使用此選項(xiàng)可以判斷沒有打開預(yù)期頁面,需要重試
9) 結(jié)果頁面文本不包含
如果正常打開網(wǎng)頁一定會出現(xiàn)某個特殊的字符串,但沒有正常打開的時候一定不會出現(xiàn)該字符串,則可以據(jù)此判斷判斷沒有打開預(yù)期頁面,需要重試
10) 最大重試次數(shù)
為了避免無限制重復(fù)嘗試,請示用本選項(xiàng)限制最大重復(fù)嘗試的次數(shù),如果重試到達(dá)最大允許的次數(shù),任然沒有成功,則流程將停止重試,繼續(xù)執(zhí)行下一步驟
11) 重試間隔
在兩次重試之間等待的時間,一般情況下,當(dāng)打開網(wǎng)頁出錯時,立即重試很有可能是同樣的錯誤,適當(dāng)?shù)却齽t可能成功打開預(yù)期網(wǎng)頁,但應(yīng)該盡量避免設(shè)置過長的等待時間,因?yàn)檫@會影響采集速度
2.3 輸入文本
本步驟在輸入框中輸入指定的文本,例如輸入搜索關(guān)鍵詞,輸入賬號等。
將設(shè)定的文本輸入到網(wǎng)頁的某個輸入框中,如使用搜索引擎時輸入關(guān)鍵字。
2.4 提取數(shù)據(jù)
本步驟根據(jù)提取數(shù)據(jù)模板的配置,從網(wǎng)頁中提取數(shù)據(jù),同時還可配置為提取網(wǎng)址,網(wǎng)頁標(biāo)題,或者生成一些數(shù)據(jù)如當(dāng)前時間等。
1) 抓取模板
本步驟根據(jù)提取數(shù)據(jù)模板的配置,從網(wǎng)頁中提取數(shù)據(jù),同時還可配置為提取網(wǎng)址,網(wǎng)頁標(biāo)題,或者生成一些數(shù)據(jù)如當(dāng)前時間等。
2) 名字
給抓取的數(shù)據(jù)字段取個別名,如新聞標(biāo)題,新聞?wù)?br/>3) 提取到的數(shù)據(jù)
從網(wǎng)頁上提取到的數(shù)據(jù),將會在本列顯示所抓取到的示例
4) 描述
對本數(shù)據(jù)字段的一些描述信息
5) 使用當(dāng)前循環(huán)項(xiàng)
配
合循環(huán)步驟來使用,用以重復(fù)的從循環(huán)中設(shè)置的多個元素中提取數(shù)據(jù),適用于循環(huán)單個固定元素,循環(huán)固定元素列表,循環(huán)可變元素列表。
如果勾選此項(xiàng),會從循環(huán)所設(shè)置的元素中根據(jù)抓取規(guī)則提取出示例數(shù)據(jù),使用該選項(xiàng)時,提取數(shù)據(jù)步驟應(yīng)當(dāng)作為循環(huán)步驟的子步驟,但不必是第一個子元素。
2.5 循環(huán)
1) 本步驟用來重復(fù)執(zhí)行一系列步驟,根據(jù)配置不同,支持多種模式。
循環(huán)固定單個元素,例如循環(huán)點(diǎn)擊每一頁中的下一頁按鈕;
2) 循環(huán)固定列表,例如循環(huán)處理一個頁面中指定的多個元素;
3) 循環(huán)可變列表,當(dāng)需要循環(huán)處理多個頁面,但是每個頁面上要處理的元素數(shù)量不固定時使用;
4) 循環(huán)網(wǎng)址列表,主要用來循環(huán)打開一批指定網(wǎng)址的網(wǎng)頁,然后執(zhí)行同樣的處理步驟。
1) 循環(huán)注意事項(xiàng)
1) 元素在IFRAME里
如果循環(huán)中設(shè)置的元素在IFRAME里,請勾選此項(xiàng),并在后面的IFAMEXPah中填寫IFRAME的XPATH
2) IFAMEXPah
元素所在IFRAME的路徑,只有當(dāng)勾選'元素在IFRAME里'時這個設(shè)置才會生效。
3) 固定的一個元素
循環(huán)的對一個元素進(jìn)行特定操作,如循環(huán)點(diǎn)擊下頁,下翻下拉列等,當(dāng)翻到最后一頁或下拉列表已到最后一項(xiàng)時,會自動結(jié)束當(dāng)前循環(huán)。
4) 固定的元素列表
逐個的對列表中的元素進(jìn)行特定操作,如循環(huán)點(diǎn)擊、從中提取數(shù)據(jù)、將鼠標(biāo)懸停在元素上,當(dāng)所有元素循環(huán)完畢時,會自動結(jié)束當(dāng)前循環(huán)。
5) 動態(tài)元素列表
當(dāng)元素列表不是固定的,可指定一個動態(tài)路徑(多個元素都符合此路徑,即可以根據(jù)此路徑定位到多個元素),系統(tǒng)會根據(jù)指定路徑先找到一個元素列表,然后執(zhí)行跟‘固定的元素列表’一樣的操作。
6) URL列表
配合打開網(wǎng)頁操作作用,指定一個URL列表,確保循環(huán)里面的打開網(wǎng)頁操作的使用當(dāng)前循環(huán)項(xiàng)標(biāo)識已勾選,以逐個的打開URL列表中的連接。
7) 循環(huán)執(zhí)行次數(shù)等于
在執(zhí)行到指定次數(shù)時退出循環(huán)
2.6 翻下拉列表
本
步驟用于切換下拉列表
1) 從option順序/到option順序
默認(rèn)為空,代表從下拉列表第一個順序切換,直到最后一個,但有時需要跳過第一個選項(xiàng),從第二個或者中間某個位置開始切換下拉列表,
使用這兩個選項(xiàng)可以控制切換的起始和結(jié)束順序,例如,假設(shè)下拉選項(xiàng)有5個,需要從第2個順序切換到第4個,則“從option順序”設(shè)置為2,“到
option順序”設(shè)置為4。
2) 跳過值/到值
默認(rèn)為空,表示按照設(shè)定,順序切換下拉列表,但如果切換中需要跳過某個下拉項(xiàng),則使用此設(shè)置,可以控制跳過的范圍,
例如,假設(shè)下拉列表有5個選項(xiàng),值分別是10、11、12、13、14,如果需要跳過12,則設(shè)置“跳過值”為12,如果需要跳過12、13,則設(shè)置“跳
過值”為12,“到值”設(shè)置為“13”。
3) 使用當(dāng)前循環(huán)項(xiàng)
配合循環(huán)步驟來使用,用以重復(fù)的循環(huán)中的指定的下拉列表切換到下一個選項(xiàng)。
4) 異步加載數(shù)據(jù)
異步加載也叫Ajax,是一種無需重新加載網(wǎng)頁就能刷新局部數(shù)據(jù)的技術(shù),因此流程不能檢測到網(wǎng)頁加載完成,就不能決定何時該執(zhí)行下一個步驟,
使用此選項(xiàng),流程會在等待設(shè)定的超時時間后默認(rèn)數(shù)據(jù)已經(jīng)加載完成,從而繼續(xù)執(zhí)行后續(xù)流程步驟。本選項(xiàng)需要配合異步加載超時使用
5) 異步加載超時
等待異步加載完成的時間,在點(diǎn)擊元素之后,流程會開始計時,超時時間到達(dá)后,執(zhí)行下一個流程步驟。本選項(xiàng)需要配合異步加載使用。
6) 激活重試
如果網(wǎng)頁沒有按照成功打開預(yù)期頁面,例如顯示服務(wù)器錯誤(500),訪問頻率太快等,或者跳轉(zhuǎn)到其他正常執(zhí)行不應(yīng)該出現(xiàn)的頁面,可以使用本選項(xiàng)進(jìn)行重試,
但必須配合以下幾個重試參數(shù)執(zhí)行,請注意以下幾種判斷的情況任意一種出現(xiàn)都會導(dǎo)致重試。
7) 結(jié)果頁面網(wǎng)址包含
如果出現(xiàn)的頁面網(wǎng)址中總是出現(xiàn)某個特殊的字符串,例如網(wǎng)頁找不到時一般會出現(xiàn)500.htm等,則使用此選項(xiàng)可以判斷沒有打開預(yù)期頁面,需要重試
8) 結(jié)果頁面文本包含
如果出現(xiàn)的頁面文字中中總是出現(xiàn)某個特殊的字符串,例如"訪問頻率太快",則使用此選項(xiàng)可以判斷沒有打開預(yù)期頁面,需要重試
9) 結(jié)果頁面文本不包含
如果正常打開網(wǎng)頁一定會出現(xiàn)某個特殊的字符串,但沒有正常打開的時候一定不會出現(xiàn)該字符串,則可以據(jù)此判斷判斷沒有打開預(yù)期頁面,需要重試
10) 最大重試次數(shù)
為了避免無限制重復(fù)嘗試,請示用本選項(xiàng)限制最大重復(fù)嘗試的次數(shù),如果重試到達(dá)最大允許的次數(shù),任然沒有成功,則流程將停止重試,繼續(xù)執(zhí)行下一步驟
11) 重試間隔
在兩次重試之間等待的時間,一般情況下,當(dāng)打開網(wǎng)頁出錯時,立即重試很有可能是同樣的錯誤,適當(dāng)?shù)却齽t可能成功打開預(yù)期網(wǎng)頁,但應(yīng)該盡量避免設(shè)置過長的等
待時間,因?yàn)檫@會影響采集速度
2.7 條件分支
本步驟會從左到右選擇第一個符合條件的分支,并執(zhí)行該分支
1) 總是
不設(shè)置任何判定條件,該分支總是符合執(zhí)行條件
2) 當(dāng)頁面中包含文本
當(dāng)頁面中包含指定文本是,該分支符合執(zhí)行條件
3) 當(dāng)頁面中包含元素
當(dāng)頁面中包含指定元素時,該分支符合執(zhí)行條件,配合元素XPATH使用
4) 元素XPATH
判定條件元素的XPATH路徑
5) 在IFRAME里
如果判定條件元素在IFRAME里,請勾選此項(xiàng),并在后面的IFAMEXPah中填寫IFRAME的XPATH
6) IFAMEXPah
元素所在IFRAME的路徑,只有當(dāng)勾選'元素在IFRAME里'時這個設(shè)置才會生效。
2.8 鼠標(biāo)懸停
本步驟用于將鼠標(biāo)懸停在指定元素上。
1) 使用當(dāng)前循環(huán)項(xiàng)
配合循環(huán)步驟來使用,用以重復(fù)的將將鼠標(biāo)懸停循環(huán)中指定的元素上,然后執(zhí)行下面的流程。
2) Ajax加載數(shù)據(jù)
Ajax
也叫異步加載,是一種無需重新加載網(wǎng)頁就能刷新局部數(shù)據(jù)的技術(shù),因此流程不能檢測到網(wǎng)頁加載完成,就不能決定何時該執(zhí)行下一個步驟。
很多網(wǎng)頁會在鼠標(biāo)懸停在某些元素上時異步加一些數(shù)據(jù),并在頁面上顯示。使用此選項(xiàng),流程會在等待設(shè)定的超時時間后默認(rèn)數(shù)據(jù)已經(jīng)加載完成,從而繼續(xù)執(zhí)行后續(xù)
流程步驟。本選 項(xiàng)需要配合異步加載超時使用
3) 異步加載超時
等待異步加載完成的時間,在點(diǎn)擊元素之后,流程會開始計時,超時時間到達(dá)后,執(zhí)行下一個流程步驟。本選項(xiàng)需要配合異步加載使用。
2.9 如何下載采集規(guī)則
為
了避免配置采集規(guī)則的重復(fù)工作,八爪魚采集器內(nèi)置了規(guī)則市場,由用戶分享配置好的采集規(guī)則,互幫互助。
使用規(guī)則市場下載規(guī)則的好處顯而易見,可以不用花費(fèi)時間研究和配置采集流程。很多網(wǎng)站的采集規(guī)則都可以在規(guī)則市場中搜索到,下載運(yùn)行即可采集。
下載規(guī)則需要使用八爪魚采集器,具體操作步驟:打開八爪魚采集器->采集規(guī)則->規(guī)則市場。
3.0 如何使用規(guī)則
1)
使用從規(guī)則市場下載的規(guī)則
一般從規(guī)則市場下載的規(guī)則是.otd為后綴的規(guī)則文件,4.*以后的版本中會自動導(dǎo)入下載的規(guī)則文件。以前的版本中需要手動導(dǎo)入下載的規(guī)則文件。
手動導(dǎo)入方式:八爪魚規(guī)則文件(.OTD)直接雙擊即可打開導(dǎo)入向?qū)?,或者打開八爪魚采集器, 快速開始 ->
導(dǎo)入規(guī)則,然后按照向?qū)崾緦?dǎo)入規(guī)則。 但有時候會下載到.zip為后綴的壓縮文件,壓縮文件解壓后包含多個.otd規(guī)則文件,需要先解壓,然后導(dǎo)入。
2) 使用接收到的規(guī)則
使用郵件或者其他即時通訊軟件接受到的規(guī)則,可以參考上一節(jié)說明,手動導(dǎo)入。
有什么辦法可以將圖片的URL地址采集下來?
直接用八爪魚采集器就可以了。
?????
隨著瀑布流網(wǎng)站、AJAX網(wǎng)頁等技術(shù)和網(wǎng)站表現(xiàn)形式大行其道,技術(shù)架構(gòu)和網(wǎng)頁結(jié)構(gòu)都與以往傳統(tǒng)的網(wǎng)站有所區(qū)別,圖片展現(xiàn)形式表現(xiàn)的更加的靈活,有些企業(yè)或
個人出于營銷研究或者收藏的需求,需要對這類型網(wǎng)站進(jìn)行網(wǎng)頁數(shù)據(jù)采集,下面,八妹子就來介紹下,遇到這類型網(wǎng)站時我們要如何使用八爪魚采集器來快速收集數(shù)
據(jù)。
????
我們以“韓國東大門”這個網(wǎng)站為例,來說明下圖片采集要如何實(shí)現(xiàn)。先來看下這個網(wǎng)站的特殊之處,首先,頁面上的圖片不是一次加載完成,而需要滾動多次才會
滾動到底部,這類型的網(wǎng)站像新浪微博也是類似情況,當(dāng)然也有的瀑布流網(wǎng)站是一直加載無法見底的,這種情況八妹子會在別的文章來單獨(dú)介紹,在此不贅述。其
次,產(chǎn)品詳情頁不能通過點(diǎn)擊標(biāo)題進(jìn)入,而需要點(diǎn)擊圖片才能進(jìn)入。
針對以上兩點(diǎn)問題,在使用八爪魚采集器采集圖片等信息的時候,在設(shè)置規(guī)則的時候需要注意以下幾點(diǎn):
1、?????????????????
打開網(wǎng)頁的時候,需要設(shè)置AJAX網(wǎng)頁加載,以便確保數(shù)據(jù)采集的時候不會遺漏,像東大門這個示范站,我們實(shí)際滾動大約需要4次,所以我們在AJAX加載到
底部,滾動次數(shù)可以設(shè)置為4次或5次均可,次數(shù)可以適當(dāng)?shù)谋葘?shí)際的滾動次數(shù)稍微多一兩次!
?
?
2、?????????????????
由于我們采集時需要點(diǎn)擊圖片才能進(jìn)入到產(chǎn)品詳情頁,在建立元素循環(huán)列表的時候,需要將圖片鏈接設(shè)置為列表項(xiàng),如下圖所示,我們需要點(diǎn)擊A標(biāo)簽取到圖片的鏈
接地址,并以此鏈接為循環(huán)列表,添加元素到列表的時候,每次都需要點(diǎn)擊A標(biāo)簽,2-3次添加之后系統(tǒng)會將所有選中的圖片鏈接自動讀取出來。
?
?
3、?????????????????
采集圖片的URL,按第二步的操作進(jìn)入到詳情頁后,就是提取數(shù)據(jù)了,對于產(chǎn)品名稱和價格,都是文本形式,提取非常簡單,而對于圖片,會需要先采集到圖片本
身的URL,再進(jìn)行轉(zhuǎn)換,采集辦法如下圖所示,選中圖片后,在彈出的對話框中可選中IMG標(biāo)簽,選擇圖片的超鏈接進(jìn)行采集。
?
?
4、????????????????? 設(shè)置完成后,保存,來看下采集的戰(zhàn)果!URL、產(chǎn)品名稱、價格均已采集下來,我們導(dǎo)出為EXCEL格式的文件。
?
5、????????????????? 將圖片的URL轉(zhuǎn)換為圖片批量下載下來,相關(guān)的工具再八爪魚數(shù)據(jù)采集器論壇可以免費(fèi)下載。將URL地址導(dǎo)入工具即可將圖片轉(zhuǎn)換下來!
?
經(jīng)過以上簡單的5步,AJAX網(wǎng)頁上的瀑布流圖片就輕松采集下來了,當(dāng)然,如果你要進(jìn)行多頁采集,只需要再第2步的設(shè)置一次翻頁循環(huán)即可,翻頁循環(huán)的相關(guān)視頻教程可直接點(diǎn)擊查看。
追問謝謝大神,講的好詳細(xì),看起來操作挺簡單的
以上就是關(guān)于八爪魚數(shù)據(jù)采集器官網(wǎng)下載相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。
推薦閱讀:
八爪魚數(shù)據(jù)采集器官網(wǎng)下載(八爪魚數(shù)據(jù)采集)
vi設(shè)計手冊踩坑(vi設(shè)計手冊全套案例)