HOME 首頁
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    全文搜索引擎有哪些網(wǎng)站

    發(fā)布時(shí)間:2023-03-31 19:01:28     稿源: 創(chuàng)意嶺    閱讀: 138        當(dāng)前文章關(guān)鍵詞排名出租

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于全文搜索引擎有哪些網(wǎng)站的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。

    開始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端

    官網(wǎng):https://ai.de1919.com。

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請撥打電話175-8598-2043,或添加微信:1454722008

    本文目錄:

    全文搜索引擎有哪些網(wǎng)站

    一、全文搜索引擎網(wǎng)址?

    在浩如煙海的Internet上,特別是其上的Web(World Wide Web萬維網(wǎng))上,不會(huì)搜索,就不會(huì)上網(wǎng)。網(wǎng)蟲朋友們,你了解搜索引擎嗎?它們是怎么工作的?你都使用哪些搜索引擎?今天我就和大家聊聊搜索引擎的話題。

    一、搜索引擎的分類

    獲得網(wǎng)站網(wǎng)頁資料,能夠建立數(shù)據(jù)庫并提供查詢的系統(tǒng),我們都可以把它叫做搜索引擎。按照工作原理的不同,可以把它們分為兩個(gè)基本類別:全文搜索引擎(FullText Search Engine)和分類目錄Directory)。

    全文搜索引擎的數(shù)據(jù)庫是依靠一個(gè)叫“網(wǎng)絡(luò)機(jī)器人(Spider)”或叫“網(wǎng)絡(luò)蜘蛛(crawlers)”的軟件,通過網(wǎng)絡(luò)上的各種鏈接自動(dòng)獲取大量網(wǎng)頁信息內(nèi)容,并按以定的規(guī)則分析整理形成的。Google、百度都是比較典型的全文搜索引擎系統(tǒng)。

    分類目錄則是通過人工的方式收集整理網(wǎng)站資料形成數(shù)據(jù)庫的,比如雅虎中國以及國內(nèi)的搜狐、新浪、網(wǎng)易分類目錄。另外,在網(wǎng)上的一些導(dǎo)航站點(diǎn),也可以歸屬為原始的分類目錄,比如“網(wǎng)址之家”。

    全文搜索引擎和分類目錄在使用上各有長短。全文搜索引擎因?yàn)橐揽寇浖M(jìn)行,所以數(shù)據(jù)庫的容量非常龐大,但是,它的查詢結(jié)果往往不夠準(zhǔn)確;分類目錄依靠人工收集和整理網(wǎng)站,能夠提供更為準(zhǔn)確的查詢結(jié)果,但收集的內(nèi)容卻非常有限。為了取長補(bǔ)短,現(xiàn)在的很多搜索引擎,都同時(shí)提供這兩類查詢,一般對全文搜索引擎的查詢稱為搜索“所有網(wǎng)站”或“全部網(wǎng)站”,比如Google的全文搜索(http://www.google.com/intl/zh-CN/);把對分類目錄的查詢稱為搜索“分類目錄”或搜索“分類網(wǎng)站”,比如新浪搜索和雅虎中國搜索(http://cn.search.yahoo.com/dirsrch/)。

    在網(wǎng)上,對這兩類搜索引擎進(jìn)行整合,還產(chǎn)生了其它的搜索服務(wù),在這里,我們權(quán)且也把它們稱作搜索引擎,主要有這兩類:

    ⒈元搜索引擎(META Search Engine)。這類搜索引擎一般都沒有自己網(wǎng)絡(luò)機(jī)器人及數(shù)據(jù)庫,它們的搜索結(jié)果是通過調(diào)用、控制和優(yōu)化其它多個(gè)獨(dú)立搜索引擎的搜索結(jié)果并以統(tǒng)一的格式在同一界面集中顯示。元搜索引擎雖沒有“網(wǎng)絡(luò)機(jī)器人”或“網(wǎng)絡(luò)蜘蛛”,也無獨(dú)立的索引數(shù)據(jù)庫,但在檢索請求提交、檢索接口代理和檢索結(jié)果顯示等方面,均有自己研發(fā)的特色元搜索技術(shù)。比如“metaFisher元搜索引擎”

    (http://www.hsfz.net/fish/),它就調(diào)用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜索引擎的數(shù)據(jù)。

    ⒉集成搜索引擎(All-in-One Search Page)。集成搜索引擎是通過網(wǎng)絡(luò)技術(shù),在一個(gè)網(wǎng)頁上鏈接很多個(gè)獨(dú)立搜索引擎,查詢時(shí),點(diǎn)選或指定搜索引擎,一次輸入,多個(gè)搜索引擎同時(shí)查詢,搜索結(jié)果由各搜索引擎分別以不同頁面顯示,比如“網(wǎng)際瑞士軍刀”(http://free.okey.net/%7Efree/search1.htm)。

    二、搜索引擎的工作原理

    全文搜索引擎的“網(wǎng)絡(luò)機(jī)器人”或“網(wǎng)絡(luò)蜘蛛”是一種網(wǎng)絡(luò)上的軟件,它遍歷Web空間,能夠掃描一定IP地址范圍內(nèi)的網(wǎng)站,并沿著網(wǎng)絡(luò)上的鏈接從一個(gè)網(wǎng)頁到另一個(gè)網(wǎng)頁,從一個(gè)網(wǎng)站到另一個(gè)網(wǎng)站采集網(wǎng)頁資料。它為保證采集的資料最新,還會(huì)回訪已抓取過的網(wǎng)頁。網(wǎng)絡(luò)機(jī)器人或網(wǎng)絡(luò)蜘蛛采集的網(wǎng)頁,還要有其它程序進(jìn)行分析,根據(jù)一定的相關(guān)度算法進(jìn)行大量的計(jì)算建立網(wǎng)頁索引,才能添加到索引數(shù)據(jù)庫中。我們平時(shí)看到的全文搜索引擎,實(shí)際上只是一個(gè)搜索引擎系統(tǒng)的檢索界面,當(dāng)你輸入關(guān)鍵詞進(jìn)行查詢時(shí),搜索引擎會(huì)從龐大的數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁的索引,并按一定的排名規(guī)則呈現(xiàn)給我們。不同的搜索引擎,網(wǎng)頁索引數(shù)據(jù)庫不同,排名規(guī)則也不盡相同,所以,當(dāng)我們以同一關(guān)鍵詞用不同的搜索引擎查詢時(shí),搜索結(jié)果也就不盡相同。

    和全文搜索引擎一樣,分類目錄的整個(gè)工作過程也同樣分為收集信息、分析信息和查詢信息三部分,只不過分類目錄的收集、分析信息兩部分主要依靠人工完成。分類目錄一般都有專門的編輯人員,負(fù)責(zé)收集網(wǎng)站的信息。隨著收錄站點(diǎn)的增多,現(xiàn)在一般都是由站點(diǎn)管理者遞交自己的網(wǎng)站信息給分類目錄,然后由分類目錄的編輯人員審核遞交的網(wǎng)站,以決定是否收錄該站點(diǎn)。如果該站點(diǎn)審核通過,分類目錄的編輯人員還需要分析該站點(diǎn)的內(nèi)容,并將該站點(diǎn)放在相應(yīng)的類別和目錄中。所有這些收錄的站點(diǎn)同樣被存放在一個(gè)“索引數(shù)據(jù)庫”中。用戶在查詢信息時(shí),可以選擇按照關(guān)鍵詞搜索,也可按分類目錄逐層查找。如以關(guān)鍵詞搜索,返回的結(jié)果跟全文搜索引擎一樣,也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站。需要注意的是,分類目錄的關(guān)鍵詞查詢只能在網(wǎng)站的名稱、網(wǎng)址、簡介等內(nèi)容中進(jìn)行,它的查詢結(jié)果也只是被收錄網(wǎng)站首頁的URL地址,而不是具體的頁面。分類目錄就像一個(gè)電話號碼薄一樣,按照各個(gè)網(wǎng)站的性質(zhì),把其網(wǎng)址分門別類排在一起,大類下面套著小類,一直到各個(gè)網(wǎng)站的詳細(xì)地址,一般還會(huì)提供各個(gè)網(wǎng)站的內(nèi)容簡介,用戶不使用關(guān)鍵詞也可進(jìn)行查詢,只要找到相關(guān)目錄,就完全可以找到相關(guān)的網(wǎng)站(注意:是相關(guān)的網(wǎng)站,而不是這個(gè)網(wǎng)站上某個(gè)網(wǎng)頁的內(nèi)容,某一目錄中網(wǎng)站的排名一般是按照標(biāo)題字母的先后順序或者收錄的時(shí)間順序決定的)。

    搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的實(shí)際上是預(yù)先整理好的網(wǎng)頁索引數(shù)據(jù)庫。

    真正意義上的搜索引擎,通常指的是收集了因特網(wǎng)上幾千萬到幾十億個(gè)網(wǎng)頁并對網(wǎng)頁中的每一個(gè)詞(即關(guān)鍵詞)進(jìn)行索引,建立索引數(shù)據(jù)庫的全文搜索引擎。當(dāng)用戶查找某個(gè)關(guān)鍵詞的時(shí)候,所有在頁面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁都將作為搜索結(jié)果被搜出來。在經(jīng)過復(fù)雜的算法進(jìn)行排序后,這些結(jié)果將按照與搜索關(guān)鍵詞的相關(guān)度高低,依次排列。

    現(xiàn)在的搜索引擎已普遍使用超鏈分析技術(shù),除了分析索引網(wǎng)頁本身的內(nèi)容,還分析索引所有指向該網(wǎng)頁的鏈接的URL、AnchorText、甚至鏈接周圍的文字。所以,有時(shí)候,即使某個(gè)網(wǎng)頁A中并沒有某個(gè)詞比如“惡魔撒旦”,但如果有別的網(wǎng)頁B用鏈接“惡魔撒旦”指向這個(gè)網(wǎng)頁A,那么用戶搜索“惡魔撒旦”時(shí)也能找到網(wǎng)頁A。而且,如果有越多網(wǎng)頁(C、D、E、F……)用名為“惡魔撒旦”的鏈接指向這個(gè)網(wǎng)頁A,或者給出這個(gè)鏈接的源網(wǎng)頁(B、C、D、E、F……)越優(yōu)秀,那么網(wǎng)頁A在用戶搜索“惡魔撒旦”時(shí)也會(huì)被認(rèn)為更相關(guān),排序也會(huì)越靠前。

    搜索引擎的原理,可以看做三步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁→建立索引數(shù)據(jù)庫→在索引數(shù)據(jù)庫中搜索排序。

    從互聯(lián)網(wǎng)上抓取網(wǎng)頁

    利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁的Spider系統(tǒng)程序,自動(dòng)訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有URL爬到其它網(wǎng)頁,重復(fù)這過程,并把爬過的所有網(wǎng)頁收集回來。

    建立索引數(shù)據(jù)庫

    由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進(jìn)行分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁針對頁面內(nèi)容中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。

    在索引數(shù)據(jù)庫中搜索排序

    當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。因?yàn)樗邢嚓P(guān)網(wǎng)頁針對該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。

    最后,由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。

    搜索引擎的Spider一般要定期重新訪問所有網(wǎng)頁(各搜索引擎的周期不同,可能是幾天、幾周或幾月,也可能對不同重要性的網(wǎng)頁有不同的更新頻率),更新網(wǎng)頁索引數(shù)據(jù)庫,以反映出網(wǎng)頁內(nèi)容的更新情況,增加新的網(wǎng)頁信息,去除死鏈接,并根據(jù)網(wǎng)頁內(nèi)容和鏈接關(guān)系的變化重新排序。這樣,網(wǎng)頁的具體內(nèi)容和變化情況就會(huì)反映到用戶查詢的結(jié)果中。

    互聯(lián)網(wǎng)雖然只有一個(gè),但各搜索引擎的能力和偏好不同,所以抓取的網(wǎng)頁各不相同,排序算法也各不相同。大型搜索引擎的數(shù)據(jù)庫儲存了互聯(lián)網(wǎng)上幾億至幾十億的網(wǎng)頁索引,數(shù)據(jù)量達(dá)到幾千G甚至幾萬G。但即使最大的搜索引擎建立超過二十億網(wǎng)頁的索引數(shù)據(jù)庫,也只能占到互聯(lián)網(wǎng)上普通網(wǎng)頁的不到30%,不同搜索引擎之間的網(wǎng)頁數(shù)據(jù)重疊率一般在70%以下。我們使用不同搜索引擎的重要原因,就是因?yàn)樗鼈兡芊謩e搜索到不同的內(nèi)容。而互聯(lián)網(wǎng)上有更大量的內(nèi)容,是搜索引擎無法抓取索引的,也是我們無法用搜索引擎搜索到的。

    你心里應(yīng)該有這個(gè)概念:搜索引擎只能搜到它網(wǎng)頁索引數(shù)據(jù)庫里儲存的內(nèi)容。你也應(yīng)該有這個(gè)概念:如果搜索引擎的網(wǎng)頁索引數(shù)據(jù)庫里應(yīng)該有而你沒有搜出來,那是你的能力問題,學(xué)習(xí)搜索技巧可以大幅度提高你的搜索能力。

    二、中文的搜索引擎和問答類工具有哪些?

    1、中文搜索:百度、搜狗、360、必應(yīng),手機(jī)神馬、頭條等,這些都是能正常訪問的;

    2、問答類的網(wǎng)站,也有很多,網(wǎng)絡(luò)營銷的問答是搜外問答,綜合類問答知乎、悟空等,根據(jù)自己的需求去選擇。

    三、全文搜索引擎的網(wǎng)址?

    在浩如煙海的Internet上,特別是其上的Web(World Wide Web萬維網(wǎng))上,不會(huì)搜索,就不會(huì)上網(wǎng)。網(wǎng)蟲朋友們,你了解搜索引擎嗎?它們是怎么工作的?你都使用哪些搜索引擎?今天我就和大家聊聊搜索引擎的話題。

    一、搜索引擎的分類

    獲得網(wǎng)站網(wǎng)頁資料,能夠建立數(shù)據(jù)庫并提供查詢的系統(tǒng),我們都可以把它叫做搜索引擎。按照工作原理的不同,可以把它們分為兩個(gè)基本類別:全文搜索引擎(FullText Search Engine)和分類目錄Directory)。

    全文搜索引擎的數(shù)據(jù)庫是依靠一個(gè)叫“網(wǎng)絡(luò)機(jī)器人(Spider)”或叫“網(wǎng)絡(luò)蜘蛛(crawlers)”的軟件,通過網(wǎng)絡(luò)上的各種鏈接自動(dòng)獲取大量網(wǎng)頁信息內(nèi)容,并按以定的規(guī)則分析整理形成的。Google、百度都是比較典型的全文搜索引擎系統(tǒng)。

    分類目錄則是通過人工的方式收集整理網(wǎng)站資料形成數(shù)據(jù)庫的,比如雅虎中國以及國內(nèi)的搜狐、新浪、網(wǎng)易分類目錄。另外,在網(wǎng)上的一些導(dǎo)航站點(diǎn),也可以歸屬為原始的分類目錄,比如“網(wǎng)址之家”。

    全文搜索引擎和分類目錄在使用上各有長短。全文搜索引擎因?yàn)橐揽寇浖M(jìn)行,所以數(shù)據(jù)庫的容量非常龐大,但是,它的查詢結(jié)果往往不夠準(zhǔn)確;分類目錄依靠人工收集和整理網(wǎng)站,能夠提供更為準(zhǔn)確的查詢結(jié)果,但收集的內(nèi)容卻非常有限。為了取長補(bǔ)短,現(xiàn)在的很多搜索引擎,都同時(shí)提供這兩類查詢,一般對全文搜索引擎的查詢稱為搜索“所有網(wǎng)站”或“全部網(wǎng)站”,比如Google的全文搜索(http://www.google.com/intl/zh-CN/);把對分類目錄的查詢稱為搜索“分類目錄”或搜索“分類網(wǎng)站”,比如新浪搜索和雅虎中國搜索(http://cn.search.yahoo.com/dirsrch/)。

    在網(wǎng)上,對這兩類搜索引擎進(jìn)行整合,還產(chǎn)生了其它的搜索服務(wù),在這里,我們權(quán)且也把它們稱作搜索引擎,主要有這兩類:

    ⒈元搜索引擎(META Search Engine)。這類搜索引擎一般都沒有自己網(wǎng)絡(luò)機(jī)器人及數(shù)據(jù)庫,它們的搜索結(jié)果是通過調(diào)用、控制和優(yōu)化其它多個(gè)獨(dú)立搜索引擎的搜索結(jié)果并以統(tǒng)一的格式在同一界面集中顯示。元搜索引擎雖沒有“網(wǎng)絡(luò)機(jī)器人”或“網(wǎng)絡(luò)蜘蛛”,也無獨(dú)立的索引數(shù)據(jù)庫,但在檢索請求提交、檢索接口代理和檢索結(jié)果顯示等方面,均有自己研發(fā)的特色元搜索技術(shù)。比如“metaFisher元搜索引擎”

    (http://www.hsfz.net/fish/),它就調(diào)用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜索引擎的數(shù)據(jù)。

    ⒉集成搜索引擎(All-in-One Search Page)。集成搜索引擎是通過網(wǎng)絡(luò)技術(shù),在一個(gè)網(wǎng)頁上鏈接很多個(gè)獨(dú)立搜索引擎,查詢時(shí),點(diǎn)選或指定搜索引擎,一次輸入,多個(gè)搜索引擎同時(shí)查詢,搜索結(jié)果由各搜索引擎分別以不同頁面顯示,比如“網(wǎng)際瑞士軍刀”(http://free.okey.net/%7Efree/search1.htm)。

    二、搜索引擎的工作原理

    全文搜索引擎的“網(wǎng)絡(luò)機(jī)器人”或“網(wǎng)絡(luò)蜘蛛”是一種網(wǎng)絡(luò)上的軟件,它遍歷Web空間,能夠掃描一定IP地址范圍內(nèi)的網(wǎng)站,并沿著網(wǎng)絡(luò)上的鏈接從一個(gè)網(wǎng)頁到另一個(gè)網(wǎng)頁,從一個(gè)網(wǎng)站到另一個(gè)網(wǎng)站采集網(wǎng)頁資料。它為保證采集的資料最新,還會(huì)回訪已抓取過的網(wǎng)頁。網(wǎng)絡(luò)機(jī)器人或網(wǎng)絡(luò)蜘蛛采集的網(wǎng)頁,還要有其它程序進(jìn)行分析,根據(jù)一定的相關(guān)度算法進(jìn)行大量的計(jì)算建立網(wǎng)頁索引,才能添加到索引數(shù)據(jù)庫中。我們平時(shí)看到的全文搜索引擎,實(shí)際上只是一個(gè)搜索引擎系統(tǒng)的檢索界面,當(dāng)你輸入關(guān)鍵詞進(jìn)行查詢時(shí),搜索引擎會(huì)從龐大的數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁的索引,并按一定的排名規(guī)則呈現(xiàn)給我們。不同的搜索引擎,網(wǎng)頁索引數(shù)據(jù)庫不同,排名規(guī)則也不盡相同,所以,當(dāng)我們以同一關(guān)鍵詞用不同的搜索引擎查詢時(shí),搜索結(jié)果也就不盡相同。

    和全文搜索引擎一樣,分類目錄的整個(gè)工作過程也同樣分為收集信息、分析信息和查詢信息三部分,只不過分類目錄的收集、分析信息兩部分主要依靠人工完成。分類目錄一般都有專門的編輯人員,負(fù)責(zé)收集網(wǎng)站的信息。隨著收錄站點(diǎn)的增多,現(xiàn)在一般都是由站點(diǎn)管理者遞交自己的網(wǎng)站信息給分類目錄,然后由分類目錄的編輯人員審核遞交的網(wǎng)站,以決定是否收錄該站點(diǎn)。如果該站點(diǎn)審核通過,分類目錄的編輯人員還需要分析該站點(diǎn)的內(nèi)容,并將該站點(diǎn)放在相應(yīng)的類別和目錄中。所有這些收錄的站點(diǎn)同樣被存放在一個(gè)“索引數(shù)據(jù)庫”中。用戶在查詢信息時(shí),可以選擇按照關(guān)鍵詞搜索,也可按分類目錄逐層查找。如以關(guān)鍵詞搜索,返回的結(jié)果跟全文搜索引擎一樣,也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站。需要注意的是,分類目錄的關(guān)鍵詞查詢只能在網(wǎng)站的名稱、網(wǎng)址、簡介等內(nèi)容中進(jìn)行,它的查詢結(jié)果也只是被收錄網(wǎng)站首頁的URL地址,而不是具體的頁面。分類目錄就像一個(gè)電話號碼薄一樣,按照各個(gè)網(wǎng)站的性質(zhì),把其網(wǎng)址分門別類排在一起,大類下面套著小類,一直到各個(gè)網(wǎng)站的詳細(xì)地址,一般還會(huì)提供各個(gè)網(wǎng)站的內(nèi)容簡介,用戶不使用關(guān)鍵詞也可進(jìn)行查詢,只要找到相關(guān)目錄,就完全可以找到相關(guān)的網(wǎng)站(注意:是相關(guān)的網(wǎng)站,而不是這個(gè)網(wǎng)站上某個(gè)網(wǎng)頁的內(nèi)容,某一目錄中網(wǎng)站的排名一般是按照標(biāo)題字母的先后順序或者收錄的時(shí)間順序決定的)。

    搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的實(shí)際上是預(yù)先整理好的網(wǎng)頁索引數(shù)據(jù)庫。

    真正意義上的搜索引擎,通常指的是收集了因特網(wǎng)上幾千萬到幾十億個(gè)網(wǎng)頁并對網(wǎng)頁中的每一個(gè)詞(即關(guān)鍵詞)進(jìn)行索引,建立索引數(shù)據(jù)庫的全文搜索引擎。當(dāng)用戶查找某個(gè)關(guān)鍵詞的時(shí)候,所有在頁面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁都將作為搜索結(jié)果被搜出來。在經(jīng)過復(fù)雜的算法進(jìn)行排序后,這些結(jié)果將按照與搜索關(guān)鍵詞的相關(guān)度高低,依次排列。

    現(xiàn)在的搜索引擎已普遍使用超鏈分析技術(shù),除了分析索引網(wǎng)頁本身的內(nèi)容,還分析索引所有指向該網(wǎng)頁的鏈接的URL、AnchorText、甚至鏈接周圍的文字。所以,有時(shí)候,即使某個(gè)網(wǎng)頁A中并沒有某個(gè)詞比如“惡魔撒旦”,但如果有別的網(wǎng)頁B用鏈接“惡魔撒旦”指向這個(gè)網(wǎng)頁A,那么用戶搜索“惡魔撒旦”時(shí)也能找到網(wǎng)頁A。而且,如果有越多網(wǎng)頁(C、D、E、F……)用名為“惡魔撒旦”的鏈接指向這個(gè)網(wǎng)頁A,或者給出這個(gè)鏈接的源網(wǎng)頁(B、C、D、E、F……)越優(yōu)秀,那么網(wǎng)頁A在用戶搜索“惡魔撒旦”時(shí)也會(huì)被認(rèn)為更相關(guān),排序也會(huì)越靠前。

    搜索引擎的原理,可以看做三步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁→建立索引數(shù)據(jù)庫→在索引數(shù)據(jù)庫中搜索排序。

    從互聯(lián)網(wǎng)上抓取網(wǎng)頁

    利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁的Spider系統(tǒng)程序,自動(dòng)訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有URL爬到其它網(wǎng)頁,重復(fù)這過程,并把爬過的所有網(wǎng)頁收集回來。

    建立索引數(shù)據(jù)庫

    由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進(jìn)行分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁針對頁面內(nèi)容中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。

    在索引數(shù)據(jù)庫中搜索排序

    當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。因?yàn)樗邢嚓P(guān)網(wǎng)頁針對該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。

    最后,由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。

    搜索引擎的Spider一般要定期重新訪問所有網(wǎng)頁(各搜索引擎的周期不同,可能是幾天、幾周或幾月,也可能對不同重要性的網(wǎng)頁有不同的更新頻率),更新網(wǎng)頁索引數(shù)據(jù)庫,以反映出網(wǎng)頁內(nèi)容的更新情況,增加新的網(wǎng)頁信息,去除死鏈接,并根據(jù)網(wǎng)頁內(nèi)容和鏈接關(guān)系的變化重新排序。這樣,網(wǎng)頁的具體內(nèi)容和變化情況就會(huì)反映到用戶查詢的結(jié)果中。

    互聯(lián)網(wǎng)雖然只有一個(gè),但各搜索引擎的能力和偏好不同,所以抓取的網(wǎng)頁各不相同,排序算法也各不相同。大型搜索引擎的數(shù)據(jù)庫儲存了互聯(lián)網(wǎng)上幾億至幾十億的網(wǎng)頁索引,數(shù)據(jù)量達(dá)到幾千G甚至幾萬G。但即使最大的搜索引擎建立超過二十億網(wǎng)頁的索引數(shù)據(jù)庫,也只能占到互聯(lián)網(wǎng)上普通網(wǎng)頁的不到30%,不同搜索引擎之間的網(wǎng)頁數(shù)據(jù)重疊率一般在70%以下。我們使用不同搜索引擎的重要原因,就是因?yàn)樗鼈兡芊謩e搜索到不同的內(nèi)容。而互聯(lián)網(wǎng)上有更大量的內(nèi)容,是搜索引擎無法抓取索引的,也是我們無法用搜索引擎搜索到的。

    你心里應(yīng)該有這個(gè)概念:搜索引擎只能搜到它網(wǎng)頁索引數(shù)據(jù)庫里儲存的內(nèi)容。你也應(yīng)該有這個(gè)概念:如果搜索引擎的網(wǎng)頁索引數(shù)據(jù)庫里應(yīng)該有而你沒有搜出來,那是你的能力問題,學(xué)習(xí)搜索技巧可以大幅度提高你的搜索能力。

    四、搜索引擎網(wǎng)站有哪些

    TOP技術(shù)網(wǎng)(google一下)有一篇文章“60個(gè)搜索引擎提交入口”,你可以去看看!

    以上就是關(guān)于全文搜索引擎有哪些網(wǎng)站相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識和內(nèi)容。


    推薦閱讀:

    chatGPT的全文

    四川景觀設(shè)計(jì)管理辦法(四川景觀設(shè)計(jì)管理辦法全文)

    全文寫作網(wǎng)站

    杭州哪里修電腦比較好(杭州哪里修電腦比較好一點(diǎn))

    中國珠寶城十大排名(中國珠寶城有哪些)