-
當(dāng)前位置:首頁 > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
搜索引擎的組成部分(搜索引擎的組成部分包括)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于搜索引擎的組成部分的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com。
創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、搜索引擎的工作原理是什么?
搜索引擎的工作原理總共有四步:
第一步:爬行,搜索引擎是通過一種特定規(guī)律的軟件跟蹤網(wǎng)頁的鏈接,從一個鏈接爬到另外一個鏈
接,所以稱為爬行。
第二步:抓取存儲,搜索引擎是通過蜘蛛跟蹤鏈接爬行到網(wǎng)頁,并將爬行的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫。
第三步:預(yù)處理,搜索引擎將蜘蛛抓取回來的頁面,進(jìn)行各種步驟的預(yù)處理。
第四步:排名,用戶在搜索框輸入關(guān)鍵詞后,排名程序調(diào)用索引庫數(shù)據(jù),計算排名顯示給用戶,排名過程與用戶直接互動的。
不同的搜索引擎查出來的結(jié)果是根據(jù)引擎內(nèi)部資料所決定的。比如:某一種搜索引擎沒有這種資料,您就查詢不到結(jié)果。
擴展資料:
定義
一個搜索引擎由搜索器、索引器、檢索器和用戶接四個部分組成。搜索器的功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息。索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用于表示文檔以及生成文檔庫的索引表。
檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評價,對將要輸出的結(jié)果進(jìn)行排序,并實現(xiàn)某種用戶相關(guān)性反饋機制。用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機制。
起源
所有搜索引擎的祖先,是1990年由Montreal的McGill University三名學(xué)生(Alan Emtage、Peter
Deutsch、Bill Wheelan)發(fā)明的Archie(Archie FAQ)。Alan Emtage等想到了開發(fā)一個可以用文件名查找文件的系統(tǒng),于是便有了Archie。
Archie是第一個自動索引互聯(lián)網(wǎng)上匿名FTP網(wǎng)站文件的程序,但它還不是真正的搜索引擎。Archie是一個可搜索的FTP文件名列表,用戶必須輸入精確的文件名搜索,然后Archie會告訴用戶哪一個FTP地址可以下載該文件 。
由于Archie深受歡迎,受其啟發(fā),Nevada System Computing Services大學(xué)于1993年開發(fā)了一個Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后來另一個Gopher搜索工具。
參考資料來源:百度百科-搜索引擎
二、百度是什么
百度是搜索引擎 可以搜網(wǎng)頁新聞等的網(wǎng)絡(luò)搜索引擎 百度搜索引擎于1999年底在美國硅谷由李彥宏和徐勇創(chuàng)建。致力于向人們提供“簡單,可依賴”的信息獲取方式?!鞍俣取倍衷从谥袊纬~人辛棄疾的《青玉案·元夕》詩句:“眾里尋他千百度”,象征著百度對中文信息檢索技術(shù)的執(zhí)著追求。是目前國內(nèi)最大的商業(yè)化全文搜索引擎。
百度搜索引擎由四部分組成:蜘蛛程序、監(jiān)控程序、索引數(shù)據(jù)庫、檢索程序。 門戶網(wǎng)站只需將用戶查詢內(nèi)容和一些相關(guān)參數(shù)傳遞到百度搜索引擎服務(wù)器上,后臺程序就會自動工作并將最終結(jié)果返回給網(wǎng)站。 百度搜索引擎使用了高性能的"網(wǎng)絡(luò)蜘蛛"程序自動的在互聯(lián)網(wǎng)中搜索信息,可定制、高擴展性的調(diào)度算法使得搜索器能在極短的時間內(nèi)收集到最大數(shù)量的互聯(lián)網(wǎng)信息。百度在中國各地和美國均設(shè)有服務(wù)器,搜索范圍涵蓋了中國大陸、香港、臺灣、澳門、新加坡等華語地區(qū)以及北美、歐洲的部分站點。百度搜索引擎擁有目前世界上最大的中文信息庫,總量達(dá)到6000萬頁以上,并且還在以每天幾十萬頁的速度快速增長。 百度和GOOGLE不同的特點 1、百度搜索分為新聞、網(wǎng)頁、MP3、圖片、FLASH和信息快遞六大類。 2、繁體和簡體都可以轉(zhuǎn)換。 3、百度支持多種高級檢索語法。 4、百度搜索引擎還提供相關(guān)檢索。 5、是全球最大的中文搜索引擎 6、全球第二大搜索引擎
三、搜索引擎可劃分為哪四個子系統(tǒng)?每個子系統(tǒng)的功能分別是什么
您好,實際上搜索引擎是由的五個子系統(tǒng)組成的,下面來說說每個子系統(tǒng)的功能:
網(wǎng)頁抓取系統(tǒng)
網(wǎng)頁抓取系統(tǒng)的工作原理是首先搜索引擎派出爬行蜘蛛搜索整個互聯(lián)網(wǎng)的網(wǎng)頁,并沿著網(wǎng)頁上的每一個鏈接繼續(xù)向下抓取
數(shù)據(jù)分析和處理系統(tǒng)
當(dāng)蜘蛛抓取的網(wǎng)頁下載回來之后,數(shù)據(jù)分析系統(tǒng)便開始工作了,根據(jù)搜索引擎收錄的標(biāo)準(zhǔn)對網(wǎng)頁進(jìn)行分析,進(jìn)而判定哪些網(wǎng)頁是可以收錄的,哪些網(wǎng)頁是需要刪除的;當(dāng)數(shù)據(jù)分析完成之后,接下來便是數(shù)據(jù)處理系統(tǒng)開始工作,數(shù)據(jù)處理系統(tǒng)主要原理就是根據(jù)搜索引擎的算法對網(wǎng)站的外鏈、內(nèi)容、權(quán)重、關(guān)鍵詞進(jìn)行分析,然后對網(wǎng)頁進(jìn)行排序。
存儲系統(tǒng)
數(shù)據(jù)存儲系統(tǒng)里儲存的網(wǎng)頁是經(jīng)過處理系統(tǒng)處理過的干凈數(shù)據(jù),并且根據(jù)網(wǎng)頁的內(nèi)容進(jìn)行了分類。
緩存系統(tǒng)
一般緩存系統(tǒng)分為臨時緩存區(qū)和時段緩存區(qū),臨時緩存系統(tǒng)主要是針對臨時網(wǎng)頁的排名,而時段緩存區(qū)一般是24小時變動一次。
展示系統(tǒng)
展示系統(tǒng)中的數(shù)據(jù)都是被處理好的,包括網(wǎng)頁的排名,網(wǎng)頁的權(quán)重計算等等,只要用戶進(jìn)行搜索,這些數(shù)據(jù)就可以快速地展現(xiàn)在用戶面前,而不需要進(jìn)行新一輪的抓取、處理、排序等復(fù)雜工作。
四、搜索引擎分為哪幾類?
搜
索
引
擎
分
類
搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full
Text
Search
Engine)、目錄索引類搜索引擎(Search
Index/Directory)和元搜索引擎(Meta
Search
Engine)。
■
全文搜索引擎
全文搜索引擎是名副其實的搜索引擎,國外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,國內(nèi)著名的有百度(Baidu)。它們都是通過從互聯(lián)網(wǎng)上提取的各個網(wǎng)站的信息(以網(wǎng)頁文字為主)而建立的數(shù)據(jù)庫中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶,因此他們是真正的搜索引擎。
從搜索結(jié)果來源的角度,全文搜索引擎又可細(xì)分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,并自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用,如上面提到的7家引擎;另一種則是租用其他引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,如Lycos引擎。
■
目錄索引
目錄索引雖然有搜索功能,但在嚴(yán)格意義上算不上是真正的搜索引擎,僅僅是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以不用進(jìn)行關(guān)鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo雅虎。其他著名的還有Open
Directory
Project(DMOZ)、LookSmart、About等。國內(nèi)的搜狐、新浪、網(wǎng)易搜索也都屬于這一類。
■
元搜索引擎
(META
Search
Engine)
元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進(jìn)行搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來源引擎排列搜索結(jié)果,如Dogpile,有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo。
除上述三大類引擎外,還有以下幾種非主流形式:
1、集合式搜索引擎:如HotBot在2002年底推出的引擎。該引擎類似META搜索引擎,但區(qū)別在于不是同時調(diào)用多個引擎進(jìn)行搜索,而是由用戶從提供的4個引擎當(dāng)中選擇,因此叫它“集合式”搜索引擎更確切些。
2、門戶搜索引擎:如AOL
Search、MSN
Search等雖然提供搜索服務(wù),但自身即沒有分類目錄也沒有網(wǎng)頁數(shù)據(jù)庫,其搜索結(jié)果完全來自其他引擎。
3、免費鏈接列表(Free
For
All
Links,簡稱FFA):這類網(wǎng)站一般只簡單地滾動排列鏈接條目,少部分有簡單的分類目錄,不過規(guī)模比起Yahoo等目錄索引來要小得多。
由于上述網(wǎng)站都為用戶提供搜索查詢服務(wù),為方便起見,我們通常將其統(tǒng)稱為搜索引擎。
以上就是關(guān)于搜索引擎的組成部分相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。
推薦閱讀: