正文

超級搜索引擎網(wǎng)頁（超級搜索引擎網(wǎng)頁打不開）

發(fā)布時間：2023-04-13 17:47:03 稿源：創(chuàng)意嶺閱讀： 61

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于超級搜索引擎網(wǎng)頁的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

開始之前先推薦一個非常厲害的Ai人工智能工具，一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，越精準(zhǔn)，寫出的就越詳細(xì)，有微信小程序端、在線網(wǎng)頁版、PC客戶端

官網(wǎng)：https://ai.de1919.com。

創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè)，服務(wù)客戶遍布全球各地，如需了解相關(guān)業(yè)務(wù)請撥打電話175-8598-2043，或添加微信：1454722008

本文目錄:

1、除了IE瀏覽器,還有什么可以上網(wǎng)?
2、搜索引擎分為哪幾類
3、搜索引擎如何搜索到信息？
4、沒有受到限制的搜索引擎有哪些

超級搜索引擎網(wǎng)頁（超級搜索引擎網(wǎng)頁打不開）

一、除了IE瀏覽器,還有什么可以上網(wǎng)?

GoSuRF Browser

基于IE內(nèi)核的多頁面瀏覽器。人性化的設(shè)計，符合您的瀏覽習(xí)慣和動作，合理的細(xì)節(jié)功能擴(kuò)展給您事半功倍的瀏覽體驗，界面全方位自定義，讓你的瀏覽世界更廣闊。該款瀏覽器對系統(tǒng)資源的占用相當(dāng)?shù)纳?，另外各項操作上的完美演繹令 GoSuRF 個性更加鮮明，細(xì)節(jié)功能上的完善更是人性化體現(xiàn)得淋漓盡致。還等什么？現(xiàn)在就選擇 GoSuRF 作為您的網(wǎng)頁瀏覽工具，即刻開始全新的沖浪體驗！

http://download.pchome.net/internet/browser/browser/7843.html

Mozilla Firefox 簡體中文版（火狐）

Mozilla開發(fā)組的新作，是一個干凈、完整的瀏覽器。速度極快，沒有包含電子郵件等一些硬塞給用戶的組件?；贕ecko引擎，很小巧，只有7.44Mb，遠(yuǎn)小于IE。對東亞語言支持也不錯。

http://download.pchome.net/internet/browser/browser/15207.html

mxie 馬克思ie

馬克思ie（mxie）是一個擁有網(wǎng)頁瀏覽器功能的超級P2P搜索引擎，完全免費(fèi)！各種音樂、電影、動漫、小說、圖片等娛樂文件，一切你想得到的都可以找到！采用目前最為先進(jìn)的多點P2P技術(shù)，搜尋到的就能下載到，絕對無死鏈！神奇的“越多人下載越高速”特性，充分挖掘你的帶寬潛力，保證高速！獨(dú)家裝備了強(qiáng)力防火墻穿透利器，即使在嚴(yán)密防護(hù)的企業(yè)防火墻后也能通行自如。

http://download.pchome.net/internet/browser/browser/18797.html

MyIE 網(wǎng)際暢游中文版(簡體)

為什么繼續(xù)MyIE開源項目 (1).正如大家所知的,MyIE3.2以前的版本是在changyou主力下開源開發(fā)的,這個項目因為changyou的原因而停止,后來從MyIE而發(fā)展出了多個瀏覽器,但這些瀏覽器都是非開源開發(fā)的,GreenBrowser最早也是在MyIE基礎(chǔ) 上進(jìn)一步開發(fā)而來,經(jīng)過近3年的開發(fā),各方面都比較成熟了,在下一個開發(fā)進(jìn)程前,我們想探索一下開源開發(fā)這種模式,因此想到了繼續(xù)changyou以前停止的MyIE開源項目. (2).現(xiàn)在GreenBrowser在內(nèi)容,外觀,功能方面都有了較大的改變,特別是加入了很多瀏覽輔助功能,這些功能的加入雖然在一定程度上提供了瀏覽的方便,但是也增加了較多的資源占用,降低了瀏覽的效率.有些用戶對此的意見也比較大,所以我們想有針對性的推出一個專注于網(wǎng)頁瀏覽的瀏覽器,在GreenBrowser基礎(chǔ)上削減些不常用的功能,以瀏覽網(wǎng)頁為主要功能,去掉一些不常用的與瀏覽關(guān)系不大的功能,以綠色,簡潔,快速為主要目標(biāo).這個瀏覽器的名稱和GreenBrowser名稱最好有所區(qū)別 ,所以考慮和MyIE開源項目相結(jié)合. (3).各個用戶的使用習(xí)慣和要求不盡相同,開源可以為他們提供最大限度的使用自由. MyIE和GreenBrowser的關(guān)系由于MyIE3.2版本的代碼問題較多,很多功能也不是很完善,因此我們不考慮使用MyIE3.2的代碼,而是在GreenBrowser2.4版本源代碼的基礎(chǔ)上刪除去掉一些不常用的與瀏覽關(guān)系不大的功能,但是主要的功能和代碼保持相同.同時Green Browser將在現(xiàn)在版本基礎(chǔ)上繼續(xù)開發(fā).

二、搜索引擎分為哪幾類

問題一：搜索引擎都有哪些分類？【分類】

1.全文索引

全文搜索引擎是名副其實的搜索引擎，國外代表有Google，國內(nèi)則有著名的百度搜索。它們從互聯(lián)網(wǎng)提取各個網(wǎng)站的信息(以網(wǎng)頁文字為主)，建立起數(shù)據(jù)庫，并能檢索與用戶查詢條件相匹配的記錄，按一定的排列順序返回結(jié)果。

根據(jù)搜索結(jié)果來源的不同，全文搜索引擎可分為兩類，一類擁有自己的檢索程序(Indexer)，俗稱“蜘蛛”(Spider)程序或“機(jī)器人”(Robot)程序，能自建網(wǎng)頁數(shù)據(jù)庫，搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用，上面提到的Google和百度就屬于此類；另一類則是租用其他搜索引擎的數(shù)據(jù)庫，并按自定的格式排列搜索結(jié)果，如Lycos搜索引擎。

2.目錄索引

目錄索引雖然有搜索功能，但嚴(yán)格意義上不能稱為真正的搜索引擎，只是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以按照分類目錄找到所需要的信息，不依靠關(guān)鍵詞(Keywords)進(jìn)行查詢。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo！、新浪分類目錄搜索。

3.元搜索引擎

元搜索引擎(META Search Engine)接受用戶查詢請求后，同時在多個搜索引擎上搜索，并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等，中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索結(jié)果排列方面，有的直接按來源排列搜索結(jié)果，如Dogpile；有的則按自定的規(guī)則將結(jié)果重新排列組合，如Vivisimo。

其他非主流搜索引擎形式

(1) *** 式搜索引擎:該搜索引擎類似元搜索引擎，區(qū)別在于它并非同時調(diào)用多個搜索引擎進(jìn)行搜索，而是由用戶從提供的若干搜索引擎中選擇，如HotBot在2002年底推出的搜索引擎。

(2)門戶搜索引擎:AOL Search、MSN Search等雖然提供搜索服務(wù)，但自身既沒有分類目錄也沒有網(wǎng)頁數(shù)據(jù)庫，其搜索結(jié)果完全來自其他搜索引擎。

(3)免費(fèi)鏈接列表(Free For All Links，簡稱FFA):一般只簡單地滾動鏈接條目，少部分有簡單的分類目錄，不過規(guī)模要比Yahoo！等目錄索引小很多。

【工作原理】

1、抓取網(wǎng)頁

每個獨(dú)立的搜索引擎都有自己的網(wǎng)頁抓取程序（spider）。Spider順著網(wǎng)頁中的超鏈接，連續(xù)地抓取網(wǎng)頁。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍，理論上，從一定范圍的網(wǎng)頁出發(fā)，就能搜集到絕大多數(shù)的網(wǎng)頁。

2、處理網(wǎng)頁

搜索引擎抓到網(wǎng)頁后，還要做大量的預(yù)處理工作，才能提供檢索服務(wù)。其中，最重要的就是提取關(guān)鍵詞，建立索引文件。其他還包括去除重復(fù)網(wǎng)頁、分析超鏈接、計算網(wǎng)頁的重要度。

3、提供檢索服務(wù)

用戶輸入關(guān)鍵詞進(jìn)行檢索，搜索引擎從索引數(shù)據(jù)庫中找到匹配該關(guān)鍵詞的網(wǎng)頁；為了用戶便于判斷，除了網(wǎng)頁標(biāo)題和URL外，還會提供一段來自網(wǎng)頁的摘要以及其他信息。

問題二：搜索引擎都有哪幾種類型搜索引擎主要分類，及特點：

一、全文索引

全文搜索引擎是目前廣泛應(yīng)用的主流搜索引擎，國外代表搜索是Google，國內(nèi)則有最大中文搜索百度。它們從互聯(lián)網(wǎng)提取各個網(wǎng)站的信息（以網(wǎng)頁文字為主），建立起數(shù)據(jù)庫，并能檢索與用戶查詢條件相匹配的記錄，按一定的排列順序返回結(jié)果。

根據(jù)搜索結(jié)果來源的不同，全文搜索引擎可分為兩類，一類擁有自己的檢索程序（Indexer），俗稱“蜘蛛”（Spider）程序或“機(jī)器人”（Robot）程序，能自建網(wǎng)頁數(shù)據(jù)庫，搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用，上面提到的Google和360搜索就屬于此類；另一類則是租用其他搜索引擎的數(shù)據(jù)庫，并按自定的格式排列搜索結(jié)果，如Lycos搜索引擎。

二、目錄索引

目錄索引也稱為：分類檢索，是因特網(wǎng)上最早提供WWW資源查詢的服務(wù)，主要通過搜集和整理因特網(wǎng)的資源，根據(jù)搜索到網(wǎng)頁的內(nèi)容，將其網(wǎng)址分配到相關(guān)分類主題目錄的不同層次的類目之下，形成像圖書館目錄一樣的分類樹形結(jié)構(gòu)索引。目錄索引無需輸入任何文字，只要根據(jù)網(wǎng)站提供的主題分類目錄，層層點擊進(jìn)入，便可查到所需的網(wǎng)絡(luò)信息資源。

三、元搜索引擎

元搜索引擎（META Search Engine）接受用戶查詢請求后，同時在多個搜索引擎上搜索，并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等，中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索結(jié)果排列方面，有的直接按來源排列搜索結(jié)果，如Dogpile；有的則按自定的規(guī)則將結(jié)果重新排列組合，如Vivisimo。

四、垂直搜索引擎

垂直搜索引擎為2006年后逐步興起的一類搜索引擎。不同于通用的網(wǎng)頁搜索引擎，垂直搜索專注于特定的搜索領(lǐng)域和搜索需求（例如：機(jī)票搜索、旅游搜索、生活搜索、小說搜索、視頻搜索等等），在其特定的搜索領(lǐng)域有更好的用戶體驗。相比通用搜索動輒數(shù)千臺檢索服務(wù)器，垂直搜索需要的硬件成本低、用戶需求特定、查詢的方式多樣。

五、 *** 式搜索引擎

*** 式搜索引擎：該搜索引擎類似元搜索引擎，區(qū)別在于它并非同時調(diào)用多個搜索引擎進(jìn)行搜索，而是由用戶從提供的若干搜索引擎中選擇，如HotBot在2002年底推出的搜索引擎。

六、門戶搜索引擎

門戶搜索引擎：AOLSearch、MSNSearch等雖然提供搜索服務(wù)，但自身既沒有分類目錄也沒有網(wǎng)頁數(shù)據(jù)庫，其搜索結(jié)果完全來自其他搜索引擎。

七、免費(fèi)鏈接列表

免費(fèi)鏈接列表（Free For All Links簡稱FFA）：一般只簡單地滾動鏈接條目，少部分有簡單的分類目錄，不過規(guī)模要比Yahoo！等目錄索引小很多。

希望可以幫助到你~望采納哦～謝謝～看評論

問題三：目前常用的搜索引擎分為哪兩類？分為三類：全文搜索引擎（例如google)目錄搜索(163),元搜索引擎

問題四：搜索引擎分幾種可分為三種搜索引擎分類搜索引擎按其工作方式主要可分為三種，分別是全文搜索引擎（Full Text Search Engine）、目錄索引類搜索引擎（Search Index/Directory）和元搜索引擎（Meta Search Engine）。全文搜索引擎全文搜索引擎是名副其實的搜索引擎，國外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等，國內(nèi)著名的有百度（Baidu）。它們都是通過從互聯(lián)網(wǎng)上提取的各個網(wǎng)站的信息（以網(wǎng)頁文字為主）而建立的數(shù)據(jù)庫中，檢索與用戶查詢條件匹配的相關(guān)記錄，然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶，因此他們是真正的搜索引擎。從搜索結(jié)果來源的角度，全文搜索引擎又可細(xì)分為兩種，一種是擁有自己的檢索程序（Indexer），俗稱“蜘蛛”（Spider）程序或“機(jī)器人”（Robot）程序，并自建網(wǎng)頁數(shù)據(jù)庫，搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用，如上面提到的7家引擎；另一種則是租用其他引擎的數(shù)據(jù)庫，并按自定的格式排列搜索結(jié)果，如Lycos引擎。目錄索引目錄索引雖然有搜索功能，但在嚴(yán)格意義上算不上是真正的搜索引擎，僅僅是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以不用進(jìn)行關(guān)鍵詞（Keywords）查詢，僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo雅虎。其他著名的還有Open Directory Project（DMOZ）、LookSmart、About等。國內(nèi)的搜狐、新浪、網(wǎng)易搜索也都屬于這一類。元搜索引擎(META Search Engine) 元搜索引擎在接受用戶查詢請求時，同時在其他多個引擎上進(jìn)行搜索，并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等（元搜索引擎列表），中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結(jié)果排列方面，有的直接按來源引擎排列搜索結(jié)果，如Dogpile，有的則按自定的規(guī)則將結(jié)果重新排列組合，如Vivisimo。除上述三大類引擎外，還有以下幾種非主流形式： *** 式搜索引擎：如HotBot在2002年底推出的引擎。該引擎類似META搜索引擎，但區(qū)別在于不是同時調(diào)用多個引擎進(jìn)行搜索，而是由用戶從提供的4個引擎當(dāng)中選擇，因此叫它“ *** 式”搜索引擎更確切些。門戶搜索引擎：如AOL Search、MSN Search等雖然提供搜索服務(wù)，但自身即沒有分類目錄也沒有網(wǎng)頁數(shù)據(jù)庫，其搜索結(jié)果完全來自其他引擎。免費(fèi)鏈接列表（Free For All Links，簡稱FFA）：這類網(wǎng)站一般只簡單地滾動排列鏈接條目，少部分有簡單的分類目錄，不過規(guī)模比起Yahoo等目錄索引來要小得多。由于上述網(wǎng)站都為用戶提供搜索查詢服務(wù)，為方便起見，我們通常將其統(tǒng)稱為搜索引擎。搜索引擎基本工作原理了解搜索引擎的工作原理對我們?nèi)粘Ｋ阉鲬?yīng)用和網(wǎng)站提交推廣都會有很大幫助。全文搜索引擎在搜索引擎分類部分我們提到過全文搜索引擎從網(wǎng)站提取信息建立網(wǎng)頁數(shù)據(jù)庫的概念。搜索引擎的自動信息搜集功能分兩種。一種是定期搜索，即每隔一段時間（比如Google一般是28天），搜索引擎主動派出“蜘蛛”程序，對一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索，一旦發(fā)現(xiàn)新的網(wǎng)站，它會自動提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫。另一種是提交網(wǎng)站搜索，即網(wǎng)站擁有者主動向搜索引擎提交網(wǎng)址，它在一定時間內(nèi)（2天到數(shù)月不等）定向向你的網(wǎng)站派出“蜘蛛”程序，掃描你的網(wǎng)站并將有關(guān)信息存入......>>

問題五：目前常用的搜索引擎分為哪兩類？樓主！不是2類，是3類。1。全文搜索引擎（例如google)2。目錄搜索(163),3。元搜索引擎

問題六：中國主要的搜索引擎有哪幾個？百度(baidu)中文搜索引擎

全球最大中文搜索引擎。提供網(wǎng)頁快照、網(wǎng)頁預(yù)覽/預(yù)覽全部網(wǎng)頁、相關(guān)搜索詞、錯別字糾正提示、新聞搜索、Flash搜索、信息快遞搜索、百度搜霸、搜索援助中心。

北大天網(wǎng)中英文搜索引擎

由北京大學(xué)開發(fā)，簡體中文、繁體中文和英文三個版本。提供全文檢索、新聞組檢索、FTP檢索（北京大學(xué)、中科院等FTP站點）。目前大約收集了100萬個WWW頁面（國內(nèi)）和14萬篇Newsgroup（新聞組）文章。支持簡體中文、繁體中文、英文關(guān)鍵詞搜索，不支持?jǐn)?shù)字關(guān)鍵詞和URL名檢索。

新浪搜索引擎

互聯(lián)網(wǎng)上規(guī)模最大的中文搜索引擎之一。設(shè)大類目錄18個，子目1萬多個，收錄網(wǎng)站20余萬。提供網(wǎng)站、中文網(wǎng)頁、英文網(wǎng)頁、新聞、漢英辭典、軟件、滬深行情、游戲等多種資源的查詢。

雅虎中國搜索引擎

Yahoo!是世界上最著名的目錄搜索引擎。雅虎中國于1999年9月正式開通，是雅虎在全球的第20個網(wǎng)站。Yahoo！目錄是一個Web資源的導(dǎo)航指南，包括14個主題大類的內(nèi)容。

搜狐搜索引擎

搜狐于1998年推出中國首家大型分類查詢搜索引擎，到現(xiàn)在已經(jīng)發(fā)展成為中國影響力最大的分類搜索引擎。每日頁面瀏覽量超過800萬，可以查找網(wǎng)站、網(wǎng)頁、新聞、網(wǎng)址、軟件、黃頁等信息。

網(wǎng)易搜索引擎

網(wǎng)易新一代開放式目錄管理系統(tǒng)（ODP）。擁有近萬名義務(wù)目錄管理員。為廣大網(wǎng)民創(chuàng)建了一個擁有超過一萬個類目，超過25萬條活躍站點信息，日增加新站點信息500~1000條，日訪問量超過500萬次的專業(yè)權(quán)威的目錄查詢體系。

3721網(wǎng)絡(luò)實名/智能搜索

3721公司提供的中文上網(wǎng)服務(wù)DD3721網(wǎng)絡(luò)實名，使用戶無須記憶復(fù)雜的網(wǎng)址，直接輸入中文名稱，即可直達(dá)網(wǎng)站。3721智能搜索系統(tǒng)不僅含有精確的網(wǎng)絡(luò)實名搜索結(jié)果，同時集成多家搜索引擎。

360綜合搜索引擎

問題七：常用搜索引擎按其工作方式可分為哪些搜索引擎按其工作方式主要可分為三種，分別是全文搜索引擎（Full Text Search Engine）、目錄索引類搜索引擎（Search Index/Directory）和元搜索引擎（Meta Search Engine）。

你所說的兩種是不包括目錄索引，因為目錄索引雖然有搜索功能，但從嚴(yán)格意義上算不上是真正的搜索引擎，只是一個目錄列表而已。用戶完全可以不用進(jìn)行關(guān)鍵詞（Keywords）查詢，僅靠分類目錄也可找到需要的信息。從這個角度說，搜索引擎按其工作方式分為全文搜索引擎和元搜索引擎兩種。

問題八：搜索引擎可分為哪兩種類型，各有什么特點與全文搜索引擎相比，目錄索引有許多不同之處。

首先，搜索引擎屬于自動網(wǎng)站檢索，而目錄索引則完全依賴手工操作。用戶提交網(wǎng)站后，目錄編輯人員會親自瀏覽你的網(wǎng)站，然后根據(jù)一套自定的評判標(biāo)準(zhǔn)甚至編輯人員的主觀印象，決定是否接納你的網(wǎng)站。搜索引擎其次，搜索引擎收錄網(wǎng)站時，只要網(wǎng)站本身沒有違反有關(guān)的規(guī)則，一般都能登錄成功。而目錄索引對網(wǎng)站的要求則高得多，有時即使登錄多次也不一定成功。尤其象Yahoo這樣的超級索引，登錄更是困難。

此外，在登錄搜索引擎時，我們一般不用考慮網(wǎng)站的分類問題，而登錄目錄索引時則必須將網(wǎng)站放在一個最合適的目錄（Directory）。

最后，搜索引擎中各網(wǎng)站的有關(guān)信息都是從用戶網(wǎng)頁中自動提取的，所以從用戶的角度看，我們擁有更多的自 *** ；而目錄索引則要求必須手工另外填寫網(wǎng)站信息，而且還有各種各樣的限制。更有甚者，如果工作人員認(rèn)為你提交網(wǎng)站的目錄、網(wǎng)站信息不合適，他可以隨時對其進(jìn)行調(diào)整，當(dāng)然事先是不會和你商量的。

目錄索引，顧名思義就是將網(wǎng)站分門別類地存放在相應(yīng)的目錄中，因此用戶在查詢信息時，可選擇關(guān)鍵詞搜索，也可按分類目錄逐層查找。如以關(guān)鍵詞搜索，返回的結(jié)果跟搜索引擎一樣，也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站，只不過其中人為因素要多一些。如果按分層目錄查找，某一目錄中網(wǎng)站的排名則是由標(biāo)題字母的先后順序決定（也有例外）。

――選自網(wǎng)頁

問題九：搜索引擎按其工作原理分為哪幾類搜索引擎按其工作方式主要可分為三種，分別是全文搜索引擎（Full Text Search Engine）、目錄索引類搜索引擎（Search Index/Directory）和元搜索引擎（Meta Search Engine）。

問題十：常用的搜索引擎有哪些國內(nèi)，百度，360，搜狗，移動端，除了上面三個，還有神馬搜索；國際常用，Google，Yahoo，必應(yīng)

三、搜索引擎如何搜索到信息？

隨著互聯(lián)網(wǎng)的迅猛發(fā)展、WEB信息的增加，用戶要在信息海洋里查找自己所需的信息，就象大海撈針一樣，搜索引擎技術(shù)恰好解決了這一難題（它可以為用戶提供信息檢索服務(wù)）。搜索引擎是指互聯(lián)網(wǎng)上專門提供檢索服務(wù)的一類網(wǎng)站，這些站點的服務(wù)器通過網(wǎng)絡(luò)搜索軟件(例如網(wǎng)絡(luò)搜索機(jī)器人)或網(wǎng)絡(luò)登錄等方式，將Intemet上大量網(wǎng)站的頁面信息收集到本地，經(jīng)過加工處理建立信息數(shù)據(jù)庫和索引數(shù)據(jù)庫，從而對用戶提出的各種檢索作出響應(yīng)，提供用戶所需的信息或相關(guān)指針。用戶的檢索途徑主要包括自由詞全文檢索、關(guān)鍵詞檢索、分類檢索及其他特殊信息的檢索(如企業(yè)、人名、電話黃頁等)。下面以網(wǎng)絡(luò)搜索機(jī)器人為例來說明搜索引擎技術(shù)。

1．網(wǎng)絡(luò)機(jī)器人技術(shù)

網(wǎng)絡(luò)機(jī)器人(Robot)又被稱作Spider、Worm或Random，核心目的是為獲取Intemet上的信息。一般定義為“一個在網(wǎng)絡(luò)上檢索文件且自動跟蹤該文件的超文本結(jié)構(gòu)并循環(huán)檢索被參照的所有文件的軟件”。機(jī)器人利用主頁中的超文本鏈接遍歷WWW，通過U趾引用從一個HT2LIL文檔爬行到另一個HTML文檔。網(wǎng)上機(jī)器人收集到的信息可有多種用途，如建立索引、HIML文件合法性的驗證、uRL鏈接點驗證與確認(rèn)、監(jiān)控與獲取更新信息、站點鏡像等。

機(jī)器人安在網(wǎng)上爬行，因此需要建立一個URL列表來記錄訪問的軌跡。它使用超文本，指向其他文檔的URL是隱藏在文檔中，需要從中分析提取URL，機(jī)器人一般都用于生成索引數(shù)據(jù)庫。所有WWW的搜索程序都有如下的工作步驟：

(1)機(jī)器人從起始URL列表中取出URL并從網(wǎng)上讀取其指向的內(nèi)容；

(2)從每一個文檔中提取某些信息(如關(guān)鍵字)并放入索引數(shù)據(jù)庫中；

(3)從文檔中提取指向其他文檔的URL，并加入到URL列表中；

(4)重復(fù)上述3個步驟，直到再沒有新的URL出現(xiàn)或超出了某些限制(時間或磁盤空間)；

(5)給索引數(shù)據(jù)庫加上檢索接口，向網(wǎng)上用戶發(fā)布或提供給用戶檢索。

搜索算法一般有深度優(yōu)先和廣度優(yōu)先兩種基本的搜索策略。機(jī)器人以URL列表存取的方式?jīng)Q定搜索策略：先進(jìn)先出，則形成廣度優(yōu)先搜索，當(dāng)起始列表包含有大量的WWW服務(wù)器地址時，廣度優(yōu)先搜索將產(chǎn)生一個很好的初始結(jié)果，但很難深入到服務(wù)器中去；先進(jìn)后出，則形成深度優(yōu)先搜索，這樣能產(chǎn)生較好的文檔分布，更容易發(fā)現(xiàn)文檔的結(jié)構(gòu)，即找到最大數(shù)目的交叉引用。也可以采用遍歷搜索的方法，就是直接將32位的IP地址變化，逐個搜索整個Intemet。

搜索引擎是一個技術(shù)含量很高的網(wǎng)絡(luò)應(yīng)用系統(tǒng)。它包括網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)庫技術(shù)動標(biāo)引技術(shù)、檢索技術(shù)、自動分類技術(shù)，機(jī)器學(xué)習(xí)等人工智能技術(shù)。

2．索引技術(shù)

索引技術(shù)是搜索引擎的核心技術(shù)之一。搜索引擎要對所收集到的信息進(jìn)行整理、分類、索引以產(chǎn)生索引庫，而中文搜索引擎的核心是分詞技術(shù)。分詞技術(shù)是利用一定的規(guī)則和詞庫，切分出一個句子中的詞，為自動索引做好準(zhǔn)備。目前的索引多采用Non—clustered方法，該技術(shù)和語言文字的學(xué)問有很大的關(guān)系，具體有如下幾點：

(1)存儲語法庫，和詞匯庫配合分出句子中的詞匯；

(2)存儲詞匯庫，要同時存儲詞匯的使用頻率和常見搭配方式；

(3)詞匯寬，應(yīng)可劃分為不同的專業(yè)庫，以便于處理專業(yè)文獻(xiàn)；

(4)對無法分詞的句子，把每個字當(dāng)作詞來處理。

索引器生成從關(guān)鍵詞到URL的關(guān)系索引表。索引表一般使用某種形式的倒排表(1nversionUst)，即由索引項查找相應(yīng)的URL。索引表也要記錄索引項在文檔中出現(xiàn)的位置，以便檢索器計算索引項之間的相鄰關(guān)系或接近關(guān)系，并以特定的數(shù)據(jù)結(jié)構(gòu)存儲在硬盤上。

不同的搜索引擎系統(tǒng)可能采用不盡相同的標(biāo)引方法。例如Webcrawler利用全文檢索技術(shù)，對網(wǎng)頁中每一個單詞進(jìn)行索引；Lycos只對頁名、標(biāo)題以及最重要的100個注釋詞等選擇性詞語進(jìn)行索引；Infoseek則提供概念檢索和詞組檢索，支持and、or、near、not等布爾運(yùn)算。檢索引擎的索引方法大致可分為自動索引、手工索引和用戶登錄三類。

3.檢索器與結(jié)果處理技術(shù)

檢索器的主要功能是根據(jù)用戶輸入的關(guān)鍵詞在索引器形成的倒排表中進(jìn)行檢索，同時完成頁面與檢索之間的相關(guān)度評價，對將要輸出的結(jié)果進(jìn)行排序，并實現(xiàn)某種用戶相關(guān)性反饋機(jī)制。

通過搜索引擎獲得的檢索結(jié)果往往成百上千，為了得到有用的信息，常用的方法是按網(wǎng)頁的重要性或相關(guān)性給網(wǎng)頁評級，進(jìn)行相關(guān)性排序。這里的相關(guān)度是指搜索關(guān)鍵字在文檔中出現(xiàn)的額度。當(dāng)額度越高時，則認(rèn)為該文檔的相關(guān)程度越高。能見度也是常用的衡量標(biāo)準(zhǔn)之一。一個網(wǎng)頁的能見度是指該網(wǎng)頁入口超級鏈接的數(shù)目。能見度方法是基于這樣的觀點：一個網(wǎng)頁被其他網(wǎng)頁引用得越多，則該網(wǎng)頁就越有價值。特別地，一個網(wǎng)頁被越重要的網(wǎng)頁所引用，則該網(wǎng)頁的重要程度也就越高。結(jié)果處理技術(shù)可歸納為：

(1)按頻次排定次序通常，如果一個頁面包含了越多的關(guān)鍵詞，其搜索目標(biāo)的相關(guān)性應(yīng)該越好，這是非常合平常理的解決方案。

(2)按頁面被訪問度排序在這種方法中，搜索引擎會記錄它所搜索到的頁面被訪問的頻率。人們訪問較多的頁面通常應(yīng)該包含比較多的信息，或者有其他吸引入的長處。這種解決方案適合一般的搜索用戶，而因為大部分的搜索引擎都不是專業(yè)性用戶，所以這種方案也比較適合一般搜索引擎使用。

(3)二次檢索進(jìn)一步凈化(比flne)結(jié)果，按照一定的條件對搜索結(jié)果進(jìn)行優(yōu)化，可以再選擇類別、相關(guān)詞進(jìn)行二次搜索等。

由于目前的搜索引擎還不具備智能，除非知道要查找的文檔的標(biāo)題，否則排列第一的結(jié)果未必是“最好”的結(jié)果。所以有些文檔盡管相關(guān)程度高，但并不一定是用戶最需要的文檔。

搜索引擎技術(shù)的行業(yè)應(yīng)用：

搜索引擎的行業(yè)應(yīng)用一般指類似于千瓦通信提供的多種搜索引擎行業(yè)與產(chǎn)品應(yīng)用模式，大體上分為如下幾種形式：

1、政府機(jī)關(guān)行業(yè)應(yīng)用

n實時跟蹤、采集與業(yè)務(wù)工作相關(guān)的信息來源。

n全面滿足內(nèi)部工作人員對互聯(lián)網(wǎng)信息的全局觀測需求。

n及時解決政務(wù)外網(wǎng)、政務(wù)內(nèi)網(wǎng)的信息源問題，實現(xiàn)動態(tài)發(fā)布。

n快速解決政府主網(wǎng)站對各地級子網(wǎng)站的信息獲取需求。

n全面整合信息，實現(xiàn)政府內(nèi)部跨地區(qū)、跨部門的信息資源共享與有效溝通。

n節(jié)約信息采集的人力、物力、時間，提高辦公效率。

2、企業(yè)行業(yè)應(yīng)用

n實時準(zhǔn)確地監(jiān)控、追蹤競爭對手動態(tài)，是企業(yè)獲取競爭情報的利器。

n及時獲取競爭對手的公開信息以便研究同行業(yè)的發(fā)展與市場需求。

n為企業(yè)決策部門和管理層提供便捷、多途徑的企業(yè)戰(zhàn)略決策工具。

n大幅度地提高企業(yè)獲取、利用情報的效率，節(jié)省情報信息收集、存儲、挖掘的相關(guān)費(fèi)用，是提高企業(yè)核心競爭力的關(guān)鍵。

n提高企業(yè)整體分析研究能力、市場快速反應(yīng)能力，建立起以知識管理為核心的競爭情報數(shù)據(jù)倉庫，是提高企業(yè)核心競爭力的神經(jīng)中樞。

3、新聞媒體行業(yè)應(yīng)用

n快速準(zhǔn)確地自動跟蹤、采集數(shù)千家網(wǎng)絡(luò)媒體信息，擴(kuò)大新聞線索，提高采集速度。

n支持每天對數(shù)萬條新聞進(jìn)行有效抓取。監(jiān)控范圍的深度、廣度可以自行設(shè)定。

n支持對所需內(nèi)容智能提取、審核。

n實現(xiàn)互聯(lián)網(wǎng)信息內(nèi)容采集、瀏覽、編輯、管理、發(fā)布的一體化。

4、行業(yè)網(wǎng)站應(yīng)用

n實時跟蹤、采集與網(wǎng)站相關(guān)的信息來源。

n及時跟蹤行業(yè)的信息來源網(wǎng)站，自動，快速更新網(wǎng)站信息。動態(tài)更新信息。

n實現(xiàn)互聯(lián)網(wǎng)信息內(nèi)容采集、瀏覽、編輯、管理、發(fā)布的一體化。

n針對商務(wù)網(wǎng)站提出商務(wù)管理模式，大大提高行業(yè)網(wǎng)站的商務(wù)應(yīng)用需求。

n針對資訊網(wǎng)站分類目錄生成，提出用戶生成網(wǎng)站分類結(jié)構(gòu)。并可以實時增加與更新分類結(jié)構(gòu)。不受級數(shù)限制。從而大大利高行業(yè)的應(yīng)用性。

n提供搜索引擎SEO優(yōu)化專業(yè)服務(wù)，快速提高行業(yè)網(wǎng)站的推廣。

n提供與CCDC呼叫搜索引擎的廣告合作。建立行業(yè)網(wǎng)站聯(lián)盟，提高行業(yè)網(wǎng)站知名度。

5)網(wǎng)絡(luò)信息監(jiān)察與監(jiān)控

n網(wǎng)絡(luò)輿情系統(tǒng)。如“千瓦通信-網(wǎng)絡(luò)輿情雷達(dá)監(jiān)測系統(tǒng)”

n網(wǎng)站信息與內(nèi)容監(jiān)察與監(jiān)控系統(tǒng)，如“千瓦通信-網(wǎng)站信息與內(nèi)容監(jiān)測與監(jiān)察系統(tǒng)（站內(nèi)神探）”

隨著因特網(wǎng)的迅猛發(fā)展、WEB信息的增加，用戶要在信息海洋里查找信息，就象大海撈

針一樣，搜索引擎技術(shù)恰好解決了這一難題（它可以為用戶提供信息檢索服務(wù)）。目前，

搜索引擎技術(shù)正成為計算機(jī)工業(yè)界和學(xué)術(shù)界爭相研究、開發(fā)的對象。

搜索引擎（SearchEngine）是隨著WEB信息的迅速增加，從1995年開始逐漸發(fā)展起來

的技術(shù)。據(jù)發(fā)表在《科學(xué)》雜志1999年7月的文章《WEB信息的可訪問性》估計，全球目前

的網(wǎng)頁超過8億，有效數(shù)據(jù)超過9T，并且仍以每4個月翻一番的速度增長。用戶要在如此浩

瀚的信息海洋里尋找信息，必然會"大海撈針"無功而返。搜索引擎正是為了解決這個"迷航

"問題而出現(xiàn)的技術(shù)。搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息，對信息進(jìn)行理解

、提取、組織和處理，并為用戶提供檢索服務(wù)，從而起到信息導(dǎo)航的目的。搜索引擎提供

的導(dǎo)航服務(wù)已經(jīng)成為互聯(lián)網(wǎng)上非常重要的網(wǎng)絡(luò)服務(wù)，搜索引擎站點也被美譽(yù)為"網(wǎng)絡(luò)門戶"

。搜索引擎技術(shù)因而成為計算機(jī)工業(yè)界和學(xué)術(shù)界爭相研究、開發(fā)的對象。本文旨在對搜索

引擎的關(guān)鍵技術(shù)進(jìn)行簡單的介紹，以起到拋磚引玉的作用。

分類

按照信息搜集方法和服務(wù)提供方式的不同，搜索引擎系統(tǒng)可以分為三大類：

1．目錄式搜索引擎：以人工方式或半自動方式搜集信息，由編輯員查看信息之后，人

工形成信息摘要，并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站，提供目錄瀏

覽服務(wù)和直接檢索服務(wù)。該類搜索引擎因為加入了人的智能，所以信息準(zhǔn)確、導(dǎo)航質(zhì)量高

，缺點是需要人工介入、維護(hù)量大、信息量少、信息更新不及時。這類搜索引擎的代表是

：Yahoo、LookSmart、OpenDirectory、GoGuide等。

2．機(jī)器人搜索引擎：由一個稱為蜘蛛（Spider）的機(jī)器人程序以某種策略自動地在互

聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息，由索引器為搜集到的信息建立索引，由檢索器根據(jù)用戶的查詢輸

入檢索索引庫，并將查詢結(jié)果返回給用戶。服務(wù)方式是面向網(wǎng)頁的全文檢索服務(wù)。該類搜

索引擎的優(yōu)點是信息量大、更新及時、毋需人工干預(yù)，缺點是返回信息過多，有很多無關(guān)

信息，用戶必須從結(jié)果中進(jìn)行篩選。這類搜索引擎的代表是：AltaVista、NorthernLigh

t、Excite、Infoseek、Inktomi、FAST、Lycos、Google；國內(nèi)代表為："天網(wǎng)"、悠游、O

penFind等。

3．元搜索引擎：這類搜索引擎沒有自己的數(shù)據(jù)，而是將用戶的查詢請求同時向多個搜

索引擎遞交，將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后，作為自己的結(jié)果返回給用

戶。服務(wù)方式為面向網(wǎng)頁的全文檢索。這類搜索引擎的優(yōu)點是返回結(jié)果的信息量更大、更

全，缺點是不能夠充分使用所使用搜索引擎的功能，用戶需要做更多的篩選。這類搜索引

擎的代表是WebCrawler、InfoMarket等。

性能指標(biāo)

我們可以將WEB信息的搜索看作一個信息檢索問題，即在由WEB網(wǎng)頁組成的文檔庫中檢索

出與用戶查詢相關(guān)的文檔。所以我們可以用衡量傳統(tǒng)信息檢索系統(tǒng)的性能參數(shù)-召回率（R

ecall）和精度（Pricision）衡量一個搜索引擎的性能。

召回率是檢索出的相關(guān)文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率，衡量的是檢索系

統(tǒng)（搜索引擎）的查全率；精度是檢索出的相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率，衡量

的是檢索系統(tǒng)（搜索引擎）的查準(zhǔn)率。對于一個檢索系統(tǒng)來講，召回率和精度不可能兩全

其美：召回率高時，精度低，精度高時，召回率低。所以常常用11種召回率下11種精度的

平均值（即11點平均精度）來衡量一個檢索系統(tǒng)的精度。對于搜索引擎系統(tǒng)來講，因為沒

有一個搜索引擎系統(tǒng)能夠搜集到所有的WEB網(wǎng)頁，所以召回率很難計算。目前的搜索引擎系

統(tǒng)都非常關(guān)心精度。

影響一個搜索引擎系統(tǒng)的性能有很多因素，最主要的是信息檢索模型，包括文檔和查詢

的表示方法、評價文檔和用戶查詢相關(guān)性的匹配策略、查詢結(jié)果的排序方法和用戶進(jìn)行相

關(guān)度反饋的機(jī)制。

主要技術(shù)

一個搜索引擎由搜索器、索引器、檢索器和用戶接口等四個部分組成。

1.搜索器

搜索器的功能是在互聯(lián)網(wǎng)中漫游，發(fā)現(xiàn)和搜集信息。它常常是一個計算機(jī)程序，日夜

不停地運(yùn)行。它要盡可能多、盡可能快地搜集各種類型的新信息，同時因為互聯(lián)網(wǎng)上的信

息更新很快，所以還要定期更新已經(jīng)搜集過的舊信息，以避免死連接和無效連接。目前有

兩種搜集信息的策略：

●從一個起始URL集合開始，順著這些URL中的超鏈（Hyperlink），以寬度優(yōu)先、深

度優(yōu)先或啟發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。這些起始URL可以是任意的URL，但常常

是一些非常流行、包含很多鏈接的站點（如Yahoo?。?/p>

●將Web空間按照域名、IP地址或國家域名劃分，每個搜索器負(fù)責(zé)一個子空間的窮盡

搜索。搜索器搜集的信息類型多種多樣，包括HTML、XML、Newsgroup文章、FTP文件、

字處理文檔、多媒體信息。搜索器的實現(xiàn)常常用分布式、并行計算技術(shù)，以提高信息

發(fā)現(xiàn)和更新的速度。商業(yè)搜索引擎的信息發(fā)現(xiàn)可以達(dá)到每天幾百萬網(wǎng)頁。

2.索引器

索引器的功能是理解搜索器所搜索的信息，從中抽取出索引項，用于表示文檔以及生

成文檔庫的索引表。

索引項有客觀索引項和內(nèi)容索引項兩種：客觀項與文檔的語意內(nèi)容無關(guān)，如作者名、

URL、更新時間、編碼、長度、鏈接流行度（LinkPopularity）等等；內(nèi)容索引項是用來

反映文檔內(nèi)容的，如關(guān)鍵詞及其權(quán)重、短語、單字等等。內(nèi)容索引項可以分為單索引項和

多索引項（或稱短語索引項）兩種。單索引項對于英文來講是英語單詞，比較容易提取，

因為單詞之間有天然的分隔符（空格）；對于中文等連續(xù)書寫的語言，必須進(jìn)行詞語的切

分。在搜索引擎中，一般要給單索引項賦與一個權(quán)值，以表示該索引項對文檔的區(qū)分

度，同時用來計算查詢結(jié)果的相關(guān)度。使用的方法一般有統(tǒng)計法、信息論法和概率法。短

語索引項的提取方法有統(tǒng)計法、概率法和語言學(xué)法。

索引表一般使用某種形式的倒排表（InversionList），即由索引項查找相應(yīng)的文檔

。索引表也可能要記錄索引項在文檔中出現(xiàn)的位置，以便檢索器計算索引項之間的相鄰或

接近關(guān)系（proximity）。

索引器可以使用集中式索引算法或分布式索引算法。當(dāng)數(shù)據(jù)量很大時，必須實現(xiàn)即時

索引（InstantIndexing），否則不能夠跟上信息量急劇增加的速度。索引算法對索引器

的性能（如大規(guī)模峰值查詢時的響應(yīng)速度）有很大的影響。一個搜索引擎的有效性在很大

程度上取決于索引的質(zhì)量。

3.檢索器檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔，進(jìn)行文檔與

查詢的相關(guān)度評價，對將要輸出的結(jié)果進(jìn)行排序，并實現(xiàn)某種用戶相關(guān)性反饋機(jī)制。

檢索器常用的信息檢索模型有集合理論模型、代數(shù)模型、概率模型和混合模型四種。

4.用戶接口

用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制。主要的

目的是方便用戶使用搜索引擎，高效率、多方式地從搜索引擎中得到有效、及時的信息。

用戶接口的設(shè)計和實現(xiàn)使用人機(jī)交互的理論和方法，以充分適應(yīng)人類的思維習(xí)慣。

用戶輸入接口可以分為簡單接口和復(fù)雜接口兩種。

簡單接口只提供用戶輸入查詢串的文本框；復(fù)雜接口可以讓用戶對查詢進(jìn)行限制，如

邏輯運(yùn)算（與、或、非；+、-）、相近關(guān)系（相鄰、NEAR）、域名范圍（如.edu、.com）

、出現(xiàn)位置（如標(biāo)題、內(nèi)容）、信息時間、長度等等。目前一些公司和機(jī)構(gòu)正在考慮制定

查詢選項的標(biāo)準(zhǔn)。

未來動向

搜索引擎已成為一個新的研究、開發(fā)領(lǐng)域。因為它要用到信息檢索、人工智能、計算

機(jī)網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)庫、數(shù)據(jù)挖掘、數(shù)字圖書館、自然語言處理等多領(lǐng)域的理論和

技術(shù)，所以具有綜合性和挑戰(zhàn)性。又由于搜索引擎有大量的用戶，有很好的經(jīng)濟(jì)價值，所

以引起了世界各國計算機(jī)科學(xué)界和信息產(chǎn)業(yè)界的高度關(guān)注，目前的研究、開發(fā)十分活躍，

并出現(xiàn)了很多值得注意的動向。

1.十分注意提高信息查詢結(jié)果的精度，提高檢索的有效性用戶在搜索引擎上進(jìn)行

信息查詢時，并不十分關(guān)注返回結(jié)果的多少，而是看結(jié)果是否和自己的需求吻合。對于一

個查詢，傳統(tǒng)的搜索引擎動輒返回幾十萬、幾百萬篇文檔，用戶不得不在結(jié)果中篩選。解

決查詢結(jié)果過多的現(xiàn)象目前出現(xiàn)了幾種方法：一是通過各種方法獲得用戶沒有在查詢語句

中表達(dá)出來的真正用途，包括使用智能代理跟蹤用戶檢索行為，分析用戶模型；使用相關(guān)

度反饋機(jī)制，使用戶告訴搜索引擎哪些文檔和自己的需求相關(guān)（及其相關(guān)的程度），哪些

不相關(guān)，通過多次交互逐步求精。二是用正文分類（TextCategorization）技術(shù)將結(jié)果分

類，使用可視化技術(shù)顯示分類結(jié)構(gòu)，用戶可以只瀏覽自己感興趣的類別。三是進(jìn)行站點類

聚或內(nèi)容類聚，減少信息的總量。

2.基于智能代理的信息過濾和個性化服務(wù)

信息智能代理是另外一種利用互聯(lián)網(wǎng)信息的機(jī)制。它使用自動獲得的領(lǐng)域模型（如We

b知識、信息處理、與用戶興趣相關(guān)的信息資源、領(lǐng)域組織結(jié)構(gòu)）、用戶模型（如用戶背景

、興趣、行為、風(fēng)格）知識進(jìn)行信息搜集、索引、過濾（包括興趣過濾和不良信息過濾）

，并自動地將用戶感興趣的、對用戶有用的信息提交給用戶。智能代理具有不斷學(xué)習(xí)、適

應(yīng)信息和用戶興趣動態(tài)變化的能力，從而提供個性化的服務(wù)。智能代理可以在用戶端進(jìn)行

，也可以在服務(wù)器端運(yùn)行。

3.采用分布式體系結(jié)構(gòu)提高系統(tǒng)規(guī)模和性能

搜索引擎的實現(xiàn)可以采用集中式體系結(jié)構(gòu)和分布式體系結(jié)構(gòu)，兩種方法各有千秋。但

當(dāng)系統(tǒng)規(guī)模到達(dá)一定程度（如網(wǎng)頁數(shù)達(dá)到億級）時，必然要采用某種分布式方法，以提高

系統(tǒng)性能。搜索引擎的各個組成部分，除了用戶接口之外，都可以進(jìn)行分布：搜索器可以

在多臺機(jī)器上相互合作、相互分工進(jìn)行信息發(fā)現(xiàn)，以提高信息發(fā)現(xiàn)和更新速度；索引器可

以將索引分布在不同的機(jī)器上，以減小索引對機(jī)器的要求；檢索器可以在不同的機(jī)器上.

四、沒有受到限制的搜索引擎有哪些

沒有受到限制的搜索引擎可分為三種：全文搜索引擎（Full Text Search

Engine）、目錄索引類搜索引擎（Search Index/Directory）和元搜索引擎（Meta Search Engine）。

全文搜索引擎全文搜索引擎是名副其實的搜索引擎，國外具代表性的有Google、Fast/AllTheWeb、AltaVista、
Inktomi、Teoma、WiseNut等，國內(nèi)著名的有百度（Baidu）。它們都是通過從互聯(lián)網(wǎng)上提取的各個網(wǎng)站的信息（以網(wǎng)頁文字為主）而建立
的數(shù)據(jù)庫中，檢索與用戶查詢條件匹配的相關(guān)記錄，然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶，因此他們是真正的搜索引擎。
從搜索結(jié)果來源
的角度，全文搜索引擎又可細(xì)分為兩種，一種是擁有自己的檢索程序（Indexer），俗稱“蜘蛛”（Spider）程序或“機(jī)器人”（Robot）程序，
并自建網(wǎng)頁數(shù)據(jù)庫，搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用，如上面提到的7家引擎；另一種則是租用其他引擎的數(shù)據(jù)庫，并按自定的格式排列搜索結(jié)果，如
Lycos引擎。
目錄索引
 目錄索引雖然有搜索功能，但在嚴(yán)格意義上算不上是真正的搜索引擎，僅僅是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以不用進(jìn)行關(guān)鍵詞
（Keywords）查詢，僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo雅虎。其他著名的還有Open
Directory Project（DMOZ）、LookSmart、About等。國內(nèi)的搜狐、新浪、網(wǎng)易搜索也都屬于這一類。
 元搜索引擎(META Search
Engine) 元搜索引擎在接受用戶查詢請求時，同時在其他多個引擎上進(jìn)行搜索，并將結(jié)果返回給用戶。著名的元搜索引擎有
InfoSpace、Dogpile、Vivisimo等（元搜索引擎列表），中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結(jié)果排列方面，有的直接
按來源引擎排列搜索結(jié)果，如Dogpile，有的則按自定的規(guī)則將結(jié)果重新排列組合，如Vivisimo。
除上述三大類引擎外，還有以下幾種非主流形式：集合式搜索引擎：如HotBot在2002
年底推出的引擎。該引擎類似META搜索引擎，但區(qū)別在于不是同時調(diào)用多個引擎進(jìn)行搜索，而是由用戶從提供的4個引擎當(dāng)中選擇，因此叫它“集合式”搜索引
擎更確切些。
門戶搜索引擎：如AOL Search、MSN
Search等雖然提供搜索服務(wù)，但自身即沒有分類目錄也沒有網(wǎng)頁數(shù)據(jù)庫，其搜索結(jié)果完全來自其他引擎。 免費(fèi)鏈接列表（Free
For All
Links，簡稱FFA）：這類網(wǎng)站一般只簡單地滾動排列鏈接條目，少部分有簡單的分類目錄，不過規(guī)模比起Yahoo等目錄索引來要小得多。
由于上述網(wǎng)站都為用戶提供搜索查詢服務(wù)，為方便起見，我們通常將其統(tǒng)稱為搜索引擎。
搜索引擎基本工作原理
了解搜索引擎的工作原理對我們?nèi)粘Ｋ阉鲬?yīng)用和網(wǎng)站提交推廣都會有很大幫助。全文搜索引擎
在搜索引擎分類部分我們提到過全文搜索引擎從網(wǎng)站提取信息建立網(wǎng)頁數(shù)據(jù)庫的概念。搜索引擎的自動信息搜集功能分兩種。一種是定期搜
索，即每隔一段時間（比如Google一般是28天），搜索引擎主動派出“蜘蛛”程序，對一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索，一旦發(fā)現(xiàn)新的網(wǎng)站，它會
自動提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫。
另一種是提交網(wǎng)站搜索，即網(wǎng)站擁有者主動向搜索引擎提交網(wǎng)址，它在一定時間內(nèi)（2天到數(shù)
月不等）定向向你的網(wǎng)站派出“蜘蛛”程序，掃描你的網(wǎng)站并將有關(guān)信息存入數(shù)據(jù)庫，以備用戶查詢。由于近年來搜索引擎索引規(guī)則發(fā)生了很大變化，主動提交網(wǎng)址
并不保證你的網(wǎng)站能進(jìn)入搜索引擎數(shù)據(jù)庫，因此目前最好的辦法是多獲得一些外部鏈接，讓搜索引擎有更多機(jī)會找到你并自動將你的網(wǎng)站收
錄。
當(dāng)用戶以關(guān)鍵詞查找信息時，搜索引擎會在數(shù)據(jù)庫中進(jìn)行搜尋，如果找到與用戶要求內(nèi)容相符的網(wǎng)站，便采用特殊的算法——通常根據(jù)網(wǎng)
頁中關(guān)鍵詞的匹配程度，出現(xiàn)的位置/頻次，鏈接質(zhì)量等——計算出各網(wǎng)頁的相關(guān)度及排名等級，然后根據(jù)關(guān)聯(lián)度高低，按順序?qū)⑦@些網(wǎng)頁鏈接返回給用戶。
目錄索引與全文搜索引擎相比，目錄索引有許多不同之處。
首先，搜索引擎屬于自動網(wǎng)站檢索，
而目錄索引則完全依賴手工操作。用戶提交網(wǎng)站后，目錄編輯人員會親自瀏覽你的網(wǎng)站，然后根據(jù)一套自定的評判標(biāo)準(zhǔn)甚至編輯人員的主觀印象，決定是否接納你的
網(wǎng)站。
其次，搜索引擎收錄網(wǎng)站時，只要網(wǎng)站本身沒有違反有關(guān)的規(guī)則，一般都能登錄成功。而目錄索引對網(wǎng)站的要求則高得多，有時即使登
錄多次也不一定成功。尤其象Yahoo!這樣的超級索引，登錄更是困難。（由于登錄Yahoo!的難度最大，而它又是商家網(wǎng)絡(luò)營銷必爭之地，所以我們會在
后面用專門的篇幅介紹登錄Yahoo雅虎的技巧） 此外，在登錄搜索引擎時，我們一般不用考慮網(wǎng)站的分類問題，而登錄目錄索引時則必須
將網(wǎng)站放在一個最合適的目錄（Directory）。
最后，搜索引擎中各網(wǎng)站的有關(guān)信息都是從用戶網(wǎng)頁中自動提取的，所以用戶的角度
看，我們擁有更多的自主權(quán)；而目錄索引則要求必須手工另外填寫網(wǎng)站信息，而且還有各種各樣的限制。更有甚者，如果工作人員認(rèn)為你提交網(wǎng)站的目錄、網(wǎng)站信息
不合適，他可以隨時對其進(jìn)行調(diào)整，當(dāng)然事先是不會和你商量的。
目錄索引，顧名思義就是將網(wǎng)站分門別類地存放在相應(yīng)的目錄中，因此用戶
在查詢信息時，可選擇關(guān)鍵詞搜索，也可按分類目錄逐層查找。如以關(guān)鍵詞搜索，返回的結(jié)果跟搜索引擎一樣，也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站，只不過其中人為因
素要多一些。如果按分層目錄查找，某一目錄中網(wǎng)站的排名則是由標(biāo)題字母的先后順序決定（也有例外）。
目前，搜索引擎與目錄索引有相互融合滲透的趨勢。原來一些純粹的全文搜索引擎現(xiàn)在也提供目錄搜索，如Google就借用Open
Directory目錄提供分類查詢。而象 Yahoo!
這些老牌目錄索引則通過與Google等搜索引擎合作擴(kuò)大搜索范圍。在默認(rèn)搜索模式下，一些目錄類搜索引擎首先返回的是自己目錄中匹配的網(wǎng)站，如國內(nèi)搜
狐、新浪、網(wǎng)易等；而另外一些則默認(rèn)的是網(wǎng)頁搜索，如Yahoo。
搜索引擎的第三定律
 搜索引擎走到今天，已經(jīng)是一個結(jié)束過去，開辟未來的時候了。為了說清楚我所講的第三定律，我們先來回顧一下第一
和第二定律。 第一定律相關(guān)性定律
 聽起來象是一篇學(xué)術(shù)論文，的確，就連第一，第二定律的提法以前也沒有過，但是第一，第二定律的內(nèi)容確早已在業(yè)界和學(xué)術(shù)界得到了公認(rèn)。
其實這第一定律是早在互聯(lián)網(wǎng)出現(xiàn)之前就被學(xué)術(shù)界廣泛研究過的，那就是所謂的相關(guān)性定律。這個領(lǐng)域那時叫情報檢索，或信息檢索，也有叫全文檢索
的。
那時的相關(guān)性都是基于詞頻統(tǒng)計的，也就是說，當(dāng)用戶輸入檢索詞時，搜索引擎去找那些檢索詞在文章（網(wǎng)頁）中出現(xiàn)頻率較高的，位置
較重要的，再加上一些對檢索詞本身常用程度的加權(quán)，最后排出一個結(jié)果來(檢索結(jié)果頁面)
。早期的搜索引擎結(jié)果排序都是基于本文的第一定律的，如Infoseek，Excite，Lycos等，它們基本上是沿用了網(wǎng)絡(luò)時代之前學(xué)術(shù)界的研究成
果，工業(yè)界的主要精力放在處理大訪問量和大數(shù)據(jù)量上，對相關(guān)性排序沒有突破。
詞頻統(tǒng)計其實根本沒有利用任何跟網(wǎng)絡(luò)有關(guān)的特性，是前網(wǎng)
絡(luò)時代的技術(shù)。然而，網(wǎng)絡(luò)時代的主要文獻(xiàn)是以網(wǎng)頁的形式存在的，而幾乎每個人都可以隨心所欲地在網(wǎng)上發(fā)表各種內(nèi)容，詞頻相同的兩個網(wǎng)頁，質(zhì)量相差可以很
遠(yuǎn)，可是按照搜索引擎的第一定律，對這兩個網(wǎng)頁的排序應(yīng)該是一樣的。為了能夠派在某些檢索結(jié)果的前幾位，許多網(wǎng)頁內(nèi)容的制作者絞盡腦汁，在其頁面上堆砌關(guān)
鍵詞，搜索引擎對此防不勝防，苦不堪言。這種情況到了 1996年開始有了改變。
第二定律
人氣質(zhì)量定律 1996年4月，我到賭城拉斯維加斯開一個有關(guān)信息檢索方面的學(xué)術(shù)會議，會議的內(nèi)容就象拉斯維加斯的天氣一樣，照例比較
枯燥乏味。但遠(yuǎn)離公司的我，卻難得有一個靜下心來認(rèn)真思考問題的機(jī)會。就在聽一個毫不相干的論文演講的時候，我突然把科學(xué)引文索引的機(jī)制跟Web上的超級
鏈接聯(lián)系起來了 -
感謝北大，她在我上大三的時候就教授了我科學(xué)引文索引的機(jī)制，美國恐怕沒有一所大學(xué)會在你本科的時候教這玩藝兒。
科學(xué)引文索引的機(jī)
制，說白了就是誰的論文被引用次數(shù)多，誰就被認(rèn)為是權(quán)威，論文就是好論文。這個思路移植到網(wǎng)上就是誰的網(wǎng)頁被鏈接次數(shù)多，那個網(wǎng)頁就被認(rèn)為是質(zhì)量高，人氣
旺。在加上相應(yīng)的鏈接文字分析，就可以用在搜索結(jié)果的排序上了。這就引出了搜索引擎的第二定律：人氣質(zhì)量定律。根據(jù)這一定律，搜索結(jié)果的相關(guān)性排序，并不
完全依賴于詞頻統(tǒng)計，而是更多地依賴于超鏈分析。
一個突破性的東西，回去以后就很快總結(jié)了思路，于96年6月申請了這一
方面的美國專利。1999年
7月6號，美國專利和商標(biāo)局批準(zhǔn)了專利號為5,920,859的，以我為唯一發(fā)明人的專利。大約在96年底，斯坦福大學(xué)計算機(jī)系的兩位研究生也想到了同樣
的解決方法，他們后來創(chuàng)立了一個叫Google的搜索引擎，Google的網(wǎng)站上至今仍然說他們的這項技術(shù)是Patent-pending
(專利申請中) ，不知道美國專利局是不是還會再批這樣的專利。Anyway,
超鏈分析的方法98年以后逐漸被各大搜索引擎所接受，由于鏈接是網(wǎng)絡(luò)內(nèi)容的一個根本特性，這時候的搜索引擎才開始真正利用網(wǎng)絡(luò)時代的檢索技
術(shù)。
2000年起網(wǎng)絡(luò)泡沫迅速破滅，各大搜索引擎要么遭人收購，要么推遲上市，所有使用人氣質(zhì)量定律的搜索引擎公司都未能
幸免。那么，搜索引擎的出路到底在哪兒？第三定律
自信心定律人氣質(zhì)量定律解決的還是一個技術(shù)層面的問題，然而搜索引擎從誕生的那一天起，從來就不是一個純技術(shù)現(xiàn)像，它融合了技術(shù)，文
化，市場等各個層面的因素。解決搜索引擎公司的生存和發(fā)展問題需要搜索引擎的第三定律--自信心定律。
1998年的時候，沒有太多的
人拿一家遠(yuǎn)在硅谷500英里以外，剛剛成立的（現(xiàn)已更名為Overture）的公司當(dāng)回事兒。它不過是買了一個搜索引擎的技術(shù)服
務(wù)，然后再向那些網(wǎng)站的擁有者們拍賣他們網(wǎng)站在GoTo檢索結(jié)果中的排名，誰付的錢多，誰的網(wǎng)站就排在前面，而且付費(fèi)是根據(jù)網(wǎng)民點擊該網(wǎng)站的情況來計算
的，僅僅在搜索結(jié)果中出現(xiàn)并不需要付費(fèi)。這就是自信心定律的最早實踐者！根據(jù)這一定律，搜索結(jié)果的相關(guān)性排序，除了詞頻統(tǒng)計和超鏈分析之外，更注重的是競
價拍賣。誰對自己的網(wǎng)站有信心，誰就排在前面。有信心的表現(xiàn)就是愿意為這個排名付錢。需要聲明的是，自信心定律也是我自己給這一模式起的名字，以前的文獻(xiàn)
中并沒有人這樣總結(jié)過。
今天，在網(wǎng)絡(luò)業(yè)一片蕭條，那斯達(dá)克風(fēng)聲鶴唳的時候，GoTo卻如日中天，市值高達(dá)13億美金，收入高達(dá)雅虎總
收入的35%。反觀門戶網(wǎng)站，有哪一個能從它們的搜索引擎服務(wù)中賺出總收入的三分之一呢？究其原因，就是因為GoTo最早實踐了搜索引擎的自信心定律。以
前的搜索引擎都是靠CPM來收費(fèi)的，而CPM是從傳統(tǒng)廣告業(yè)借鑒過來的，沒有考慮網(wǎng)絡(luò)媒體即時性，交互性，易競價的特點，而競價排名，點擊收費(fèi)則是為網(wǎng)站
擁有者直接提供銷售線索，而不是傳統(tǒng)意義上的廣告宣傳。自信心定律一改過去搜索引擎靠CPM收錢的尷尬局面，開創(chuàng)了真正屬于互聯(lián)網(wǎng)的收費(fèi)模式。