正文

搜索引擎主要包括三個(gè)部分（搜索引擎主要包括三個(gè)部分是什么）

發(fā)布時(shí)間：2023-03-14 20:27:29 稿源：創(chuàng)意嶺閱讀： 1053 問(wèn)大家

大家好！今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于搜索引擎主要包括三個(gè)部分的問(wèn)題，以下是小編對(duì)此問(wèn)題的歸納整理，讓我們一起來(lái)看看吧。

ChatGPT國(guó)內(nèi)免費(fèi)在線使用，一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，越精準(zhǔn)，寫(xiě)出的就越詳細(xì)，有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶端

官網(wǎng)：https://ai.de1919.com

本文目錄:

1、搜索引擎包括哪些部分？
2、搜索引擎分為幾類
3、什么是搜索引擎？
4、什么是搜索引擎？

搜索引擎主要包括三個(gè)部分（搜索引擎主要包括三個(gè)部分是什么）

一、搜索引擎包括哪些部分？

搜索引擎包括Web服務(wù)器、結(jié)果數(shù)據(jù)庫(kù)、檢索式處理、Web處理接口、結(jié)果生成等幾個(gè)部分

二、搜索引擎分為幾類

可分為三種搜索引擎分類搜索引擎按其工作方式主要可分為三種，分別是全文搜索引擎（Full Text Search Engine）、目錄索引類搜索引擎（Search Index/Directory）和元搜索引擎（Meta Search Engine）。全文搜索引擎全文搜索引擎是名副其實(shí)的搜索引擎，國(guó)外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等，國(guó)內(nèi)著名的有百度（Baidu）。它們都是通過(guò)從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息（以網(wǎng)頁(yè)文字為主）而建立的數(shù)據(jù)庫(kù)中，檢索與用戶查詢條件匹配的相關(guān)記錄，然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶，因此他們是真正的搜索引擎。從搜索結(jié)果來(lái)源的角度，全文搜索引擎又可細(xì)分為兩種，一種是擁有自己的檢索程序（Indexer），俗稱“蜘蛛”（Spider）程序或“機(jī)器人”（Robot）程序，并自建網(wǎng)頁(yè)數(shù)據(jù)庫(kù)，搜索結(jié)果直接從自身的數(shù)據(jù)庫(kù)中調(diào)用，如上面提到的7家引擎；另一種則是租用其他引擎的數(shù)據(jù)庫(kù)，并按自定的格式排列搜索結(jié)果，如Lycos引擎。目錄索引目錄索引雖然有搜索功能，但在嚴(yán)格意義上算不上是真正的搜索引擎，僅僅是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以不用進(jìn)行關(guān)鍵詞（Keywords）查詢，僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過(guò)于大名鼎鼎的Yahoo雅虎。其他著名的還有Open Directory Project（DMOZ）、LookSmart、About等。國(guó)內(nèi)的搜狐、新浪、網(wǎng)易搜索也都屬于這一類。元搜索引擎(META Search Engine) 元搜索引擎在接受用戶查詢請(qǐng)求時(shí)，同時(shí)在其他多個(gè)引擎上進(jìn)行搜索，并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等（元搜索引擎列表），中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結(jié)果排列方面，有的直接按來(lái)源引擎排列搜索結(jié)果，如Dogpile，有的則按自定的規(guī)則將結(jié)果重新排列組合，如Vivisimo。除上述三大類引擎外，還有以下幾種非主流形式：集合式搜索引擎：如HotBot在2002年底推出的引擎。該引擎類似META搜索引擎，但區(qū)別在于不是同時(shí)調(diào)用多個(gè)引擎進(jìn)行搜索，而是由用戶從提供的4個(gè)引擎當(dāng)中選擇，因此叫它“集合式”搜索引擎更確切些。門(mén)戶搜索引擎：如AOL Search、MSN Search等雖然提供搜索服務(wù)，但自身即沒(méi)有分類目錄也沒(méi)有網(wǎng)頁(yè)數(shù)據(jù)庫(kù)，其搜索結(jié)果完全來(lái)自其他引擎。免費(fèi)鏈接列表（Free For All Links，簡(jiǎn)稱FFA）：這類網(wǎng)站一般只簡(jiǎn)單地滾動(dòng)排列鏈接條目，少部分有簡(jiǎn)單的分類目錄，不過(guò)規(guī)模比起Yahoo等目錄索引來(lái)要小得多。由于上述網(wǎng)站都為用戶提供搜索查詢服務(wù)，為方便起見(jiàn)，我們通常將其統(tǒng)稱為搜索引擎。搜索引擎基本工作原理了解搜索引擎的工作原理對(duì)我們?nèi)粘Ｋ阉鲬?yīng)用和網(wǎng)站提交推廣都會(huì)有很大幫助。全文搜索引擎在搜索引擎分類部分我們提到過(guò)全文搜索引擎從網(wǎng)站提取信息建立網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的概念。搜索引擎的自動(dòng)信息搜集功能分兩種。一種是定期搜索，即每隔一段時(shí)間（比如Google一般是28天），搜索引擎主動(dòng)派出“蜘蛛”程序，對(duì)一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索，一旦發(fā)現(xiàn)新的網(wǎng)站，它會(huì)自動(dòng)提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫(kù)。另一種是提交網(wǎng)站搜索，即網(wǎng)站擁有者主動(dòng)向搜索引擎提交網(wǎng)址，它在一定時(shí)間內(nèi)（2天到數(shù)月不等）定向向你的網(wǎng)站派出“蜘蛛”程序，掃描你的網(wǎng)站并將有關(guān)信息存入數(shù)據(jù)庫(kù)，以備用戶查詢。由于近年來(lái)搜索引擎索引規(guī)則發(fā)生了很大變化，主動(dòng)提交網(wǎng)址并不保證你的網(wǎng)站能進(jìn)入搜索引擎數(shù)據(jù)庫(kù)，因此目前最好的辦法是多獲得一些外部鏈接，讓搜索引擎有更多機(jī)會(huì)找到你并自動(dòng)將你的網(wǎng)站收錄。當(dāng)用戶以關(guān)鍵詞查找信息時(shí)，搜索引擎會(huì)在數(shù)據(jù)庫(kù)中進(jìn)行搜尋，如果找到與用戶要求內(nèi)容相符的網(wǎng)站，便采用特殊的算法——通常根據(jù)網(wǎng)頁(yè)中關(guān)鍵詞的匹配程度，出現(xiàn)的位置/頻次，鏈接質(zhì)量等——計(jì)算出各網(wǎng)頁(yè)的相關(guān)度及排名等級(jí)，然后根據(jù)關(guān)聯(lián)度高低，按順序?qū)⑦@些網(wǎng)頁(yè)鏈接返回給用戶。目錄索引與全文搜索引擎相比，目錄索引有許多不同之處。首先，搜索引擎屬于自動(dòng)網(wǎng)站檢索，而目錄索引則完全依賴手工操作。用戶提交網(wǎng)站后，目錄編輯人員會(huì)親自瀏覽你的網(wǎng)站，然后根據(jù)一套自定的評(píng)判標(biāo)準(zhǔn)甚至編輯人員的主觀印象，決定是否接納你的網(wǎng)站。其次，搜索引擎收錄網(wǎng)站時(shí)，只要網(wǎng)站本身沒(méi)有違反有關(guān)的規(guī)則，一般都能登錄成功。而目錄索引對(duì)網(wǎng)站的要求則高得多，有時(shí)即使登錄多次也不一定成功。尤其象Yahoo!這樣的超級(jí)索引，登錄更是困難。（由于登錄Yahoo!的難度最大，而它又是商家網(wǎng)絡(luò)營(yíng)銷必爭(zhēng)之地，所以我們會(huì)在后面用專門(mén)的篇幅介紹登錄Yahoo雅虎的技巧）此外，在登錄搜索引擎時(shí)，我們一般不用考慮網(wǎng)站的分類問(wèn)題，而登錄目錄索引時(shí)則必須將網(wǎng)站放在一個(gè)最合適的目錄（Directory）。最后，搜索引擎中各網(wǎng)站的有關(guān)信息都是從用戶網(wǎng)頁(yè)中自動(dòng)提取的，所以用戶的角度看，我們擁有更多的自主權(quán)；而目錄索引則要求必須手工另外填寫(xiě)網(wǎng)站信息，而且還有各種各樣的限制。更有甚者，如果工作人員認(rèn)為你提交網(wǎng)站的目錄、網(wǎng)站信息不合適，他可以隨時(shí)對(duì)其進(jìn)行調(diào)整，當(dāng)然事先是不會(huì)和你商量的。目錄索引，顧名思義就是將網(wǎng)站分門(mén)別類地存放在相應(yīng)的目錄中，因此用戶在查詢信息時(shí)，可選擇關(guān)鍵詞搜索，也可按分類目錄逐層查找。如以關(guān)鍵詞搜索，返回的結(jié)果跟搜索引擎一樣，也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站，只不過(guò)其中人為因素要多一些。如果按分層目錄查找，某一目錄中網(wǎng)站的排名則是由標(biāo)題字母的先后順序決定（也有例外）。目前，搜索引擎與目錄索引有相互融合滲透的趨勢(shì)。原來(lái)一些純粹的全文搜索引擎現(xiàn)在也提供目錄搜索，如Google就借用Open Directory目錄提供分類查詢。而象 Yahoo! 這些老牌目錄索引則通過(guò)與Google等搜索引擎合作擴(kuò)大搜索范圍。在默認(rèn)搜索模式下，一些目錄類搜索引擎首先返回的是自己目錄中匹配的網(wǎng)站，如國(guó)內(nèi)搜狐、新浪、網(wǎng)易等；而另外一些則默認(rèn)的是網(wǎng)頁(yè)搜索，如Yahoo。搜索引擎的第三定律搜索引擎走到今天，已經(jīng)是一個(gè)結(jié)束過(guò)去，開(kāi)辟未來(lái)的時(shí)候了。為了說(shuō)清楚我所講的第三定律，我們先來(lái)回顧一下第一和第二定律。第一定律相關(guān)性定律聽(tīng)起來(lái)象是一篇學(xué)術(shù)論文，的確，就連第一，第二定律的提法以前也沒(méi)有過(guò)，但是第一，第二定律的內(nèi)容確早已在業(yè)界和學(xué)術(shù)界得到了公認(rèn)。其實(shí)這第一定律是早在互聯(lián)網(wǎng)出現(xiàn)之前就被學(xué)術(shù)界廣泛研究過(guò)的，那就是所謂的相關(guān)性定律。這個(gè)領(lǐng)域那時(shí)叫情報(bào)檢索，或信息檢索，也有叫全文檢索的。那時(shí)的相關(guān)性都是基于詞頻統(tǒng)計(jì)的，也就是說(shuō)，當(dāng)用戶輸入檢索詞時(shí)，搜索引擎去找那些檢索詞在文章（網(wǎng)頁(yè)）中出現(xiàn)頻率較高的，位置較重要的，再加上一些對(duì)檢索詞本身常用程度的加權(quán)，最后排出一個(gè)結(jié)果來(lái)(檢索結(jié)果頁(yè)面) 。早期的搜索引擎結(jié)果排序都是基于本文的第一定律的，如Infoseek，Excite，Lycos等，它們基本上是沿用了網(wǎng)絡(luò)時(shí)代之前學(xué)術(shù)界的研究成果，工業(yè)界的主要精力放在處理大訪問(wèn)量和大數(shù)據(jù)量上，對(duì)相關(guān)性排序沒(méi)有突破。詞頻統(tǒng)計(jì)其實(shí)根本沒(méi)有利用任何跟網(wǎng)絡(luò)有關(guān)的特性，是前網(wǎng)絡(luò)時(shí)代的技術(shù)。然而，網(wǎng)絡(luò)時(shí)代的主要文獻(xiàn)是以網(wǎng)頁(yè)的形式存在的，而幾乎每個(gè)人都可以隨心所欲地在網(wǎng)上發(fā)表各種內(nèi)容，詞頻相同的兩個(gè)網(wǎng)頁(yè)，質(zhì)量相差可以很遠(yuǎn)，可是按照搜索引擎的第一定律，對(duì)這兩個(gè)網(wǎng)頁(yè)的排序應(yīng)該是一樣的。為了能夠派在某些檢索結(jié)果的前幾位，許多網(wǎng)頁(yè)內(nèi)容的制作者絞盡腦汁，在其頁(yè)面上堆砌關(guān)鍵詞，搜索引擎對(duì)此防不勝防，苦不堪言。這種情況到了 1996年開(kāi)始有了改變。第二定律人氣質(zhì)量定律 1996年4月，我到賭城拉斯維加斯開(kāi)一個(gè)有關(guān)信息檢索方面的學(xué)術(shù)會(huì)議，會(huì)議的內(nèi)容就象拉斯維加斯的天氣一樣，照例比較枯燥乏味。但遠(yuǎn)離公司的我，卻難得有一個(gè)靜下心來(lái)認(rèn)真思考問(wèn)題的機(jī)會(huì)。就在聽(tīng)一個(gè)毫不相干的論文演講的時(shí)候，我突然把科學(xué)引文索引的機(jī)制跟Web上的超級(jí)鏈接聯(lián)系起來(lái)了 - 感謝北大，她在我上大三的時(shí)候就教授了我科學(xué)引文索引的機(jī)制，美國(guó)恐怕沒(méi)有一所大學(xué)會(huì)在你本科的時(shí)候教這玩藝兒。科學(xué)引文索引的機(jī)制，說(shuō)白了就是誰(shuí)的論文被引用次數(shù)多，誰(shuí)就被認(rèn)為是權(quán)威，論文就是好論文。這個(gè)思路移植到網(wǎng)上就是誰(shuí)的網(wǎng)頁(yè)被鏈接次數(shù)多，那個(gè)網(wǎng)頁(yè)就被認(rèn)為是質(zhì)量高，人氣旺。在加上相應(yīng)的鏈接文字分析，就可以用在搜索結(jié)果的排序上了。這就引出了搜索引擎的第二定律：人氣質(zhì)量定律。根據(jù)這一定律，搜索結(jié)果的相關(guān)性排序，并不完全依賴于詞頻統(tǒng)計(jì)，而是更多地依賴于超鏈分析。我意識(shí)到這是一個(gè)突破性的東西，回去以后就很快總結(jié)了思路，于96年6月申請(qǐng)了這一方面的美國(guó)專利。1999年 7月6號(hào)，美國(guó)專利和商標(biāo)局批準(zhǔn)了專利號(hào)為5,920,859的，以我為唯一發(fā)明人的專利。大約在96年底，斯坦福大學(xué)計(jì)算機(jī)系的兩位研究生也想到了同樣的解決方法，他們后來(lái)創(chuàng)立了一個(gè)叫Google的搜索引擎，Google的網(wǎng)站上至今仍然說(shuō)他們的這項(xiàng)技術(shù)是Patent-pending (專利申請(qǐng)中) ，不知道美國(guó)專利局是不是還會(huì)再批這樣的專利。Anyway, 超鏈分析的方法98年以后逐漸被各大搜索引擎所接受，由于鏈接是網(wǎng)絡(luò)內(nèi)容的一個(gè)根本特性，這時(shí)候的搜索引擎才開(kāi)始真正利用網(wǎng)絡(luò)時(shí)代的檢索技術(shù)。世事難料，2000年起網(wǎng)絡(luò)泡沫迅速破滅，各大搜索引擎要么遭人收購(gòu)，要么推遲上市，所有使用人氣質(zhì)量定律的搜索引擎公司都未能幸免。那么，搜索引擎的出路到底在哪兒？第三定律自信心定律人氣質(zhì)量定律解決的還是一個(gè)技術(shù)層面的問(wèn)題，然而搜索引擎從誕生的那一天起，從來(lái)就不是一個(gè)純技術(shù)現(xiàn)像，它融合了技術(shù)，文化，市場(chǎng)等各個(gè)層面的因素。解決搜索引擎公司的生存和發(fā)展問(wèn)題需要搜索引擎的第三定律--自信心定律。 1998年的時(shí)候，沒(méi)有太多的人拿一家遠(yuǎn)在硅谷500英里以外，剛剛成立的，叫作GoTo.com（現(xiàn)已更名為Overture）的公司當(dāng)回事兒。它不過(guò)是買(mǎi)了一個(gè)搜索引擎的技術(shù)服務(wù)，然后再向那些網(wǎng)站的擁有者們拍賣他們網(wǎng)站在GoTo檢索結(jié)果中的排名，誰(shuí)付的錢(qián)多，誰(shuí)的網(wǎng)站就排在前面，而且付費(fèi)是根據(jù)網(wǎng)民點(diǎn)擊該網(wǎng)站的情況來(lái)計(jì)算的，僅僅在搜索結(jié)果中出現(xiàn)并不需要付費(fèi)。這就是自信心定律的最早實(shí)踐者！根據(jù)這一定律，搜索結(jié)果的相關(guān)性排序，除了詞頻統(tǒng)計(jì)和超鏈分析之外，更注重的是競(jìng)價(jià)拍賣。誰(shuí)對(duì)自己的網(wǎng)站有信心，誰(shuí)就排在前面。有信心的表現(xiàn)就是愿意為這個(gè)排名付錢(qián)。需要聲明的是，自信心定律也是我自己給這一模式起的名字，以前的文獻(xiàn)中并沒(méi)有人這樣總結(jié)過(guò)。今天，在網(wǎng)絡(luò)業(yè)一片蕭條，那斯達(dá)克風(fēng)聲鶴唳的時(shí)候，GoTo卻如日中天，市值高達(dá)13億美金，收入高達(dá)雅虎總收入的35%。反觀門(mén)戶網(wǎng)站，有哪一個(gè)能從它們的搜索引擎服務(wù)中賺出總收入的三分之一呢？究其原因，就是因?yàn)镚oTo最早實(shí)踐了搜索引擎的自信心定律。以前的搜索引擎都是靠CPM來(lái)收費(fèi)的，而CPM是從傳統(tǒng)廣告業(yè)借鑒過(guò)來(lái)的，沒(méi)有考慮網(wǎng)絡(luò)媒體即時(shí)性，交互性，易競(jìng)價(jià)的特點(diǎn)，而競(jìng)價(jià)排名，點(diǎn)擊收費(fèi)則是為網(wǎng)站擁有者直接提供銷售線索，而不是傳統(tǒng)意義上的廣告宣傳。自信心定律一改過(guò)去搜索引擎靠CPM收錢(qián)的尷尬局面，開(kāi)創(chuàng)了真正屬于互聯(lián)網(wǎng)的收費(fèi)模式。

三、什么是搜索引擎？

搜索引擎是一個(gè)對(duì)互聯(lián)網(wǎng)信息資源進(jìn)行搜索整理和分類，并儲(chǔ)存在網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中供用戶查詢的系統(tǒng)，包括信息搜集、信息分類、用戶查詢?nèi)糠帧?/p>

工作原理

1.爬行：搜索引擎是通過(guò)一種特定規(guī)律的軟件跟蹤網(wǎng)頁(yè)的鏈接，從一個(gè)鏈接爬到另外一個(gè)鏈接，像蜘蛛在蜘蛛網(wǎng)上爬行一樣，所以被稱為“蜘蛛”也被稱為“機(jī)器人”。搜索引擎蜘蛛的爬行是被輸入了一定的規(guī)則的，它需要遵從一些命令或文件的內(nèi)容。

2.抓取存儲(chǔ)：搜索引擎是通過(guò)蜘蛛跟蹤鏈接爬行到網(wǎng)頁(yè)，并將爬行的數(shù)據(jù)存入原始頁(yè)面數(shù)據(jù)庫(kù)。其中的頁(yè)面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全一樣的。搜索引擎蜘蛛在抓取頁(yè)面時(shí)，也做一定的重復(fù)內(nèi)容檢測(cè)，一旦遇到權(quán)重很低的網(wǎng)站上有大量抄襲、采集或者復(fù)制的內(nèi)容，很可能就不再爬行。

3.預(yù)處理：搜索引擎將蜘蛛抓取回來(lái)的頁(yè)面，進(jìn)行各種步驟的預(yù)處理。

四、什么是搜索引擎？

什么是搜索引擎？

搜索引擎的英文為search engine。搜索引擎是一個(gè)對(duì)互聯(lián)網(wǎng)信息資源進(jìn)行搜索整理和分類，并儲(chǔ)存在網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中供用戶查詢的系統(tǒng)，包括信息搜集、信息分類、用戶查詢?nèi)糠帧?/p>

從使用者的角度看，搜索引擎提供一個(gè)包含搜索框的頁(yè)面，在搜索框輸入詞語(yǔ)，通過(guò)瀏覽器提交給搜索引擎后，搜索引擎就會(huì)返回跟用戶輸入的內(nèi)容相關(guān)的信息列表。其實(shí)，搜索引擎涉及多領(lǐng)域的理論和技術(shù)：數(shù)字圖書(shū)館、數(shù)據(jù)庫(kù)、信息檢索、信息提取、人工智能、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、計(jì)算機(jī)語(yǔ)言學(xué)、統(tǒng)計(jì)數(shù)據(jù)分析、數(shù)據(jù)挖掘、計(jì)算機(jī)網(wǎng)絡(luò)、分布式處理等，具有綜合性和挑戰(zhàn)性。

搜索引擎的用途，對(duì)普通網(wǎng)民而言，搜索引擎則僅僅是一種查詢工具，作為工具，使用者要了解搜索引擎的功用、性能，探討并掌握其使用方法和技巧。對(duì)商家來(lái)說(shuō)，搜索引擎是一種贏利的產(chǎn)品或服務(wù)，而作為產(chǎn)品，搜索引擎商要研制、改進(jìn)和創(chuàng)新其搜索技術(shù)；作為服務(wù)，搜索引擎營(yíng)銷商要研究搜索引擎優(yōu)化和推廣。利用搜索引擎的目的不同，構(gòu)成了搜索引擎研究的不同群體和對(duì)搜索引擎不同角度不同側(cè)重的研究。

以上就是關(guān)于搜索引擎主要包括三個(gè)部分相關(guān)問(wèn)題的回答。希望能幫到你，如有更多相關(guān)問(wèn)題，您也可以聯(lián)系我們的客服進(jìn)行咨詢，客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。