HOME 首頁(yè)
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營(yíng)
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專(zhuān)注品牌策劃15年

    最常用搜索引擎有哪些(最常用搜索引擎有哪些)

    發(fā)布時(shí)間:2023-04-14 01:22:43     稿源: 創(chuàng)意嶺    閱讀: 72        

    大家好!今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于最常用搜索引擎有哪些的問(wèn)題,以下是小編對(duì)此問(wèn)題的歸納整理,讓我們一起來(lái)看看吧。

    開(kāi)始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫(xiě)出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶(hù)端

    官網(wǎng):https://ai.de1919.com。

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶(hù)遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請(qǐng)撥打電話175-8598-2043,或添加微信:1454722008

    本文目錄:

    最常用搜索引擎有哪些(最常用搜索引擎有哪些)

    一、國(guó)內(nèi)十大搜索引擎排名,穩(wěn)定靠譜的搜索引擎

    大家都知道,百度搜索引擎在中國(guó)的市場(chǎng)占有率是排在第一位的,那么,除了百度以外,國(guó)內(nèi)還有哪些搜索引擎是被人們常用的呢?搜索引擎哪個(gè)最好用呢?接下來(lái),小編為大家?guī)?lái)了國(guó)內(nèi)十大搜索引擎排名,一起來(lái)了解一下穩(wěn)定靠譜的搜索引擎都有哪些吧。

    最常用搜索引擎有哪些(最常用搜索引擎有哪些)

    1國(guó)內(nèi)十大搜索引擎排名

    百度

    百度是中國(guó)最大搜索引擎,10個(gè)人當(dāng)中就有7個(gè)人會(huì)將百度放在第一位,不過(guò)從全球范圍上來(lái)看,百度僅能排第三,在中國(guó)十大搜索引擎排名中排名第一。

    最常用搜索引擎有哪些(最常用搜索引擎有哪些)

         搜狗搜索

    搜狗搜索是搜狐的子公司,除了百度以外,中國(guó)人最喜歡用的搜索引擎就是搜狗搜索。

    最常用搜索引擎有哪些(最常用搜索引擎有哪些)

    谷歌搜索

    谷歌搜索是全球最大的搜索引擎,然而在中國(guó),谷歌搜索處于被百度碾壓的尷尬地位。

    搜搜 

         搜搜是騰訊旗下推出的搜索引擎,也是qq上搜索信息的首選。

    最常用搜索引擎有哪些(最常用搜索引擎有哪些)

    360搜索

    360搜索是60瀏覽器的默認(rèn)搜索引擎。

    最常用搜索引擎有哪些(最常用搜索引擎有哪些)

    有道搜索

    有道搜索是網(wǎng)易出品的搜索引擎。

    最常用搜索引擎有哪些(最常用搜索引擎有哪些)

    必應(yīng)搜索

         必應(yīng)搜索是微軟出品的搜索引擎,其在中國(guó)十大搜索引擎排名中排名第七,但在全球范圍內(nèi)占據(jù)著搜索引擎排名第二的位置。

    最常用搜索引擎有哪些(最常用搜索引擎有哪些)

    雅虎搜索

    雅虎搜索是美國(guó)出品的搜索引擎,它并沒(méi)有中文版,但在國(guó)內(nèi)依舊有部分人在使用。

    最常用搜索引擎有哪些(最常用搜索引擎有哪些)

    阿里云搜索

    阿里云搜索是阿里巴巴開(kāi)發(fā)的搜索引擎,也是網(wǎng)購(gòu)人群專(zhuān)屬的搜索引擎。

    最常用搜索引擎有哪些(最常用搜索引擎有哪些)

    二、常用的搜索引擎有哪些

    索引擎(search engines)是對(duì)互聯(lián)網(wǎng)上的信息資源進(jìn)行搜集整理,然后供你查詢(xún)的系統(tǒng),它包括信息搜集、信息整理和用戶(hù)查詢(xún)?nèi)糠帧?/p>

    搜索引擎是一個(gè)為你提供信息“檢索”服務(wù)的網(wǎng)站,它使用某些程序把因特網(wǎng)上的所有信息歸類(lèi)以幫助人們?cè)诿C>W(wǎng)海中搜尋到所需要的信息。

    早期的搜索引擎是把因特網(wǎng)中的資源服務(wù)器的地址收集起來(lái),由其提供的資源的類(lèi)型不同而分成不同的目錄,再一層層地進(jìn)行分類(lèi)。

    人們要找自己想要的信息可按他們的分類(lèi)一層層進(jìn)入,就能最后到達(dá)目的地,找到自己想要的信息。

    這其實(shí)是最原始的方式,只適用于因特網(wǎng)信息并不多的時(shí)候。

    隨著因特網(wǎng)信息按幾何式增長(zhǎng),出現(xiàn)了真正意義上的搜索引擎,這些搜索引擎知道網(wǎng)站上每一頁(yè)的開(kāi)始,隨后搜索因特網(wǎng)上的所有超級(jí)鏈接,把代表超級(jí)鏈接的所有詞匯放入一個(gè)數(shù)據(jù)庫(kù)。

    這就是現(xiàn)在搜索引擎的原型。

    隨著yahoo!的出現(xiàn),搜索引擎的發(fā)展也進(jìn)入了黃金時(shí)代,相比以前其性能更加優(yōu)越。

    現(xiàn)在的搜索引擎已經(jīng)不只是單純的搜索網(wǎng)頁(yè)的信息了,它們已經(jīng)變得更加綜合化,完美化了。

    以搜索引擎權(quán)威yahoo!為例,從1995年3月由美籍華裔楊致遠(yuǎn)等人創(chuàng)辦yahoo!開(kāi)始,到現(xiàn)在,他們從一個(gè)單一的搜索引擎發(fā)展到現(xiàn)在有電子商務(wù)、新聞信息服務(wù)、個(gè)人免費(fèi)電子信箱服務(wù)等多種網(wǎng)絡(luò)服務(wù),充分說(shuō)明了搜索引擎的發(fā)展從單一到綜合的過(guò)程。

    然而由于搜索引擎的工作方式和因特網(wǎng)的快速發(fā)展,使其搜索的結(jié)果讓人越來(lái)越不滿意。

    例如,搜索“電腦”這個(gè)詞匯,就可能有數(shù)百萬(wàn)頁(yè)的結(jié)果。

    這是由于搜索引擎通過(guò)對(duì)網(wǎng)站的相關(guān)性來(lái)優(yōu)化搜索結(jié)果,這種相關(guān)性又是由關(guān)鍵字在網(wǎng)站的位置、網(wǎng)站的名稱(chēng)、 標(biāo)簽等公式來(lái)決定的。

    這就是使搜索引擎搜索結(jié)果多而雜的原因。

    而搜索引擎中的數(shù)據(jù)庫(kù)因?yàn)橐蛱鼐W(wǎng)的發(fā)展變化也必然包含了死鏈接。

    這篇文章中,我們介紹了google,它是一個(gè)大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中應(yīng)用廣泛。

    Google的設(shè)計(jì)能夠高效地抓網(wǎng)頁(yè)并建立索引,它的查詢(xún)結(jié)果比其它現(xiàn)有系統(tǒng)都高明。

    這個(gè)原型的全文和超連接的數(shù)據(jù)庫(kù)至少包含24‘000‘000個(gè)網(wǎng)頁(yè)。

    我們可以從://google.stanford.edu/ 下載。

    設(shè)計(jì)搜索引擎是一項(xiàng)富有挑戰(zhàn)性的工作。

    搜索引擎為上億個(gè)網(wǎng)頁(yè)建立索引,其中包含大量迥然不同的詞匯。

    而且每天要回答成千上萬(wàn)個(gè)查詢(xún)。

    在網(wǎng)絡(luò)中,盡管大型搜索引擎非常重要,但是學(xué)術(shù)界卻很少研究它。

    此外由于技術(shù)的快速發(fā)展和網(wǎng)頁(yè)的大量增加,現(xiàn)在建立一個(gè)搜索引擎和三年前完全不同。

    本文詳細(xì)介紹了我們的大型搜索引擎,據(jù)我們所知,在公開(kāi)發(fā)表的論文中,這是第一篇描述地如此詳細(xì)。

    除了把傳統(tǒng)數(shù)據(jù)搜索技術(shù)應(yīng)用到如此大量級(jí)網(wǎng)頁(yè)中所遇到的問(wèn)題,還有許多新的技術(shù)挑戰(zhàn),包括應(yīng)用超文本中的附加信息改進(jìn)搜索結(jié)果。

    本文將解決這個(gè)問(wèn)題,描述如何運(yùn)用超文本中的附加信息,建立一個(gè)大型實(shí)用系統(tǒng)。

    任何人都可以在網(wǎng)上隨意發(fā)布信息,如何有效地處理這些無(wú)組織的超文本 *** ,也是本文要關(guān)注的問(wèn)題。

    關(guān)鍵詞 World Wide Web,搜索引擎,信息檢索,PageRank, Google 1 緒論 Web 給信息檢索帶來(lái)了新的挑戰(zhàn)。

    Web上的信息量快速增長(zhǎng),同時(shí)不斷有毫無(wú)經(jīng)驗(yàn)的新用戶(hù)來(lái)體驗(yàn)Web這門(mén)藝術(shù)。

    人們喜歡用超級(jí)鏈接來(lái)網(wǎng)上沖浪,通常都以象Yahoo這樣重要的網(wǎng)頁(yè)或搜索引擎開(kāi)始。

    大家認(rèn)為L(zhǎng)ist(目錄)有效地包含了大家感興趣的主題,但是它具有主觀性,建立和維護(hù)的代價(jià)高,升級(jí)慢,不能包括所有深?yuàn)W的主題。

    基于關(guān)鍵詞的自動(dòng)搜索引擎通常返回太多的低質(zhì)量的匹配。

    使問(wèn)題更遭的是,一些廣告為了贏得人們的關(guān)注想方設(shè)法誤導(dǎo)自動(dòng)搜索引擎。

    我們建立了一個(gè)大型搜索引擎解決了現(xiàn)有系統(tǒng)中的很多問(wèn)題。

    應(yīng)用超文本結(jié)構(gòu),大大提高了查詢(xún)質(zhì)量。

    我們的系統(tǒng)命名為google,取名自googol的通俗拼法,即10的100次方,這和我們的目標(biāo)建立一個(gè)大型搜索引擎不謀而合。

    1.1網(wǎng)絡(luò)搜索引擎—升級(jí)換代(scaling up):1994-2000 搜索引擎技術(shù)不得不快速升級(jí)(scale dramatically)跟上成倍增長(zhǎng)的web數(shù)量。

    1994年,第一個(gè)Web搜索引擎,World Wide Web Worm(WWWW)可以檢索到110,000個(gè)網(wǎng)頁(yè)和Web的文件。

    到1994年11月,頂級(jí)的搜索引擎聲稱(chēng)可以檢索到2‘000’000(WebCrawler)至100‘000’000個(gè)網(wǎng)絡(luò)文件(來(lái)自 Search Engine Watch)。

    可以預(yù)見(jiàn)到2000年,可檢索到的網(wǎng)頁(yè)將超過(guò)1‘000’000‘000。

    同時(shí),搜索引擎的訪問(wèn)量也會(huì)以驚人的速度增長(zhǎng)。

    在1997年的三四月份,World Wide Web Worm 平均每天收到1500個(gè)查詢(xún)。

    在1997年11月,Altavista 聲稱(chēng)它每天要處理大約20’000’000個(gè)查詢(xún)。

    隨著網(wǎng)絡(luò)用戶(hù)的增長(zhǎng),到2000年,自動(dòng)搜索引擎每天將處理上億個(gè)查詢(xún)。

    我們系統(tǒng)的設(shè)計(jì)目標(biāo)要解決許多問(wèn)題,包括質(zhì)量和可升級(jí)性,引入升級(jí)搜索引擎技術(shù)(scaling search engine technology),把它升級(jí)到如此大量的數(shù)據(jù)上。

    1.2 Google:跟上Web的步伐(Scaling with the Web)建立一個(gè)能夠和當(dāng)今web規(guī)模相適應(yīng)的搜索引擎會(huì)面臨許多挑戰(zhàn)。

    抓網(wǎng)頁(yè)技術(shù)必須足夠快,才能跟上網(wǎng)頁(yè)變化的速度(keep them up to date)。

    存儲(chǔ)索引和文檔的空間必須足夠大。

    索引系統(tǒng)必須能夠有效地處理上千億的數(shù)據(jù)。

    處理查詢(xún)必須快,達(dá)到每秒能處理成百上千個(gè)查詢(xún)(hundreds to thousands per second.)。

    隨著Web的不斷增長(zhǎng),這些任務(wù)變得越來(lái)越艱巨。

    然而硬件的執(zhí)行效率和成本也在快速增長(zhǎng),可以部分抵消這些困難。

    還有幾個(gè)值得注意的因素,如磁盤(pán)的尋道時(shí)間(disk seek time),操作系統(tǒng)的效率(operating system robustness)。

    在設(shè)計(jì)Google的過(guò)程中,我們既考慮了Web的增長(zhǎng)速度,又考慮了技術(shù)的更新。

    Google的設(shè)計(jì)能夠很好的升級(jí)處理海量數(shù)據(jù)集。

    它能夠有效地利用存儲(chǔ)空間來(lái)存儲(chǔ)索引。

    優(yōu)化的數(shù)據(jù)結(jié)構(gòu)能夠快速有效地存取(參考4.2節(jié))。

    進(jìn)一步,我們希望,相對(duì)于所抓取的文本文件和HTML網(wǎng)頁(yè)的數(shù)量而言,存儲(chǔ)和建立索引的代價(jià)盡可能的?。▍⒖几戒汢)。

    對(duì)于象Google這樣的集中式系統(tǒng),采取這些措施得到了令人滿意的系統(tǒng)可升級(jí)性(scaling properties)。

    1. 3設(shè)計(jì)目標(biāo) 1.3.1提高搜索質(zhì)量我們的主要目標(biāo)是提高Web搜索引擎的質(zhì)量。

    1994年,有人認(rèn)為建立全搜索索引(a plete search index)可以使查找任何數(shù)據(jù)都變得容易。

    根據(jù)Best of the Web 1994 -- Navigators ,“最好的導(dǎo)航服務(wù)可以使在Web上搜索任何信息都很容易(當(dāng)時(shí)所有的數(shù)據(jù)都可以被登錄)”。

    然而1997年的Web就迥然不同。

    近來(lái)搜索引擎的用戶(hù)已經(jīng)證實(shí)索引的完整性不是評(píng)價(jià)搜索質(zhì)量的唯一標(biāo)準(zhǔn)。

    用戶(hù)感興趣的搜索結(jié)果往往湮沒(méi)在“垃圾結(jié)果Junk result”中。

    實(shí)際上,到1997年11月為止,四大商業(yè)搜索引擎中只 有一個(gè)能夠找到它自己(搜索自己名字時(shí)返回的前十個(gè)結(jié)果中有它自己)。

    導(dǎo)致這一問(wèn)題的主要原因是文檔的索引數(shù)目增加了好幾個(gè)數(shù)量級(jí),但是用戶(hù)能夠看的文檔數(shù)卻沒(méi)有增加。

    用戶(hù)仍然只希望看前面幾十個(gè)搜索結(jié)果。

    因此,當(dāng) *** 增大時(shí),我們就需要工具使結(jié)果精確(在返回的前幾十個(gè)結(jié)果中,有關(guān)文檔的數(shù)量)。

    由于是從成千上萬(wàn)個(gè)有點(diǎn)相關(guān)的文檔中選出幾十個(gè),實(shí)際上,相關(guān)的概念就是指最好的文檔。

    高精確非常重要,甚至以響應(yīng)(系統(tǒng)能夠返回的有關(guān)文檔的總數(shù))為代價(jià)。

    令人高興的是利用超文本鏈接提供的信息有助于改進(jìn)搜索和其它應(yīng)用 。

    尤其是鏈接結(jié)構(gòu)和鏈接文本,為相關(guān)性的判斷和高質(zhì)量的過(guò)濾提供了大量的信息。

    Google既利用了鏈接結(jié)構(gòu)又用到了anchor文本(見(jiàn)2.1和2.2節(jié))。

    1.3.2搜索引擎的學(xué)術(shù)研究隨著時(shí)間的流逝,除了發(fā)展迅速,Web越來(lái)越商業(yè)化。

    1993年,只有1.5%的Web服務(wù)是來(lái)自域名。

    到1997年,超過(guò)了60%。

    同時(shí),搜索引擎從學(xué)術(shù)領(lǐng)域走進(jìn)商業(yè)。

    到現(xiàn)在大多數(shù)搜索引擎被公司所有,很少技公開(kāi)術(shù)細(xì)節(jié)。

    這就導(dǎo)致搜索引擎技術(shù)很大程度上仍然是暗箱操作,并傾向做廣告(見(jiàn)附錄A)。

    Google的主要目標(biāo)是推動(dòng)學(xué)術(shù)領(lǐng)域在此方面的發(fā)展,和對(duì)它的了解。

    另一個(gè)設(shè)計(jì)目標(biāo)是給大家一個(gè)實(shí)用的系統(tǒng)。

    應(yīng)用對(duì)我們來(lái)說(shuō)非常重要,因?yàn)楝F(xiàn)代網(wǎng)絡(luò)系統(tǒng)中存在大量的有用數(shù)據(jù)(us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems)。

    例如,每天有幾千萬(wàn)個(gè)研究。

    然而,得到這些數(shù)據(jù)卻非常困難,主要因?yàn)樗鼈儧](méi)有商業(yè)價(jià)值。

    我們最后的設(shè)計(jì)目標(biāo)是建立一個(gè)體系結(jié)構(gòu)能夠支持新的關(guān)于海量Web數(shù)據(jù)的研究。

    為了支持新研究,Google以壓縮的形式保存了實(shí)際所抓到的文檔。

    設(shè)計(jì)google的目標(biāo)之一就是要建立一個(gè)環(huán)境使其他研究者能夠很快進(jìn)入這個(gè)領(lǐng)域,處理海量Web數(shù)據(jù),得到滿意的結(jié)果,而通過(guò)其它方法卻很難得到結(jié)果。

    系統(tǒng)在短時(shí)間內(nèi)被建立起來(lái),已經(jīng)有幾篇論文用到了Google建的數(shù)據(jù)庫(kù),更多的在起步中。

    我們的另一個(gè)目標(biāo)是建立一個(gè)宇宙空間實(shí)驗(yàn)室似的環(huán)境,在這里研究者甚至學(xué)生都可以對(duì)我們的海量Web數(shù)據(jù)設(shè)計(jì)或做一些實(shí)驗(yàn)。

    2. 系統(tǒng)特點(diǎn) Google搜索引擎有兩個(gè)重要特點(diǎn),有助于得到高精度的搜索結(jié)果。

    第一點(diǎn),應(yīng)用Web的鏈接結(jié)構(gòu)計(jì)算每個(gè)網(wǎng)頁(yè)的Rank值,稱(chēng)為PageRank,將在98頁(yè)詳細(xì)描述它。

    第二點(diǎn),Google利用超鏈接改進(jìn)搜索結(jié)果。

    2.1 PageRank:給網(wǎng)頁(yè)排序 Web的引用(鏈接)圖是重要的資源,卻被當(dāng)今的搜索引擎很大程度上忽視了。

    我們建立了一個(gè)包含518‘000’000個(gè)超鏈接的圖,它是一個(gè)具有重要意義的樣本。

    這些圖能夠快速地計(jì)算網(wǎng)頁(yè)的PageRank值,它是一個(gè)客觀的標(biāo)準(zhǔn),較好的符合人們心目中對(duì)一個(gè)網(wǎng)頁(yè)重要程度的評(píng)價(jià),建立的基礎(chǔ)是通過(guò)引用判斷重要性。

    因此在web中,PageRank能夠優(yōu)化關(guān)鍵詞查詢(xún)的結(jié)果。

    對(duì)于大多數(shù)的主題,在網(wǎng)頁(yè)標(biāo)題查詢(xún)中用PageRank優(yōu)化簡(jiǎn)單文本匹配,我們得到了令人驚嘆的結(jié)果(從google.stanford.edu可以得到演示)。

    對(duì)于Google主系統(tǒng)中的全文搜索,PageRank也幫了不少忙。

    2.1.1計(jì)算PageRank 文獻(xiàn)檢索中的引用理論用到Web中,引用網(wǎng)頁(yè)的鏈接數(shù),一定程度上反映了該網(wǎng)頁(yè)的重要性和質(zhì)量。

    PageRank發(fā)展了這種思想,網(wǎng)頁(yè)間的鏈接是不平等的。

    PageRank定義如下: 我們假設(shè)T1…Tn指向網(wǎng)頁(yè)A(例如,被引用)。

    參數(shù)d是制動(dòng)因子,使結(jié)果在0,1之間。

    通常d等于0.85。

    在下一節(jié)將詳細(xì)介紹d。

    C(A)定義為網(wǎng)頁(yè)A指向其它網(wǎng)頁(yè)的鏈接數(shù),網(wǎng)頁(yè)A的PageRank值由下式給出: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 注意PageRank的形式,分布到各個(gè)網(wǎng)頁(yè)中,因此所有網(wǎng)頁(yè)的PageRank和是1。

    PageRank或PR(A)可以用簡(jiǎn)單的迭代算法計(jì)算,相應(yīng)規(guī)格化Web鏈接矩陣的主特征向量。

    中等規(guī)模的網(wǎng)站計(jì)算26‘000’000網(wǎng)頁(yè)的PageRank值要花費(fèi)幾小時(shí)。

    還有一些技術(shù)細(xì)節(jié)超出了本文論述的范圍。

    2.1.2直覺(jué)判斷 PageRank被看作用戶(hù)行為的模型。

    我們假設(shè)網(wǎng)上沖浪是隨機(jī)的,不斷點(diǎn)擊鏈接,從不返回,最終煩了,另外隨機(jī)選一個(gè)網(wǎng)頁(yè)重新開(kāi)始沖浪。

    隨機(jī)訪問(wèn)一個(gè)網(wǎng)頁(yè)的可能性就是它的PageRank值。

    制動(dòng)因子d是隨機(jī)訪問(wèn)一個(gè)網(wǎng)頁(yè)煩了的可能性,隨機(jī)另選一個(gè)網(wǎng)頁(yè)。

    對(duì)單個(gè)網(wǎng)頁(yè)或一組網(wǎng)頁(yè),一個(gè)重要的變量加入到制動(dòng)因子d中。

    這允許個(gè)人可以故意地誤導(dǎo)系統(tǒng),以得到較高的PageRank值。

    我們還有其它的PageRank算法,見(jiàn)98頁(yè)。

    另外的直覺(jué)判斷是一個(gè)網(wǎng)頁(yè)有很多網(wǎng)頁(yè)指向它,或者一些PageRank值高的網(wǎng)頁(yè)指向它,則這個(gè)網(wǎng)頁(yè)很重要。

    直覺(jué)地,在Web中,一個(gè)網(wǎng)頁(yè)被很多網(wǎng)頁(yè)引用,那么這個(gè)網(wǎng)頁(yè)值得一看。

    一個(gè)網(wǎng)頁(yè)被象Yahoo這樣重要的主頁(yè)引用即使一次,也值得一看。

    如果一個(gè)網(wǎng)頁(yè)的質(zhì)量不高,或者是死鏈接,象Yahoo這樣的主頁(yè)不會(huì)鏈向它。

    PageRank處理了這兩方面因素,并通過(guò)網(wǎng)絡(luò)鏈接遞歸地傳遞。

    & nbsp; 2.2鏈接描述文字(Anchor Text)我們的搜索引擎對(duì)鏈接文本進(jìn)行了特殊的處理。

    大多數(shù)搜索引擎把鏈接文字和它所鏈向的網(wǎng)頁(yè)(the page that the link is on)聯(lián)系起來(lái)。

    另外,把它和鏈接所指向的網(wǎng)頁(yè)聯(lián)系起來(lái)。

    這有幾點(diǎn)好處。

    第一,通常鏈接描述文字比網(wǎng)頁(yè)本身更精確地描述該網(wǎng)頁(yè)。

    第二,鏈接描述文字可能鏈向的文檔不能被文本搜索引擎檢索到,例如圖像,程序和數(shù)據(jù)庫(kù)。

    有可能使返回的網(wǎng)頁(yè)不能被抓到。

    注意哪些抓不到的網(wǎng)頁(yè)將會(huì)帶來(lái)一些問(wèn)題。

    在返回給用戶(hù)前檢測(cè)不了它們的有效性。

    這種情況搜索引擎可能返回一個(gè)根本不存在的網(wǎng)頁(yè),但是有超級(jí)鏈接指向它。

    然而這種結(jié)果可以被挑出來(lái)的,所以此類(lèi)的問(wèn)題很少發(fā)生。

    鏈接描述文字是對(duì)被鏈向網(wǎng)頁(yè)的宣傳,這個(gè)思想被用在World Wide Web Worm 中,主要因?yàn)樗兄谒阉鞣俏谋拘畔?,能夠用少量的已下載文檔擴(kuò)大搜索范圍。

    我們大量應(yīng)用鏈接描述文字,因?yàn)樗兄谔岣咚阉鹘Y(jié)果的質(zhì)量。

    有效地利用鏈接描述文字技術(shù)上存在一些困難,因?yàn)楸仨毺幚泶罅康臄?shù)據(jù)。

    現(xiàn)在我們能抓到24‘000’000個(gè)網(wǎng)頁(yè),已經(jīng)檢索到259‘000’000多個(gè)鏈接描述文字。

    2.3其它特點(diǎn)除了PageRank和應(yīng)用鏈接描述文字外,Google還有一些其它特點(diǎn)。

    第一,所有hit都有位置信息,所以它可以在搜索中廣泛應(yīng)用鄰近性(proximity)。

    第二,Google跟蹤一些可視化外表細(xì)節(jié),例如字號(hào)。

    黑體大號(hào)字比其它文字更重要。

    第三,知識(shí)庫(kù)存儲(chǔ)了原始的全文網(wǎng)頁(yè)。

    3有關(guān)工作 Web檢索研究的歷史簡(jiǎn)短。

    World Wide Web Worm()是最早的搜索引擎之一。

    后來(lái)出現(xiàn)了一些用于學(xué)術(shù)研究的搜索引擎,現(xiàn)在它們中的大多數(shù)被上市公司擁有。

    與Web的增長(zhǎng)和搜索引擎的重要性相比,有關(guān)當(dāng)今搜索引擎技術(shù)的優(yōu)秀論文相當(dāng)少。

    根據(jù)Michael Mauldin(Lycos Inc的首席科學(xué)家)) ,“各種各樣的服務(wù)(包括Lycos)非常關(guān)注這些數(shù)據(jù)庫(kù)的細(xì)節(jié)。

    ”雖然在搜索引擎的某些特點(diǎn)上做了大量工作。

    具有代表性的工作有,對(duì)現(xiàn)有商業(yè)搜索引擎的結(jié)果進(jìn)行傳遞,或建立小型的個(gè)性化的搜索引擎。

    最后有關(guān)信息檢索系統(tǒng)的研究很多,尤其在有組織機(jī)構(gòu) *** (well controlled collections)方面。

    在下面兩節(jié),我們將討論在信息檢索系統(tǒng)中的哪些領(lǐng)域需要改進(jìn)以便更好的工作在Web上。

    3.1信息檢索信息檢索系統(tǒng)誕生在幾年前,并發(fā)展迅速。

    然而大多數(shù)信息檢索系統(tǒng)研究的對(duì)象是小規(guī)模的單一的有組織結(jié)構(gòu)的 *** ,例如科學(xué)論文集,或相關(guān)主題的新聞故事。

    實(shí)際上,信息檢索的主要基準(zhǔn),the Text Retrieval Conference(),用小規(guī)模的、有組織結(jié)構(gòu)的 *** 作為它們的基準(zhǔn)。

    大型文集基準(zhǔn)只有20GB,相比之下,我們抓到的24000000個(gè)網(wǎng)頁(yè)占147GB。

    在TREC上工作良好的系統(tǒng),在Web上卻不一定產(chǎn)生好的結(jié)果。

    例如,標(biāo)準(zhǔn)向量空間模型企圖返回和查詢(xún)請(qǐng)求最相近的文檔,把查詢(xún)請(qǐng)求和文檔都看作由出現(xiàn)在它們中的詞匯組成的向量。

    在Web環(huán)境下,這種策略常常返回非常短的文檔,這些文檔往往是查詢(xún)?cè)~再加幾個(gè)字。

    例如,查詢(xún)“Bill Clinton”,返回的網(wǎng)頁(yè)只包含“Bill Clinton Sucks”,這是我們從一個(gè)主要搜索引擎中看到的。

    網(wǎng)絡(luò)上有些爭(zhēng)議,用戶(hù)應(yīng)該更準(zhǔn)確地表達(dá)他們想查詢(xún)什么,在他們的查詢(xún)請(qǐng)求中用更多的詞。

    我們強(qiáng)烈反對(duì)這種觀點(diǎn)。

    如果用戶(hù)提出象“Bill Clinton”這樣的查詢(xún)請(qǐng)求,應(yīng)該得到理想的查詢(xún)結(jié)果,因?yàn)檫@個(gè)主題有許多高質(zhì)量的信息。

    象所給的例子,我們認(rèn)為信息檢索標(biāo)準(zhǔn)需要發(fā)展,以便有效地處理Web數(shù)據(jù)。

    3.2有組織結(jié)構(gòu)的 *** (Well Controlled Collections)與Web的不同點(diǎn) Web是完全無(wú)組織的異構(gòu)的大量文檔的 *** 。

    Web中的文檔無(wú)論內(nèi)在信息還是隱含信息都存在大量的異構(gòu)性。

    例如,文檔內(nèi)部就用了不同的語(yǔ)言(既有人類(lèi)語(yǔ)言又有程序),詞匯([email]地址,鏈接,郵政編碼,電話號(hào)碼,產(chǎn)品號(hào)),類(lèi)型(文本,HTML,PDF,圖像,聲音),有些甚至是機(jī)器創(chuàng)建的文件(log文件,或數(shù)據(jù)庫(kù)的輸出)。

    可以從文檔中推斷出來(lái),但并不包含在文檔中的信息稱(chēng)為隱含信息。

    隱含信息包括來(lái)源的信譽(yù),更新頻率,質(zhì)量,訪問(wèn)量和引用。

    不但隱含信息的可能來(lái)源各種各樣,而且被檢測(cè)的信息也大不相同,相差可達(dá)好幾個(gè)數(shù)量級(jí)。

    例如,一個(gè)重要主頁(yè)的使用量,象Yahoo 每天瀏覽數(shù)達(dá)到上百萬(wàn)次,于此相比無(wú)名的歷史文章可能十年才被訪問(wèn)一次。

    很明顯,搜索引擎對(duì)這兩類(lèi)信息的處理是不同的。

    Web與有組織結(jié)構(gòu) *** 之間的另外一個(gè)明顯區(qū)別是,事實(shí)上,向Web上傳信息沒(méi)有任何限制。

    靈活利用這點(diǎn)可以發(fā)布任何對(duì)搜索引擎影響重大的信息,使路由阻塞,加上為牟利故意操縱搜索引擎,這些已經(jīng)成為一個(gè)嚴(yán)重的問(wèn)題。

    這些問(wèn)題還沒(méi)有被傳統(tǒng)的封閉的信息檢索系統(tǒng)所提出來(lái)。

    它關(guān)心的是元數(shù)據(jù)的努力,這在Web搜索引擎中卻不適用,因?yàn)榫W(wǎng)頁(yè)中的任何文本都不會(huì)向用戶(hù)聲稱(chēng)企圖操縱搜索引擎。

    甚至有些公司為牟利專(zhuān)門(mén)操縱搜索引擎。

    4 系統(tǒng)分析(System Anatomy)首先,我們提供高水平的有關(guān)體系結(jié)構(gòu)的討論。

    然后 ,詳細(xì)描述重要的數(shù)據(jù)結(jié)構(gòu)。

    最后,主要應(yīng)用:抓網(wǎng)頁(yè),索引,搜索將被嚴(yán)格地檢查。

    Figure 1. High Level Google Architecture 4.1Google體系結(jié)構(gòu)概述這一節(jié),我們將看看整個(gè)系統(tǒng)是如何工作的(give a high level),見(jiàn)圖1。

    本節(jié)不討論應(yīng)用和數(shù)據(jù)結(jié)構(gòu),在后幾節(jié)中討論。

    為了效率大部分Google是用c或c++實(shí)現(xiàn)的,既可以在Solaris也可以在Linux上運(yùn)行。

    Google系統(tǒng)中,抓網(wǎng)頁(yè)(下載網(wǎng)頁(yè))是由幾個(gè)分布式crawlers完成的。

    一個(gè)URL服務(wù)器負(fù)責(zé)向crawlers提供URL列表。

    抓來(lái)的網(wǎng)頁(yè)交給存儲(chǔ)服務(wù)器storeserver。

    然后,由存儲(chǔ)服務(wù)器壓縮網(wǎng)頁(yè)并把它們存到知識(shí)庫(kù)repository中。

    每個(gè)網(wǎng)頁(yè)都有一個(gè)ID,稱(chēng)作docID,當(dāng)新URL從網(wǎng)頁(yè)中分析出時(shí),就被分配一個(gè)docID。

    由索引器和排序器負(fù)責(zé)建立索引index function。

    索引器從知識(shí)庫(kù)中讀取文檔,對(duì)其解壓縮和分析。

    每個(gè)文檔被轉(zhuǎn)換成一組詞的出現(xiàn)情況,稱(chēng)作命中hits。

    Hits紀(jì)錄了詞,詞在文檔中的位置,最接近的字號(hào),大小寫(xiě)。

    索引器把這些hits分配到一組桶barrel中,產(chǎn)生經(jīng)過(guò)部分排序后的索引。

    索引器的另一個(gè)重要功能是分析網(wǎng)頁(yè)中所有的鏈接,將有關(guān)的重要信息存在鏈接描述anchors文件中。

    該文件包含了足夠的信息,可以用來(lái)判斷每個(gè)鏈接鏈出鏈入節(jié)點(diǎn)的信息,和鏈接文本。

    URL分解器resolver閱讀鏈接描述anchors文件,并把相對(duì)URL轉(zhuǎn)換成絕對(duì)URL,再轉(zhuǎn)換成docID。

    為鏈接描述文本編制索引,并與它所指向的docID關(guān)聯(lián)起來(lái)。

    同時(shí)建立由docID對(duì)組成的鏈接數(shù)據(jù)庫(kù)。

    用于計(jì)算所有文檔的PageRank值。

    用docID分類(lèi)后的barrels,送給排序器sorter,再根據(jù)wordID進(jìn)行分類(lèi),建立反向索引inverted index。

    這個(gè)操作要恰到好處,以便幾乎不需要暫存空間。

    排序器還給出docID和偏移量列表,建立反向索引。

    一個(gè)叫DumpLexicon的程序把這個(gè)列表和由索引器產(chǎn)生的字典結(jié)合在一起,建立一個(gè)新的字典,供搜索器使用。

    這個(gè)搜索器就是利用一個(gè)Web服務(wù)器,使用由DumpLexicon所生成的字典,利用上述反向索引以及頁(yè)面等級(jí)PageRank來(lái)回答用戶(hù)的提問(wèn)。

    4.2主要數(shù)據(jù)結(jié)構(gòu)經(jīng)過(guò)優(yōu)化的Google數(shù)據(jù)結(jié)構(gòu),能夠用較小的代價(jià)抓取大量文檔,建立索引和查詢(xún)。

    雖然近幾年CPU和輸入輸出速率迅速提高。

    磁盤(pán)尋道仍然需要10ms。

    任何時(shí)候Google系統(tǒng)的設(shè)計(jì)都盡可能地避免磁盤(pán)尋道。

    這對(duì)數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)影響很大。

    4.2.1大文件大文件BigFiles是指虛擬文件生成的多文件系統(tǒng),用長(zhǎng)度是64位的整型數(shù)據(jù)尋址。

    多文件系統(tǒng)之間的空間分配是自動(dòng)完成的。

    BigFiles包也處理已分配和未分配文件描述符。

    由于操縱系統(tǒng)不能滿足我們的需要,BigFiles也支持基本的壓縮選項(xiàng)。

    4.2.2知識(shí)庫(kù) Figure 2. Repository Data Structure 知識(shí)庫(kù)包含每個(gè)網(wǎng)頁(yè)的全部HTML。

    每個(gè)網(wǎng)頁(yè)用zlib(見(jiàn)RFC1950)壓縮。

    壓縮技術(shù)的選擇既要考慮速度又要考慮壓縮率。

    我們選擇zlib的速度而不是壓縮率很高的bzip。

    知識(shí)庫(kù)用bzip的壓縮率接近4:1。

    而用zlib的壓縮率是3:1。

    文檔一個(gè)挨著一個(gè)的存儲(chǔ)在知識(shí)庫(kù)中,前綴是docID,長(zhǎng)度,URL,見(jiàn)圖2。

    訪問(wèn)知識(shí)庫(kù)不需要其它的數(shù)據(jù)結(jié)構(gòu)。

    這有助于數(shù)據(jù)一致性和升級(jí)。

    用其它數(shù)據(jù)結(jié)構(gòu)重構(gòu)系統(tǒng),我們只需要修改知識(shí)庫(kù)和crawler錯(cuò)誤列表文件。

    4.2.3文件索引文件索引保存了有關(guān)文檔的一些信息。

    索引以docID的順序排列,定寬ISAM(Index sequential access mode)。

    每條記錄包括當(dāng)前文件狀態(tài),一個(gè)指向知識(shí)庫(kù)的指針,文件校驗(yàn)和,各種統(tǒng)計(jì)表。

    如果一個(gè)文檔已經(jīng)被抓到,指針指向docinfo文件,該文件的寬度可變,包含了URL和標(biāo)題。

    否則指針指向包含這個(gè)URL的URL列表。

    這種設(shè)計(jì)考慮到簡(jiǎn)潔的數(shù)據(jù)結(jié)構(gòu),以及在查詢(xún)中只需要一個(gè)磁盤(pán)尋道時(shí)間就能夠訪問(wèn)一條記錄。

    還有一個(gè)文件用于把URL轉(zhuǎn)換成docID。

    它是URL校驗(yàn)和與相應(yīng)docID的列表,按校驗(yàn)和排序。

    要想知道某個(gè)URL的docID,需要計(jì)算URL的校驗(yàn)和,然后在校驗(yàn)和文件中執(zhí)行二進(jìn)制查找,找到它的docID。

    通過(guò)對(duì)這個(gè)文件進(jìn)行合并,可以把一批URL轉(zhuǎn)換成對(duì)應(yīng)的docID。

    URL分析器用這項(xiàng)技術(shù)把URL轉(zhuǎn)換成docID。

    這種成批更新的模式是至關(guān)重要的,否則每個(gè)鏈接都需要一次查詢(xún),假如用一塊磁盤(pán),322‘000’000個(gè)鏈接的數(shù)據(jù) *** 將花費(fèi)一個(gè)多月的時(shí)間。

    4.2.4詞典詞典有幾種不同的形式。

    和以前系統(tǒng)的重要不同是,詞典對(duì)內(nèi)存的要求可以在合理的價(jià)格內(nèi)。

    現(xiàn)在實(shí)現(xiàn)的系統(tǒng),一臺(tái)256M內(nèi)存的機(jī)器就可以把詞典裝入到內(nèi)存中。

    現(xiàn)在的詞典包含14000000詞匯(雖然一些很少用的詞匯沒(méi)有加入到詞典中)。

    它執(zhí)行分兩部分—詞匯表(用null分隔的連續(xù)串)和指針的哈希表。

    不同的函數(shù),詞匯表有一些輔助信息,這超出了本文論述的范圍。

    4.2.5 hit list hit list是一篇文檔中所出現(xiàn)的詞的列表,包括位置,字號(hào),大小寫(xiě)。

    Hit list占很大空間,用在正向和反向索引中。

    因此,它的表示形式越有效越好。

    我們考慮了幾種方案來(lái)編碼位置,字號(hào),大小寫(xiě)—簡(jiǎn)單編碼(3個(gè)整型數(shù)),緊湊編碼(支持優(yōu)化分配比特位),哈夫曼編碼。

    Hit的詳細(xì)信息見(jiàn)圖3。

    我們的緊湊編碼每個(gè)hit用2字節(jié)。

    有兩種類(lèi)型hit,特殊hit和普通hit。

    特殊hit包含URL,標(biāo)題,鏈接描述文字,meta tag。

    普通hit包含其它每件事。

    它包括大小寫(xiě)特征位,字號(hào),12比特用于描述詞在文檔中的位置(所有超過(guò)4095的位置標(biāo)記為4096)。

    字號(hào)采用相對(duì)于文檔的其它部分的相對(duì)大小表示,占3比特(實(shí)際只用7個(gè)值,因?yàn)?11標(biāo)志是特殊hit)。

    特殊hit由大小寫(xiě)特征位,字號(hào)位為7表示它是特殊hit,用4比特表示特殊hit的類(lèi)型,8比特表示位置。

    對(duì)于anchor hit八比特位置位分出4比特用來(lái)表示在anchor中的位置,4比特用于表明anchor出現(xiàn)的哈希表hash of the docID。

    短語(yǔ)查詢(xún)是有限的,對(duì)某些詞沒(méi)有足夠多的anchor。

    我們希望更新anchor hit的存儲(chǔ)方式,以便解決地址位和docIDhash域位數(shù)不足的問(wèn)題。

    三、值得收藏的5個(gè)搜索引擎

    值得收藏的5個(gè)搜索引擎如下:

    1:LooKao。

    LooKao是一個(gè)清新簡(jiǎn)潔的高質(zhì)量搜索網(wǎng)站。

    它整體非常清新簡(jiǎn)潔,不管是網(wǎng)站界面還是網(wǎng)站搜索結(jié)果都是如此。它不會(huì)收集你的隱私,保證你的搜索安全。它支持便捷的站內(nèi)搜索功能,只需要在搜索框輸入#加上網(wǎng)站名稱(chēng)和你要搜索的內(nèi)容,就可以直達(dá)某個(gè)網(wǎng)站的站內(nèi)搜索。它還支持切換網(wǎng)站主題風(fēng)格:月灰、炭黑、桃夭。

    2:聯(lián)合搜索。

    聯(lián)合搜索是一個(gè)聚合多個(gè)主流搜索引擎的實(shí)用搜索網(wǎng)站,你可以選擇單搜、雙搜、三搜、四搜,其中四搜就是同時(shí)顯示四個(gè)搜索引擎的結(jié)果,讓你一個(gè)搜索網(wǎng)站同時(shí)展示多個(gè)搜索引擎的結(jié)果,非常方便實(shí)用。

    3:WikiHow。

    WikiHow是一個(gè)綜合技能搜索網(wǎng)站,它免費(fèi)提供各種學(xué)習(xí),工作,生活小技能,不管學(xué)習(xí),工作,生活遇到不會(huì)的東西,你都可以利用這個(gè)網(wǎng)站搜索。它上面包括的技巧包括各個(gè)方面:教育與交流,旅行,計(jì)算機(jī)和電子產(chǎn)品,飲食和休閑,寵物和動(dòng)物,健康,藝術(shù)與娛樂(lè),家庭生活,興趣和手藝??傊鞣N不會(huì)的技能,先用這個(gè)網(wǎng)站搜索。

    4:仿知網(wǎng)。

    仿知網(wǎng)是一個(gè)完全可以代替知網(wǎng)的精品論文搜索網(wǎng)站。首先這個(gè)網(wǎng)站的論文檢索結(jié)果和知網(wǎng)的搜索結(jié)果基本一樣,而且這個(gè)網(wǎng)站每個(gè)賬號(hào)前期免費(fèi)提供論文下載,當(dāng)你的下載次數(shù)沒(méi)了,你完全可以用其它郵箱再注冊(cè)其它賬號(hào)使用。當(dāng)然,如果你不想再注冊(cè)賬號(hào),這個(gè)網(wǎng)站提供一塊錢(qián)隨意下載論文一天,也是非常值得嘗試??傮w而已,如果需要下載論文,這個(gè)網(wǎng)站是一個(gè)非常好的選擇。

    5:萬(wàn)千合集站。

    萬(wàn)千合集站是一個(gè)高質(zhì)量論文,文檔搜索網(wǎng)站,是一個(gè)非常適合大學(xué)生的一個(gè)網(wǎng)站。它支持各種不同學(xué)科論文,文檔搜索,包括:數(shù)學(xué)建模,電氣工程,中國(guó)哲學(xué),材料科學(xué),心理學(xué),高等數(shù)學(xué),生物物理,統(tǒng)計(jì)力學(xué),量子物理,電子工程師,醫(yī)學(xué)統(tǒng)計(jì),天體化學(xué),遺傳學(xué),數(shù)學(xué)方法論,線性規(guī)劃,病理學(xué),函數(shù)。

    四、

    以上就是關(guān)于最常用搜索引擎有哪些相關(guān)問(wèn)題的回答。希望能幫到你,如有更多相關(guān)問(wèn)題,您也可以聯(lián)系我們的客服進(jìn)行咨詢(xún),客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。


    推薦閱讀:

    最常見(jiàn)的網(wǎng)頁(yè)布局(最常見(jiàn)的網(wǎng)頁(yè)布局方式并舉例說(shuō)明)

    六種最常見(jiàn)的食品包裝材料(六種最常見(jiàn)的食品包裝材料是)

    什么是生活中最常見(jiàn)的物聯(lián)網(wǎng)應(yīng)用

    江西景觀設(shè)計(jì)費(fèi)用多少錢(qián)(江西景觀設(shè)計(jì)費(fèi)用多少錢(qián)一平米)

    小型園林景觀設(shè)計(jì)圖大一