HOME 首頁
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    能打開各種網(wǎng)站的搜索引擎(能打開各種網(wǎng)站的搜索引擎)

    發(fā)布時(shí)間:2023-03-05 01:25:56     稿源: 創(chuàng)意嶺    閱讀: 1363        問大家

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于能打開各種網(wǎng)站的搜索引擎的問題,以下是小編對(duì)此問題的歸納整理,讓我們一起來看看吧。

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,相關(guān)業(yè)務(wù)請(qǐng)撥打電話:175-8598-2043,或添加微信:1454722008

    本文目錄:

    能打開各種網(wǎng)站的搜索引擎(能打開各種網(wǎng)站的搜索引擎)

    一、誰能介紹幾個(gè)國外的搜索引擎(類似于百度這類的)

    1. Yahoo!(http://www.yahoo.com)

    Yahoo!是目前最常用的引擎之一,是Internet引擎的"元老"。

    Yahoo!的使用很簡單,可以直接輸入查找關(guān)鍵字,也可以先選分類主題進(jìn)行分類查詢

    ,它將返回三種信息:

    1. 滿足查詢條件的Yahoo目錄(用戶可以利用它們進(jìn)行交叉引用);

    2. 滿足條件的實(shí)際站點(diǎn);

    3. 更廣泛的含有頁面索引的Yahoo!目錄,是一種更 廣泛的交叉引用。

    Yahoo!也提供了一些簡單的高級(jí)查詢,其配置選項(xiàng)有:

    S搜索的范圍:Yahoo(缺省)、Usenet或E-mail Address;

    S搜索詞之間的關(guān)系:OR或AND(缺省);

    S可以進(jìn)行子串搜索,將其設(shè)置Substrings或Complete words兩種,其中Substrings將

    我們輸入的詞作為一個(gè)子串,Complete words表示進(jìn)行完整的單詞搜索,缺省是子串搜索

    ·控制每頁顯示的結(jié)果數(shù)目:10、25(缺省)、50或100。

    Yahoo!在高級(jí)查詢上并不是很完善,但是Yahoo!在其主頁的末尾提供了其他引擎如A

    ltaVista的超連接,如果用戶在Yahoo!查不到所需資料,Yahoo!可以到這些地方去搜索。

    從而彌補(bǔ)了Yahoo!的一些缺陷。

    2. InfoSeek(http://guide.infoseek.com)

    InfoSeek是一個(gè)高效的搜索引擎,它的特點(diǎn)是:搜索精度高,查到的節(jié)點(diǎn)一般都與用

    戶的要求相符。其搜索結(jié)果按照相關(guān)程度依次顯示。每一個(gè)結(jié)果顯示該HTML文件的標(biāo)題

    、摘要、大小。

    InfoSeek引擎擁有最好的搜索參數(shù)的集成,它允許用戶在填寫查尋要求時(shí)可以隨心所

    欲地不厭其詳,而它在后臺(tái)則施以適當(dāng)?shù)倪壿嫿M合。這就意味著,用戶可以忽略如何使用

    搜索引擎,只要集中精力把自己想提的問題寫好就行了。

    InfoSeek數(shù)據(jù)庫中每一網(wǎng)頁的所有文本都被檢索,它的搜索具有"事件敏感性"(case

    sensitive),即對(duì)某些名字進(jìn)行搜索時(shí),搜索的效率會(huì)明顯提高。用戶輸入一個(gè)短語后,I

    nfoseek會(huì)使用與短語最接近的排位方法,提高搜索結(jié)果的相關(guān)性。

    InfoSeek可以提供以下的搜索范圍:

    SWeb:在整個(gè)WWW信息系統(tǒng)內(nèi)查找;

    SNews:在實(shí)時(shí)新聞中查找;

    SCompany:在公司名目中搜索;

    SNewsgroups:在新聞組中搜索。

    Infoseek的搜索方法包括:

    1. 詞組(短語)搜索 這時(shí)需對(duì)詞組加上雙引號(hào),以示與單個(gè)詞的區(qū)別;

    2. 查找同時(shí)出現(xiàn)的詞 對(duì)所要搜索的關(guān)鍵詞加上[ ],表示括號(hào)內(nèi)的詞在文本中出現(xiàn)

    時(shí),其間隔不超過100個(gè)詞。

    3. AltaVista(altavista.digital.com)

    AltaVista自1996年12月開始服務(wù)以來,引起了世界各地網(wǎng)民的廣泛注意,每天都要

    接受200萬次以上的訪問。AltaVista自詡擁有2100多萬全文索引的網(wǎng)頁,可以稱得上是最

    大的網(wǎng)絡(luò)搜索數(shù)據(jù)庫。

    相對(duì)其他搜索引擎而言,AltaVista的搜索結(jié)果總是比其他任何站點(diǎn)的搜索結(jié)果內(nèi)容

    更豐富,AltaVista的搜索范圍大得驚人,有人說能對(duì)網(wǎng)絡(luò)的天涯海角進(jìn)行徹底搜索的僅此

    一家,就連一些鮮為人知的偏僻站點(diǎn)也能找到。所以,使用AltaVista時(shí),要花更多的時(shí)間

    在搜索結(jié)果里尋找自己想要的信息。不過,如果你的目的就是想找到關(guān)于某個(gè)主題的站點(diǎn)

    ,多多益善,那么AltaVista是最好的選擇。

    根據(jù)檢索的對(duì)象,AltaVista搜索引擎提供三大類信息檢索:Web檢索和新聞組檢索、

    商業(yè)檢索以及人物檢索。除公共檢索服務(wù)外,AltaVista還提供免費(fèi)E-mail、頁面翻譯等

    相關(guān)服務(wù)。它的搜索方法分為簡單和高級(jí)兩種。

    1. 簡單搜索

    AltaVista搜索引擎推薦使用的檢索方法, 是直接使用自然語言輸入檢索提問。檢索

    提問可以是自然語言的單詞、詞組或短語以及完整的問題。對(duì)使用AltaVista的最有用的

    建議是, 由于它的索引是基于整個(gè)單詞的正文的,在描述查找的單詞時(shí)越精確越好,還要

    去掉那些不感興趣的單詞。

    2. 高級(jí)搜索

    高級(jí)搜索包含了簡單搜索的所有特性,還可以有布爾和接近操作符、括起來的邏輯組

    合等。AltaVista支持二元操作符AND、OR、NEAR和一元操作符NOT。

    AltaVista的接近操作符(NEAR)很有特色??梢允褂肗EAR/n,n是兩個(gè)被搜索詞之間的

    單詞的數(shù)目,如:Microsoft NEAR/5 Internet表示在"Microsoft"和"Internet"這兩個(gè)關(guān)

    鍵字之間的單詞數(shù)目不得超過5個(gè)。如果不輸入n,表示兩個(gè)詞挨在一起。為了控制挨在一

    起的兩個(gè)詞之間的順序,可以使用 ADJ 操作符,如:Microsoft ADJ Internet,表示Micro

    soft 必須在Internet之前。

    4. Lycos ( http://www.lycos.com)

    Lycos是最老資格的搜索引擎之一,只要能給出準(zhǔn)確的搜索結(jié)果,Lycos通常能給出最

    全面的結(jié)果(基本上與AltaVista相同)。 Lycos的搜索范圍分的較細(xì),這樣可以減少命中

    的數(shù)量,可選擇的項(xiàng)目有:

    The Web、Web Site Reviews、Personal Home- pages、Message Boards、Reuters

    News、Weather (city)、Cities、Dictionary、Stock (symbol)、Music (artist)、B

    ooks、Pictures、Sounds、Downloads、Recipes等。

    Lycos不是周期性地更新數(shù)據(jù)庫,而是采用累積的形式構(gòu)筑數(shù)據(jù)庫。在對(duì)新的和原來

    存在的數(shù)據(jù)庫進(jìn)行信息升級(jí)時(shí),Lycos軟件通過觀察其他站點(diǎn)通向某一站點(diǎn)的鏈接數(shù)而評(píng)

    價(jià)這個(gè)站點(diǎn)的知名度。然后引擎在每次搜索時(shí)都使用這一知名度索引,所以每次搜索結(jié)果

    的相關(guān)性在一定的程度上取決于站點(diǎn)的相對(duì)知名度。

    Lycos搜索結(jié)果的容量非常之大,你如果試圖在網(wǎng)上迅速找到某個(gè)內(nèi)容,Lycos不是最

    好的選擇,如果你需要對(duì)網(wǎng)上的內(nèi)容廣進(jìn)博收,多多益善,Lycos可能會(huì)為你找到一些其他

    站點(diǎn)找不到的內(nèi)容。

    Lycos在支持邏輯搜索和高級(jí)搜索功能方面較弱。

    Lycos不提供要求/排除單詞的功能, 但可以在一個(gè)單詞前加一個(gè)"-"號(hào),表示在給結(jié)

    果定等級(jí)時(shí),不考慮這個(gè)單詞。

    Lycos的通配符是$符號(hào)。如gen$ 表示 genetic、 genesis、general等。它還提供

    了英文句號(hào)(.)的使用,可以禁止擴(kuò)展一個(gè)單詞。如gene.,只能得到gene,而得不到genet

    ics和general。

    5. Excite(http://www.excite.com)

    Netscape在其Navigator瀏覽器的NetDirectory命令條中選中了Excite作為其中的一

    個(gè)鏈接,這使Excite的知名度明顯提高。眾多的訪問大大提高了Excite站點(diǎn)的流通量。

    Excite使用的是基于關(guān)鍵詞或基于概念的正文和主題搜索。概念搜索是指搜索引擎

    不只簡單地查找含有要查找的單詞的文檔,同時(shí)還搜索與要查找的概念相關(guān)的文檔。缺省

    的查找是概念查找。Excite既提供網(wǎng)絡(luò)搜索引擎,又提供以類目形式組織起來的網(wǎng)絡(luò)目錄

    (類似于Yahoo的目錄索引)。

    Excite中要求的單詞和排除的單詞的使用方法同AltaVista一樣,使用+號(hào)和-號(hào),Exc

    ite支持二元操作符AND、OR 和一元操作符NOT,它也支持用括號(hào)來構(gòu)成邏輯組。

    6. Webcrawler(http://www.webcrawler.com)

    Webcrawler 是一個(gè)杰出的搜索引擎, 它的界面有些像 AltaVista。實(shí)際上,它在

    高級(jí)搜索方面的功能要比AlataVista強(qiáng)。它提供事先分好類的19個(gè)主題,實(shí)現(xiàn)了基于主題

    的搜索。

    Webcrawler號(hào)稱支持"自然語言搜索",所以可以輸入像"highest mountain in the

    world(世界上最高的山)"這樣的查詢條件。它拋棄了無意義的詞,對(duì)其余的詞做模糊的A

    ND搜索,含有所有的詞的頁面等級(jí)最高, 但也能查到只含一個(gè)詞的頁面,這是那些最佳引

    擎的通用策略。

    Webcrawler的詞組、邏輯和接近操作符的使用類似于AltaVista。Webcrawler不支

    持要求/排除的單詞的查找,也不支持通配符。

    WebCrawler的主要缺點(diǎn)是,它對(duì)搜索到的每個(gè)條目都不顯示文本內(nèi)容摘要。用戶只能

    看到網(wǎng)頁題目和顯示W(wǎng)ebCrawler相關(guān)性排名的數(shù)字。所以,除非網(wǎng)頁題目直接描述網(wǎng)頁內(nèi)

    容,否則用戶只能到這個(gè)站點(diǎn)訪問,才能得知其網(wǎng)頁內(nèi)容。

    在互聯(lián)網(wǎng)上,中文內(nèi)容只占約4%,絕大多數(shù)是英文內(nèi)容,所以只有掌握英文搜索才能真正的深入互聯(lián)網(wǎng)。但是,英文搜索引擎很多,變化也很快,應(yīng)該用哪個(gè)搜索,和怎么搜索呢?今天,我就來介紹幾個(gè)最有代表性的英文搜索引擎。

    Ask (www.ask.com,又名askjeeves)

    Ask是一個(gè)支持自然提問的搜索引擎,它的數(shù)據(jù)庫里儲(chǔ)存了超過1000萬個(gè)問題的答案,只要你用英文直接輸入一個(gè)問題,它就會(huì)給出問題答案,如果你的問題答案不在它的數(shù)據(jù)庫中,那么它會(huì)列出一串跟你的問題類似的問題和含有答案的鏈接,供你選擇。

    根據(jù)網(wǎng)友們的使用經(jīng)驗(yàn),當(dāng)你遇到一些屬于事實(shí)型、原理型的問題時(shí),使用Ask是最方便的。例如:“美國歷任總統(tǒng)中就任時(shí)年紀(jì)最輕的是誰?”、“阿富汗的首都叫什么?”、“飛機(jī)是哪一年發(fā)明的?”、“雪為什么是白的?”、“為什么吃豆子的人愛放屁?”、“恐龍為什么滅絕?”、“后街男孩的網(wǎng)站在哪里?”。你還可以問它各種奇怪的問題,例如:“現(xiàn)在幾點(diǎn)了?”、“羅馬帝國為什么崩潰?”、“圣誕老人住在哪兒?”,它都會(huì)給你答案的。

    dmoz(www.dmoz.org,又名ODP)

    有的網(wǎng)友不喜歡自己輸入英文單詞搜索,而是喜歡用鼠標(biāo)點(diǎn)擊分類目錄隨意瀏覽,那么我向你推薦dmoz。

    dmoz是互聯(lián)網(wǎng)合作共享精神的結(jié)晶,它的4萬多名志愿編輯都是各行各業(yè)的專業(yè)人員,大家走到一起免費(fèi)制作dmoz,提供給任何個(gè)人和組織免費(fèi)使用。dmoz已經(jīng)收錄了40多萬子目錄和近300萬個(gè)網(wǎng)站,是世界上最大的、也是最好的網(wǎng)站分類目錄,已經(jīng)被世界各國400多個(gè)網(wǎng)站選做默認(rèn)搜索引擎。dmoz使用起來非常方便,它提供相關(guān)目錄使你不容易漏掉其它目錄里的的相關(guān)內(nèi)容,它還用一顆小星星推薦各個(gè)目錄下最好的網(wǎng)站,使初學(xué)者不會(huì)被太多的網(wǎng)站弄迷途。

    另外,任何人都可以申請(qǐng)成為dmoz的搜索引擎編輯,你也可以去申請(qǐng),嘗試一下親自做搜索引擎編輯的感覺,不過,要被批準(zhǔn)可得有點(diǎn)實(shí)力才行哦。

    Google(www.google.com)

    Google是在國外很受歡迎的搜索引擎,界面簡潔,以搜索結(jié)果的準(zhǔn)確性著稱,它的網(wǎng)頁快照和圖片搜索也很有特色。

    網(wǎng)頁快照就是網(wǎng)頁的備份,你在Google搜索的時(shí)候,如果發(fā)現(xiàn)某條搜索結(jié)果點(diǎn)不進(jìn)去,是死鏈接,那么只要點(diǎn)擊搜索結(jié)果旁邊的網(wǎng)頁快照(Cached),就能看到Google保存的備份網(wǎng)頁。

    Google還有世界上最大的圖片搜索引擎(images.google.com),收集了互聯(lián)網(wǎng)上3.3億張圖片,如果你想找哪個(gè)偶像的照片、想找某個(gè)名勝的風(fēng)景照、想找軍事兵器圖片、、、只要輸入合適的英文單詞,很容易找到滿意的圖片。

    search(www.search.com)

    search屬于元搜索引擎,它收集了800多種專業(yè)搜索引擎和數(shù)據(jù)庫,分為商業(yè)金融、娛樂、健康醫(yī)藥、新聞媒體、評(píng)論、計(jì)算機(jī)、游戲、國際、尋人、購物、下載、政府、音樂、參考資料、旅行共15個(gè)大主題,每個(gè)大主題又分許多小主題。

    當(dāng)你進(jìn)入任何一個(gè)主題搜索的時(shí)候,它都可以同時(shí)搜索這個(gè)主題下的多個(gè)專業(yè)搜索引擎和數(shù)據(jù)庫,然后在一個(gè)頁面上顯示來自不同搜索引擎的搜索結(jié)果。

    比如進(jìn)入大主題“新聞媒體”搜索,它把搜索結(jié)果分為頭條新聞、商業(yè)新聞、體育新聞、娛樂新聞、科技新聞、雜志、報(bào)紙,如果再進(jìn)入小主題“科技新聞”搜索,那么它可以同時(shí)搜索CNET、PC World、ZDNet、IDG.net、TechWeb這5個(gè)著名的科技新聞網(wǎng)站,足夠保證你得到最全最新的科技新聞。

    好了,每個(gè)搜索引擎都有獨(dú)特的優(yōu)缺點(diǎn),不同的需要就應(yīng)該使用不同的搜索引擎。

    如果你搜索英文內(nèi)容,那么我給你推薦的使用習(xí)慣是:上網(wǎng)隨便逛逛就用dmoz,平時(shí)搜索就用google,有問題就問ask,要做特定的主題搜索就用search.com。

    二、常用的搜索引擎有哪些?

    索引擎(search engines)是對(duì)互聯(lián)網(wǎng)上的信息資源進(jìn)行搜集整理,然后供你查詢的系統(tǒng),它包括信息搜集、信息整理和用戶查詢?nèi)糠帧? 搜索引擎是一個(gè)為你提供信息“檢索”服務(wù)的網(wǎng)站,它使用某些程序把因特網(wǎng)上的所有信息歸類以幫助人們?cè)诿C>W(wǎng)海中搜尋到所需要的信息。 早期的搜索引擎是把因特網(wǎng)中的資源服務(wù)器的地址收集起來,由其提供的資源的類型不同而分成不同的目錄,再一層層地進(jìn)行分類。人們要找自己想要的信息可按他們的分類一層層進(jìn)入,就能最后到達(dá)目的地,找到自己想要的信息。這其實(shí)是最原始的方式,只適用于因特網(wǎng)信息并不多的時(shí)候。隨著因特網(wǎng)信息按幾何式增長,出現(xiàn)了真正意義上的搜索引擎,這些搜索引擎知道網(wǎng)站上每一頁的開始,隨后搜索因特網(wǎng)上的所有超級(jí)鏈接,把代表超級(jí)鏈接的所有詞匯放入一個(gè)數(shù)據(jù)庫。這就是現(xiàn)在搜索引擎的原型。 隨著yahoo!的出現(xiàn),搜索引擎的發(fā)展也進(jìn)入了黃金時(shí)代,相比以前其性能更加優(yōu)越?,F(xiàn)在的搜索引擎已經(jīng)不只是單純的搜索網(wǎng)頁的信息了,它們已經(jīng)變得更加綜合化,完美化了。以搜索引擎權(quán)威yahoo!為例,從1995年3月由美籍華裔楊致遠(yuǎn)等人創(chuàng)辦yahoo!開始,到現(xiàn)在,他們從一個(gè)單一的搜索引擎發(fā)展到現(xiàn)在有電子商務(wù)、新聞信息服務(wù)、個(gè)人免費(fèi)電子信箱服務(wù)等多種網(wǎng)絡(luò)服務(wù),充分說明了搜索引擎的發(fā)展從單一到綜合的過程。 然而由于搜索引擎的工作方式和因特網(wǎng)的快速發(fā)展,使其搜索的結(jié)果讓人越來越不滿意。例如,搜索“電腦”這個(gè)詞匯,就可能有數(shù)百萬頁的結(jié)果。這是由于搜索引擎通過對(duì)網(wǎng)站的相關(guān)性來優(yōu)化搜索結(jié)果,這種相關(guān)性又是由關(guān)鍵字在網(wǎng)站的位置、網(wǎng)站的名稱、 標(biāo)簽等公式來決定的。這就是使搜索引擎搜索結(jié)果多而雜的原因。而搜索引擎中的數(shù)據(jù)庫因?yàn)橐蛱鼐W(wǎng)的發(fā)展變化也必然包含了死鏈接。 這篇文章中,我們介紹了google,它是一個(gè)大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中應(yīng)用廣泛。Google的設(shè)計(jì)能夠高效地抓網(wǎng)頁并建立索引,它的查詢結(jié)果比其它現(xiàn)有系統(tǒng)都高明。這個(gè)原型的全文和超連接的數(shù)據(jù)庫至少包含24‘000‘000個(gè)網(wǎng)頁。我們可以從http://google.stanford.edu/ 下載。 設(shè)計(jì)搜索引擎是一項(xiàng)富有挑戰(zhàn)性的工作。搜索引擎為上億個(gè)網(wǎng)頁建立索引,其中包含大量迥然不同的詞匯。而且每天要回答成千上萬個(gè)查詢。在網(wǎng)絡(luò)中,盡管大型搜索引擎非常重要,但是學(xué)術(shù)界卻很少研究它。此外由于技術(shù)的快速發(fā)展和網(wǎng)頁的大量增加,現(xiàn)在建立一個(gè)搜索引擎和三年前完全不同。 本文詳細(xì)介紹了我們的大型搜索引擎,據(jù)我們所知,在公開發(fā)表的論文中,這是第一篇描述地如此詳細(xì)。除了把傳統(tǒng)數(shù)據(jù)搜索技術(shù)應(yīng)用到如此大量級(jí)網(wǎng)頁中所遇到的問題,還有許多新的技術(shù)挑戰(zhàn),包括應(yīng)用超文本中的附加信息改進(jìn)搜索結(jié)果。 本文將解決這個(gè)問題,描述如何運(yùn)用超文本中的附加信息,建立一個(gè)大型實(shí)用系統(tǒng)。任何人都可以在網(wǎng)上隨意發(fā)布信息,如何有效地處理這些無組織的超文本集合,也是本文要關(guān)注的問題。 關(guān)鍵詞 World Wide Web,搜索引擎,信息檢索,PageRank, Google 1 緒論 Web 給信息檢索帶來了新的挑戰(zhàn)。Web上的信息量快速增長,同時(shí)不斷有毫無經(jīng)驗(yàn)的新用戶來體驗(yàn)Web這門藝術(shù)。人們喜歡用超級(jí)鏈接來網(wǎng)上沖浪,通常都以象Yahoo這樣重要的網(wǎng)頁或搜索引擎開始。大家認(rèn)為List(目錄)有效地包含了大家感興趣的主題,但是它具有主觀性,建立和維護(hù)的代價(jià)高,升級(jí)慢,不能包括所有深?yuàn)W的主題?;陉P(guān)鍵詞的自動(dòng)搜索引擎通常返回太多的低質(zhì)量的匹配。使問題更遭的是,一些廣告為了贏得人們的關(guān)注想方設(shè)法誤導(dǎo)自動(dòng)搜索引擎。 我們建立了一個(gè)大型搜索引擎解決了現(xiàn)有系統(tǒng)中的很多問題。應(yīng)用超文本結(jié)構(gòu),大大提高了查詢質(zhì)量。我們的系統(tǒng)命名為google,取名自googol的通俗拼法,即10的100次方,這和我們的目標(biāo)建立一個(gè)大型搜索引擎不謀而合。 1.1網(wǎng)絡(luò)搜索引擎—升級(jí)換代(scaling up):1994-2000 搜索引擎技術(shù)不得不快速升級(jí)(scale dramatically)跟上成倍增長的web數(shù)量。1994年,第一個(gè)Web搜索引擎,World Wide Web Worm(WWWW)可以檢索到110,000個(gè)網(wǎng)頁和Web的文件。到1994年11月,頂級(jí)的搜索引擎聲稱可以檢索到2‘000’000(WebCrawler)至100‘000’000個(gè)網(wǎng)絡(luò)文件(來自 Search Engine Watch)。可以預(yù)見到2000年,可檢索到的網(wǎng)頁將超過1‘000’000‘000。同時(shí),搜索引擎的訪問量也會(huì)以驚人的速度增長。在1997年的三四月份,World Wide Web Worm 平均每天收到1500個(gè)查詢。 在1997年11月,Altavista 聲稱它每天要處理大約20’000’000個(gè)查詢。隨著網(wǎng)絡(luò)用戶的增長,到2000年,自動(dòng)搜索引擎每天將處理上億個(gè)查詢。我們系統(tǒng)的設(shè)計(jì)目標(biāo)要解決許多問題,包括質(zhì)量和可升級(jí)性,引入升級(jí)搜索引擎技術(shù)(scaling search engine technology),把它升級(jí)到如此大量的數(shù)據(jù)上。 1.2 Google:跟上Web的步伐(Scaling with the Web)建立一個(gè)能夠和當(dāng)今web規(guī)模相適應(yīng)的搜索引擎會(huì)面臨許多挑戰(zhàn)。抓網(wǎng)頁技術(shù)必須足夠快,才能跟上網(wǎng)頁變化的速度(keep them up to date)。存儲(chǔ)索引和文檔的空間必須足夠大。索引系統(tǒng)必須能夠有效地處理上千億的數(shù)據(jù)。處理查詢必須快,達(dá)到每秒能處理成百上千個(gè)查詢(hundreds to thousands per second.)。隨著Web的不斷增長,這些任務(wù)變得越來越艱巨。然而硬件的執(zhí)行效率和成本也在快速增長,可以部分抵消這些困難。 還有幾個(gè)值得注意的因素,如磁盤的尋道時(shí)間(disk seek time),操作系統(tǒng)的效率(operating system robustness)。在設(shè)計(jì)Google的過程中,我們既考慮了Web的增長速度,又考慮了技術(shù)的更新。Google的設(shè)計(jì)能夠很好的升級(jí)處理海量數(shù)據(jù)集。它能夠有效地利用存儲(chǔ)空間來存儲(chǔ)索引。優(yōu)化的數(shù)據(jù)結(jié)構(gòu)能夠快速有效地存取(參考4.2節(jié))。進(jìn)一步,我們希望,相對(duì)于所抓取的文本文件和HTML網(wǎng)頁的數(shù)量而言,存儲(chǔ)和建立索引的代價(jià)盡可能的?。▍⒖几戒汢)。對(duì)于象Google這樣的集中式系統(tǒng),采取這些措施得到了令人滿意的系統(tǒng)可升級(jí)性(scaling properties)。 1. 3設(shè)計(jì)目標(biāo) 1.3.1提高搜索質(zhì)量我們的主要目標(biāo)是提高Web搜索引擎的質(zhì)量。1994年,有人認(rèn)為建立全搜索索引(a complete search index)可以使查找任何數(shù)據(jù)都變得容易。根據(jù)Best of the Web 1994 -- Navigators ,“最好的導(dǎo)航服務(wù)可以使在Web上搜索任何信息都很容易(當(dāng)時(shí)所有的數(shù)據(jù)都可以被登錄)”。然而1997年的Web就迥然不同。近來搜索引擎的用戶已經(jīng)證實(shí)索引的完整性不是評(píng)價(jià)搜索質(zhì)量的唯一標(biāo)準(zhǔn)。用戶感興趣的搜索結(jié)果往往湮沒在“垃圾結(jié)果Junk result”中。實(shí)際上,到1997年11月為止,四大商業(yè)搜索引擎中只 有一個(gè)能夠找到它自己(搜索自己名字時(shí)返回的前十個(gè)結(jié)果中有它自己)。導(dǎo)致這一問題的主要原因是文檔的索引數(shù)目增加了好幾個(gè)數(shù)量級(jí),但是用戶能夠看的文檔數(shù)卻沒有增加。用戶仍然只希望看前面幾十個(gè)搜索結(jié)果。因此,當(dāng)集合增大時(shí),我們就需要工具使結(jié)果精確(在返回的前幾十個(gè)結(jié)果中,有關(guān)文檔的數(shù)量)。由于是從成千上萬個(gè)有點(diǎn)相關(guān)的文檔中選出幾十個(gè),實(shí)際上,相關(guān)的概念就是指最好的文檔。高精確非常重要,甚至以響應(yīng)(系統(tǒng)能夠返回的有關(guān)文檔的總數(shù))為代價(jià)。令人高興的是利用超文本鏈接提供的信息有助于改進(jìn)搜索和其它應(yīng)用 。尤其是鏈接結(jié)構(gòu)和鏈接文本,為相關(guān)性的判斷和高質(zhì)量的過濾提供了大量的信息。Google既利用了鏈接結(jié)構(gòu)又用到了anchor文本(見2.1和2.2節(jié))。 1.3.2搜索引擎的學(xué)術(shù)研究隨著時(shí)間的流逝,除了發(fā)展迅速,Web越來越商業(yè)化。1993年,只有1.5%的Web服務(wù)是來自.com域名。到1997年,超過了60%。同時(shí),搜索引擎從學(xué)術(shù)領(lǐng)域走進(jìn)商業(yè)。到現(xiàn)在大多數(shù)搜索引擎被公司所有,很少技公開術(shù)細(xì)節(jié)。這就導(dǎo)致搜索引擎技術(shù)很大程度上仍然是暗箱操作,并傾向做廣告(見附錄A)。Google的主要目標(biāo)是推動(dòng)學(xué)術(shù)領(lǐng)域在此方面的發(fā)展,和對(duì)它的了解。另一個(gè)設(shè)計(jì)目標(biāo)是給大家一個(gè)實(shí)用的系統(tǒng)。應(yīng)用對(duì)我們來說非常重要,因?yàn)楝F(xiàn)代網(wǎng)絡(luò)系統(tǒng)中存在大量的有用數(shù)據(jù)(us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems)。例如,每天有幾千萬個(gè)研究。然而,得到這些數(shù)據(jù)卻非常困難,主要因?yàn)樗鼈儧]有商業(yè)價(jià)值。我們最后的設(shè)計(jì)目標(biāo)是建立一個(gè)體系結(jié)構(gòu)能夠支持新的關(guān)于海量Web數(shù)據(jù)的研究。為了支持新研究,Google以壓縮的形式保存了實(shí)際所抓到的文檔。設(shè)計(jì)google的目標(biāo)之一就是要建立一個(gè)環(huán)境使其他研究者能夠很快進(jìn)入這個(gè)領(lǐng)域,處理海量Web數(shù)據(jù),得到滿意的結(jié)果,而通過其它方法卻很難得到結(jié)果。系統(tǒng)在短時(shí)間內(nèi)被建立起來,已經(jīng)有幾篇論文用到了Google建的數(shù)據(jù)庫,更多的在起步中。我們的另一個(gè)目標(biāo)是建立一個(gè)宇宙空間實(shí)驗(yàn)室似的環(huán)境,在這里研究者甚至學(xué)生都可以對(duì)我們的海量Web數(shù)據(jù)設(shè)計(jì)或做一些實(shí)驗(yàn)。 2. 系統(tǒng)特點(diǎn) Google搜索引擎有兩個(gè)重要特點(diǎn),有助于得到高精度的搜索結(jié)果。 第一點(diǎn),應(yīng)用Web的鏈接結(jié)構(gòu)計(jì)算每個(gè)網(wǎng)頁的Rank值,稱為PageRank,將在98頁詳細(xì)描述它。 第二點(diǎn),Google利用超鏈接改進(jìn)搜索結(jié)果。 2.1 PageRank:給網(wǎng)頁排序 Web的引用(鏈接)圖是重要的資源,卻被當(dāng)今的搜索引擎很大程度上忽視了。我們建立了一個(gè)包含518‘000’000個(gè)超鏈接的圖,它是一個(gè)具有重要意義的樣本。這些圖能夠快速地計(jì)算網(wǎng)頁的PageRank值,它是一個(gè)客觀的標(biāo)準(zhǔn),較好的符合人們心目中對(duì)一個(gè)網(wǎng)頁重要程度的評(píng)價(jià),建立的基礎(chǔ)是通過引用判斷重要性。因此在web中,PageRank能夠優(yōu)化關(guān)鍵詞查詢的結(jié)果。對(duì)于大多數(shù)的主題,在網(wǎng)頁標(biāo)題查詢中用PageRank優(yōu)化簡單文本匹配,我們得到了令人驚嘆的結(jié)果(從google.stanford.edu可以得到演示)。對(duì)于Google主系統(tǒng)中的全文搜索,PageRank也幫了不少忙。 2.1.1計(jì)算PageRank 文獻(xiàn)檢索中的引用理論用到Web中,引用網(wǎng)頁的鏈接數(shù),一定程度上反映了該網(wǎng)頁的重要性和質(zhì)量。PageRank發(fā)展了這種思想,網(wǎng)頁間的鏈接是不平等的。 PageRank定義如下: 我們假設(shè)T1…Tn指向網(wǎng)頁A(例如,被引用)。參數(shù)d是制動(dòng)因子,使結(jié)果在0,1之間。通常d等于0.85。在下一節(jié)將詳細(xì)介紹d。C(A)定義為網(wǎng)頁A指向其它網(wǎng)頁的鏈接數(shù),網(wǎng)頁A的PageRank值由下式給出: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 注意PageRank的形式,分布到各個(gè)網(wǎng)頁中,因此所有網(wǎng)頁的PageRank和是1。 PageRank或PR(A)可以用簡單的迭代算法計(jì)算,相應(yīng)規(guī)格化Web鏈接矩陣的主特征向量。中等規(guī)模的網(wǎng)站計(jì)算26‘000’000網(wǎng)頁的PageRank值要花費(fèi)幾小時(shí)。還有一些技術(shù)細(xì)節(jié)超出了本文論述的范圍。 2.1.2直覺判斷 PageRank被看作用戶行為的模型。我們假設(shè)網(wǎng)上沖浪是隨機(jī)的,不斷點(diǎn)擊鏈接,從不返回,最終煩了,另外隨機(jī)選一個(gè)網(wǎng)頁重新開始沖浪。隨機(jī)訪問一個(gè)網(wǎng)頁的可能性就是它的PageRank值。制動(dòng)因子d是隨機(jī)訪問一個(gè)網(wǎng)頁煩了的可能性,隨機(jī)另選一個(gè)網(wǎng)頁。對(duì)單個(gè)網(wǎng)頁或一組網(wǎng)頁,一個(gè)重要的變量加入到制動(dòng)因子d中。這允許個(gè)人可以故意地誤導(dǎo)系統(tǒng),以得到較高的PageRank值。我們還有其它的PageRank算法,見98頁。 另外的直覺判斷是一個(gè)網(wǎng)頁有很多網(wǎng)頁指向它,或者一些PageRank值高的網(wǎng)頁指向它,則這個(gè)網(wǎng)頁很重要。直覺地,在Web中,一個(gè)網(wǎng)頁被很多網(wǎng)頁引用,那么這個(gè)網(wǎng)頁值得一看。一個(gè)網(wǎng)頁被象Yahoo這樣重要的主頁引用即使一次,也值得一看。如果一個(gè)網(wǎng)頁的質(zhì)量不高,或者是死鏈接,象Yahoo這樣的主頁不會(huì)鏈向它。PageRank處理了這兩方面因素,并通過網(wǎng)絡(luò)鏈接遞歸地傳遞。 & nbsp; 2.2鏈接描述文字(Anchor Text)我們的搜索引擎對(duì)鏈接文本進(jìn)行了特殊的處理。大多數(shù)搜索引擎把鏈接文字和它所鏈向的網(wǎng)頁(the page that the link is on)聯(lián)系起來。另外,把它和鏈接所指向的網(wǎng)頁聯(lián)系起來。這有幾點(diǎn)好處。 第一,通常鏈接描述文字比網(wǎng)頁本身更精確地描述該網(wǎng)頁。 第二,鏈接描述文字可能鏈向的文檔不能被文本搜索引擎檢索到,例如圖像,程序和數(shù)據(jù)庫。有可能使返回的網(wǎng)頁不能被抓到。注意哪些抓不到的網(wǎng)頁將會(huì)帶來一些問題。在返回給用戶前檢測不了它們的有效性。這種情況搜索引擎可能返回一個(gè)根本不存在的網(wǎng)頁,但是有超級(jí)鏈接指向它。然而這種結(jié)果可以被挑出來的,所以此類的問題很少發(fā)生。鏈接描述文字是對(duì)被鏈向網(wǎng)頁的宣傳,這個(gè)思想被用在World Wide Web Worm 中,主要因?yàn)樗兄谒阉鞣俏谋拘畔ⅲ軌蛴蒙倭康囊严螺d文檔擴(kuò)大搜索范圍。我們大量應(yīng)用鏈接描述文字,因?yàn)樗兄谔岣咚阉鹘Y(jié)果的質(zhì)量。有效地利用鏈接描述文字技術(shù)上存在一些困難,因?yàn)楸仨毺幚泶罅康臄?shù)據(jù)?,F(xiàn)在我們能抓到24‘000’000個(gè)網(wǎng)頁,已經(jīng)檢索到259‘000’000多個(gè)鏈接描述文字。 2.3其它特點(diǎn)除了PageRank和應(yīng)用鏈接描述文字外,Google還有一些其它特點(diǎn)。 第一,所有hit都有位置信息,所以它可以在搜索中廣泛應(yīng)用鄰近性(proximity)。 第二,Google跟蹤一些可視化外表細(xì)節(jié),例如字號(hào)。黑體大號(hào)字比其它文字更重要。 第三,知識(shí)庫存儲(chǔ)了原始的全文html網(wǎng)頁。 3有關(guān)工作 Web檢索研究的歷史簡短。World Wide Web Worm()是最早的搜索引擎之一。后來出現(xiàn)了一些用于學(xué)術(shù)研究的搜索引擎,現(xiàn)在它們中的大多數(shù)被上市公司擁有。與Web的增長和搜索引擎的重要性相比,有關(guān)當(dāng)今搜索引擎技術(shù)的優(yōu)秀論文相當(dāng)少。根據(jù)Michael Mauldin(Lycos Inc的首席科學(xué)家)) ,“各種各樣的服務(wù)(包括Lycos)非常關(guān)注這些數(shù)據(jù)庫的細(xì)節(jié)?!彪m然在搜索引擎的某些特點(diǎn)上做了大量工作。具有代表性的工作有,對(duì)現(xiàn)有商業(yè)搜索引擎的結(jié)果進(jìn)行傳遞,或建立小型的個(gè)性化的搜索引擎。最后有關(guān)信息檢索系統(tǒng)的研究很多,尤其在有組織機(jī)構(gòu)集合(well controlled collections)方面。在下面兩節(jié),我們將討論在信息檢索系統(tǒng)中的哪些領(lǐng)域需要改進(jìn)以便更好的工作在Web上。 3.1信息檢索信息檢索系統(tǒng)誕生在幾年前,并發(fā)展迅速。然而大多數(shù)信息檢索系統(tǒng)研究的對(duì)象是小規(guī)模的單一的有組織結(jié)構(gòu)的集合,例如科學(xué)論文集,或相關(guān)主題的新聞故事。實(shí)際上,信息檢索的主要基準(zhǔn),the Text Retrieval Conference(),用小規(guī)模的、有組織結(jié)構(gòu)的集合作為它們的基準(zhǔn)。 大型文集基準(zhǔn)只有20GB,相比之下,我們抓到的24000000個(gè)網(wǎng)頁占147GB。在TREC上工作良好的系統(tǒng),在Web上卻不一定產(chǎn)生好的結(jié)果。例如,標(biāo)準(zhǔn)向量空間模型企圖返回和查詢請(qǐng)求最相近的文檔,把查詢請(qǐng)求和文檔都看作由出現(xiàn)在它們中的詞匯組成的向量。在Web環(huán)境下,這種策略常常返回非常短的文檔,這些文檔往往是查詢?cè)~再加幾個(gè)字。例如,查詢“Bill Clinton”,返回的網(wǎng)頁只包含“Bill Clinton Sucks”,這是我們從一個(gè)主要搜索引擎中看到的。網(wǎng)絡(luò)上有些爭議,用戶應(yīng)該更準(zhǔn)確地表達(dá)他們想查詢什么,在他們的查詢請(qǐng)求中用更多的詞。我們強(qiáng)烈反對(duì)這種觀點(diǎn)。如果用戶提出象“Bill Clinton”這樣的查詢請(qǐng)求,應(yīng)該得到理想的查詢結(jié)果,因?yàn)檫@個(gè)主題有許多高質(zhì)量的信息。象所給的例子,我們認(rèn)為信息檢索標(biāo)準(zhǔn)需要發(fā)展,以便有效地處理Web數(shù)據(jù)。 3.2有組織結(jié)構(gòu)的集合(Well Controlled Collections)與Web的不同點(diǎn) Web是完全無組織的異構(gòu)的大量文檔的集合。Web中的文檔無論內(nèi)在信息還是隱含信息都存在大量的異構(gòu)性。例如,文檔內(nèi)部就用了不同的語言(既有人類語言又有程序),詞匯([email]地址,鏈接,郵政編碼,電話號(hào)碼,產(chǎn)品號(hào)),類型(文本,HTML,PDF,圖像,聲音),有些甚至是機(jī)器創(chuàng)建的文件(log文件,或數(shù)據(jù)庫的輸出)??梢詮奈臋n中推斷出來,但并不包含在文檔中的信息稱為隱含信息。隱含信息包括來源的信譽(yù),更新頻率,質(zhì)量,訪問量和引用。不但隱含信息的可能來源各種各樣,而且被檢測的信息也大不相同,相差可達(dá)好幾個(gè)數(shù)量級(jí)。例如,一個(gè)重要主頁的使用量,象Yahoo 每天瀏覽數(shù)達(dá)到上百萬次,于此相比無名的歷史文章可能十年才被訪問一次。很明顯,搜索引擎對(duì)這兩類信息的處理是不同的。 Web與有組織結(jié)構(gòu)集合之間的另外一個(gè)明顯區(qū)別是,事實(shí)上,向Web上傳信息沒有任何限制。靈活利用這點(diǎn)可以發(fā)布任何對(duì)搜索引擎影響重大的信息,使路由阻塞,加上為牟利故意操縱搜索引擎,這些已經(jīng)成為一個(gè)嚴(yán)重的問題。這些問題還沒有被傳統(tǒng)的封閉的信息檢索系統(tǒng)所提出來。它關(guān)心的是元數(shù)據(jù)的努力,這在Web搜索引擎中卻不適用,因?yàn)榫W(wǎng)頁中的任何文本都不會(huì)向用戶聲稱企圖操縱搜索引擎。甚至有些公司為牟利專門操縱搜索引擎。 4 系統(tǒng)分析(System Anatomy)首先,我們提供高水平的有關(guān)體系結(jié)構(gòu)的討論。然后 ,詳細(xì)描述重要的數(shù)據(jù)結(jié)構(gòu)。最后,主要應(yīng)用:抓網(wǎng)頁,索引,搜索將被嚴(yán)格地檢查。 Figure 1. High Level Google Architecture 4.1Google體系結(jié)構(gòu)概述這一節(jié),我們將看看整個(gè)系統(tǒng)是如何工作的(give a high level),見圖1。本節(jié)不討論應(yīng)用和數(shù)據(jù)結(jié)構(gòu),在后幾節(jié)中討論。為了效率大部分Google是用c或c++實(shí)現(xiàn)的,既可以在Solaris也可以在Linux上運(yùn)行。 Google系統(tǒng)中,抓網(wǎng)頁(下載網(wǎng)頁)是由幾個(gè)分布式crawlers完成的。一個(gè)URL服務(wù)器負(fù)責(zé)向crawlers提供URL列表。抓來的網(wǎng)頁交給存儲(chǔ)服務(wù)器storeserver。然后,由存儲(chǔ)服務(wù)器壓縮網(wǎng)頁并把它們存到知識(shí)庫repository中。每個(gè)網(wǎng)頁都有一個(gè)ID,稱作docID,當(dāng)新URL從網(wǎng)頁中分析出時(shí),就被分配一個(gè)docID。由索引器和排序器負(fù)責(zé)建立索引index function。索引器從知識(shí)庫中讀取文檔,對(duì)其解壓縮和分析。每個(gè)文檔被轉(zhuǎn)換成一組詞的出現(xiàn)情況,稱作命中hits。Hits紀(jì)錄了詞,詞在文檔中的位置,最接近的字號(hào),大小寫。索引器把這些hits分配到一組桶barrel中,產(chǎn)生經(jīng)過部分排序后的索引。索引器的另一個(gè)重要功能是分析網(wǎng)頁中所有的鏈接,將有關(guān)的重要信息存在鏈接描述anchors文件中。該文件包含了足夠的信息,可以用來判斷每個(gè)鏈接鏈出鏈入節(jié)點(diǎn)的信息,和鏈接文本。 URL分解器resolver閱讀鏈接描述anchors文件,并把相對(duì)URL轉(zhuǎn)換成絕對(duì)URL,再轉(zhuǎn)換成docID。為鏈接描述文本編制索引,并與它所指向的docID關(guān)聯(lián)起來。同時(shí)建立由docID對(duì)組成的鏈接數(shù)據(jù)庫。用于計(jì)算所有文檔的PageRank值。用docID分類后的barrels,送給排序器sorter,再根據(jù)wordID進(jìn)行分類,建立反向索引inverted index。這個(gè)操作要恰到好處,以便幾乎不需要暫存空間。排序器還給出docID和偏移量列表,建立反向索引。一個(gè)叫DumpLexicon的程序把這個(gè)列表和由索引器產(chǎn)生的字典結(jié)合在一起,建立一個(gè)新的字典,供搜索器使用。這個(gè)搜索器就是利用一個(gè)Web服務(wù)器,使用由DumpLexicon所生成的字典,利用上述反向索引以及頁面等級(jí)PageRank來回答用戶的提問。 4.2主要數(shù)據(jù)結(jié)構(gòu)經(jīng)過優(yōu)化的Google數(shù)據(jù)結(jié)構(gòu),能夠用較小的代價(jià)抓取大量文檔,建立索引和查詢。雖然近幾年CPU和輸入輸出速率迅速提高。磁盤尋道仍然需要10ms。任何時(shí)候Google系統(tǒng)的設(shè)計(jì)都盡可能地避免磁盤尋道。這對(duì)數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)影響很大。 4.2.1大文件大文件BigFiles是指虛擬文件生成的多文件系統(tǒng),用長度是64位的整型數(shù)據(jù)尋址。多文件系統(tǒng)之間的空間分配是自動(dòng)完成的。BigFiles包也處理已分配和未分配文件描述符。由于操縱系統(tǒng)不能滿足我們的需要,BigFiles也支持基本的壓縮選項(xiàng)。 4.2.2知識(shí)庫 Figure 2. Repository Data Structure 知識(shí)庫包含每個(gè)網(wǎng)頁的全部HTML。每個(gè)網(wǎng)頁用zlib(見RFC1950)壓縮。壓縮技術(shù)的選擇既要考慮速度又要考慮壓縮率。我們選擇zlib的速度而不是壓縮率很高的bzip。知識(shí)庫用bzip的壓縮率接近4:1。而用zlib的壓縮率是3:1。文檔一個(gè)挨著一個(gè)的存儲(chǔ)在知識(shí)庫中,前綴是docID,長度,URL,見圖2。訪問知識(shí)庫不需要其它的數(shù)據(jù)結(jié)構(gòu)。這有助于數(shù)據(jù)一致性和升級(jí)。用其它數(shù)據(jù)結(jié)構(gòu)重構(gòu)系統(tǒng),我們只需要修改知識(shí)庫和crawler錯(cuò)誤列表文件。 4.2.3文件索引文件索引保存了有關(guān)文檔的一些信息。索引以docID的順序排列,定寬ISAM(Index sequential access mode)。每條記錄包括當(dāng)前文件狀態(tài),一個(gè)指向知識(shí)庫的指針,文件校驗(yàn)和,各種統(tǒng)計(jì)表。如果一個(gè)文檔已經(jīng)被抓到,指針指向docinfo文件,該文件的寬度可變,包含了URL和標(biāo)題。否則指針指向包含這個(gè)URL的URL列表。這種設(shè)計(jì)考慮到簡潔的數(shù)據(jù)結(jié)構(gòu),以及在查詢中只需要一個(gè)磁盤尋道時(shí)間就能夠訪問一條記錄。還有一個(gè)文件用于把URL轉(zhuǎn)換成docID。它是URL校驗(yàn)和與相應(yīng)docID的列表,按校驗(yàn)和排序。要想知道某個(gè)URL的docID,需要計(jì)算URL的校驗(yàn)和,然后在校驗(yàn)和文件中執(zhí)行二進(jìn)制查找,找到它的docID。通過對(duì)這個(gè)文件進(jìn)行合并,可以把一批URL轉(zhuǎn)換成對(duì)應(yīng)的docID。URL分析器用這項(xiàng)技術(shù)把URL轉(zhuǎn)換成docID。這種成批更新的模式是至關(guān)重要的,否則每個(gè)鏈接都需要一次查詢,假如用一塊磁盤,322‘000’000個(gè)鏈接的數(shù)據(jù)集合將花費(fèi)一個(gè)多月的時(shí)間。 4.2.4詞典詞典有幾種不同的形式。和以前系統(tǒng)的重要不同是,詞典對(duì)內(nèi)存的要求可以在合理的價(jià)格內(nèi)。現(xiàn)在實(shí)現(xiàn)的系統(tǒng),一臺(tái)256M內(nèi)存的機(jī)器就可以把詞典裝入到內(nèi)存中?,F(xiàn)在的詞典包含14000000詞匯(雖然一些很少用的詞匯沒有加入到詞典中)。它執(zhí)行分兩部分—詞匯表(用null分隔的連續(xù)串)和指針的哈希表。不同的函數(shù),詞匯表有一些輔助信息,這超出了本文論述的范圍。 4.2.5 hit list hit list是一篇文檔中所出現(xiàn)的詞的列表,包括位置,字號(hào),大小寫。Hit list占很大空間,用在正向和反向索引中。因此,它的表示形式越有效越好。我們考慮了幾種方案來編碼位置,字號(hào),大小寫—簡單編碼(3個(gè)整型數(shù)),緊湊編碼(支持優(yōu)化分配比特位),哈夫曼編碼。Hit的詳細(xì)信息見圖3。我們的緊湊編碼每個(gè)hit用2字節(jié)。有兩種類型hit,特殊hit和普通hit。特殊hit包含URL,標(biāo)題,鏈接描述文字,meta tag。普通hit包含其它每件事。它包括大小寫特征位,字號(hào),12比特用于描述詞在文檔中的位置(所有超過4095的位置標(biāo)記為4096)。字號(hào)采用相對(duì)于文檔的其它部分的相對(duì)大小表示,占3比特(實(shí)際只用7個(gè)值,因?yàn)?11標(biāo)志是特殊hit)。特殊hit由大小寫特征位,字號(hào)位為7表示它是特殊hit,用4比特表示特殊hit的類型,8比特表示位置。對(duì)于anchor hit八比特位置位分出4比特用來表示在anchor中的位置,4比特用于表明anchor出現(xiàn)的哈希表hash of the docID。短語查詢是有限的,對(duì)某些詞沒有足夠多的anchor。我們希望更新anchor hit的存儲(chǔ)方式,以便解決地址位和docIDhash域位數(shù)不足的問題。

    三、除了GOOGLE之外,還有哪個(gè)搜索引擎能夠搜索外文網(wǎng)站?

    全球十大搜索引擎

    MSN Search Microsoft 的 MSN Search, 由 LookSmart 支持,二級(jí)查詢結(jié)果由 Inktomi 提供。 Overture (嚴(yán)格說是PPC搜索引擎) 將頂部的查詢結(jié)果提供給 MSN. 為對(duì) MSN 成功優(yōu)化網(wǎng)站,那么必須仔細(xì)考慮 LookSmart 和 Inktomi 的排名要求。在某些情況下, Direct Hit 的查詢結(jié)果也會(huì)體現(xiàn)在該搜索引擎上。

    Yahoo 一致公認(rèn)的最佳搜索引擎(嚴(yán)格說是份類目錄),它的web查詢結(jié)果來自Google(近期有所變更). 收錄在它分類目錄中的網(wǎng)站。其查詢結(jié)果以分類目錄的查詢結(jié)果顯示。商業(yè)站點(diǎn)收錄至分類目錄的年費(fèi)用為299美金,它將用幾周到幾月的時(shí)間才會(huì)給您結(jié)果,告訴您網(wǎng)站最終是否被收錄。

    Google 免費(fèi)搜索引擎。頂部搜索結(jié)果將列入 LookSmart, Yahoo, 及 Open Source Directory.

    Google 非常關(guān)注外部鏈接,如故一個(gè)網(wǎng)站有較多質(zhì)量較好的外部鏈接,將獲得較高的排名。它的 AdWords/AdSelect 也將作為查詢結(jié)果顯示。

    AOL Search 從 Google 搜索數(shù)據(jù)庫中獲得查詢結(jié)果。想在 AOL 中獲得好的排名應(yīng)該關(guān)注 Google 的排名規(guī)則。

    版權(quán)所有 網(wǎng)絡(luò)營銷文摘 powerd by 優(yōu)網(wǎng)科技 保留所有權(quán)利,如您需要轉(zhuǎn)載,請(qǐng)聯(lián)系本網(wǎng)站,獲得同意后再行轉(zhuǎn)載.

    Lycos 該分類目錄搜索引擎查詢結(jié)果來自 Fast/AllTheWeb, Overture 和 Open Source Directory.

    Ask Jeeves 擁有人工編輯分類目錄和來自 Teoma 的搜索引擎爬行結(jié)果。Overture 作為贊助商,查詢結(jié)果也將出現(xiàn)在該搜索引擎的結(jié)果中。

    LookSmart - Zeal 人工編輯搜索引擎分類目錄,支持 MSN 及 Excite等較多的合作伙伴。

    當(dāng) LookSmart 搜索無果時(shí),由 Inktomi 提供搜索結(jié)果。

    Overture 前身 GoTo.com, 嚴(yán)格來說是PPC搜索引擎。它的搜索結(jié)果將列入 Yahoo, MSN, Altavista 等搜索引擎。

    Netscape Search 現(xiàn)在 NetScape 的查詢結(jié)果來自于 Google.

    AltaVista 對(duì)老的搜索引擎之一,至今任然在搜索引擎中占有重要地位。他有免費(fèi)網(wǎng)站登陸及收費(fèi)網(wǎng)站登陸兩種。

    Open Directory 該開放目錄是志愿編輯人員預(yù)審的搜索引擎目錄, 它的查詢結(jié)果和 NetScape, AOL, Google, Lycos等共享

    四、現(xiàn)在有那些搜索引擎網(wǎng)站啊?就想是百度一樣的搜索網(wǎng)站,有那些都給我介紹!!拜托各位大神

    全世界有成千上萬個(gè)被稱為 “ 搜索引擎 ” 的網(wǎng)站。實(shí)際上,這些網(wǎng)站中真正適合海外推廣的搜索引擎不過 10 個(gè)。其中最著名的是 Google, Yahoo, Alltheweb, AltaVista 和 Inktomi 等。其他網(wǎng)站的搜索結(jié)果都來自于這些搜索引擎,或者他們之間的搜索結(jié)果交叉使用。為了讓您更好地進(jìn)行網(wǎng)站推廣,我們以下將對(duì)其作逐一介紹。 Google 全球最大的機(jī)器搜索引擎, Google 每天提供 2 億次查詢服務(wù),占全球搜索引擎查詢市場份額的 29.2 %,無可爭議的世界第一; Google 通過對(duì) 80 多億網(wǎng)頁進(jìn)行整理,為世界各地的用戶提供適需的搜索結(jié)果,而且搜索時(shí)間通常不到半秒。 Yahoo !是全球認(rèn)知度最高及最有價(jià)值的互聯(lián)網(wǎng)品牌之一,也是最大的門戶網(wǎng)站。有英、中 、日、韓、法、德等 10 余種語言版本。在全球消費(fèi)者品牌排名中居第 38 位 , 是全球最大的搜索引擎和門戶網(wǎng)站。擁有 2.94 億有效注冊(cè)用戶,每天 12 億訪問人次,覆蓋全球網(wǎng)民的 61% ;全球有 1840 萬業(yè)務(wù)采購決策者訪問 Yahoo! MSN 屬于微軟公司, 美國對(duì)互聯(lián)網(wǎng)瀏覽量進(jìn)行統(tǒng)計(jì)的康姆斯科公司公布統(tǒng)計(jì)數(shù)據(jù)稱:微軟 MSN 網(wǎng)站已接近雅虎,成為繼美國在線之后,網(wǎng)民瀏覽人數(shù)排名第二的美國門戶網(wǎng)站。 AOL 即美國在線,是美國也是世界上最早的門戶網(wǎng)站之一, 80% 是美國本土用戶,其搜索結(jié)果全部來自于 Google 。也就是說,有良好的 Google 排名也有良好的 AOL 排名。 Lycos 是全世界最早的搜索引擎之一。根據(jù)媒體調(diào)查統(tǒng)計(jì), Lycos 以月 3700 萬次的獨(dú)立訪問排名第 5 大用戶最常訪問的網(wǎng)站。目前, Lycos 主要搜索結(jié)果來自于 Alltheweb 。 Ask 規(guī)模不大,但很有特色的搜索搜索。 Ask 是 DirectHit 的母公司,于 2001 年收購 Teoma 搜索引擎,并全部采用 Teoma 搜索結(jié)果。 Overture 是最早的付費(fèi)搜索引擎(競價(jià)排名搜索引擎)。搜索結(jié)果被 Yahoo, MSN 等采用。 Overture 收購了 Google 的對(duì)手 Inktomi 后被 Yahoo 收購,它開通了含約 32 億文檔的 “ 全球最大 ”( Overture )的搜索索引服務(wù),也是業(yè)界提供關(guān)鍵詞標(biāo)準(zhǔn)流量的公司。 Netscape 由著名的瀏覽器公司網(wǎng)景公司開發(fā)的搜索引擎, Netscape 的搜索結(jié)果全部來自于 Google 。另外,全世界最大的開放式目錄 DMOZ 錄屬于網(wǎng)景公司。 AltaVista 全世界最古老的搜索引擎之一,也是功能最完善,搜索精度較高的全文搜索引擎之一。截止 2002 年 6 月, AltaVista 宣稱其數(shù)據(jù)庫已存有 11 億個(gè) Web 文件,并且經(jīng)過升級(jí),其搜索精度已達(dá)業(yè)界領(lǐng)先水平。該搜索引擎已于 2003 年被 Yahoo 收購。 Inktomi 只對(duì)搜索引擎提供搜索結(jié)果。 2003 年被 Overture 收購。在 2004 年 Yahoo 開發(fā)自己全新的搜索引擎技術(shù)之前, Inktomi 還是全球第二大搜索引擎,其搜索結(jié)果被 Hotbot, MSN 等著名的網(wǎng)站采用。 HotBot 是比較活躍的搜索引擎,數(shù)據(jù)更新速度比其他引擎都快。網(wǎng)頁庫容量為 1.1 億,以獨(dú)特的搜索界面著稱。該引擎已被 Lycos 收購,成為 Terra Lycos Network 的一部分。 AllTheWeb 是目前成長最快的搜索引擎,支持 225 種文件格式搜索,其數(shù)據(jù)庫已存有 49 種語言的 21 億個(gè) Web 文件,而且以其更新速度快,搜索精度高而受到廣泛關(guān)注,被認(rèn)為是 Google 強(qiáng)有力的競爭對(duì)手。 LookSmart 與 Yahoo 、 Open Directory Project ( Dmoz )等齊名的分類目錄搜索引擎,,向包括 MSN 、 AltaVista 、 Excite 提供目錄搜索。在全球擁有相當(dāng)規(guī)模的商業(yè)客戶資源,并通過與 MSN 、 AltaVista 、 Infospace 等重量級(jí)門戶合作,共享資源,使得 LookSmart 成為國內(nèi)出口企業(yè)進(jìn)行境外搜索引擎注冊(cè)推廣的一條重要渠道。 Infospace 是著名的元搜索引擎。元搜索引擎在接受用戶查詢請(qǐng)求時(shí),同時(shí)在其他多個(gè)引擎上進(jìn)行搜索,并將結(jié)果返回給用戶。 Infoseek 是全球著名的搜索引擎之一,提供全文檢索功能,并有較細(xì)致的分類目錄。網(wǎng)頁收錄極其豐富,以西文為主。 CNN 美國有線新聞網(wǎng)( CNN )是美國時(shí)代華納旗下的新聞媒體網(wǎng)站。于 2001 年隨時(shí)代華納集團(tuán)并入了美國在線。 CNN 覆蓋了六大洲,成為了歷史上第一個(gè)名副其實(shí)的全球電視網(wǎng)。參考資料: http://zhidao.baidu.com/question/15786066.html?si=1

    以上就是關(guān)于能打開各種網(wǎng)站的搜索引擎相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。


    推薦閱讀:

    三句話留住顧客(最能打動(dòng)顧客的十句話)

    推銷產(chǎn)品的萬能句子(推銷產(chǎn)品怎樣才能打動(dòng)客戶)

    銷售話術(shù)與技巧經(jīng)典語錄(最能打動(dòng)顧客的十句話)

    最好看的字體手寫(最好看的字體手寫圖片)

    郁金香是哪個(gè)國家的標(biāo)志(郁金香是哪個(gè)國家的國旗)