HOME 首頁
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運營
CASE 服務(wù)案例
NEWS 熱點資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    簡述搜索引擎的基本工作方式(簡述搜索引擎的基本工作方式有)

    發(fā)布時間:2023-04-14 01:48:44     稿源: 創(chuàng)意嶺    閱讀: 67        

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于簡述搜索引擎的基本工作方式的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。

    開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端

    官網(wǎng):https://ai.de1919.com。

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請撥打電話175-8598-2043,或添加微信:1454722008

    本文目錄:

    簡述搜索引擎的基本工作方式(簡述搜索引擎的基本工作方式有)

    一、搜索引擎的工作原理分為

    搜索引擎的工作原理簡單來說可以分為三步:

    1、信息采集模塊

    信息采集器是一個可以瀏覽網(wǎng)頁的程序,被形容為“網(wǎng)絡(luò)爬蟲”。它首先打開一個網(wǎng)頁,然后把該網(wǎng)頁的鏈接作為瀏覽的起始地址,把被鏈接的網(wǎng)頁獲取過來,抽取網(wǎng)頁中出現(xiàn)的鏈接,并通過一定算法決定下一步要訪問哪些鏈接。

    同時,信息采集器將已經(jīng)訪問過的URL存儲到自己的網(wǎng)頁列表并打上已搜索的標(biāo)記。自動標(biāo)引程序檢查該網(wǎng)頁并為他創(chuàng)建一條索引記錄,然后將該記錄加入到整個查詢表中。信息收集器再以該網(wǎng)頁到超鏈接為起點繼續(xù)重復(fù)這一訪問過程直至結(jié)束。

    一般搜索引擎的采集器在搜索過程中只取鏈長比(超鏈接數(shù)目與文檔長度的比值)小于某一閾值的頁面,數(shù)據(jù)采集于內(nèi)容頁面,不涉及目錄頁面。在采集文檔的同時記錄各文檔的地址信息、修改時間、文檔長度等狀態(tài)信息,用于站點資源的監(jiān)視和資料庫的更新。

    在采集過程中還可以構(gòu)造適當(dāng)?shù)膯l(fā)策略,指導(dǎo)采集器的搜索路徑和采集范圍,減少文檔采集的盲目性。

    2、查詢表模塊

    查詢表模塊是一個全文索引數(shù)據(jù)庫,他通過分析網(wǎng)頁,排除HTML等語言的標(biāo)記符號,將出現(xiàn)的所有字或詞抽取出來,

    簡述搜索引擎的基本工作方式(簡述搜索引擎的基本工作方式有)

    并記錄每個字詞出現(xiàn)的網(wǎng)址及相應(yīng)位置(比如是出現(xiàn)在網(wǎng)頁標(biāo)題中,還是出現(xiàn)在簡介或正文中),最后將這些數(shù)據(jù)存入查詢表,成為直接提供給用戶搜索的數(shù)據(jù)庫。

    3、檢索模塊

    檢索模塊是實現(xiàn)檢索功能的程序,其作用是將用戶輸入的檢索表達式拆分成具有檢索意義的字或詞,再訪問查詢表,通過一定的匹配算法獲得相應(yīng)的檢索結(jié)果。返回的結(jié)果一般根據(jù)詞頻和網(wǎng)頁鏈接中反映的信息建立統(tǒng)計模型,按相關(guān)度由高到低的順序輸出。

    二、搜索引擎的基本結(jié)構(gòu)以及功能和特點

    1. 搜索引擎的基本結(jié)構(gòu)

    在網(wǎng)絡(luò)檢索工具發(fā)展的初期,以雅虎為代表的網(wǎng)站分類目錄查詢非常流行,但人們一般只是把基于關(guān)鍵詞檢索類型的網(wǎng)站稱為搜索引擎。隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展和搜索技術(shù)的日臻完善,出現(xiàn)了一批為網(wǎng)絡(luò)用戶所廣泛熟知和習(xí)慣使用的,既具有分類目錄查詢功能,又具有關(guān)鍵詞檢索功能的優(yōu)秀中外通用搜索引擎。但是,任何搜索引擎的設(shè)計,均有其特定的信息索引范圍、獨特的功能和使用方法,以及預(yù)期的用戶群指向。

    搜索引擎(Search Engine)泛指網(wǎng)絡(luò)上以一定的策略搜集信息,對信息進行組織和處理,并為用戶提供信息檢索服務(wù)的工具和系統(tǒng),是網(wǎng)絡(luò)資源檢索工具的總稱,其基本結(jié)構(gòu)為:

    (1).查詢界面

    查詢界面(query interface)是人們最熟悉的部分。當(dāng)人們提起“搜索引擎”時,想到的通常也是搜索引擎的查詢界面。查詢界面就是用戶訪問搜索引擎時輸入搜索詞的頁面。

    (2).搜索引擎結(jié)果的頁面

    查詢界面的另一個方案是搜索引擎展示給用戶的另一面,即搜索引擎結(jié)果頁面(Search Engine Results Pages,SERP)。用戶輸入一個搜索關(guān)鍵詞或短語,單擊Search按鈕后,搜索引擎就在這個頁面上顯示搜索的結(jié)果。用戶的網(wǎng)站最終也希望顯示在這些頁面上,在搜索結(jié)果的排名越高,通過搜索獲得訪問量就越大。

    (3).蜘蛛(爬蟲、機器人)

    查詢界面和搜索結(jié)果頁面是用戶唯一能看到的搜索引擎組建。搜索引擎的其他部分都隱藏在后臺,就算天天都在用搜索引擎的人也看不到。藏在幕后的部分并非不重要,恰恰相反,這些看不到的部分才是搜索引擎最重要的部分,它們決定了搜索結(jié)果在前臺如何顯現(xiàn)。蜘蛛(爬蟲、機器人)在互聯(lián)網(wǎng)抓取網(wǎng)頁,并將其整理成可搜索的數(shù)據(jù),當(dāng)用戶在搜索引擎中進行查詢時,搜索引擎就會搜索數(shù)據(jù)庫中的相關(guān)信息,并將搜索結(jié)果返回給用戶。

    (4).數(shù)據(jù)庫

    每個搜索引擎都有自己的數(shù)據(jù)庫系統(tǒng),或是會連接到某個數(shù)據(jù)系統(tǒng)。這些數(shù)據(jù)庫中存放著網(wǎng)絡(luò)中各個URL的各種信息(由爬蟲、蜘蛛或機器人搜集來的)。這些數(shù)據(jù)庫是大規(guī)模存儲區(qū)域,包含每個URL的多個數(shù)據(jù)點。可以用不同的方法存儲這些數(shù)據(jù),通常各個搜索引擎公司還會有自己的一套方法對這些數(shù)據(jù)進行排序和檢索。

    (5).搜索算法

    搜索引擎的各個部分都非常重要,缺一不可,但其中的搜索算法(search algorithm)是使得各個部分能正常運行的關(guān)鍵所在。更確切地說,搜索算法是構(gòu)建搜索引擎其他各個部分的基礎(chǔ)。搜索引擎的工作方式是以搜索算法為基礎(chǔ)的,它與用戶發(fā)現(xiàn)數(shù)據(jù)的方式緊密相關(guān)。籠統(tǒng)地說,搜索算法就是一個解決問題的過程:提出問題,找出若干個可能的答案,然后將這些答案返回給提出問題的人。

    (6).檢索和排序

    網(wǎng)絡(luò)搜索引擎的數(shù)據(jù)檢索是由蜘蛛、數(shù)據(jù)庫以及搜索算法共同完成的。這三個部分相互配合,根據(jù)用戶在搜索引擎用戶界面中輸入的單詞或短語,從數(shù)據(jù)庫中檢索出所需的數(shù)據(jù)。搜索引擎具體的工作方式取決于其所使用的技術(shù)、理論和具體的實現(xiàn)代碼。真正棘手的事情是搜索結(jié)果的排序。我們將耗費大量的時間和精力,試圖去改變排序的結(jié)果。網(wǎng)頁在搜索引擎中的排名決定了人們能有多大的幾率訪問到該網(wǎng)頁,這無疑會影響到包括收益和廣告預(yù)算在內(nèi)的所有事情。不過,想要確切地知道搜索引擎的排序方法幾乎是不可能的。在大部分情況下,所能做的只是根據(jù)搜索結(jié)果,猜測搜索引擎對結(jié)果的排序方法,然后據(jù)此修改網(wǎng)頁,從而提高網(wǎng)頁的排名。

    2. 搜索引擎的功能

    (1)及時搜索網(wǎng)絡(luò)信息;

    (2)搜索有效的、有價值的網(wǎng)絡(luò)信息;

    (3)有針對性地搜索網(wǎng)絡(luò)信息。

    3.搜索引擎的特點

    搜索的特點指的是用戶使用互聯(lián)網(wǎng)的方式,這包括用戶創(chuàng)建搜索詞時使用的啟發(fā)式方法,以及用戶如何在搜索結(jié)果中做出選擇。搜索引擎的龐大用戶群就是SEO(搜索引擎優(yōu)化)的肥沃土壤。更好地理解用戶使用搜索引擎的方式和原因,以及搜索引擎的工作原理,就能更快捷地實現(xiàn)SEO。

    搜索引擎按不同的分類原則可以有多種分類方式:

    (1)按信息標(biāo)引的方式,搜索引擎可以分為目錄式搜索引擎、機器人搜索引擎和混合式搜索引擎;

    (2)按信息查詢的方式,搜索引擎可分為瀏覽式搜索引擎、關(guān)鍵詞搜索引擎、全文搜索引擎、智能搜索引擎;

    (3)按語種,搜索引擎又分為單語種搜索引擎、多語種搜索引擎和跨語言搜索引擎等。

    (4)按工作方式或者檢索機制來劃分,搜索引擎主要可分為目錄型搜索引擎、索引型搜索引擎和元搜索引擎三種類型。

    用戶在使用搜索引擎進行查詢時,搜索引擎并不是直接去搜索互聯(lián)網(wǎng),它實際上搜索的是已經(jīng)預(yù)先整理好的網(wǎng)頁索引數(shù)據(jù)庫。搜索引擎會預(yù)先收集因特網(wǎng)上幾千萬到幾十億個網(wǎng)頁,對網(wǎng)頁中的關(guān)鍵詞進行索引,建立索引數(shù)據(jù)庫。當(dāng)用戶查找某項內(nèi)容的時候,所有在數(shù)據(jù)庫中保存的相關(guān)網(wǎng)頁都將被搜索出來,再按照某種算法進行排序后,將相關(guān)鏈接作為搜索結(jié)果呈現(xiàn)給用戶。

    4.未來搜索引擎的發(fā)展方向?qū)②呄蛴趥€性化與智能化等方面

    隨著網(wǎng)民應(yīng)用互聯(lián)網(wǎng)熟練水平的進步以及互聯(lián)網(wǎng)技巧的不斷發(fā)展,未來的搜索引擎必定向個性化、智能化、專業(yè)化、多媒體、移動搜索等幾個方向發(fā)展。

    1.個性化搜索:搜索會根據(jù)不同的用戶提供不同的內(nèi)容,“投其所好”。從用戶的社會網(wǎng)絡(luò)、地理位置、行為紀(jì)錄會得到更多信息幫助加深對用戶的理解,使個性化搜索變得更加可能。 SEO在履行時與通用搜索最大的差別是需增強數(shù)據(jù)剖析才能和對行業(yè)的了解,推測不同用戶的搜索習(xí)慣和心理需求。

    2.自然語言搜索:自然語言搜索是搜索智能化的一個體現(xiàn),搜索會變得更加自然,搜索引擎會變成用戶的“信息仆人”。用戶可以用自己認(rèn)為最自然的方式搜索,比如關(guān)鍵詞、自然語言問句、以及其組合。搜索不再是“一錘子買賣”,而是與用戶的交互;優(yōu)化的重點將不再是要害字,而是讓網(wǎng)站更自然的與用戶“對話”,正確及時的“答復(fù)”用戶的搜索問題。

    3.垂直搜索、行業(yè)搜索:專門收錄某一行業(yè)、某一主題和某一地域的信息而樹立。SEO在履行時與通用搜索最大的差別是:由于是針對某個行業(yè),所以在搜索算法上更多的是斟酌行業(yè)內(nèi)用戶的需求,應(yīng)當(dāng)更重視行業(yè)內(nèi)的及時信息和行業(yè)內(nèi)網(wǎng)站的互動。所以作為SEOER應(yīng)該更高深進的懂得某個行業(yè)和最大化應(yīng)用該行業(yè)資源。

    4.多媒體搜索:未來的互聯(lián)網(wǎng)是多媒體數(shù)據(jù)的時期,將來有可能呈現(xiàn)查尋圖片、聲音、電影和flash網(wǎng)站設(shè)計的搜索引擎。此項搜索技術(shù)目前利用最廣的在視頻搜索范疇,其中多媒體文件是以嵌套文件的情勢在網(wǎng)頁內(nèi)部顯示,與通用搜索相比,群體分類將更加過細(xì),SEO能更準(zhǔn)確的把握不同喜好用戶的需求。

    5.移動搜索:雖然在臺式機、智能手機、平板電腦、電視屏幕等各種終端上的搜索都會增加,但是搜索的主要終端將從臺式機轉(zhuǎn)變?yōu)橹悄苁謾C、平板電腦等移動設(shè)備,通過語音與觸摸屏的搜索會更加普遍。移動搜索也將是未來搜索競爭最為激烈的。

    三、百度搜索引擎工作原理是什么,試寫出流程

    你好!

    搜索引擎的工作原理包括如下三個過程:首先在互聯(lián)中發(fā)現(xiàn)、搜集網(wǎng)頁信息;同時對信息進行提取和組織建立索引庫;再由檢索器根據(jù)用戶輸入的查詢關(guān)鍵字,在索引庫中快速檢出文檔,進行文檔與查詢的相關(guān)度評價,對將要輸出的結(jié)果進行排序,并將查詢結(jié)果返回給用戶。

    1、抓取網(wǎng)頁。每個獨立的搜索引擎都有自己的網(wǎng)頁抓取程序(spider)。Spider順著網(wǎng)頁中的超鏈接,連續(xù)地抓取網(wǎng)頁。被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,從一定范圍的網(wǎng)頁出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁。

    發(fā)現(xiàn)、抓取網(wǎng)頁信息需要有高性能的“網(wǎng)絡(luò)蜘蛛”程序(Spider)去自動地在互聯(lián)網(wǎng)中搜索信息。一個典型的網(wǎng)絡(luò)蜘蛛工作的方式,是查看一個頁面,并從中找到相關(guān)信息,然后它再從該頁面的所有鏈接中出發(fā),繼續(xù)尋找相關(guān)的信息,以此類推,直至窮盡。網(wǎng)絡(luò)蜘蛛要求能夠快速、全面。網(wǎng)絡(luò)蜘蛛為實現(xiàn)其快速地瀏覽整個互聯(lián)網(wǎng),通常在技術(shù)上采用搶先式多線程技術(shù)實現(xiàn)在網(wǎng)上聚集信息。通過搶先式多線程的使用,你能索引一個基于URL鏈接的Web頁面,啟動一個新的線程跟隨每個新的URL鏈接,索引一個新的URL起點。當(dāng)然在服務(wù)器上所開的線程也不能無限膨脹,需要在服務(wù)器的正常運轉(zhuǎn)和快速收集網(wǎng)頁之間找一個平衡點。在算法上各個搜索引擎技術(shù)公司可能不盡相同,但目的都是快速瀏覽Web頁和后續(xù)過程相配合。目前國內(nèi)的搜索引擎技術(shù)公司中,比如百度公司的網(wǎng)絡(luò)蜘蛛采用了可定制、高擴展性的調(diào)度算法使得搜索器能在極短的時間內(nèi)收集到最大數(shù)量的互聯(lián)網(wǎng)信息,并把所獲得的信息保存下來以備建立索引庫和用戶檢索。

    2、處理網(wǎng)頁。搜索引擎抓到網(wǎng)頁后,還要做大量的預(yù)處理工作,才能提供檢索服務(wù)。其中,最重要的就是提取關(guān)鍵詞,建立索引庫和索引。其他還包括去除重復(fù)網(wǎng)頁、分詞(中文)、判斷網(wǎng)頁類型、分析超鏈接、計算網(wǎng)頁的重要度/豐富度等。

    索引庫的建立關(guān)系到用戶能否最迅速地找到最準(zhǔn)確、最廣泛的信息,同時索引庫的建立也必須迅速,對網(wǎng)絡(luò)蜘蛛抓來的網(wǎng)頁信息極快地建立索引,保證信息的及時性。對網(wǎng)頁采用基于網(wǎng)頁內(nèi)容分析和基于超鏈分析相結(jié)合的方法進行相關(guān)度評價,能夠客觀地對網(wǎng)頁進行排序,從而極大限度地保證搜索出的結(jié)果與用戶的查詢串相一致。新浪搜索引擎對網(wǎng)站數(shù)據(jù)建立索引的過程中采取了按照關(guān)鍵詞在網(wǎng)站標(biāo)題、網(wǎng)站描述、網(wǎng)站URL等不同位置的出現(xiàn)或網(wǎng)站的質(zhì)量等級等建立索引庫,從而保證搜索出的結(jié)果與用戶的查詢串相一致。新浪搜索引擎在索引庫建立的過程中,對所有數(shù)據(jù)采用多進程并行的方式,對新的信息采取增量式的方法建立索引庫,從而保證能夠迅速建立索引,使數(shù)據(jù)能夠得到及時的更新。

    3、提供檢索服務(wù)。用戶輸入關(guān)鍵詞進行檢索,搜索引擎從索引數(shù)據(jù)庫中找到匹配該關(guān)鍵詞的網(wǎng)頁;為了用戶便于判斷,除了網(wǎng)頁標(biāo)題和URL外,還會提供一段來自網(wǎng)頁的摘要以及其他信息。

    用戶檢索的過程是對前兩個過程的檢驗,檢驗該搜索引擎能否給出最準(zhǔn)確、最廣泛的信息,檢驗該搜索引擎能否迅速地給出用戶最想得到的信息。對于網(wǎng)站數(shù)據(jù)的檢索,新浪搜索引擎采用多進程的方式在索引庫中檢索,大大減少了用戶的等待時間,并且在用戶查詢高峰時服務(wù)器的負(fù)擔(dān)不會過高(平均的檢索時間在0.3秒左右)。對于網(wǎng)頁信息的檢索,作為國內(nèi)眾多門戶網(wǎng)站的網(wǎng)頁檢索技術(shù)提供商的百度公司其搜索引擎運用了先進的多線程技術(shù),采用高效的搜索算法和穩(wěn)定的UNIX平臺,因此可大大縮短對用戶搜索請求的響應(yīng)時間。作為慧聰I系列應(yīng)用軟件產(chǎn)品之一的I-Search4000采用的超大規(guī)模動態(tài)緩存技術(shù),使一級響應(yīng)的覆蓋率達到75%以上,獨有的自學(xué)能力可自動將二級響應(yīng)的覆蓋率擴充到20%以上。

    我現(xiàn)在是在搜外網(wǎng)上學(xué)習(xí),他們網(wǎng)站上有很多免費的視頻教程可以學(xué),建議去看看!

    四、中國搜索引擎檢索的主要方式有哪兩種?

    現(xiàn)有的搜索引擎基本上分為三類:

    1.1 single search engine(獨立搜索引擎) 它的特點是僅在搜索引擎自身的數(shù)據(jù)庫檢索信息,比如Yahoo。

    1.2 Meta search engine(元搜索引擎) 它在檢索信息時通過調(diào)用其它多個獨立的搜索引擎來完成檢索功能,并且能夠?qū)亩鄠€獨立搜索引擎查詢的結(jié)果進行不同程度的處理,比如刪除重復(fù)結(jié)果、校驗連接、結(jié)果按照相關(guān)度排序等。元搜索引擎本身可以有也可以沒有自己的數(shù)據(jù)庫。由于不同的元搜索引擎掛接的獨立搜索引擎各不相同,且各自獨立的搜索引擎在查詢語法上的差別較大,使得元搜索引擎本身僅支持AND、0R、N0T等簡單的語法操作,返回的結(jié)果只能滿足“最低常用分母”,即不能提高搜索結(jié)果的準(zhǔn)確性。

    1.3 Net search engine(網(wǎng)絡(luò)搜索軟件) 就是網(wǎng)絡(luò)用戶可以將相應(yīng)的搜索軟件下載至本地的計算機上,安裝查詢,這是一種具有網(wǎng)絡(luò)查詢功能的離線瀏覽器。相對于元搜索引擎,它可以靈活地控制輸出結(jié)果,其最大特點是方便用戶使用和能快速地查詢網(wǎng)絡(luò)相關(guān)資源。2 網(wǎng)絡(luò)搜索引擎的工作原理及其基本構(gòu)成

    用戶檢索信息時,搜索引擎是根據(jù)用戶的查詢要求,按照一定的算法從索引數(shù)據(jù)庫中查找對應(yīng)的信息返回給用戶。為了保證用戶查找信息的精度和新鮮度。對于獨立的搜索引擎而言.還需要建立并維護一個龐大的數(shù)據(jù)庫。獨立搜索引擎中的索引數(shù)據(jù)庫中的信息是通過一種叫做網(wǎng)絡(luò)蜘蛛(spider)的程序軟件定期在網(wǎng)上爬行,通過訪問公共網(wǎng)絡(luò)中公開區(qū)域的每一個站點采集網(wǎng)頁,對網(wǎng)絡(luò)信息資源進行收集,然后利用索引軟件對收集的信息進行自動標(biāo)引,創(chuàng)建一個可供用戶按照關(guān)鍵字等進行查詢的web頁索引數(shù)據(jù)庫,搜索軟件通過索引數(shù)據(jù)庫為用戶提供查詢服務(wù)。所以,一般的搜索引擎主要由網(wǎng)絡(luò)蜘蛛、索引和搜索軟件三部分組成.

    網(wǎng)絡(luò)蜘蛛。是一個功能很強的程序,它會定期根據(jù)預(yù)先設(shè)定的地址去查看對應(yīng)的網(wǎng)頁,如網(wǎng)頁發(fā)生變化則重新獲取該網(wǎng)頁,否則根據(jù)該網(wǎng)頁中的鏈接繼續(xù)去訪問。網(wǎng)絡(luò)蜘蛛訪問頁面的過程是對互連網(wǎng)上信息遍歷的過程。為了保證網(wǎng)絡(luò)蜘蛛遍歷信息的廣度,一般事先設(shè)定_ 些重要的鏈接,然后進行遍歷。在遍歷的過程中不斷記錄網(wǎng)頁中的鏈接,不斷地遍歷下去,直到訪問完所有的鏈接。

    索引軟件。網(wǎng)絡(luò)蜘蛛將遍歷搜索集得到的網(wǎng)頁存放在數(shù)據(jù)庫中。為了提高檢索的效率,需要建立索引。索引一般為倒排檔索引。

    搜索軟件。該軟件用于篩選索引數(shù)據(jù)庫中無數(shù)的網(wǎng)頁信息,選擇出符合用戶檢索要求的網(wǎng)頁并對它們進行分級排序。然后將分級排序后的結(jié)果顯示給用戶。

    3 搜索引擎的主要性能評價指標(biāo)

    3.1 搜索引擎建立索引的方法 數(shù)據(jù)庫中的索引一般是按照倒排文檔的文件格式存放,在建立例排索引的時候,不同的搜索引擎有不同的選項。有些搜索引擎對于信息頁面建立全文索引;而有些只建立摘要部分,或者是段落前面部分的索引;還有些搜索引擎,比如Google建立索引的時候,同時還考慮超文本的不同標(biāo)記所表示的不同含義。如粗體、大字體顯示的東西往往比較重要;放在錨鏈中的信息往往是它所指向頁面的信息的概括,所以用它來作為所指向的頁面的重要信息。Google、infoseek還在建立索引的過程中收集頁面中的超鏈接。這些超鏈接反映了收集到的信息之間的空間結(jié)構(gòu),利用這些結(jié)果信息可以提高頁面相關(guān)度判別時的準(zhǔn)確度。由于索引不同,在檢索信息時產(chǎn)生的結(jié)果會不同。

    3.2 搜索引擎的檢索功能搜索引擎所支持的檢索功能的多少及其實現(xiàn)的優(yōu)劣,直接決定了檢索效果的好壞,所以網(wǎng)絡(luò)檢索工具除了要支持諸如布爾檢索、鄰近檢索、截詞檢索、字段檢索等基本的檢索功能之外,更應(yīng)該根據(jù)網(wǎng)上信息資源的變化,及時地應(yīng)用新技術(shù)、新方法,提高高級檢索功能。另外,由于中文信息特有的編碼不統(tǒng)一問題,所以如果搜索引擎能夠?qū)崿F(xiàn)不同內(nèi)碼之間的自動轉(zhuǎn)換,用戶就會全面檢索大陸、港臺乃至全世界的中文信息。這樣不但提高了搜索引擎的質(zhì)量,而且會得到用戶的支持。

    3.3 搜索引擎的檢索效果 檢索效果可以從響應(yīng)時間、查全率、查準(zhǔn)率和相關(guān)度方面來衡量。響應(yīng)時間是用戶輸入檢索式開始查詢到檢出結(jié)果的時間。查全率是指一次搜索結(jié)果中符合用戶要求的數(shù)目與和用戶查詢相關(guān)的總數(shù)之比;查準(zhǔn)率是指一次搜索結(jié)果集中符合用戶要求的數(shù)目與該次搜索結(jié)果總數(shù)之比;相似度是指用戶查詢與搜索結(jié)果之間相似度的一種度量。雖然由于無法估計網(wǎng)絡(luò)上與某個檢索提問相關(guān)的所有信息數(shù)量。所以目前尚沒有定量計算查全率的更好方法,但是它作為評價檢索效果的指標(biāo)還是值得保留。查準(zhǔn)率也是一個復(fù)雜的概念,一方面表示搜索引擎對搜索結(jié)果的排序,另一方面卻體現(xiàn)了搜索引擎對垃圾網(wǎng)頁的抗干擾能力??傊粋€好的搜索引輦應(yīng)該具有較快的響應(yīng)速度和高的查全率和查準(zhǔn)率,或者有極大的相似度。

    3.4 搜索引擎的受歡迎程度 搜索引擎的受歡迎程度體現(xiàn)了用戶對于搜索引擎的偏愛程度,知名度高、性能穩(wěn)定和搜索質(zhì)量好的搜索引擎很受用戶的青睞。搜索引擎的受歡迎程度也會隨著它的知名度和服務(wù)水平的變化而動態(tài)的變化。搜索引擎的服務(wù)水平和它所收集的信息量、信息的新鮮度和查詢的精度相關(guān)。隨著各種新的搜索技術(shù)的出現(xiàn),智能化的、支持多媒體檢索的搜索引擎將越來越受用戶的歡迎。

    另外,搜索引擎的信息占有量也可以作為評價搜索引擎性能的指標(biāo)。綜上所述,評價搜索引擎的性能指標(biāo)可以概括為:a.建立索引的方法(全文索引,部分索引,按重要程度索引等);b.檢索功能(支持的檢索技術(shù),多媒體檢索,內(nèi)碼處理等);C.查詢效果(響應(yīng)時間,查全率,查準(zhǔn)率,相關(guān)度);d.受歡迎程度;e.信息占有量。4 搜索引擎檢索信息的局限

    2001年Roper的調(diào)查指出,36% 的互連網(wǎng)用戶一個星期花超過2個小時的時間在網(wǎng)上搜索;71% 的用戶在使用搜索引擎時遇到過麻煩;平均搜索12分鐘以后發(fā)現(xiàn)搜索受挫。另一項由Keen所做的調(diào)查顯示,31% 的人使用搜索引擎尋找答案,網(wǎng)上查找答案的半數(shù)以上都不成功。從這些調(diào)查數(shù)據(jù)中不難看出。目前的搜索引擎仍然存在不少的局限性。概括起來大致有以下幾個方面。

    4.1 搜索引擎對信息的標(biāo)引深度不夠 目前,搜索引擎檢索的結(jié)果往往只提供一些線形的網(wǎng)址和包括關(guān)鍵詞的網(wǎng)頁信息,與人們對它的預(yù)期存在較大的距離,或者返回過多的無用信息,或者信息丟失,特別是對特定的文獻數(shù)據(jù)庫的檢索顯得無能為力。

    4.2 搜索引擎的信息量占有不足 作為搜索引擎必須占有相當(dāng)大的信息量才能具有一定的查全率和實用性。目前還沒有一種覆蓋整個因特網(wǎng)信息資源的搜索引擎。

    4.3 搜索引擎的查準(zhǔn)率不高 分析起來,這是因為:一方面由于網(wǎng)上信息數(shù)量巨大、內(nèi)容龐大、良莠不齊,信息的質(zhì)量得不到保障;另一方面是由于大多數(shù)搜索引擎的索引工作由程序自動完成,根據(jù)網(wǎng)頁中詞頻及詞的位置等因素確定關(guān)鍵詞,有的網(wǎng)站為了提高點擊率,將一些與網(wǎng)頁主題并不相關(guān)的熱門詞匯以隱含方式放在頁面上,并重復(fù)多次,從而造成查準(zhǔn)率低。

    4.4 檢索功能單一,缺乏靈活性 目前許多搜索引擎的查詢方法比較單一,一般只提供分類查詢方式和關(guān)鍵詞查詢方式。不能從文獻的多個方面對檢索提問進行限制,只能就某一關(guān)鍵詞或者概念進行籠統(tǒng)的檢索。

    4.5 搜索引擎自身的技術(shù)局限像目前部分搜索引擎還不能支持對多媒體信息的檢索。造成上述信息檢索困難的原因?qū)嵸|(zhì)在于搜索引擎對要檢索的信息僅僅采用機械的詞語匹配來實現(xiàn),缺乏知識處理能力和理解能力。也就是說搜索引擎無法處理用戶看來是非常普通的常識性知識,更不能處理隨用戶不同而變化的個性化知識、隨地域不同而變化的區(qū)域性知識以及隨領(lǐng)域不同而變化的專業(yè)性知識等等。5 搜索引擎未來的發(fā)展趨勢

    新一代搜索引擎的發(fā)展目標(biāo)就是采用新興的搜索技術(shù)為用戶提供更方便易用、更精確的搜索工具來滿足用戶的信息查詢需要。技術(shù)上,應(yīng)該在自然語言理解技術(shù)上有所突破,以XML可擴展標(biāo)記語言為主,并使用向?qū)Ъ夹g(shù)。下面就搜索引擎的發(fā)展趨勢談幾點看法。

    <strong>答案補充</strong>

    5.1 垂直化專業(yè)領(lǐng)域搜索 由于社會分工的加大,用戶從事的職業(yè)有所不同,不同用戶對信息搜索也往往有自己的專業(yè)要求。由于綜合性的搜索引擎收錄各方面、各學(xué)科、各行業(yè)的信息,因而搜索不相關(guān)的信息太多,專業(yè)垂直引擎則可以解決這個問題,垂直類搜索引擎是只面向某一特定的領(lǐng)域,專注于自己的特長和核心技術(shù),能夠保證對該領(lǐng)域信息的完全收錄與及時更新。因此,基于專業(yè)領(lǐng)域的“垂直搜索引擎”開始成為搜索引擎發(fā)展的一個新趨勢。

    5.2 智能化搜索 傳統(tǒng)的搜索引擎使用方法是被動搜索,而準(zhǔn)確的搜索應(yīng)建立在對收錄信息和搜索請求的理解之上。顯然,基于自然語言理解技術(shù)的搜索引擎由于可以同用戶使用自然語言交談,并深刻理解用戶的搜索請求,則查詢的結(jié)果更

    加準(zhǔn)確。

    5.3 關(guān)聯(lián)式的綜合搜索 所謂關(guān)聯(lián)式綜合搜索,是這樣一種一站式的搜索服務(wù),它使得用戶在搜索時只需要輸入一次查詢目標(biāo),即可以在同一界面得到各種有關(guān)聯(lián)的查詢結(jié)果,這種服務(wù)的關(guān)鍵在于有一架構(gòu)在XML基礎(chǔ)上的整合資訊平臺。<strong>答案補充</strong>

    5.4 個性化搜索 提高搜索精確度的另一個途徑是提供個性化的搜索,也就是將搜索建立在個性化的搜索環(huán)境之下,其核心是跟蹤用戶的搜索行為,通過對用戶的不斷了解、分析,積累用戶的搜索個性化數(shù)據(jù)來提高用戶的搜索效率。

    5.5 結(jié)構(gòu)化搜索 所謂結(jié)構(gòu)化搜索,是指充分利用XML等技術(shù)使信息結(jié)構(gòu)化,同時使用查詢結(jié)構(gòu)化,從而使搜索的準(zhǔn)確度大大提高。

    5.6 本土化的搜索 世界上許多著名的搜索引擎都在美國,它們以英語為基礎(chǔ),完全按他們的思維方式和觀點搜集和檢索資料,這對于全球不同國家的用戶來說是顯然不合適的。各國的文化傳統(tǒng)、思維方式和生活習(xí)慣不同,在對于網(wǎng)站的內(nèi)容的搜索要求上也就存在差異。搜索結(jié)果要符合當(dāng)?shù)赜脩舻囊螅阉饕婢捅仨毐就粱?/p>

    5.7 多媒體搜索。隨著寬帶技術(shù)的發(fā)展,未來的互聯(lián)網(wǎng)是多媒體數(shù)據(jù)的時代,開發(fā)出可查詢圖像、聲音、圖片和電影的搜索引擎是一個新的方向,這也將極大地滿足用戶的需求。未來的搜索引擎應(yīng)該信息量更大、搜索速度更快、搜索精度更高和更能夠滿足用戶的信息查詢需求。

    以上就是關(guān)于簡述搜索引擎的基本工作方式相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。


    推薦閱讀:

    簡述詳情頁設(shè)計思路(簡述詳情頁設(shè)計思路)

    公民基本道德規(guī)范的主要內(nèi)容(簡述我國公民基本道德規(guī)范的主要內(nèi)容)

    景觀設(shè)計小品簡述(景觀設(shè)計小品簡述范文)

    視頻剪輯可以賺錢嗎(剪輯視頻怎么賺錢怎么做)

    杭州java開發(fā)(杭州java開發(fā)哪些公司可以去)