HOME 首頁
SERVICE 服務產(chǎn)品
XINMEITI 新媒體代運營
CASE 服務案例
NEWS 熱點資訊
ABOUT 關于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    全文搜索引擎的概念

    發(fā)布時間:2023-04-17 17:49:13     稿源: 創(chuàng)意嶺    閱讀: 61        

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關于全文搜索引擎的概念的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。

    開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

    只需要輸入關鍵詞,就能返回你想要的內(nèi)容,越精準,寫出的就越詳細,有微信小程序端、在線網(wǎng)頁版、PC客戶端

    官網(wǎng):https://ai.de1919.com

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務客戶遍布全球各地,如需了解SEO相關業(yè)務請撥打電話175-8598-2043,或添加微信:1454722008

    本文目錄:

    全文搜索引擎的概念

    一、全文搜索引擎目錄搜索引擎與元搜索引擎的區(qū)別?

    全文搜索引擎、目錄搜索引擎與元搜索引擎的區(qū)別為:數(shù)據(jù)來源不同、操作不同、得到網(wǎng)站不同。

    一、數(shù)據(jù)來源不同

    1、全文搜索引擎:全文搜索引擎的數(shù)據(jù)來源為自動抓取的網(wǎng)頁生成索引。

    2、目錄搜索引擎:目錄搜索引擎的數(shù)據(jù)來源為人工收錄分類的數(shù)據(jù)庫。

    3、元搜索引擎:元搜索引擎的數(shù)據(jù)來源為其他搜索引擎獲取結(jié)果。

    二、操作不同

    1、全文搜索引擎:全文搜索引擎通過從互聯(lián)網(wǎng)上提取的各個網(wǎng)站的信息而建立的數(shù)據(jù)庫中,檢索與用戶查詢條件匹配的相關記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶。

    2、目錄搜索引擎:目錄搜索引擎通過現(xiàn)有收錄的網(wǎng)站信息按目錄分類的網(wǎng)站鏈接列表匹配,將匹配結(jié)果返回給用戶。

    3、元搜索引擎:元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,并將結(jié)果返回給用戶。

    全文搜索引擎的概念

    三、得到網(wǎng)站不同

    1、全文搜索引擎:全文搜索引擎得到的網(wǎng)站信息更及時。

    2、目錄搜索引擎:目錄搜索引擎得到的網(wǎng)站質(zhì)量更高。

    3、元搜索引擎:元搜索引擎得到的網(wǎng)站信息數(shù)量更多。

    二、搜索引擎分為哪幾類

    問題一:搜索引擎都有哪些分類? 【分類】

    1.全文索引

    全文搜索引擎是名副其實的搜索引擎,國外代表有Google,國內(nèi)則有著名的百度搜索。它們從互聯(lián)網(wǎng)提取各個網(wǎng)站的信息(以網(wǎng)頁文字為主),建立起數(shù)據(jù)庫,并能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結(jié)果。

    根據(jù)搜索結(jié)果來源的不同,全文搜索引擎可分為兩類,一類擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,能自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用,上面提到的Google和百度就屬于此類;另一類則是租用其他搜索引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,如Lycos搜索引擎。

    2.目錄索引

    目錄索引雖然有搜索功能,但嚴格意義上不能稱為真正的搜索引擎,只是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以按照分類目錄找到所需要的信息,不依靠關鍵詞(Keywords)進行查詢。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo!、新浪分類目錄搜索。

    3.元搜索引擎

    元搜索引擎(META Search Engine)接受用戶查詢請求后,同時在多個搜索引擎上搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來源排列搜索結(jié)果,如Dogpile;有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo。

    其他非主流搜索引擎形式

    (1) *** 式搜索引擎:該搜索引擎類似元搜索引擎,區(qū)別在于它并非同時調(diào)用多個搜索引擎進行搜索,而是由用戶從提供的若干搜索引擎中選擇,如HotBot在2002年底推出的搜索引擎。

    (2)門戶搜索引擎:AOL Search、MSN Search等雖然提供搜索服務,但自身既沒有分類目錄也沒有網(wǎng)頁數(shù)據(jù)庫,其搜索結(jié)果完全來自其他搜索引擎。

    (3)免費鏈接列表(Free For All Links,簡稱FFA):一般只簡單地滾動鏈接條目,少部分有簡單的分類目錄,不過規(guī)模要比Yahoo!等目錄索引小很多。

    【工作原理】

    1、抓取網(wǎng)頁

    每個獨立的搜索引擎都有自己的網(wǎng)頁抓取程序(spider)。Spider順著網(wǎng)頁中的超鏈接,連續(xù)地抓取網(wǎng)頁。由于互聯(lián)網(wǎng)中超鏈接的應用很普遍,理論上,從一定范圍的網(wǎng)頁出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁。

    2、處理網(wǎng)頁

    搜索引擎抓到網(wǎng)頁后,還要做大量的預處理工作,才能提供檢索服務。其中,最重要的就是提取關鍵詞,建立索引文件。其他還包括去除重復網(wǎng)頁、分析超鏈接、計算網(wǎng)頁的重要度。

    3、提供檢索服務

    用戶輸入關鍵詞進行檢索,搜索引擎從索引數(shù)據(jù)庫中找到匹配該關鍵詞的網(wǎng)頁;為了用戶便于判斷,除了網(wǎng)頁標題和URL外,還會提供一段來自網(wǎng)頁的摘要以及其他信息。

    問題二:搜索引擎都有哪幾種類型 搜索引擎主要分類,及特點:

    一、全文索引

    全文搜索引擎是目前廣泛應用的主流搜索引擎,國外代表搜索是Google,國內(nèi)則有最大中文搜索百度。它們從互聯(lián)網(wǎng)提取各個網(wǎng)站的信息(以網(wǎng)頁文字為主),建立起數(shù)據(jù)庫,并能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結(jié)果。

    根據(jù)搜索結(jié)果來源的不同,全文搜索引擎可分為兩類,一類擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,能自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用,上面提到的Google和360搜索就屬于此類;另一類則是租用其他搜索引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,如Lycos搜索引擎。

    二、目錄索引

    目錄索引也稱為:分類檢索,是因特網(wǎng)上最早提供WWW資源查詢的服務,主要通過搜集和整理因特網(wǎng)的資源,根據(jù)搜索到網(wǎng)頁的內(nèi)容,將其網(wǎng)址分配到相關分類主題目錄的不同層次的類目之下,形成像圖書館目錄一樣的分類樹形結(jié)構(gòu)索引。目錄索引無需輸入任何文字,只要根據(jù)網(wǎng)站提供的主題分類目錄,層層點擊進入,便可查到所需的網(wǎng)絡信息資源。

    三、元搜索引擎

    元搜索引擎(META Search Engine)接受用戶查詢請求后,同時在多個搜索引擎上搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來源排列搜索結(jié)果,如Dogpile;有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo。

    四、垂直搜索引擎

    垂直搜索引擎為2006年后逐步興起的一類搜索引擎。不同于通用的網(wǎng)頁搜索引擎,垂直搜索專注于特定的搜索領域和搜索需求(例如:機票搜索、旅游搜索、生活搜索、小說搜索、視頻搜索等等),在其特定的搜索領域有更好的用戶體驗。相比通用搜索動輒數(shù)千臺檢索服務器,垂直搜索需要的硬件成本低、用戶需求特定、查詢的方式多樣。

    五、 *** 式搜索引擎

    *** 式搜索引擎:該搜索引擎類似元搜索引擎,區(qū)別在于它并非同時調(diào)用多個搜索引擎進行搜索,而是由用戶從提供的若干搜索引擎中選擇,如HotBot在2002年底推出的搜索引擎。

    六、門戶搜索引擎

    門戶搜索引擎:AOLSearch、MSNSearch等雖然提供搜索服務,但自身既沒有分類目錄也沒有網(wǎng)頁數(shù)據(jù)庫,其搜索結(jié)果完全來自其他搜索引擎。

    七、免費鏈接列表

    免費鏈接列表(Free For All Links簡稱FFA):一般只簡單地滾動鏈接條目,少部分有簡單的分類目錄,不過規(guī)模要比Yahoo!等目錄索引小很多。

    希望可以幫助到你~望采納哦~謝謝~ 看評論

    問題三:目前常用的搜索引擎分為哪兩類? 分為三類:全文搜索引擎(例如google)目錄搜索(163),元搜索引擎

    問題四:搜索引擎分幾種 可分為三種 搜索引擎分類 搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。 全文搜索引擎 全文搜索引擎是名副其實的搜索引擎,國外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,國內(nèi)著名的有百度(Baidu)。它們都是通過從互聯(lián)網(wǎng)上提取的各個網(wǎng)站的信息(以網(wǎng)頁文字為主)而建立的數(shù)據(jù)庫中,檢索與用戶查詢條件匹配的相關記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶,因此他們是真正的搜索引擎。 從搜索結(jié)果來源的角度,全文搜索引擎又可細分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,并自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用,如上面提到的7家引擎;另一種則是租用其他引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,如Lycos引擎。 目錄索引 目錄索引雖然有搜索功能,但在嚴格意義上算不上是真正的搜索引擎,僅僅是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以不用進行關鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo雅虎。其他著名的還有Open Directory Project(DMOZ)、LookSmart、About等。國內(nèi)的搜狐、新浪、網(wǎng)易搜索也都屬于這一類。 元搜索引擎(META Search Engine) 元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來源引擎排列搜索結(jié)果,如Dogpile,有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo。 除上述三大類引擎外,還有以下幾種非主流形式: *** 式搜索引擎:如HotBot在2002年底推出的引擎。該引擎類似META搜索引擎,但區(qū)別在于不是同時調(diào)用多個引擎進行搜索,而是由用戶從提供的4個引擎當中選擇,因此叫它“ *** 式”搜索引擎更確切些。 門戶搜索引擎:如AOL Search、MSN Search等雖然提供搜索服務,但自身即沒有分類目錄也沒有網(wǎng)頁數(shù)據(jù)庫,其搜索結(jié)果完全來自其他引擎。 免費鏈接列表(Free For All Links,簡稱FFA):這類網(wǎng)站一般只簡單地滾動排列鏈接條目,少部分有簡單的分類目錄,不過規(guī)模比起Yahoo等目錄索引來要小得多。 由于上述網(wǎng)站都為用戶提供搜索查詢服務,為方便起見,我們通常將其統(tǒng)稱為搜索引擎。 搜索引擎基本工作原理 了解搜索引擎的工作原理對我們?nèi)粘K阉鲬煤途W(wǎng)站提交推廣都會有很大幫助。 全文搜索引擎 在搜索引擎分類部分我們提到過全文搜索引擎從網(wǎng)站提取信息建立網(wǎng)頁數(shù)據(jù)庫的概念。搜索引擎的自動信息搜集功能分兩種。一種是定期搜索,即每隔一段時間(比如Google一般是28天),搜索引擎主動派出“蜘蛛”程序,對一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會自動提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫。 另一種是提交網(wǎng)站搜索,即網(wǎng)站擁有者主動向搜索引擎提交網(wǎng)址,它在一定時間內(nèi)(2天到數(shù)月不等)定向向你的網(wǎng)站派出“蜘蛛”程序,掃描你的網(wǎng)站并將有關信息存入......>>

    問題五:目前常用的搜索引擎分為哪兩類? 樓主!不是2類,是3類。1。全文搜索引擎(例如google)2。目錄搜索(163),3。元搜索引擎

    問題六:中國主要的搜索引擎有哪幾個? 百度(baidu)中文搜索引擎

    全球最大中文搜索引擎。提供網(wǎng)頁快照、網(wǎng)頁預覽/預覽全部網(wǎng)頁、相關搜索詞、錯別字糾正提示、新聞搜索、Flash搜索、信息快遞搜索、百度搜霸、搜索援助中心。

    北大天網(wǎng)中英文搜索引擎

    由北京大學開發(fā),簡體中文、繁體中文和英文三個版本。提供全文檢索、新聞組檢索、FTP檢索(北京大學、中科院等FTP站點)。目前大約收集了100萬個WWW頁面(國內(nèi))和14萬篇Newsgroup(新聞組)文章。支持簡體中文、繁體中文、英文關鍵詞搜索,不支持數(shù)字關鍵詞和URL名檢索。

    新浪搜索引擎

    互聯(lián)網(wǎng)上規(guī)模 最大的中文搜索引擎之一。設大類目錄18個,子目1萬多個,收錄網(wǎng)站20余萬。提供網(wǎng)站、中文網(wǎng)頁、英文網(wǎng)頁、新聞、漢英辭典、軟件、滬深行情、游戲等多種資源的查詢。

    雅虎中國搜索引擎

    Yahoo!是世界上最著名的目錄搜索引擎。雅虎中國于1999年9月正式開通,是雅虎在全球的第20個網(wǎng)站。Yahoo!目錄是一個Web資源的導航指南,包括14個主題大類的內(nèi)容。

    搜狐搜索引擎

    搜狐于1998年推出中國首家大型分類查詢搜索引擎,到現(xiàn)在已經(jīng)發(fā)展成為中國影響力最大的分類搜索引擎。每日頁面瀏覽量超過800萬,可以查找網(wǎng)站、網(wǎng)頁、新聞、網(wǎng)址、軟件、黃頁等信息。

    網(wǎng)易搜索引擎

    網(wǎng)易新一代開放式目錄管理系統(tǒng)(ODP)。擁有近萬名義務目錄管理員。為廣大網(wǎng)民創(chuàng)建了一個擁有超過一萬個類目,超過25萬條活躍站點信息,日增加新站點信息500~1000條,日訪問量超過500萬次的專業(yè)權威的目錄查詢體系。

    3721網(wǎng)絡實名/智能搜索

    3721公司提供的中文上網(wǎng)服務DD3721網(wǎng)絡實名,使用戶無須記憶復雜的網(wǎng)址,直接輸入中文名稱,即可直達網(wǎng)站。3721智能搜索系統(tǒng)不僅含有精確的網(wǎng)絡實名搜索結(jié)果,同時集成多家搜索引擎。

    360綜合搜索引擎

    問題七:常用搜索引擎按其工作方式可分為哪些 搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。

    你所說的兩種是不包括目錄索引,因為目錄索引雖然有搜索功能,但從嚴格意義上算不上是真正的搜索引擎,只是一個目錄列表而已。用戶完全可以不用進行關鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。從這個角度說,搜索引擎按其工作方式分為全文搜索引擎和元搜索引擎兩種。

    問題八:搜索引擎可分為哪兩種類型,各有什么特點 與全文搜索引擎相比,目錄索引有許多不同之處。

    首先,搜索引擎屬于自動網(wǎng)站檢索,而目錄索引則完全依賴手工操作。用戶提交網(wǎng)站后,目錄編輯人員會親自瀏覽你的網(wǎng)站,然后根據(jù)一套自定的評判標準甚至編輯人員的主觀印象,決定是否接納你的網(wǎng)站。搜索引擎其次,搜索引擎收錄網(wǎng)站時,只要網(wǎng)站本身沒有違反有關的規(guī)則,一般都能登錄成功。而目錄索引對網(wǎng)站的要求則高得多,有時即使登錄多次也不一定成功。尤其象Yahoo這樣的超級索引,登錄更是困難。

    此外,在登錄搜索引擎時,我們一般不用考慮網(wǎng)站的分類問題,而登錄目錄索引時則必須將網(wǎng)站放在一個最合適的目錄(Directory)。

    最后,搜索引擎中各網(wǎng)站的有關信息都是從用戶網(wǎng)頁中自動提取的,所以從用戶的角度看,我們擁有更多的自 *** ;而目錄索引則要求必須手工另外填寫網(wǎng)站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認為你提交網(wǎng)站的目錄、網(wǎng)站信息不合適,他可以隨時對其進行調(diào)整,當然事先是不會和你商量的。

    目錄索引,顧名思義就是將網(wǎng)站分門別類地存放在相應的目錄中,因此用戶在查詢信息時,可選擇關鍵詞搜索,也可按分類目錄逐層查找。如以關鍵詞搜索,返回的結(jié)果跟搜索引擎一樣,也是根據(jù)信息關聯(lián)程度排列網(wǎng)站,只不過其中人為因素要多一些。如果按分層目錄查找,某一目錄中網(wǎng)站的排名則是由標題字母的先后順序決定(也有例外)。

    ――選自網(wǎng)頁

    問題九:搜索引擎按其工作原理分為哪幾類 搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。

    你所說的兩種是不包括目錄索引,因為目錄索引雖然有搜索功能,但從嚴格意義上算不上是真正的搜索引擎,只是一個目錄列表而已。用戶完全可以不用進行關鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。從這個角度說,搜索引擎按其工作方式分為全文搜索引擎和元搜索引擎兩種。

    問題十:常用的搜索引擎有哪些 國內(nèi),百度,360,搜狗,移動端,除了上面三個,還有神馬搜索;國際常用,Google,Yahoo,必應

    三、全文搜索引擎特點是什么以及代表網(wǎng)站的名稱是什么

    就是以數(shù)據(jù)諸如文字,聲音,圖像等為主要內(nèi)容,以檢索文獻資料的內(nèi)容而不是外表特征的一種檢索技術·

    主要該系統(tǒng)有TRS系統(tǒng)·天宇系統(tǒng)·等

    與其他搜索引擎相比,全文搜索引擎的顯著特點是它能夠以文中任何一個有檢索意義的詞作為檢索入口,而且取得的檢索結(jié)果是原始文獻,而不是文獻線索

    隨著計算機產(chǎn)業(yè)的發(fā)展,以計算機存儲設備為載體的電子信息愈來愈多,這些信息大致可分為兩類:結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)指的是諸如企業(yè)財務帳目和生產(chǎn)數(shù)據(jù)、學生的分數(shù)數(shù)據(jù)等等,非結(jié)構(gòu)化數(shù)據(jù)的則是一些文本數(shù)據(jù)、圖象聲音等多媒體數(shù)據(jù)等等。據(jù)統(tǒng)計,非結(jié)構(gòu)化數(shù)據(jù)占有整個信息量的80%以上。對于結(jié)構(gòu)化數(shù)據(jù),用RDBMS(關系數(shù)據(jù)庫管理系統(tǒng))技術來管理是目前最好的一種方式。但是由于RDBMS自身底層結(jié)構(gòu)的緣故使得它管理大量非結(jié)構(gòu)化數(shù)據(jù)顯得有些先天不足,特別是查詢這些海量非結(jié)構(gòu)化數(shù)據(jù)的速度較慢。而通過全文檢索技術就能高效地管理這些非結(jié)構(gòu)化數(shù)據(jù)。

    經(jīng)過幾年的發(fā)展,全文檢索從最初的字符串匹配程序已經(jīng)演進到能對超大文本、語音、圖像、活動影像等非結(jié)構(gòu)化數(shù)據(jù)進行綜合管理的大型軟件。由于內(nèi)涵和外延的深刻變化,全文檢索系統(tǒng)已成為新一代管理信息系統(tǒng)的代名詞,衡量全文檢索系統(tǒng)的基本指標也逐漸形成規(guī)范。

    首先,我們關注的是查全率,即系統(tǒng)在進行某一檢索時,檢索出的相關資料量與系統(tǒng)資料庫中相關資料總量的比率。查準率則是保證我們找到最有用資料的一個關鍵,是系統(tǒng)在進行某一檢索時,檢索出的有用資料數(shù)量與檢索出資料總量的比率。檢索速度或者說響應時間是提高工作效率的保障,指的是從提交檢索課題到查出資料結(jié)果所需的時間。最基本的檢索速度是應該達“千萬漢字,秒級響應"。還有諸如收錄范圍(所查找的范圍)、用戶負擔(用戶在檢索過程中付出精力的總和)、輸出形式 (輸出信息表現(xiàn)形式)等指標也是衡量全文檢索系統(tǒng)優(yōu)劣的要素。

    搜索引擎應該是全文檢索技術最主要的一個應用。目前,搜索引擎的使用已成為排在收發(fā)電子郵件之后的第二大互聯(lián)網(wǎng)應用技術。搜索引擎起源于傳統(tǒng)的信息全文檢索理論,即計算機程序通過掃描每一篇文章中的每一個詞,建立以詞為單位的到排文件,檢索程序根據(jù)檢索詞在每一篇文章中出現(xiàn)的頻率和每一個檢索詞在一篇文章中出現(xiàn)的概率,對包含這些檢索詞的文章進行排序,最后輸出排序的結(jié)果。全文檢索技術是搜索引擎的核心支撐技術。

    一個好的檢索引擎是一個理想站點的關鍵。很多人在訪問一個站點時喜歡使用站點檢索,站點檢索應是分類目錄導航和全文檢索的完美結(jié)合,具體包括以下幾個方面:

    分類目錄導航的關鍵是檢索范圍,檢索范圍的限制能使得檢索結(jié)果不會太多、太濫;

    全文檢索對于站點檢索是必不可少的,在通常情況下能夠幫助人們很快地找到所要的網(wǎng)頁;

    有時利用分類目錄導航和全文檢索還很難定位到所要的信息,這時就要組合檢索輔助;

    必須有相關排序功能,因為當檢索結(jié)果太多時,用戶不可能一一瀏覽,大多數(shù)用戶只瀏覽前面幾條,沒有相關排序,可能準確的檢索結(jié)果排在后面,用戶不能瀏覽到,而排在前面的檢索結(jié)果卻相關性很少,造成用戶的錯覺。

    此外,我們還要考慮HTML/XML的特殊性、支持大量并發(fā)用戶突發(fā)訪問、Web站點的動態(tài)特性、要求索引維護效率很高等方面。

    目前的技術實現(xiàn)有Lucene,Solr,ElasticSearch等。全文檢索過程分為索引、搜索兩個過程:

    索引(Indexing)

    從關系數(shù)據(jù)庫中、互聯(lián)網(wǎng)上、文件系統(tǒng)采集源數(shù)據(jù)(要搜索的目標信息),源數(shù)據(jù)的來源是非常廣泛的。

    將源數(shù)據(jù)采集到一個統(tǒng)一的地方,例如存儲系統(tǒng),要創(chuàng)建索引,將索引創(chuàng)建到一個索引庫(文件系統(tǒng))中,從源數(shù)據(jù)庫中提取關鍵信息,從關鍵信息中抽取一個一個詞,詞和源數(shù)據(jù)是有關聯(lián)的。也即創(chuàng)建索引時,詞和源數(shù)據(jù)有關聯(lián),索引庫中記錄了這個關聯(lián),如果找到了詞就說明找到了源數(shù)據(jù)(http的網(wǎng)頁、電子書、新聞等……)。

    搜索(Search)

    用戶執(zhí)行搜索(全文檢索)編寫查詢關鍵字。

    從索引庫中搜索索引,根據(jù)查詢關鍵字搜索索引庫中的一個一個詞。

    展示搜索的結(jié)果。

    四、全文搜索引擎也叫什么搜索

    百度(Baidu)、 谷歌(Google)就是典型的全文搜索引擎。它們都是通過從互聯(lián)網(wǎng)上提取的各個網(wǎng)站的信息(以網(wǎng)頁文字為主)而建立的數(shù)據(jù)庫中,檢索與用戶查詢條件匹配的相關記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶。

    從搜索結(jié)果來源的角度,全文搜索引擎又可細分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,并自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用,如上面提到的baidu、google;另一種則是租用其他引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,如國外的Lycos引擎。

    全文檢索是指計算機索引程序通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置,當用戶查詢時,檢索程序就根據(jù)事先建立的索引進行查找,并將查找的結(jié)果反饋給用戶的檢索方式。這個過程類似于通過字典中的檢索字表查字的過程。

    以上就是關于全文搜索引擎的概念相關問題的回答。希望能幫到你,如有更多相關問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。


    推薦閱讀:

    余下全文的朋友圈復制(朋友圈復制的文案如何全部顯示)

    論真酒是如何成為白月光的(全文be后成了所有人的白月光)

    陜西園林景觀設計實施辦法(陜西園林景觀設計實施辦法全文)

    新開的店怎么上高德地圖位置(新開的店鋪怎么上高德地圖)

    杭州有美術專業(yè)的大學排名(杭州有哪些美術專業(yè)的大學)