• <output id="aynwq"><form id="aynwq"><code id="aynwq"></code></form></output>

    <mark id="aynwq"><option id="aynwq"></option></mark>
  • <mark id="aynwq"><option id="aynwq"></option></mark><label id="aynwq"><dl id="aynwq"></dl></label>
  • 學(xué)習(xí)啦>論文大全>技術(shù)論文>

    搜索引擎技術(shù)論文(2)

    時間: 家文952 分享

      搜索引擎技術(shù)論文篇二

      搜索引擎技術(shù)及研究

      引言

      隨著計算機(jī)網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,人們要在互聯(lián)網(wǎng)的海量信息中查找自己所需的信息,就要使用搜索引擎,搜索引擎已經(jīng)成為人們獲取信息的重要手段。搜索引擎從廣義的角度來講,是指互聯(lián)網(wǎng)上提供用戶檢索接口并且具有檢索功能的網(wǎng)站,它能幫助人們在互聯(lián)網(wǎng)中查找到所需要的信息;從狹義的角度來講,搜索引擎是指根據(jù)某種策略、運用特定的計算機(jī)程序從網(wǎng)絡(luò)上搜集要查找的信息,對信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索的相關(guān)信息展現(xiàn)給用戶的系統(tǒng)。

      1 搜索引擎的發(fā)展歷程

      搜索引擎是伴隨互聯(lián)網(wǎng)的發(fā)展而產(chǎn)生和發(fā)展的,互聯(lián)網(wǎng)已成為人們學(xué)習(xí)、工作和生活中不可缺少的平臺,幾乎每個人上網(wǎng)都會使用搜索引擎。搜索引擎大致經(jīng)歷了四代的發(fā)展。

      1.1 第一代搜索引擎

      1994年第一代真正基于互聯(lián)網(wǎng)的搜索引擎Lycos誕生,它以人工分類目錄為主,代表廠商是Yahoo,特點是人工分類存放網(wǎng)站的各種目錄,用戶通過多種方式尋找網(wǎng)站,現(xiàn)在也還有這種方式存在。

      1.2 第二代搜索引擎

      隨著網(wǎng)絡(luò)應(yīng)用技術(shù)的發(fā)展,用戶開始希望對內(nèi)容進(jìn)行查找,出現(xiàn)了第二代搜索引擎,也就是利用關(guān)鍵字來查詢。最具代表性、最成功的是Google,它建立在網(wǎng)頁鏈接分析技術(shù)的基礎(chǔ)上,使用關(guān)鍵字對網(wǎng)頁搜索,能夠覆蓋互聯(lián)網(wǎng)的大量網(wǎng)頁內(nèi)容,該技術(shù)可以分析網(wǎng)頁的重要性后,將重要的結(jié)果呈現(xiàn)給用戶。

      1.3 第三代搜索引擎

      隨著網(wǎng)絡(luò)信息的迅速膨脹,用戶希望能快速并且準(zhǔn)確的查找到自己所要的信息,因此出現(xiàn)了第三代搜索引擎。相比前兩代,第三代搜索引擎更加注重個性化、專業(yè)化、智能化,使用自動聚類、分類等人工智能技術(shù),采用區(qū)域智能識別及內(nèi)容分析技術(shù),利用人工介入,實現(xiàn)技術(shù)和人工的完美結(jié)合,增強(qiáng)了搜索引擎的查詢能力。第三代搜索引擎的代表是Google,它以寬廣的信息覆蓋率和優(yōu)秀的搜索性能為發(fā)展搜索引擎的技術(shù)開創(chuàng)了嶄新的局面。

      1.4 第四代搜索引擎

      隨著信息多元化的快速發(fā)展,通用搜索引擎在目前的硬件條件下要得到互聯(lián)網(wǎng)上比較全面的信息是不太可能的,這時,用戶就需要數(shù)據(jù)全面、更新及時、分類細(xì)致的面向主題搜索引擎,這種搜索引擎采用特征提取和文本智能化等策略,相比前三代搜索引擎更準(zhǔn)確有效,被稱為第四代搜索引擎[1]。

      2 搜索引擎的分類

      搜索引擎按工作方式分為三類:目錄索引類搜索引擎、全文搜索引擎和元搜索引擎[2]。

      2.1 目錄索引類搜索引擎

      目錄索引類搜索引擎的數(shù)據(jù)庫是人工建立的,工作人員訪問過某個web網(wǎng)站后依據(jù)自定的一套評判準(zhǔn)則對這個網(wǎng)站進(jìn)行描述,并根據(jù)站點的性質(zhì)和內(nèi)容歸類到預(yù)先分好的類別,再將其存放在對應(yīng)的目錄中,用戶既可以通過關(guān)鍵詞查詢,也可以按目錄逐層檢索。由于目錄索引類數(shù)據(jù)庫是人工評價某個網(wǎng)站的內(nèi)容,所以相比基于Robot搜索引擎搜索到的結(jié)果,用戶通過目錄搜索的結(jié)果更具有參考價值。當(dāng)前大部分搜索網(wǎng)站既提供基于Robot的搜索服務(wù),又提供基于目錄的搜索服務(wù),以盡可能為用戶提供全面的查詢結(jié)果。

      2.2 全文搜索引擎

      目前全文搜索引擎是主流的搜索引擎,人們經(jīng)常說的搜索引擎一般都是指全文搜索引擎,典型的代表有Google、百度、搜狗等。這類搜索引擎利用網(wǎng)絡(luò)蜘蛛在網(wǎng)絡(luò)中搜索,再抓取原始網(wǎng)頁,存放于本地數(shù)據(jù)庫并對原始網(wǎng)頁進(jìn)行加工,然后建立網(wǎng)頁內(nèi)容索引。系統(tǒng)在檢索階段,索引后臺數(shù)據(jù)庫并尋找和用戶查詢條件相匹配的網(wǎng)頁,把這些網(wǎng)頁按照相應(yīng)規(guī)則排序后將結(jié)果按順序返回給用戶。在搜索引擎的界面上,用戶輸入要查詢的關(guān)鍵字,就能夠找到互聯(lián)網(wǎng)中與之相關(guān)的網(wǎng)頁。

      2.3 元搜索引擎

      元搜索引擎是將用戶的搜索請求同時提交給多個獨立搜索引擎,然后集中處理搜索結(jié)果,按統(tǒng)一格式返回給用戶,故又被稱為搜索引擎之上的搜索引擎。該搜索引擎的特點是本身不保存網(wǎng)頁信息內(nèi)容,如果有用戶輸入查詢請求,它把請求轉(zhuǎn)換成其它搜索引擎可以接受的命令格式,同時訪問多個搜索引擎查詢該關(guān)鍵詞,最后將搜索引擎返回的結(jié)果處理后提交給用戶。

      總之,目錄索引類搜索引擎的缺點是信息覆蓋量不大、更新慢,元搜索引擎要等待所有搜索引擎提交結(jié)果并進(jìn)行處理,速度通常比較慢,因此全文搜索引擎是人們研究的重點。

      3 搜索引擎的工作原理

      搜索引擎通常由搜索器、索引器、檢索器和用戶接口四部分組成[3]。系統(tǒng)先由搜索器收集網(wǎng)頁內(nèi)容,再通過索引器分析收集的內(nèi)容并建立索引,然后由檢索器響應(yīng)用戶的檢索請求,當(dāng)用戶輸入查詢關(guān)鍵字后,搜索器用關(guān)鍵字與索引器進(jìn)行匹配,作相關(guān)性排序后通過用戶接口給用戶返回結(jié)果。

      搜索引擎的工作流程可以簡單的描述為:網(wǎng)絡(luò)蜘蛛定期在互聯(lián)網(wǎng)上爬行,當(dāng)發(fā)現(xiàn)新的頁面時,將其取出并存放到本地數(shù)據(jù)庫中,用戶可通過查詢本地數(shù)據(jù)庫得到結(jié)果。大致可概括為抓取網(wǎng)頁、加工整理、查詢服務(wù)三個階段。

      抓取網(wǎng)頁階段:每個獨立的搜索引擎都有自己的網(wǎng)絡(luò)蜘蛛,它每隔一定的時間自動啟動,從數(shù)據(jù)庫獲得URL列表,按照某種策略抓取列表指定的網(wǎng)站,并將抓到的網(wǎng)頁存入數(shù)據(jù)庫,然后把新的URL存入數(shù)據(jù)庫。理論上,從一定范圍網(wǎng)頁出發(fā),就可以搜集到絕大多數(shù)網(wǎng)頁。

      加工整理階段:搜索引擎抓到網(wǎng)頁后,再做大量的預(yù)處理工作,對網(wǎng)頁文檔建立倒排索引,將索引更新到索引數(shù)據(jù)庫,并提取網(wǎng)頁鏈接信息,存入鏈接數(shù)據(jù)庫,為網(wǎng)頁評級做準(zhǔn)備。

      查詢服務(wù)階段:搜索引擎待用戶輸入關(guān)鍵詞,從索引數(shù)據(jù)庫找到匹配該關(guān)鍵詞的網(wǎng)頁,通過網(wǎng)頁評級對結(jié)果進(jìn)行排序處理,最后將結(jié)果反饋給用戶。

      搜索引擎的實現(xiàn)過程包括四部分:從互聯(lián)網(wǎng)抓取網(wǎng)頁→建立索引數(shù)據(jù)庫→在數(shù)據(jù)庫中搜索→對搜索結(jié)果排序。

      搜索引擎的 網(wǎng)絡(luò)蜘蛛會定期訪問所有的網(wǎng)頁來更新網(wǎng)頁索引數(shù)據(jù)庫,去除死鏈接,并根據(jù)網(wǎng)頁鏈接關(guān)系和內(nèi)容的變(下轉(zhuǎn)第116頁)(上接第88頁)化重新排序。最終網(wǎng)頁內(nèi)容的變化情況將反映在用戶查詢結(jié)果中[4]。

      4 搜索引擎的 發(fā)展趨勢

      4.1 提高搜索引擎的智能化水平

      智能搜索引擎是利用人工智能技術(shù)對用戶的查詢意圖、興趣等推理,用獲得的知識對信息進(jìn)行過濾搜集,把用戶感興趣的信息提交給用戶。通過智能算法進(jìn)行人與 計算機(jī)的對話,利用機(jī)器翻譯技術(shù)強(qiáng)化自然 語言的處理能力,通過語義理解用戶自然語言的需求。智能代理技術(shù)能夠不斷適 應(yīng)用戶興趣變化,并提供個性化的服務(wù)。

      4.2 提供優(yōu)化的檢索結(jié)果

      利用搜索引擎規(guī)則,搜索引擎優(yōu)化能夠提高網(wǎng)站在搜索引擎中的排名,針對檢索網(wǎng)頁的特點,按照搜索引擎的檢索原則調(diào)整網(wǎng)站的基本要素,使其在自然檢索結(jié)果中排名靠前,從而達(dá)到推廣網(wǎng)站的目的。

      4.3 多媒體搜索引擎

      隨著搜索引擎技術(shù)的發(fā)展,搜索引擎除檢索文本外,還要檢索多媒體數(shù)據(jù),目前許多公司投入資金解決該技術(shù)的系統(tǒng)模型優(yōu)化、圖像聲音特征相關(guān)性研究、多媒體特征提取等問題,從而開發(fā)能夠查詢圖像、圖片、聲音等內(nèi)容的搜索引擎,這項技術(shù)是未來搜索引擎發(fā)展的必然趨勢[5]。

      5 總結(jié)

      隨著計算機(jī)網(wǎng)絡(luò)搜索技術(shù)的飛速發(fā)展,人們對搜索引擎的要求也越來越高,未來的搜索引擎要求速度更快、精度更高,更能滿足用戶查詢信息的個性化需求,使得互聯(lián)網(wǎng)用戶能夠享受到更加高效的人性化的網(wǎng)絡(luò)搜索服務(wù)。

      
    看了“搜索引擎技術(shù)論文”的人還看:

    1.web開發(fā)技術(shù)論文

    2.關(guān)于檢索的學(xué)術(shù)論文

    3.傳感器技術(shù)論文范文

    4.web技術(shù)論文

    5.無線網(wǎng)絡(luò)技術(shù)論文

    2751913 主站蜘蛛池模板: 国内精品福利视频| 99RE66在线观看精品免费| 久久国产乱子伦免费精品| 乱人伦人妻中文字幕在线入口 | 又粗又硬又黄又爽的免费视频| 国产亚洲av综合人人澡精品| 国产午夜成人AV在线播放| 国产在线精品国自产拍影院同性| 国产成人午夜高潮毛片| 国产日韩在线观看视频| 国产成人精品一区二区三区无码| 国产成人精品免费视频软件| 国产小视频福利| 国产三级在线观看完整版| 国产在线视频www色| 国产乱人伦精品一区二区在线观看| 国产又色又爽又刺激视频| 国产va免费精品高清在线观看| 国产720刺激在线视频| 动漫人物桶动漫人物免费观看| 免费a级毛片高清在钱| 亚洲欧美日韩精品久久亚洲区色播| 亚洲国产欧美另类| 久久亚洲国产欧洲精品一| 中文字幕有码视频| a级片在线观看视频| 2021国产麻豆剧果冻传媒电影| 免费成人福利视频| 色八a级在线观看| 精品久久久无码中文字幕| 欧美蜜桃臀在线观看一区| 日韩精品一区二区三区毛片 | 日韩美女中文字幕| 性欧美人与动物| 国产高清一区二区三区 | 在公交车上被站着被c| 国产欧美日韩视频在线观看一区二区| 国产一级淫片免费播放电影| 亚洲综合成人网| 久久午夜精品视频| a级毛片高清免费视频就|