• <output id="aynwq"><form id="aynwq"><code id="aynwq"></code></form></output>

    <mark id="aynwq"><option id="aynwq"></option></mark>
  • <mark id="aynwq"><option id="aynwq"></option></mark><label id="aynwq"><dl id="aynwq"></dl></label>
  • 學習啦>論文大全>技術論文>

    搜索引擎技術論文

    時間: 家文952 分享

      搜索引擎是伴隨互聯網的發展而產生和發展的,互聯網已成為人們學習、工作和生活中不可缺少的平臺,幾乎每個人上網都會使用搜索引擎。下面是學習啦小編整理的搜索引擎技術論文,希望你能從中得到感悟!

      搜索引擎技術論文篇一

      中文智能搜索引擎技術研究

      引言

      隨著互聯網的快速發展,網絡信息量不斷增加。面對數量龐大,種類多樣的信息,一般搜索引擎無法為用戶提供準確的檢索結果,開發新的搜索引擎勢在必行。智能搜索引擎不僅要提高信息檢索準確性和全面性,還要滿足用戶個性等搜索信息需求。搜索引擎與智能代理相結合的智能化搜索引擎技術能夠比較好的實現這一目標。

      1 搜索引擎

      1.1 搜索引擎基本原理

      搜索引擎由信息搜集系統、文件處理系統、索引系統和檢索系統組成。

      信息搜集系統通過網頁抓取程序(spider)在網絡中順著網頁的超鏈接抓取網頁,搜集文檔的基本信息并下載至搜索引擎本地,然后將文檔和其基本信息分開,并保存到原始文檔數據庫和文檔信息數據庫中。

      文件處理系統負責將需要索引的文件轉換成具有統一編碼格式的文本文件。信息搜集系統從網絡上下載文件,保存到本地供索引器索引。文件文本格式種類繁多,如純文本文件、html格式文件、word文件、pdf文檔等,文本格式相同的文件,字符編碼方式也不盡相同。文件的異構性要求文件處理系統將各種不同格式的類文本文件轉換成純文本文件。

      索引系統將程序收集到的文件進行處理,建立索引庫和索引。相關處理還包括去除重復網頁、分詞(中文)、判斷網頁類型、分析超鏈接,計算網頁的重要度、豐富度等。

      檢索系統通過用戶輸入的關鍵詞從索引數據庫中找到與關鍵詞匹配的網頁,并按照文檔得分的高低依次顯示在用戶瀏覽器中。

      1.2 傳統搜索引擎的局限性

      面對浩如煙海的網絡信息,用戶想要通過一般搜索引擎獲取準確和全面的信息較困難。其局限性表現在:

      (1)信息檢索方式單一。搜索引擎一般提供網站分類查詢和關鍵詞全文檢索兩種方式,這兩種方法均容易造成信息丟失,不能全面檢索用戶需要的信息;不能對用戶輸入的關鍵詞進行詞意分析和詞意擴展。如今信息的多樣化要求搜索引擎不僅要檢索出文檔,還要檢索需要的圖片、視頻、音頻等。

      (2)不能個性化制定。傳統搜索引擎提供相同的界面和檢索策略,不能提供用戶信息定制,不同用戶輸入相同的查詢條件返回的結果相同。不同領域的用戶對同一個關鍵詞的搜索返回的檢索結果應該不一樣,智能搜索引擎能根據用戶專業背景和網頁瀏覽歷史檢索出用戶需求的信息。

      (3)對信息的標引深度不夠。搜索引擎檢索的結果往往只提供線形的網址和包括關鍵詞的網頁信息,或者返回過多的無用信息,特別是對特定文獻數據庫的檢索更顯得無能為力[1]。

      (4)信息更新能力低。搜索引擎信息收集和查詢是兩個分離的過程,缺少有機結合。網絡信息資源呈分布式、動態、快速增長,搜索引擎的集中化架構不能跟上文檔的擴張速度,也就不能有規律地及時更新數據庫,用戶檢索到的結果可能不是最新信息。

      2 智能搜索引擎

      智能搜索引擎應擺脫傳統搜索引擎的局限性,更加智能化,更具主動性,提供多元化的檢索方式,為用戶提供個性化制定,檢索出滿足用戶個性需求。

      2.1 智能搜索引擎主要特征

      (1)智能性。智能化搜索引擎網絡蜘蛛通過自主啟發式學習選擇最有效的搜索策略和最佳時機,在特定站點或者整個因特網搜集和整理信息。智能化搜索引擎可以將多個引擎的搜索結果進行整合,作為一個整體存放到數據庫中。

      (2)個性化。智能化搜索引擎提供個性化制定服務,用戶注冊基本信息,如年齡、專業背景、工作方向等,通過分析用戶基本信息及平時瀏覽網頁的記錄制定出用戶興趣模塊,檢索出來的信息和用戶興趣相關,不同興趣的用戶輸入同一個關鍵詞返回的結果可能不同。

      (3)多元化。智能化搜索引擎有多元化的檢索方式,提供基于大眾的搜索分析,基于自然語言、關鍵詞、概念和上下文,通過相關反饋技術檢索可選擇查詢路徑。對關鍵詞進行詞意擴展和詞意派生,實現準確的分詞,從而更加準確地把握用戶的搜索需求。

      (4)協作性。智能化搜索引擎能通過各種通信協議和其它智能代理進行信息交流 ,并可以相互協調共同完成復雜任務[2]。

      2.2 智能搜索引擎技術

      要實現智能化搜索引擎,當前要特別加強對漢語分詞技術、短語識別技術、同義詞處理技術、知識庫與推理機應有技術和人機對話智能技術的研究。

      智能化搜索引擎對語義的理解主要體現在以下兩個方面:一是對用戶輸入的關鍵詞的理解;二是對網頁信息內容的理解。傳統搜索引擎對關鍵字的識別是較機械的匹配方式,容易造成信息不準確和丟失。智能化搜索引擎可對用戶輸入的關鍵詞進行語義理解,并返回用戶想要的信息。自然語言語義理解的技術主要有4種:①漢語分詞技術。中國文化博大精深,語句是由各種詞語按照一定的語序組成的。漢語對詞語的劃分相對英文來說復雜得多,漢語詞語可以是由一個字或者多個字組成。漢語分詞技術主要有基于字典、詞庫匹配的分詞、基于詞頻度和基于知識理解的分詞,通過這些方法準確把握用戶輸入關鍵詞的含義;②短語識別技術。短語是由詞語所構成的,是句子中基本的識別單位,在漢語句法分析和語義分析中具有重大意義。用戶搜索有時需要對關鍵詞加一定的修飾詞,例如關鍵字為“搜索”,加入修飾詞可為“個性化的搜索”,前者就是詞語,后者為短語。需要通過短語識別技術對關鍵詞進行正確的分詞,從而準確理解用戶的查詢需求;③同義詞處理技術。包括基于詞匯字面相似度算法、基于詞素的語義相似度算法以及基于《同義詞詞林》、《知網》等語義詞典的語義相似度算法。主要依靠人工方式構造同義詞庫等輔助詞庫,利用搜索引擎主動聯想技術實現對同義詞的聯想,準確把握用戶關鍵詞語義;④知識庫構建技術。知識庫包含各種詞典,詞典按其功能不同可分成定義詞詞典、同名詞詞典、派生詞詞典等,詞典按詞的確定性又可分成系統詞典與用戶詞典。這些詞典構成了一個龐大而復雜的知識庫。

      人機接口智能化主要有以下技術: ①人機交互界面技術。智能化搜索引擎界面具有智能化、多元化、個性化等特點。其技術主要包括搜索請求提交技術、搜索結果表現技術、搜索向導技術、搜索行為分析技術。其中,搜索行為分析技術是個性化搜索的關鍵技術,它通過分析用戶的瀏覽記錄和搜索習慣來提高搜索效率;②關聯式綜合搜索。將圖片、新聞等各種有關聯的信息呈現在同一界面上,用戶搜索時只需查詢一次,即可在同一界面得到各種有關聯的查詢結果。

      隨著云技術的出現,智能搜索引擎將全球服務器當作一個云系統,從而極大提升從數據庫中提取信息速度。云技術的成熟能夠有效提升搜索引擎的算法速度,提高智能搜索引擎的運行速度[3]。

      3 結語

      智能化搜索引擎技術的發展首先應該解決目前搜索引擎的局限性,然后再添加智能搜索。智能搜索引擎應該在以下幾個方面尋求發展:提供友好的查詢界面;多元化的檢索方式;強大的自然語言理解技術;豐富的知識庫;考慮按時間、地域順序輸出檢索結果,以便用戶選擇所需的最新信息;查詢結果文摘動態生成;結果自動綜合分析和評分[4]。

      隨著搜索引擎技術的發展,智能化搜索引擎變得更多元化、親切、個性化,廣泛融入進人們的生活,為用戶提供更準確、符合需求的搜索信息。

    點擊下頁還有更多>>>搜索引擎技術論文

    2751913 主站蜘蛛池模板: 精品大臿蕉视频在线观看| 不卡高清av手机在线观看| 草草影院第一页| 欧美性猛交xxxx乱大交极品| 国内精品久久久久久久影视| 亚洲精品无码mv在线观看网站| a级毛片高清免费视频在线播放| 男女免费观看在线爽爽爽视频| 小猪视频app下载版最新忘忧草b站| 又粗又硬又爽的三级视频| 三级波多野结衣护士三级 | 么公的又大又深又硬视频| 免费在线观看h| 日韩AV无码久久精品免费| 国产亚洲精品自在久久| 久久久久久久久久久久福利| 色偷偷亚洲男人天堂| 性高湖久久久久久久久| 免费无码成人AV片在线在线播放 | 免费久久人人爽人人爽AV| t66y最新地址一地址二地址三| 玄兵chinesemoney| 国产香蕉一区二区三区在线视频| 亚洲欧洲日产国产最新| 五月天久久婷婷| 日韩三级免费电影| 四虎8848精品永久在线观看| 一区二区三区在线|日本| 激情爆乳一区二区三区| 国产综合久久久久久鬼色| 亚洲V欧美V国产V在线观看| 青青青国产成人久久111网站| 探花www视频在线观看高清| 免费国产不卡午夜福在线| 91精品免费观看| 日韩精品欧美国产精品亚| 国产a级特黄的片子视频 | 青青国产在线视频| 性色av一区二区三区| 亚洲第一网站男人都懂| 欧美jizz8性欧美|