SEO資訊中文搜索引擎的現狀與展望

  隨著信息科學的進步與互聯網絡的發展,網絡上的信息資源越來越多,公用數據庫的飛速發展為用戶查詢各種信息提供了可能。中國有數以百萬計的網絡用戶并且用戶人數仍然在急劇的增加。各種相關信息愈來愈多地通過網絡為人們所利用。而用戶深感困惑的是很難在浩瀚如海的信息網絡空間里快速、準確的查找到所需要的信息。當用戶面對成千上萬的超級鏈接時便難以檢索到合適的信息。于是,借助搜索引擎進行搜索就是一個非常重要的手段。
    1、國內各種搜索引擎的現狀
    搜狐(//www.sohu.com.cn):“搜狐(Sohu)”是由愛特信(ITC)公司于1998年2月25日在京隆重推出的有“中文網路神探”之稱的大型網上中文查找工具,其技術是由麻省理工學院支持的。它是以提供分類目錄為主的中文搜索引擎,其分類原則是以圖書分類為基礎,與日常應用習慣相結合,由編輯人員分類,因而分類質量較高。它的信息抓取范圍較其它中文搜索引擎的范圍要廣,不僅有國內站點,還包含國外的中文站點,日訪問率達上萬人次?!八押被固峁靶攣諾級痢?、“娛樂天地”、“企業集錦”和“網猴”等服務項目。進入“新聞導讀”欄目可閱讀由ITC整理的新華社環球新聞,包括“業界動態”、Internet、Intranet和“電子商務”四個欄目的新聞?!捌笠導酢筆墻詰鈉笠搗擲嗉刑峁└沒?,為用戶查詢提供方便,更重要的是為企業宣傳又提供了一條有力的渠道。
    天網(//pccms.pku.edu.cn:8000/gbindex.htm):“天網”是由北京大學計算機系統網絡研究室開發的網頁資源索引的查找服務系統,是CERNet“九五”攻關項目的一部分,信息來源是國內CERNet、ChinaNet、CASNet、GBnet四大網絡,采用Robots(一種自動跟蹤、瀏覽網頁并進行標引的智能軟件)自動發現和收集信息,已收集了5千多個網站上的60多萬網頁信息,同時還收集了約10萬篇新聞信息。該系統有中、英文兩個界面,可進行中英文關鍵詞的檢索,支持復雜查詢,檢索速度快,反饋信息豐富,包括網址、摘要、最后修改時間、長度、相關度、編碼類型等。
    新浪(//www.sina.com.cn):“新浪(Sina)”是最大的中文門戶網站,收錄了全球資訊逾萬的中文網址,并分成娛樂休閑、商業經濟、社會科學、教育就業、社會文化、參考資料、政法軍事、體育健身、科學技術、新聞媒體、文學藝術、電腦網絡、醫療健康、生活服務、參考資料、國家地域等15大類,其下分多個小類;并提供了中文關鍵詞的搜索功能。
“網易”(//www.yeah.net):“網易Yeah搜索工具”由廣州網易計算機系統有限公司開發研制。它提供了類目瀏覽和關鍵詞檢索兩種方式,類目瀏覽中有商業、教育、電腦、運動、政治、科學、娛樂等12個大類,各大類下又細分為若干小類:關鍵詞檢索支持全文檢索,反饋信息包括網址、提要、長度、最近修改時間和相關度等。該工具還設有熱門站點、新到站點和登錄站點等欄目,并提供了與江蘇接入網、國訊網絡、廈門新華信息網、瑞得在線、金華熱線等網絡站點的鏈接。
    “悠游”(//www.goyoyo.com):“悠游Goyoyo中文搜索工具”由美國Unilinx International Ltd(優聯克國際有限公司)開發,分別在美國、香港地區、北京、重慶和上海設立5個分站點,由各地的優聯克分公司進行制作和維護。它支持中文GB碼和Big5碼,提供了自動構造式的概念類型查詢和關鍵詞檢索兩種查詢方式。在概念類型查詢方式中列出82個概念詞,如電腦、軟件、硬件、公司、游戲、互聯網等,按照指引可以查看有關網頁:而關鍵詞檢索支持全文檢索,可選擇站點查詢或網頁查詢,并可要求精確匹配,檢索結果按相關程度高低排列,反饋信息豐富,有站點名稱、編碼類型、相關程度、所在目錄地址、簡要介紹、最后修改時間等。此外,該站點還提供了最新資訊、熱點新聞、網頁登錄、訪客留言、客戶通訊、線上黃頁、熱門站點、BBS、會員登記等欄目,并設有與希望工程、中國經貿信息網等多處網絡站點的鏈接。
    “搜索客”(//www.cseek.com):1997年11月3日,由ChinaByte開發的中文搜索工具“CSEEK”——“搜索客”在北京上網。它利用Spider(蜘蛛)自動搜索、抓取新增站點,并及時更新舊站點。目前,“搜索客”的搜索范圍涵蓋了大陸、香港地區、臺灣省和新加坡的中文站點,大約有13萬個站點和50萬個網頁,并支持GB碼和Big5碼的自動轉換?!八閹骺汀碧峁┝死嗄夸籃凸丶始燜髁街植檠揪?,其類目分為計算機、教育、工商經濟、社會科學、新聞、自然科學等14個大類,各大類下細分為若干小類;進行關鍵詞檢索,可選擇反饋信息的排列方式,且反饋的信息十分豐富,列出了諸如網頁名稱、匹配度、編碼類型、網頁地址、簡介以及欄目名稱等信息。此外,該站點還設有今日要聞、人才驛站、軟件倉庫、網絡學院、游戲天堂、專家專欄、新聞討論組等7個欄目,其中軟件倉庫中有豐富的軟件供上網用戶下載和使用。
    “茉莉之窗”(//www.jansers.org):“茉莉之窗”由香港中文大學設計,提供了中文GB碼、Big5碼和英文3個界面,共收錄了57萬多個中文站點(GB碼和Big5碼),并給每個網頁10個關鍵詞作索引。該站點可進行分類主題搜索和關鍵詞搜索,在分類搜索中,可按劃分好的12個大類逐層進行查詢;而關鍵詞搜索就更具特色,它先將檢索要求切分成詞,并賦予每個詞以合適的詞性,然后僅使用其中的名詞、動詞和形容詞進行主題檢索,而不是傳統的精確匹配,最終將檢索結果通過網頁過濾器,自動轉換成用戶瀏覽器支持的中文碼字,而且反饋信息十分豐富,其中包括網頁名稱、編碼類型、相關度、相關網頁、網址、簡單介紹、網頁長度、最后修改時間等,這樣就保證了檢索的查全率和查準率。
    蕃薯藤(http://search.yam.org.tw):“蕃薯藤”是臺灣最知名的查詢站點之一,該引擎于1996年6月正式運營,支持Big5碼和英文界面,提供了分類瀏覽和關鍵詞檢索兩種途徑,網頁的分類完善、合理,共12大類,各大類下細分若干小類。關鍵詞檢索除了可選擇查詢范圍,支持空格、“+”、“.”和交/并集外,還可用通配符“*”代替不能確定的文字進行模糊檢索,或連接其它20多種常用的工具,此外,還開設了觀新、熱門等諸多欄目。
    2、各種搜索引擎的不足之處
   (1)大多數中文搜索引擎的查詢方式較為單一
    一般搜索引擎只提供分類瀏覽的查詢方式和關鍵詞全文檢索查詢方式,缺乏其它途徑的查詢方式,并且關鍵詞全文檢索模式也比較簡單,這將導致信息查詢的查準率不高的后果。
   (2)目前網上的中文信息較少
    相比網上外文信息而言,網上中文信息資源較少,且ISP中文站點的質量也良莠不齊,信息更新的速度慢。通常是幾個月才有所更新。對搜索引擎而言,ISP站點的內容的質量也非常重要,它和搜索引擎之間是魚水關系。
   (3)采用的技術比較落后
    國內的網站所采用的收集資料的技術比較落后,目前我國自行建立的搜索引擎,如搜狐對站點的描述不多,與國外著名搜索引擎相比還有很大差距。這是由于它們均采用目錄式搜索引擎(Directory Search Engine),即通過人工發現信息并依靠編目員的知識進行分類。這種引擎的優點是準確度較高,缺點是信息量小且維護所耗費的資源大。
    分析各種中文搜索工具,由于中文編碼的特殊性和搜索工具設計者的局限性,目前的中文搜索工具在實際應用中仍反映出一定的不足,有的收集范圍小、信息量少;有的搜索能力弱,反饋信息少;有的不支持某一種中文編碼類型,從而使獲得的信息資料不齊全、不完整,有的返回的信息很多但是查準率較低。所有這些問題的實質是搜索引擎缺乏知識的理解能力和處理能力,對要檢索的關鍵字詞只是簡單的進行機械的匹配來實現。我們可以借鑒一些新的技術方法來優化中文搜索引擎的功能。
    3、國內外關于搜索引擎的新技術
   (1)一種基于機器人技術的搜索引擎——機器人搜索引擎(Robot Search Engine)
    機器人搜索引擎,是由一種叫“蜘蛛”的計算機程序在網絡中爬行,依據一定的網絡協議在互聯網中發現、加工、整理信息,并為用戶提供檢索服務。其優點是信息量大,耗費資源少,但精確度不高。從國外搜索引擎的發展趨勢來看,將人工發現信息并依靠編目員的知識分類與機器人搜索引擎二者融合,優缺互補,以便提高智能化程度和準確度。
   (2)中文文本的過濾信息分流機制
    信息分流是在過濾系統為多個用戶進行信息過濾服務時,將具有相同或相似信息需求的用戶合理地組織在一起,使其公共信息部分得到最大限度的體現,依據這些需求,將文本分流,達到提高效率的目的。由于采用的過濾模型不同,分流的機制也不同。布爾模型,利用其具有明確邏輯表達式的特點,采用判定樹等邏輯運算手段,使分流判斷中的公共部分盡可能地實現共享,先判斷高頻屬性,再判斷其余屬性,以此來提高分流的效率。但是由于布爾模型只能進行定性的運算而不能進行定量的排序,因此,局限于邏輯運算的分流機制將不能適應用戶的需求。如對于過濾條件A and B and C and D and E,含有項A,B,C,D的文本肯定不能被選中,而用戶很有可能對這個文檔感興趣;還有對于過濾條件A or B or C or D or E,僅含項A的文本和含有全部項A,B,C,D,E的文本具有同等重要性。同理,它不能處理項的權重和文本中詞頻等定量信息。另外一種新的機制CDT(concept-based decision tree)其基本思想是在概念擴充基礎上,將不同用戶的信息需求組織為樹狀結構,使其共同的部分成為共享分支,依據提出的側面相似度和側面匹配率來實現文本與模板的定量匹配,減弱傳統的布爾模型對文本與模板匹配的嚴格限制,也彌補向量空間模型單純數量化的不足,更加全面地反映用戶的信息需求。這兩種技術的使用將大大減少服務器的負荷。
   (3)分詞技術與XML技術的有機結合
    漢語是一種無明顯詞間間隔的語言,因而存在一個如何分詞的問題。現有的分詞法很多,如最大匹配法,最佳匹配法,高頻優先分詞法,基于頻度的分詞法,基于神經網絡的分詞法等等,但是各有缺陷,所以我們可以采取的分詞方法是基于詞庫的最大匹配法和基于頻度與統計的無詞庫分詞法組合起來。在關鍵詞的提取后充分利用XML技術進行搜索。W3C提出XML的通用數據格式,對格式和表達雜亂無章的信息內容進行索引。
    XML的文件可以自我表述。采用XML,文件類型定義(Document Type Definitions-DTD)便會附在文件中,基本上,它會定義有哪些組件及組件之間的結構關系等的文件規則。當接收的應用程序不具輸入文件的說明時,DTD可以協助辨識文件。不過,DTD并非必要組件。與DTD一起傳送的文件稱為“可驗證的”XML。由XML撰寫的文件均可自我表述,因為用來描述的標注,已經含在文件中。XML所使用的開放式、具彈性的格式,讓它在任何要需交換并轉換信息的地方,都可以被采用。
    Schemas是另一種XML組件名稱,它指定文件中所允許的元素,及其可能的組合。因為Schemas語言都是可擴充的,開發人員可以使用額外信息,如數據類型、繼承性以及呈現規則來加強它。Microsoft和其它公司已經提出,使用XML語言來表達XML文件架構的詞匯,讓XML的文件可以表述自身的結構。在XML中敘述Schema,為XML格式灌注了強大的功能。
    XML使用“<”和“>”來標注數據,我們可以定義無限量的標注。HTML標注只能用來指定文字要以粗體或斜體顯示;XML卻提供了一個標示結構化資料的架構,可以用標注來描述一切數據。隨著網際網絡上的許多機構逐漸采用XML標注,便可以采用分詞得到的關鍵字進行搜尋并操作。XML中資料的呈現和處理是分開的,XML的功能強大與迷人之處,在于它保持使用者接口與結構化資料的獨立。HTML敘述如何在瀏覽器中顯示資料,XML則定義其內容。使用XML,您只要使用標注來描述數據,如程序名稱、溫度和氣壓,我們可以利用這一點而對產生的關鍵字進行查找。在XML中,您可以使用樣式表(如[延伸性樣式語言(Extensible Style Language-XSL)]和[衍生樣式表(Cascading Style Sheets-CSS)])將所獲得的信息在瀏覽器中顯示。XML將資料的呈現及處理分隔開來,根據不同的關鍵字的邏輯構造而套用不同的樣式表和應用程序,即可照希望顯示并處理資料。將資料由呈現式中抽離,使得處理后的各種數據資料可以完全整合。
    XML的基礎是經驗證的標準技術,并針對網絡做最佳化。Microsoft與其它頂尖公司以及W3C的工作群組并肩合作,協助確保交互作業性,支持各式系統和瀏覽器上的開發人員、作者和使用者,以及改進XML標準。隨著XML技術的飛速發展,采用XML新技術的網絡檢索將不會再讓人困惑了。
    借鑒國外已有的許多大型優秀搜索引擎,我們應大膽動用新的先進索引技術、檢索技術、以及XML技術將已有的技術與國內外新進技術相結合起來發展符合中文特色的搜索引擎。

推廣案例

    寧波原創網絡公司專業為企業提供整合式優化推廣服 務,從網站布局、網站設計、關鍵詞分析、到DIV+CSS建 站-----乃至GOOGLE\YAHOO\等頂級搜索引擎全方位推廣。 旨在為企業提供個性化、專業化的優質網絡服務。

建站案例

    原創網絡主要為企業量身定做高層次高質量的網 站,服務網站的項目有門戶網站,行業網站,電子商務 網站,企業網站等;,為企業老板提供全方位的專業服 務,省去企業網站安全等諸多方面的憂慮。

如您對網站優化有需求,有疑問,請及時聯系我們!
聯系電話:0574-87836499、0574-87838609 、13780015231
郵箱:[email protected]、[email protected]
中彩网xxyxccxxyxus | 關于我們 | 企業郵箱 | 公司招聘 | 聯系我們 | 中彩网xxyxccxxyxus | Links |
地址:寧波 江東區 興寧路40弄1號 金匯大廈20樓2001
電話:0574-87734445 13780015231
E-mail:[email protected]