每個(gè)搜索引擎都有其前幾特的一套體系來評價(jià)網(wǎng)頁的重要性。如Google利用PageRank算法用數(shù)字(1-10)不同等記凹復(fù)標(biāo)識網(wǎng)頁的重要性。評價(jià)網(wǎng)頁重要性的算法,非常復(fù)雜。例如,搜索引擎的算法評價(jià)一張網(wǎng)頁的重要性時(shí),可能會涉及到以下幾個(gè)方面
急劇擴(kuò)大的網(wǎng)絡(luò)資源在給公眾帶來更大方便的同時(shí),也給搜索引擎帶來了新的挑戰(zhàn)。建立科學(xué)、公正、系統(tǒng)的搜索引擎質(zhì)量評價(jià)體系可以促進(jìn)搜索引擎的建設(shè)和利用。
1建立搜索引擎質(zhì)量評價(jià)體系的意義
面對浩如煙海的網(wǎng)絡(luò)信息,搜索引擎作為更流行的網(wǎng)絡(luò)檢索工具越來越受到大眾重視。同時(shí),用戶也常常到無所適從的問題:當(dāng)成千上萬的搜索結(jié)果到來之時(shí),卻很難從中找到所需要的結(jié)果。根據(jù)searchengine watch對5個(gè)**英文搜索引擎的統(tǒng)計(jì),各大搜索引擎的搜索結(jié)果優(yōu)良率均在40%以下。造成這種局面的原因很多,有技術(shù)難題:如人機(jī)交流實(shí)現(xiàn)方式問題,技術(shù)難題的解決需要計(jì)算機(jī)科學(xué)的不斷進(jìn)步來解決;也有搜索引擎的設(shè)計(jì)運(yùn)行問題,這一問題的解決可以通過建立既反映用戶要求,又符合現(xiàn)有技術(shù)能力的搜索引擎評價(jià)質(zhì)量體系,指導(dǎo)用戶使用和搜索引擎網(wǎng)站改進(jìn)產(chǎn)品
1.1有利于公眾更好的利用搜索引擎進(jìn)行網(wǎng)絡(luò)信息檢索
盡管搜索引擎在網(wǎng)絡(luò)檢索中起著不可替代的作用,但受知識水平、信息渠道的限制,許多用戶常常不能正確的選擇和使用搜索引擎。面對多元化的網(wǎng)絡(luò)信息,不同的搜索引擎都有各自的強(qiáng)項(xiàng)。搜索引擎評價(jià)體系可以建立用戶與搜索引擎網(wǎng)站交流的橋梁,幫助和指導(dǎo)用戶甄別和使用合適的搜索引擎。如搜索引擎評價(jià)體系通過建立專業(yè)搜索引擎推薦序列,指導(dǎo)用戶利用某一專業(yè)搜索引擎檢索該專業(yè)資料,會收到較好的效果。
1.2指導(dǎo)普通網(wǎng)站進(jìn)行搜索引擎優(yōu)化
據(jù)統(tǒng)計(jì),大多數(shù)網(wǎng)站訪問量的70%是通過搜索引擎獲得的,所以網(wǎng)站在搜索引擎上“表現(xiàn)”如何,直接影響到了網(wǎng)站的推廣程度。建立搜索引擎評價(jià)體系可以用來指導(dǎo)商業(yè)網(wǎng)站進(jìn)行搜索引擎優(yōu)化。例如搜索引擎質(zhì)量評價(jià)體系可以促進(jìn)搜索引擎對搜索關(guān)鍵詞的標(biāo)準(zhǔn)化設(shè)置,指導(dǎo)普通網(wǎng)站根據(jù)企業(yè)建站的思路設(shè)置網(wǎng)站核心關(guān)鍵詞,提高網(wǎng)站的搜索引擎排名。
1.3指導(dǎo)搜索引擎網(wǎng)站改進(jìn)產(chǎn)品
搜索引擎評價(jià)體系可以通過反映用戶的要求和專家的觀點(diǎn)建立對搜索引擎的科學(xué)評價(jià),指導(dǎo)搜索引擎的改進(jìn)。目前搜索引擎網(wǎng)站的升級速度落后于通用軟件,已經(jīng)影響了用戶對網(wǎng)絡(luò)資源的使用。搜索引擎評價(jià)體系可以促進(jìn)用戶與搜索引擎供應(yīng)商之間進(jìn)行交流。普通用戶對搜索引擎的認(rèn)識往往是感性的,所提出的要求缺乏針對性和可操作性,往往得不到搜索引擎網(wǎng)站的足夠重視。搜索引擎評價(jià)體系將用戶的普遍要求翻譯成專業(yè)的、量化的改進(jìn)建議,將其反映到搜索引擎質(zhì)量評價(jià)體系中,對搜索引擎的供應(yīng)商施加較大的影響力,促使其在較短時(shí)間內(nèi)進(jìn)行產(chǎn)品升級。搜索引擎評價(jià)體系可以通過定期對搜索引擎網(wǎng)站進(jìn)行受歡迎程度、技術(shù)、美學(xué)或總體評價(jià)和排名,以便引導(dǎo)用戶的消費(fèi)指向,促進(jìn)搜索引擎的改進(jìn)。
2對搜索引擎進(jìn)行總體評價(jià)
搜索引擎是一種結(jié)合了多種學(xué)科的網(wǎng)絡(luò)檢索產(chǎn)對不同類型的搜索引擎網(wǎng)站按照相應(yīng)標(biāo)準(zhǔn)進(jìn)行評品,設(shè)立可操作性的評價(jià)體系有相當(dāng)難度。筆者認(rèn)價(jià)。為可以通過設(shè)置總體評價(jià)體系和單項(xiàng)評價(jià)指標(biāo)來分別進(jìn)行定性和定量評價(jià)。搜索引擎總體評價(jià)主要是針對那些難以從技術(shù)角度進(jìn)行量化的方面,主要可以通過公眾調(diào)查和搜索引擎產(chǎn)品之間的功能比較進(jìn)行相應(yīng)質(zhì)量評價(jià)。
2.1用戶舒適程度
搜索引擎要爭取更多的客戶,既要將網(wǎng)站外觀做得漂亮,使用戶在訪問搜索引擎的過程中獲得美的享受,又給用戶操作帶來方便。搜索引擎的用戶舒適程度包括以下幾個(gè)方面:搜索引擎網(wǎng)站界面的外觀設(shè)計(jì)是否符合美學(xué)原則;用戶操作是否方便,如幫助功能是否完備、是否有相應(yīng)的功能說明。用戶的舒適程度可以根據(jù)受用戶歡迎程度來評估,可以通過統(tǒng)計(jì)點(diǎn)擊率、網(wǎng)上投票或設(shè)計(jì)問卷調(diào)查等途徑獲得。由專家對統(tǒng)計(jì)結(jié)果進(jìn)行調(diào)查分析,將評價(jià)結(jié)果通過各種媒體反饋給網(wǎng)絡(luò)用戶和搜索引擎網(wǎng)站,指導(dǎo)檢索實(shí)踐。
2.2專業(yè)程度
網(wǎng)絡(luò)文件的格式、內(nèi)容、網(wǎng)絡(luò)傳輸協(xié)議相當(dāng)復(fù)雜,不同的搜索引擎網(wǎng)站也應(yīng)進(jìn)行專業(yè)化分工以便提供優(yōu)質(zhì)、**的服務(wù)。因此,搜索引擎專業(yè)程度是重要的評價(jià)方面。搜索引擎質(zhì)量評價(jià)體系可以根據(jù)搜索引擎網(wǎng)站的不同定位,針對某一指標(biāo)對其專業(yè)度進(jìn)行評價(jià)。針對搜索對象的不同內(nèi)容,搜索引擎網(wǎng)站應(yīng)設(shè)立有針對性的數(shù)據(jù)庫和索引。門戶搜索引擎網(wǎng)站主要針對大眾一般性需求,如新聞、娛樂資料。對檢索內(nèi)容比較專業(yè)的信息則使用專業(yè)搜索引擎,如搜索旅游方面內(nèi)容,中國旅游網(wǎng)搜索引擎是國內(nèi)比較好的旅游中文專業(yè)搜索引擎。搜索引擎評價(jià)體系可以針對PDF,WORD,RMVB,AVI等不同格式的文件分別設(shè)計(jì)搜索引擎檢索功能,可以大大提高檢索效果。如PDF格式被廣泛應(yīng)用于學(xué)術(shù)論文的電子化,專門針對此類格式的搜索引擎正在獲得學(xué)術(shù)界青睞。此外,針對搜索對象的不同傳輸協(xié)議的搜索引擎也受到用戶歡迎。如專門檢索ftp文件的天網(wǎng)ftp文件檢索系統(tǒng)擁有一批以學(xué)生為主的、忠誠度特別高的用戶群。
2.3智能化程度
搜索引擎評價(jià)體系可以促進(jìn)搜索引擎的智能化進(jìn)程。搜索引擎結(jié)合人工智能技術(shù)可以使網(wǎng)絡(luò)信息檢索從基于關(guān)鍵詞提高到基于知識或概念,通過采用數(shù)據(jù)挖掘技術(shù)、智能代理技術(shù)、基于人工智能的知識發(fā)現(xiàn)術(shù),使網(wǎng)絡(luò)檢索服務(wù)具備智能化、人性化特征。評價(jià)搜索引擎的智能化程度,可以設(shè)立以下標(biāo)準(zhǔn):(1)在保證檢索精度的前提下,搜索引擎要對網(wǎng)頁按重要性排序。這是因?yàn)橛脩敉鶝]有足夠的時(shí)間查閱所有的搜索果,優(yōu)先顯示重要的檢索結(jié)果就十分必要。以Google的排序方式為例,當(dāng)從網(wǎng)頁B被鏈接到網(wǎng)頁A時(shí),Google就認(rèn)為“網(wǎng)頁A投了網(wǎng)頁B一票”。網(wǎng)頁的得票數(shù)越多,Google就認(rèn)為其重要性越大。Google還分析為其投票的網(wǎng)頁,不同網(wǎng)頁所投出的票也具有不同的重要性。被“重要”網(wǎng)頁投票的網(wǎng)頁“重要性”會被適當(dāng)放大;(2)跨語言檢索?;ヂ?lián)網(wǎng)打破了國界,跨語言檢索越來越顯得重要,成為搜索引擎評價(jià)體系中不可忽視的一環(huán)。
跨語言檢索可以通過在主頁上添加在線翻譯功能,也可以將在線翻譯功能放在后臺運(yùn)行;(3)網(wǎng)頁快照技術(shù)。通過儲存應(yīng)急網(wǎng)頁,以便用戶在訪問已經(jīng)過時(shí)或不存在的網(wǎng)頁。網(wǎng)頁快照技術(shù)是Google更先使用,現(xiàn)在已經(jīng)成為百度等各大搜索引擎網(wǎng)站所**的功能。搜索引擎技術(shù)處在不斷進(jìn)步中,對其智能化程度的質(zhì)量評價(jià)應(yīng)該是一個(gè)開放的系統(tǒng),隨著其功能進(jìn)步而增加具體評價(jià)項(xiàng)目,以某一**搜索引擎為基準(zhǔn),對其他搜索引擎按相對比例打分。
3搜索引擎可量化的單項(xiàng)評價(jià)指標(biāo)
可量化的指標(biāo)是質(zhì)量評價(jià)體系科學(xué)性的重要體現(xiàn)。因此,搜索引擎評價(jià)體系要大量采用可反映搜索引擎檢索質(zhì)量的量化評價(jià)指標(biāo),用于指導(dǎo)搜索引擎的建設(shè)和用戶的使用。
3.1傳統(tǒng)的搜索引擎質(zhì)量評價(jià)指標(biāo)
基于紙質(zhì)文獻(xiàn)的傳統(tǒng)評價(jià)指標(biāo)經(jīng)過了數(shù)十年的發(fā)展,已經(jīng)相當(dāng)?shù)某墒?,其中的主要指?biāo)也可以用來評價(jià)搜索引擎的檢索質(zhì)量,但部分指標(biāo)需要針對網(wǎng)絡(luò)檢索的特點(diǎn)作一定程度的修改和完善才能較好的反映網(wǎng)絡(luò)環(huán)境下信息檢索的特點(diǎn)。
3、1.1搜索引擎查全率搜索引擎查全率是指從
搜索引擎系統(tǒng)檢出的與某檢索課題相關(guān)的信息數(shù)量與搜索引擎系統(tǒng)中實(shí)際與該課題相關(guān)的信息總量之比率。但是在網(wǎng)絡(luò)環(huán)境下,信息處于動態(tài)的變化過程中,搜索引擎查全率指標(biāo)比較難測算。因此,可以通過搜索引擎相對查全慮凹各為搜索引擎查全率的補(bǔ)充。搜索引擎相對查全率可操作性較強(qiáng),但受人為不確定因素的影響較大。
3.1.2搜索引擎查準(zhǔn)率
搜索引擎查準(zhǔn)率是又一重要的質(zhì)量評價(jià)指標(biāo),是指從搜索引擎檢索系統(tǒng)檢出的有關(guān)某課題的信息條數(shù)與搜索引擎輸出的信息條數(shù)之比率。搜索引擎的查準(zhǔn)率和查全率存在不兼容性,要提高搜索引擎查全率往往要放寬信息檢索范圍,而這會造成搜索引擎查準(zhǔn)率的下降;同樣,要提高查準(zhǔn)率就要縮小搜索范圍,但容易漏掉所需要的信息。由于網(wǎng)絡(luò)環(huán)境信息更大豐富,用戶在使用搜索引擎進(jìn)行網(wǎng)絡(luò)檢索時(shí),往往更強(qiáng)調(diào)查準(zhǔn)率的提高。對于搜索引擎檢索來說,真實(shí)查準(zhǔn)率較難計(jì)算,這是由于許多檢索課題的檢索結(jié)果數(shù)量太大,相關(guān)性判斷工作成本巨大,可操作性不強(qiáng)。因此定義一個(gè)針對網(wǎng)絡(luò)環(huán)境下信息檢索的搜索引擎相對查準(zhǔn)率就顯得十分必要。
3.1.3搜索引擎漏檢率
搜索引擎檢索漏檢率是指當(dāng)使用搜索引擎進(jìn)行檢索時(shí),檢索系統(tǒng)把被檢索信息分成兩部分,一部分是與檢索要求相符合的信息,并被搜索引擎檢索出來,用戶依據(jù)自身要求將其分成相關(guān)信息和不相關(guān)信息;另一部分是未能與檢索要求相符合的信息,根據(jù)判斷將其分成相關(guān)信息和不相關(guān)信息。搜索引擎漏檢率與查全率成反比,在實(shí)踐中采用抽樣方法進(jìn)行統(tǒng)計(jì)。
3.1.4搜索引擎誤檢率
搜索引擎誤檢率是指當(dāng)進(jìn)行檢索時(shí),搜索引擎把所有信息分為兩部分,一部分是與檢索要求相匹配的信息,并被檢索出來,用戶根據(jù)自己的判斷將其分成相關(guān)的信息(命中)a和不相關(guān)的信息(垃圾)b;另一部分是未能與檢索要求相符合的信息,根據(jù)判斷也可將其分為相關(guān)信息(遺漏)c和不相關(guān)信息(正確的拒更)d。在搜索引擎檢索實(shí)踐中,將降低搜索引擎誤檢率主要是剔除垃圾信息,提高搜索引擎查準(zhǔn)率。
3.2基于互聯(lián)網(wǎng)的搜索引擎質(zhì)量評價(jià)指標(biāo)
3.2.1響應(yīng)時(shí)間
搜索引擎響應(yīng)時(shí)間有四個(gè)部分組成:用戶發(fā)送檢索請求到達(dá)搜索引擎服務(wù)器的時(shí)間;搜索引擎服務(wù)器處理用戶請求的時(shí)間;網(wǎng)站做出的答復(fù)到達(dá)用戶的時(shí)間;搜索引擎用戶處理檢索結(jié)果的時(shí)間。其中,用戶發(fā)送請求和服務(wù)器返回答復(fù)的時(shí)間取決于網(wǎng)絡(luò)傳輸速度,用戶處理檢索的時(shí)間取決于用戶計(jì)算機(jī)的配置,搜索引擎網(wǎng)站服務(wù)器處理用戶檢索請求的時(shí)間取決于服務(wù)器的硬件配置和負(fù)載情況、軟件的組成原理、編碼方法。提高網(wǎng)站服務(wù)器的整體性能,開發(fā)**率的檢索軟件,使用緩存技術(shù)是搜索引擎縮短反應(yīng)時(shí)間的重要方法。由于檢索技術(shù)的進(jìn)步,檢索響應(yīng)時(shí)間已經(jīng)大大縮短,在這方面提高的空間已經(jīng)很小。盡管搜索同樣數(shù)量的網(wǎng)頁,google比百度快60%一80%,這已很難成為更大多數(shù)用戶做出選擇的理由。
3.2.2數(shù)據(jù)庫的內(nèi)容規(guī)模
數(shù)據(jù)庫是搜索引擎工作的基礎(chǔ),是搜索引擎評價(jià)的重要對象,其內(nèi)容包括數(shù)據(jù)庫的覆蓋范圍、索引組成和更新周期,數(shù)據(jù)庫規(guī)模、類型、更新頻率、分類體系和信息抓取方式等。英文搜索引擎在規(guī)模方面優(yōu)勢明顯,如google的數(shù)據(jù)庫規(guī)模約是sohu的600倍,但中文搜索引擎在數(shù)據(jù)庫更新周期,分類方式、檢索語言等方面的差距并不明顯。
3.2.3標(biāo)準(zhǔn)化程度
互聯(lián)網(wǎng)信息是多元化的,搜索引擎應(yīng)盡量采用國際通行的標(biāo)準(zhǔn)以方便用戶的使用。因此,搜索引擎標(biāo)準(zhǔn)化程度應(yīng)該成為搜索引擎質(zhì)量評價(jià)體系的重要指標(biāo)。首先,搜索引擎的檢索語言應(yīng)使用標(biāo)準(zhǔn)檢索詞,如使用國際標(biāo)準(zhǔn)的檢索詞“and”、“not”、“or”,各個(gè)檢索詞的功能也應(yīng)按國際標(biāo)準(zhǔn)進(jìn)行統(tǒng)一設(shè)置。其次,檢索結(jié)果的輸出格式也應(yīng)實(shí)現(xiàn)標(biāo)準(zhǔn)化,應(yīng)包含必要的內(nèi)容,主要包括網(wǎng)頁鏈接地址、被突出的檢索詞、主頁網(wǎng)址、日期、網(wǎng)頁快照,并按一定順序排列。檢索結(jié)果格式的標(biāo)準(zhǔn)化可以方便用戶查找和使用,提高搜索引擎的用戶舒適度。搜索引擎評價(jià)體系是一個(gè)開放性的動態(tài)系統(tǒng)工程,其具體評價(jià)方式應(yīng)隨著搜索引擎的推廣和使用進(jìn)行持續(xù)的優(yōu)化,以便促進(jìn)搜索引擎的不斷升級。
3.2.4網(wǎng)站**性
Gogoseo認(rèn)為網(wǎng)站**性與網(wǎng)頁**性這兩個(gè)概念是有所區(qū)別的。網(wǎng)站**性是由一張張高質(zhì)量的網(wǎng)頁、網(wǎng)站聲望、用戶口碑等等因素形成。搜索引擎判斷一張網(wǎng)頁的重要性,可能會優(yōu)先判斷網(wǎng)站的**性。基于網(wǎng)站的**性,再判斷某一網(wǎng)頁的**性。
研究搜索引擎評價(jià)網(wǎng)頁質(zhì)量體系,歡迎合作。