8AV国产精品爽爽Va在线观看_国产精品视频免费播放_综合精品综合一区二区_蜜臀福利视频免费观看

品優(yōu)網(wǎng)絡(luò) 十六年(2003-2018)專注
網(wǎng)頁分類技術(shù)的詳細(xì)介紹
日期:2014-12-14 作者:admin 來源: 瀏覽次數(shù):0 網(wǎng)友評(píng)論 0

企業(yè)網(wǎng)站推廣1

1.    技術(shù)背景

    分類問題是人類所面臨的一個(gè)非常重要且具有普遍意義的問題。將事物正確的分類,有助于人們認(rèn)識(shí)世界,使雜亂無章的現(xiàn)實(shí)世界變得有條理。自動(dòng)文本分類就是對(duì)大量的自然語言文本按照一定的主題類別進(jìn)行自動(dòng)分類,它是自然語言處理的一個(gè)十分重要的問題。文本分類主要應(yīng)用于信息檢索,機(jī)器翻譯,自動(dòng)文摘,信息過濾,郵件分類等任務(wù)。文本分類的一個(gè)關(guān)鍵問題是特征詞的選擇問題及其權(quán)重分配。

    在搜索引擎中,文本分類主要有這些用途:相關(guān)性排序會(huì)根據(jù)不同的網(wǎng)頁類型做相應(yīng)的排序規(guī)則;根據(jù)網(wǎng)頁是索引頁面還是信息頁面,下載調(diào)度時(shí)候會(huì)做不同的調(diào)度策略;在做頁面信息抽取的時(shí)候,會(huì)根據(jù)頁面分類的結(jié)果做不同的抽取策略;在做檢索意圖識(shí)別的時(shí)候,會(huì)根據(jù)用戶所點(diǎn)擊的url所屬的類別來推斷檢索串的類別等等。

2.    自動(dòng)分類的原理和步驟

    在分類的時(shí)候首先會(huì)遇到文檔形式化表示的問題,文檔模型有3種:向量空間模型,布爾模型和概率模型,其中我們常用的是向量空間模型。向量空間模型的核心描述如下:

•文檔(Document):文本或文本中的片斷(句子或段落)。
•特征項(xiàng)(Term):文檔內(nèi)容用它所包含的基本語言單位來表示,基本語言單位包括字、詞、辭凹擱、短語、句子、段落等,統(tǒng)稱為特征項(xiàng)。
•特征項(xiàng)權(quán)重(Term Weight):不同的特征項(xiàng)對(duì)于文檔D的重要程度不同,用特征項(xiàng)Tk附加權(quán)重Wk 來進(jìn)行量化,文檔D可表示為(T1,W1;T2,W2;…;Tn,Wn)
•向量空間模型(Vector Space Model):對(duì)文檔進(jìn)行簡(jiǎn)化表示,在忽略特征項(xiàng)之間的相關(guān)信息后,一個(gè)文本就可以用一個(gè)特征向量來表示,也就是特征項(xiàng)空間中的一個(gè)點(diǎn);而一個(gè)文本集可以表示成一個(gè)矩陣,也就是特征項(xiàng)空間中的一些點(diǎn)的集合。
•相似度(Similarity):相似度Sim(D1,D2)用于度量?jī)蓚€(gè)文檔D1和D2之間的內(nèi)容相關(guān)程度。當(dāng)文檔被表示為文檔空間的向量,就可以利用歐氏距離、內(nèi)積距離或余弦距離等向量之間的距離計(jì)算公式來表示文檔間的相似度。
    其中特征選取是文本表示的關(guān)鍵,方法包括:文檔頻率法(DF)、信息增益法和互信息法等等。

    在做特征選取之前,一般還要進(jìn)行預(yù)處理的工作,要對(duì)先對(duì)網(wǎng)頁降噪。另外在實(shí)際的分類中,除了利用文檔的內(nèi)容特征之外,可能還會(huì)用到實(shí)際應(yīng)用中所特有的特征,比如在網(wǎng)頁分類中,可能用到url的特征、html的結(jié)構(gòu)特征和標(biāo)簽特征等信息。

    分類的基本步驟是這樣的:定義分類體系,將預(yù)先分類過的文檔作為訓(xùn)練集,從訓(xùn)練集中得出分類模型,然后用訓(xùn)練獲得出的分類模型對(duì)其它文檔加以分類。

3.    常用的分類算法

    文檔自動(dòng)分類是學(xué)術(shù)界研究多年,技術(shù)上比較成熟的一個(gè)領(lǐng)域。目前分類算法主要分下面這些:

    其中比較常用的是:支持向量機(jī)(SVM)方法、樸素貝葉斯(NB)方法、神經(jīng)網(wǎng)絡(luò)(NN)方法、K近鄰(KNN)方法、決策樹(Decision Tree)方法等。

•支持向量機(jī)(Support Vector Machines, SVM)由Vapnik在1995年提出,用于解決二分類模式識(shí)別問題。它通過尋找支持向量來確定決策面,并使分類間隔更大。SVM方法提供了解決 “維數(shù)災(zāi)難”問題的方法。SVM方法較好的理論基礎(chǔ)和它在一些領(lǐng)域的應(yīng)用中表現(xiàn)出來的**的泛化性能,盡管SVM算法的性能在許多實(shí)際問題的應(yīng)用中得到了驗(yàn)證,但是該算法在計(jì)算上存在著一些問題,包括訓(xùn)練算法速度慢、算法復(fù)雜而難以實(shí)現(xiàn)以及檢測(cè)階段運(yùn)算量大等等。
•樸素貝葉斯(Naive Bayes,NB) 概率分類器是機(jī)器學(xué)習(xí)中很常用的一種方法,其基本思想是利用單詞和分類的聯(lián)合概率來估計(jì)給定文檔的分類概率。
 貝葉斯公式:P(C|X)*P(X)=P(X|C)*P(C)

 特征向量:X=(x1,x2,x3…)    C={C1,C2,……}

 其中P(C)是每個(gè)類別的先驗(yàn)概率,即,互聯(lián)網(wǎng)上各個(gè)分類所占總頁面的比例

 P(X|C):條件概率,表示在類別為C的訓(xùn)練集合中,X的分布情況。

 P(X):每個(gè)特征值的分布,由于特征值的分布是隨機(jī)的,所以P(X)相等

•神經(jīng)網(wǎng)絡(luò)(Neural network,NN)技術(shù)是人工智能中的成熟技術(shù)。將神經(jīng)網(wǎng)絡(luò)用于文檔分類時(shí),需要為每個(gè)分類建立一個(gè)神經(jīng)網(wǎng)絡(luò),通過學(xué)習(xí)得到從輸入單詞(或者更復(fù)雜的特征詞向量)到分類的非線性映射。其計(jì)算量和訓(xùn)練時(shí)間非常龐大。
•KNN是**的模式識(shí)別統(tǒng)計(jì)學(xué)方法,已經(jīng)有四十年歷史,它是更好的文本分類算法之一。KNN算法相當(dāng)簡(jiǎn)單:給定一個(gè)測(cè)試文檔,系統(tǒng)在訓(xùn)練集中查找離它更近的k個(gè)鄰居,并根據(jù)這些鄰居的分類來給該文檔的候選分類評(píng)分。把鄰居文檔和測(cè)試文檔的相似度作為鄰居文檔所在分類的權(quán)重。如果這k個(gè)鄰居中的部分文檔屬于同一個(gè)分類,則該分類中的每個(gè)鄰居的權(quán)重求和并作為該分類和測(cè)試文檔的相似度。該方法的特點(diǎn)是允許文檔可以屬于多個(gè)分類。KNN通過查詢已知類似的例子的情況,來判斷新例子與已知例子是否屬于同一類。

    通過我們對(duì)現(xiàn)實(shí)網(wǎng)頁的分類測(cè)試情況看,這些方法中SVM方法的效果是比較好的,但是性能不高; 樸素貝葉斯的分類效果雖然略差于SVM,但是性能上要好很多。

4.    網(wǎng)頁分類應(yīng)用
4.1 分類算法

    實(shí)際應(yīng)用中, 除了分類效果外, 速度是一個(gè)需要重點(diǎn)考慮的因素。

4.2 分類類別

    在搜索引擎中, 在不同的應(yīng)用場(chǎng)景下, 會(huì)有不同的分類的標(biāo)準(zhǔn), 比如在鏈接調(diào)度中需要信息頁、索引頁這樣的分類,不同類型的頁面更新調(diào)度的周期不一樣;排序?qū)Ψ诸惖囊笥植煌? 比如按表現(xiàn)形式分圖片、視頻等;按網(wǎng)站類型分為論壇、博客等,不同類型的頁面抽取策略也會(huì)不盡相同;再按內(nèi)容主題分成小說、招聘和下載等類別。對(duì)網(wǎng)頁從多個(gè)維度進(jìn)行分類,能更好給用戶提供更為貼切的檢索結(jié)果。

4.3 特征選取

    在學(xué)術(shù)研究中, 一般比較重視分類算法的研究,在特征選擇上比較忽視。傳統(tǒng)的特征選擇一般是用TF*IDF等方法選擇內(nèi)容關(guān)鍵字等,這也是我們使用的一個(gè)重要因子, 但是除內(nèi)容特征之外,我們還會(huì)用到很多其它特征,比如:網(wǎng)站特征、html特征和url特征等,這些特征會(huì)明顯的提高分類的準(zhǔn)確率和召回率。

網(wǎng)頁分類技術(shù)的詳細(xì)介紹,與大家多多交流。

企業(yè)網(wǎng)站推廣2

查看更多寧波網(wǎng)站制作公司技術(shù)詳細(xì)介紹網(wǎng)頁

寧波網(wǎng)站建設(shè) (http://www.sdjianlida.com/) 版權(quán)與免責(zé)聲明
    1、凡本網(wǎng)注明“來源:寧波品優(yōu)網(wǎng)絡(luò)”字樣的所有作品,版權(quán)均屬于浙江省寧波海曙品優(yōu)網(wǎng)絡(luò)技術(shù)有限公司,如需轉(zhuǎn)載、摘編或利用其它方式使用上述作品,請(qǐng)與本網(wǎng)聯(lián)系。
    2、凡本網(wǎng)注明“來源:XXX(非寧波品優(yōu)網(wǎng)絡(luò))”的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。寧波網(wǎng)站建設(shè)的轉(zhuǎn)載僅為信息的廣泛傳播,如有侵權(quán)請(qǐng)及時(shí)告之刪除。
返回:寧波網(wǎng)站制作公司