【番禺網(wǎng)站優(yōu)化】網(wǎng)站中的文本相似度也異常重要。

1.jpg

  在今日頭條中,用戶反饋了大量的問(wèn)題在這中間提到最多的問(wèn)題就是網(wǎng)站中為什么總推薦一些重要的問(wèn)題?對(duì)于這種情況來(lái)說(shuō),不同的人重復(fù)的內(nèi)容意義不同。舉個(gè)例子來(lái)說(shuō),有人在看一些將娛樂(lè)八卦的文章。但這些文章確是昨天已經(jīng)看到的類似內(nèi)容,那么今天再看,它就是重復(fù)的了。對(duì)于如何解決這一內(nèi)容,我們就需要能夠判斷相似的文章,看看他們的主題、主體等內(nèi)容,然后根據(jù)這些內(nèi)容做一些線上策略。


  同樣的文章中還有一些時(shí)空特征,這些特征能夠幫助我們分析內(nèi)容發(fā)生的地點(diǎn)以及它的時(shí)效。比如在傷害現(xiàn)行的事情推給廣州的用戶就沒(méi)有意義。在文本的最后我們還要考慮與質(zhì)量相關(guān)的特征。來(lái)判斷文章的內(nèi)容是低俗還是軟文亦或是雞湯。


  另外我們要知道語(yǔ)義標(biāo)簽的特征以及它能夠使用的場(chǎng)景。要知道在他們之間存在著不同的層級(jí)以及不同的要求。


  而作為分類的目標(biāo)他就是能夠覆蓋全面,希望網(wǎng)站中的每一篇文章每一個(gè)視頻都能夠分類,它的實(shí)體體系要求更加準(zhǔn)確,要知道相同的名字或相同的內(nèi)容指定的人或物也不盡相同,覆蓋的范圍也不全面,而在概念體系中,它主要解決一些較為精確,但又有些抽象的語(yǔ)義。這些就是網(wǎng)站最初的分類。


  目前,隱式語(yǔ)義特征已經(jīng)可以很好的幫助推薦,而語(yǔ)義標(biāo)簽需要持續(xù)標(biāo)注,新名詞新概念不斷出現(xiàn),標(biāo)注也要不斷迭代。其做好的難度和資源投入要遠(yuǎn)大于隱式語(yǔ)義特征,那為什么還需要語(yǔ)義標(biāo)簽?有一些產(chǎn)品上的需要,比如頻道需要有明確定義的分類內(nèi)容和容易理解的文本標(biāo)簽體系。語(yǔ)義標(biāo)簽的效果是檢查一個(gè)公司NLP技術(shù)水平的試金石。


  網(wǎng)站中的


  今日頭條推薦系統(tǒng)的線上分類采用典型的層次化文本分類算法。最上面Root,下面第一層的分類是像科技、體育、財(cái)經(jīng)、娛樂(lè),體育這樣的大類,再下面細(xì)分足球、籃球、乒乓球、網(wǎng)球、田徑、游泳...,足球再細(xì)分國(guó)際足球、中國(guó)足球,中國(guó)足球又細(xì)分中甲、中超、國(guó)家隊(duì)...,相比單獨(dú)的分類器,利用層次化文本分類算法能更好地解決數(shù)據(jù)傾斜的問(wèn)題。有一些例外是,如果要提高召回,可以看到我們連接了一些飛線。這套架構(gòu)通用,但根據(jù)不同的問(wèn)題難度,每個(gè)元分類器可以異構(gòu),像有些分類SVM效果很好,有些要結(jié)合CNN,有些要結(jié)合RNN再處理一下。


  上圖是一個(gè)實(shí)體詞識(shí)別算法的case?;诜衷~結(jié)果和詞性標(biāo)注選取候選,期間可能需要根據(jù)知識(shí)庫(kù)做一些拼接,有些實(shí)體是幾個(gè)詞的組合,要確定哪幾個(gè)詞結(jié)合在一起能映射實(shí)體的描述。如果結(jié)果映射多個(gè)實(shí)體還要通過(guò)詞向量、topic分布甚至詞頻本身等去歧,最后計(jì)算一個(gè)相關(guān)性模型。