【南京seo優(yōu)化培訓(xùn)】分詞對(duì)seo的影響


    研究搜索引擎的分詞技術(shù),無(wú)論是對(duì)用戶的檢索還是對(duì)seo都具有非常重要的意義。分詞又叫做切詞,是將連續(xù)的自序列按照一定的規(guī)范重新組合成詞序列的過(guò)程。


    分詞的原理:中文分詞分類:


    (1)基于字符串的匹配也就是機(jī)械分詞法。機(jī)械分詞法的原理是將搜索欄的字符串與一個(gè)龐大的機(jī)器字典中的詞進(jìn)行匹配。常見(jiàn)的三種匹配方式:第一種是正向最大匹配,比如走路和氣質(zhì),它會(huì)切分為走路、和氣質(zhì)。第二種是逆向最大匹配,如果用逆向最大匹配法走路和氣質(zhì)它會(huì)拆分為走路、和、氣質(zhì)。第三種是最少切分法,它是使每一句中切出的詞數(shù)量最少,還可以將上述的方法相互結(jié)合。比如說(shuō)雙向最大匹配,一般來(lái)說(shuō)逆向匹配的切分精度越高于正向匹配,遇到的歧義現(xiàn)象也比較少。


    (2)基于理解的分詞方法。指在分詞的同時(shí)進(jìn)行句法、語(yǔ)義的分析,利用句法信息和語(yǔ)言信息來(lái)處理歧義現(xiàn)象。


    (3)基于統(tǒng)計(jì)的分詞方法。是根據(jù)漢字共同出現(xiàn)的頻率來(lái)分詞。


    以百度搜索引擎為例:百度搜索引擎有一個(gè)專有詞典,分詞時(shí)首先查詢專有詞典(人名、部分地名等),將專有名稱切出,剩下的部分采取雙向分詞策略,如果兩者切分結(jié)果相同,說(shuō)明沒(méi)有歧義,直接輸出分詞結(jié)果。如果不一致,則輸出最短路徑的那個(gè)結(jié)果,如果長(zhǎng)度相同,則選擇單字詞少的那一組切分結(jié)果。


    百度同時(shí)做出多種分詞方式,首先不拆分進(jìn)行查找,然后先識(shí)別專有名詞和新詞,再對(duì)其余部分進(jìn)行拆分,采用雙向最大匹配的方式。


    3.分詞對(duì)seo的影響


    中文分詞的準(zhǔn)確性往往會(huì)影響到搜索引擎排名的相關(guān)性。所以就提醒我們,第一要充分利用中文分詞撰寫(xiě)網(wǎng)站標(biāo)題,第二我們要利用中文分詞撰寫(xiě)網(wǎng)站描述。