亚洲网站在线观看_免费性无码在线专区_免费女人高潮又粗又大毛片_欧美性爱在线视频看看_日韩国产中文无码一区_国产欧美精品一二三区展播_综合自拍欧美乱伦_老司机久久精品视频_日韩一级黄色录像_毛片在线无码频在线观看

您當(dāng)前的位置主頁 > SEO優(yōu)化 > 瀏覽文章

Python無監(jiān)督抽詞

來源:SEO優(yōu)化 2012-10-13

快速提升網(wǎng)站銷量,使用365webcall網(wǎng)站客服系統(tǒng)

如何快速正確分詞,對于SEO來說,是提取tags聚合,信息關(guān)聯(lián)的好幫手。

目前很多分詞工具都是基于一元的分詞法,需要詞庫來輔助。

通過對Google黑板報第一章的學(xué)習(xí),如何利用統(tǒng)計模型進(jìn)行分詞。

本方法考慮了3個維度:

凝聚程度:兩個字連續(xù)出現(xiàn)的概率并不是各自獨立的程度。例如“上”出現(xiàn)的概率是1×10^-5,”床”出現(xiàn)的概率是1×10^-10,如果這兩個字的凝聚程度低,則”上床”出現(xiàn)的概率應(yīng)該和1×10^-15接近,但是事實上”上床”出現(xiàn)的概率在1×10^-11次方,遠(yuǎn)高于各自獨立概率之積。所以我們可以認(rèn)為“上床”是一個詞。

左鄰字聚合熵:分出的詞左邊一個字的信息量,比如”巴掌”,基本只能用于”打巴掌”,“一巴掌”,“拍巴掌”,反之”過去”這個詞,前面可以用“走過去”,“跑過去”,“爬過去”,“打過去”,“混過去”,“睡過去”,“死過去”,“飛過去”等等,信息熵就非常高。

右鄰字聚合熵:分出的詞右邊一個詞的信息量,同上。

下面是一個利用Python實現(xiàn)的demo(轉(zhuǎn)自:/?p=682

收藏本文

文章編輯: 365webcall在線客服系統(tǒng)(www.365webcall.com)

我的評論

登錄賬號: 密碼: 快速注冊 | 找回密碼

亚洲第一无码人成影院 | 亚洲天堂无码视频在线观看 | 欧美日韩精品久久久免费观看 | AV天堂午夜精品一区 | 人妻无码一区二区视频 | 国产又粗又M又爽又黄的视频 | 精品产国一二三区免费播放 | 在线欧美中文字幕农村电影 | 天堂网www在线中文字幕 | 亚洲中文无码av永久 | 亚洲日韩国产精品午夜福利 | 99久久久国产精品免费蜜臀 | 99精品视频免费热播在线观看 | 丰满肥臀无码一区二区三区 | 国产精品色婷婷99久久精品 | 日本五月天婷久久网站 | 国产免费无遮挡无码永久视频 | 无码乱人伦一区二区亚洲 | 内射人妻无码色AV麻豆 | 亚洲qingse中文字幕久久 | 色欲av一区二区久久精品 | 91久久久久无码精品国产 | 久久久久亚洲Av片无码 | 国产精品视频永久免费视频 | 一区二区三区中文字幕密桃 | 国产精品经典三级一区 | 欧美老熟妇BBBBB搡BBB | 国产网曝门99视频在线看 | a级毛片一区二区免费视频 亚洲一区精品无码色成人 国内一级毛片无码真人免费视频 | 国内一级毛片无码真人免费视频 | 亚洲日韩欧美国产动漫美女 | 亚洲国产欧美日韩欧美特级 | 伊人久久精品无码AV一区 | 午夜av影院久久中文无码 | 国产一区二区三区在线视頻 | 消息称老熟妇乱视频一区二区 | 亚洲精品无码久久久久久 | 高清一区二区三区蜜桃av | 日本乱偷人妻中文字幕在线 | 伊人久久大香线蕉成人综合网 | 国产粗大猛烈进出高潮视频 |