亚洲网站在线观看_免费性无码在线专区_免费女人高潮又粗又大毛片_欧美性爱在线视频看看_日韩国产中文无码一区_国产欧美精品一二三区展播_综合自拍欧美乱伦_老司机久久精品视频_日韩一级黄色录像_毛片在线无码频在线观看

您當(dāng)前的位置主頁 > SEO優(yōu)化 > 瀏覽文章

Python無監(jiān)督抽詞

來源:SEO優(yōu)化 2012-10-13

快速提升網(wǎng)站銷量,使用365webcall網(wǎng)站客服系統(tǒng)

如何快速正確分詞,對于SEO來說,是提取tags聚合,信息關(guān)聯(lián)的好幫手。

目前很多分詞工具都是基于一元的分詞法,需要詞庫來輔助。

通過對Google黑板報第一章的學(xué)習(xí),如何利用統(tǒng)計模型進(jìn)行分詞。

本方法考慮了3個維度:

凝聚程度:兩個字連續(xù)出現(xiàn)的概率并不是各自獨立的程度。例如“上”出現(xiàn)的概率是1×10^-5,”床”出現(xiàn)的概率是1×10^-10,如果這兩個字的凝聚程度低,則”上床”出現(xiàn)的概率應(yīng)該和1×10^-15接近,但是事實上”上床”出現(xiàn)的概率在1×10^-11次方,遠(yuǎn)高于各自獨立概率之積。所以我們可以認(rèn)為“上床”是一個詞。

左鄰字聚合熵:分出的詞左邊一個字的信息量,比如”巴掌”,基本只能用于”打巴掌”,“一巴掌”,“拍巴掌”,反之”過去”這個詞,前面可以用“走過去”,“跑過去”,“爬過去”,“打過去”,“混過去”,“睡過去”,“死過去”,“飛過去”等等,信息熵就非常高。

右鄰字聚合熵:分出的詞右邊一個詞的信息量,同上。

下面是一個利用Python實現(xiàn)的demo(轉(zhuǎn)自:/?p=682

收藏本文

文章編輯: 365webcall在線客服系統(tǒng)(www.365webcall.com)

我的評論

登錄賬號: 密碼: 快速注冊 | 找回密碼

日本乱子人伦在线视频 | 中文字幕99精品人妻少妇 | 亚洲国产成人精品女人久久久 | 中文字幕无码国内精品痴汉 | 精品爆乳一区二区三区无码AV | 在线看的网站不卡日韩网站 | A国产一区二区免费入口 | 国产精品免费高清在线观看 | 国产伦人人人人人人性 | 狠狠躁夜夜躁无码中文字幕 | 一级做a爰片久久免费观看 天天摸天天碰天天爽天天弄 | 亚洲熟伦熟女新五十路熟妇 | 国产看黄网站又黄又爽又色 | 国产一区二区三区在线视頻 | 午夜不卡久久精品无码免费 | 人妻人人捏捏人人揉揉 | 国产精品99精品无码视亚 | 国产一级毛片内射年月直播 | 91精品无码人妻系列 | 一区二区国产精品欧美日韩 | 妖精视频美女亚洲欧美日韩 | 岛国无码一级特黄激情毛片 | 中文字幕久久精品无码 | 色偷偷人人澡人人爽人人模 | 亚洲国产精久久久久久久久 | 在线观看免费人成视频下载 | A在线观看免费网站大全 | 被公侵犯玩弄漂亮人妻中文 | 久久精品亚洲成在人线AV麻豆 | 高清性猛交XXX黑人猛交 | 亞洲Av無碼一區二區三區觀看 | 欧洲欧美人成视频免费播放 | 欧美伊香蕉久久综合网另类 | 日本家庭乱欧美激情二区三区 | 中文字幕一区二区三区四区 | 欧美国产韩国日本一区二区 | 色欲av在线一区二区观看 | 日韩精品久久久肉伦网站 | 国产WW久久久久久久久久 | 重口sm一区二区三区视频 | 国产精品看高国产精品不卡 |