您好,欢迎来到好土汽车网。
搜索
您的当前位置:首页基于词性分类统计的重复网页和近似网页的识别方法[发明专利]

基于词性分类统计的重复网页和近似网页的识别方法[发明专利]

来源:好土汽车网
专利内容由知识产权出版社提供

专利名称:基于词性分类统计的重复网页和近似网页的识别方

专利类型:发明专利发明人:安俊秀,程芃森,王鹏申请号:CN201210151552.3申请日:20120516公开号:CN102722526A公开日:20121010

摘要:本发明公开了一种基于词性分类统计的重复网页和近似网页的识别方法,包括以下步骤:从网页文本中提取正文;切词;分类;统计词频;提取高频词;将高频词在词级倒排索引中查询,直到查询成功,记录下查询出来的对应文本编号,若查询不成功,则表示当前词性类别的集合为空;统计出现次数最多的文本编号及其次数;统计集合中不为空的集合个数;判断频率最高的文本次数是否大于或等于1,如果不是,则将高频词添加至词级倒排索引,结束;如果是,则将出现次数最多的文本编号添加至类型倒排索引中,结束。本发明的算法步骤简单、实用性强,和现有传统算法相比,本发明算法在准确率和召回率方面有明显的提升,其中召回率能够提升10-20个百分点。

申请人:成都信息工程学院

地址:610000 四川省成都市西南航空港经济开发区学府路一段24号

国籍:CN

代理机构:北京中海智圣知识产权代理有限公司

代理人:巢瑞钰

更多信息请下载全文后查看

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- howto234.com 版权所有 湘ICP备2022005869号-3

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务