专利名称 | 一种基于文档聚类关键词计算方法 | ||
申请号 | CN201510566216.9 | 申请日 | |
公开(公告)号 | CN105159998A | 公开(公告)日 | |
申请(专利权)人 | 海南大学 | 发明人 | 周辉; 段玉聪; 叶春杨; 王磊 |
专利来源 | 国家知识产权局 | 转化方式 | 委托人转化 |
摘要 |
本发明涉及一种基于文档聚类关键词计算方法,所述方法包括(1)获取文本文档集合;(2)将文档集合中各文档内容采用分词算法进行词条切分;(3)建立文档向量;(4)采用TF-IDF计算文档向量:(5)对文档向量进行维度压缩;(6)进行文档聚类计算;(7)计算各组文档的代表性关键词。本发明的有益效果为:本发明提供了完整可行的计算步骤,并创新性地支持文档向量维度的压缩,计算效率高。本发明在执行文档向量的降维处理时,采用了不同于任何现有技术的一种简洁、高效的新方法。本发明是首个连接不同的环节,以切实可行的计算步骤,确保从文档集合中计算出代表性关键词的技术方案。 |
主管部门:海南中小企业服务 | 建设单位:海南商业联合会
版权所有:海南商业联合会 | 备案号:粤ICP备13083911号(ICP加挂服务)@2017