专利名称 | 一种基于LDA的生物医药技术主题挖掘方法 | ||
申请号 | CN201811147587.3 | 申请日 | |
公开(公告)号 | CN109446320A | 公开(公告)日 | 2018-09-29 |
申请(专利权)人 | 发明人 | 姜迪; 叶波; 马军 | |
专利来源 | 国家知识产权局 | 转化方式 | |
摘要 |
本发明涉及一种基于LDA的生物医药技术主题挖掘方法,属于信息检索技术领域。本发明首先采用LDA把一篇文档看作是一个所包含的词的向量的组合,使得文本可以转化为用数学方法进行表示的向量,然后利用评价函数Perplexity(困惑度)确定语义主题数K,最后计算每一篇文档di在所有Topic上的一个概率值p,得到了两个矩阵,一个doc‑Topic矩阵,一个word‑Topic矩阵,这样LDA就将文档和词,投射到了一组Topic上,试图通过Topic找出文档与词间,文档与文档间,词与词之间潜在的关系。LDA属于无监督算法,每个Topic并不会要求指定条件,但聚类后,通过统计出各个Topic上词的概率分布,那些在该Topic上概率高的词,能非常好的描述该Topic的意义。 |
主管部门:海南中小企业服务 | 建设单位:海南商业联合会
版权所有:海南商业联合会 | 备案号:粤ICP备13083911号(ICP加挂服务)@2017