专利名称 | 基于中医药领域专业词向量的中草药植物图片爬取方法 | ||
申请号 | CN201610146357.X | 申请日 | |
公开(公告)号 | CN105824904B | 公开(公告)日 | 2016-03-15 |
申请(专利权)人 | 发明人 | 魏宝刚; 张引; 庄越挺; 谭亮 | |
专利来源 | 国家知识产权局 | 转化方式 | |
摘要 |
本发明公开了一种基于中医药领域专业词向量的中草药植物图片爬取方法。首先需要选择收集中医药文本数据,本发明采用医学书籍的文本信息以及从百科网站上爬取的中医药相关的词条信息;其次,利用这些文本数据训练Word2Vec模型得到中医药领域专业词向量;然后,利用谷歌、百度等通用搜索引擎提供的基于文本的图像检索功能获取候选图片集和它们所在源网页的文本信息,并利用Doc2Vec模型计算各源网页的特征向量;最后,根据源网页的特征向量与对应中草药词向量的相似度对候选图片集进行重排,选取排在前面的若干图片,然后使用感知哈希算法对图片集进行去重处理,得到最终的图片集。 |
主管部门:海南中小企业服务 | 建设单位:海南商业联合会
版权所有:海南商业联合会 | 备案号:粤ICP备13083911号(ICP加挂服务)@2017