基于中医药领域专业词向量的中草药植物图片爬取方法

文档序号:10471197阅读:270来源:国知局
基于中医药领域专业词向量的中草药植物图片爬取方法
【专利摘要】本发明公开了一种基于中医药领域专业词向量的中草药植物图片爬取方法。首先需要选择收集中医药文本数据,本发明采用医学书籍的文本信息以及从百科网站上爬取的中医药相关的词条信息;其次,利用这些文本数据训练Word2Vec模型得到中医药领域专业词向量;然后,利用谷歌、百度等通用搜索引擎提供的基于文本的图像检索功能获取候选图片集和它们所在源网页的文本信息,并利用Doc2Vec模型计算各源网页的特征向量;最后,根据源网页的特征向量与对应中草药词向量的相似度对候选图片集进行重排,选取排在前面的若干图片,然后使用感知哈希算法对图片集进行去重处理,得到最终的图片集。
【专利说明】
基于中医药领域专业词向量的中草药植物图片爬取方法
技术领域
[0001] 本发明设及中草药植物图片爬取方法,尤其设及一种基于中医药领域专业词向量 的中草药植物图片爬取方法。
【背景技术】
[0002] 为了构建专业的中草药植物图像检索系统,首先需要构建中草药植物图像库。随 着互联网技术的快速发展和图像获取设备的飞速增长,互联网上产生了大量的中草药植物 图片,所W,从互联网上抓取中草药植物图片是一种快速构建中草药植物图像库的有效途 径。随着人们对于从海量图片中检索目标图片的需求愈加迫切,通用捜索引擎,如google和 百度,都提供了图像检索的功能,包括基于文本的图像检索和基于内容的图像检索。所W, 可W利用通用捜索引擎提供的基于文本的图像检索功能来快速地构建中药草图像库,但直 接抓取通用捜索引擎检索的结果,效果并不十分理想。分析正确图片所在的源网页和不正 确图片所在的源网页,容易发现非目标网页的文本内容与中医药的关系并不大,甚至完全 没有关系。

【发明内容】

[0003] 本发明的目的是解决现有技术中存在的问题,并提供一种基于中医药领域专业词 向量的中草药植物图片爬取方法。
[0004] 本发明的目的是通过W下技术方案来实现的:
[0005] -种基于中医药领域专业词向量的中草药植物图片爬取方法,包括W下步骤:
[0006] 1)对医学书籍进行OCR处理,提取医案文本信息;同时,爬取百科网站上中医药相 关的词条?胃息;
[0007] 2)将第1)步所得的文本利用CRF模型与最长单词匹配方法相组合进行分词,同时 过滤掉停用词,构建Word2Vec的训练集;
[000引 3)训练Word2Vec模型,构造词向量矩阵,即对每一个单词,用一个向量来表示; [0009] 4)对于每一种中草药植物,利用捜索引擎提供的基于文本的图像检索功能获取候 选图片集和它们所在源网页的内容;
[0010] 5)对第4)步中得到的每一个源网页,去掉包括HTML标签、JS代码、CSS代码的内容, 然后利用CRF模型与最长单词匹配方法相组合进行分词,去掉停用词,得到源网页的文本信 息;
[0011] 6)利用第5)步所得的文本和第3)步得到的词向量矩阵训练Doc2Vec模型,即用第 3)步的词向量矩阵初始化Doc2Vec中的词向量矩阵,更新时保持词向量矩阵不变,只更新文 档向量,训练完后便得到各源网页的文档向量;
[0012] 7)根据各源网页的文档向量与对应的中草药词向量的余弦相似度对第4)步中得 到的候选图片集进行重排和过滤,选出相似度高于预设阔值的图片集,作为候选图片集;
[0013] 8)对第7)步中得到的候选图片集中的图片使用感知哈希算法进行去重处理,得到 最终的图片集。
[0014] 本发明是中医药领域与计算机科学相结合的产物,它通过将中医药领域知识引入 到中草药植物图片的爬虫框架中,提高了中草药植物图片爬虫的准确性,同时,本发明所阐 述的方法也具有一般性,可适用于其他领域相关图片的爬取。
【附图说明】
[0015] 图1是一种基于中医药领域专业词向量的中草药植物图片爬取方法的系统架构 图;
[0016] 图2是实施例中中医药领域专业词向量的部分示例;
[0017] 图3是实施例中图片URL和图片所在源网页URL提取示例。
【具体实施方式】
[0018] 下面结合附图和实施例对本发明作进一步说明。
[0019] -种基于中医药领域专业词向量的中草药植物图片爬取方法,包括W下步骤:
[0020] 1)对《中国现代名中医医案精粹》、《名医类案》、《续医类案》和《再续名医类案》等 书籍进行OCR处理,提取医案文本信息;同时,爬取百度百科、互动百科、捜狗百科和维基百 科等百科网站上中医药相关的词条信息。
[0021] 2)将第1)步所得的文本利用CRF模型与最长单词匹配方法相组合进行分词,同时 过滤掉停用词,构建Word2Vec的训练集;
[0022] 3)训练Word2Vec模型,构造词向量矩阵,即对每一个单词,用一个向量来表示;
[0023] 4)对于每一种中草药植物,利用谷歌、百度等通用捜索引擎提供的基于文本的图 像检索功能获取候选图片集和它们所在源网页的内容;
[0024] 5)对第4)步中得到的每一个源网页,去掉包括HTML标签、JS代码、CSS代码的内容, 然后利用CRF模型与最长单词匹配方法相组合进行分词,去掉停用词,得到源网页的文本信 息;
[0025] 6)利用第5)步所得的文本和第3)步得到的词向量矩阵训练Doc2Vec模型,即用第 3)步的词向量矩阵初始化Doc2Vec中的词向量矩阵,更新时保持词向量矩阵不变,只更新文 档向量,训练完后便得到各源网页的文档向量;
[0026] 7)根据各源网页的文档向量与对应的中草药词向量的余弦相似度对第4)步中得 到的候选图片集进行重排和过滤,选出相似度高于预设阔值的图片集,作为候选图片集;
[0027] 8)对第7)步中得到的候选图片集中的图片使用感知哈希算法进行去重处理,得到 最终的图片集。
[00%]所述的步骤3)中采用基于CB0W模型的Word2Vec模型,包括输入层、投影层和输出 层;所述的输入层由2c个单词的词向量v(context(w)i),...,v(context(w)i),…,vkontext (w)2c)构成,其中context(w)表示单词w的上下文,即其前后各c个单词;所述的投影层由对 输入层的2c个词向量做累加求和得到,即
;所述的输出层是一棵 化ffman树,其中,叶子节点共N个,分别对应词典D中每个词,非叶子结点N-1个;定义pw为从 根节点出发到达W对应叶子结点的路径;Γ为路径pw中包含结点的个数;口2",…,片;:,分 别为路径9"中的1"个结点,其中的"表示的是根结点,表示词W对应的结点;
表示词W的化ffman编码,由Γ-1位编码构成,表示路径pW中第 占-个结点对应的编码;01",02"',...,0;:_1€^"表示路径9"中非叶子结点对应的向量,0,"'表示 pW中第j个非叶子结点对应的向量;对于词典D中任意词W,Huf f man树中必存在且仅存在一 条从根结点到词W对应的路径pw;路径pw上存在Γ-1个分支,将每个分支看成一个二次分类 的过程,每一次分类就产生一个概率,将运些概率乘起来,就是所需的P(W I context (W)),其 表达式为:
[0032] 〇(.)表示sigmoid函数,其表达式是
[0033] 将W上公式代入对数似然函勤
中,得到:
[0034]
[0035] 上式即为CB0W模型的目标函数,采用随机梯度上升法来更新模型参数,即:每取一 个样本(context(w),w),就对目标函数的所有相关参数做一次更新,具体步骤如下:
[0036] 3.1)计算梯度
:;' 其计算公式为,接下来考虑C(W,j)关于Xw的梯度,可W求得::
其计算公式为:
[0045] 3.5)重复上述3.1)到3.4)步,直到模型训练结束。
[0046] 所述的步骤8)中感知哈希算法进行去重处理具体为:
[0047] 8.1)对于候选图片集图片img,将其转换成灰度图片gray_img;
[004引8.2)将第8.1)步中所得的灰度图片gray_img缩放到尺寸为32 X 32的小图片 small_img;
[0049] 8.3)对第8.2)步所得的小图片small_img进行离散余弦变换,并截取离散余弦变 换结果左上角8X8的低频部分化;
[0050] 8.4)计算第8.3)步所得低频部分化的所有值的平均值m;
[0051] 8.5)将第8.3)步所得低频部分化的各像素值与第8.4)步中计算得到的平均值m比 较,将化中大于m的像素值置为1,否则置为0;
[0052] 8.6)将第8.5)步所得64个0或1值从上到下、从左到右依序组合成一个长度为64的 二进制串,即图像指纹;
[0053] 8.7)计算第8.6)步所得的图像指纹之间汉明距离,当汉明距离越大,说明它们的 差别越大,反之,汉明距离越小,说明它们越相似;当汉明距离大于10时,便可认为两幅图像 完全不同。
[0054] 实施例
[0055] 如图1所示,一种基于中医药领域专业词向量的中草药植物图片爬取方法。本实施 例中,未详细说明的步骤,如步骤3)、8),具体按照前述【具体实施方式】中所述进行。本实施例 中采用的主要步骤如下:
[0056] 1)对《中国现代名中医医案精粹》、《名医类案》、《续医类案》和《再续名医类案》等 书籍进行OCR处理,提取医案文本信息;同时,爬取百度百科、互动百科、捜狗百科和维基百 科等百科网站上中医药相关的词条信息。
[0057] 2)将第1)步所得的文本利用CRF模型与最长单词匹配方法相组合进行分词,同时 过滤掉停用词,构建Word2Vec的训练集;
[0化引 3)训练Word2Vec模型,构造词向量矩阵,即对每一个单词,用一个向量来表示,部 分词向量如图2所示;
[0059] 4)对于每一种中草药植物,利用捜索引擎提供的基于文本的图像检索功能获取候 选图片集和它们所在源网页的内容,例如Wgoogle图片捜索引擎为例,分析其检索结果页 面的网页源代码,可W发现每一个缩略图的父节点是一个超链接标签,其href属性包含着 我们所需要的全部信息,即图片原图和原图所在的源网页的URL。如图3所示,虹ef的值中有 两个重要的参数一imgur巧日imgr ef ur 1,分别表示原图的URL和原图所在源网页的URL。
[0060] 5)对第4)步中得到的每一个源网页,去掉包括HTML标签、JS代码、CSS代码的内容, 然后利用CRF模型与最长单词匹配方法相组合进行分词,去掉停用词,得到源网页的文本信 息;
[0061] 6)利用第5)步所得的文本和第3)步得到的词向量矩阵训练Doc2Vec模型,即用第 3)步的词向量矩阵初始化Doc2Vec中的词向量矩阵,更新时保持词向量矩阵不变,只更新文 档向量,训练完后便得到各源网页的文档向量;
[0062] 7)根据各源网页的文档向量与对应的中草药词向量的余弦相似度对第4)步中得 到的候选图片集进行重排和过滤,选出相似度高于预设阔值的图片集,作为候选图片集;
[0063] 8)对第7)步中得到的候选图片集中的图片使用感知哈希算法进行去重处理,得到 最终的图片集。
【主权项】
1. 一种基于中医药领域专业词向量的中草药植物图片爬取方法,其特征在于包括以下 步骤: 1) 对医学书籍进行OCR处理,提取医案文本信息;同时,爬取百科网站上中医药相关的 词条信息; 2) 将第1)步所得的文本利用CRF模型与最长单词匹配方法相组合进行分词,同时过滤 掉停用词,构建W〇rd2Vec的训练集; 3) 训练Word2Vec模型,构造词向量矩阵,即对每一个单词,用一个向量来表示; 4) 对于每一种中草药植物,利用搜索引擎提供的基于文本的图像检索功能获取候选图 片集和它们所在源网页的内容; 5) 对第4)步中得到的每一个源网页,去掉包括HTML标签、JS代码、CSS代码的内容,然后 利用CRF模型与最长单词匹配方法相组合进行分词,去掉停用词,得到源网页的文本信息; 6) 利用第5)步所得的文本和第3)步得到的词向量矩阵训练D〇c2VeC模型,即用第3)步 的词向量矩阵初始化D 〇c2VeC中的词向量矩阵,更新时保持词向量矩阵不变,只更新文档向 量,训练完后便得到各源网页的文档向量; 7) 根据各源网页的文档向量与对应的中草药词向量的余弦相似度对第4)步中得到的 候选图片集进行重排和过滤,选出相似度高于预设阈值的图片集,作为候选图片集; 8) 对第7)步中得到的候选图片集中的图片使用感知哈希算法进行去重处理,得到最终 的图片集。2. 根据权利要求1中所述的一种基于中医药领域专业词向量的中草药植物图片爬取方 法,其特征在于,所述的步骤3)中采用基于CB0W模型的W 〇rd2VeC模型,包括输入层、投影层 和输出层;所述的输入层由2c个单词的词向量v(context(w)i),···,v(context(w)i),…,v (context(w)2c;)构成,其中context(w)表示单词w的上下文,即其前后各c个单词;所述的投 影层由对输入层的2c个词向量做累加求和得到层是一棵Huffman树,其中,叶子节点共N个,分别对应词典D中每个词,非叶子结点N-1个;定 义口"为从根节点出发到达w对应叶子结点的路径;lw为路径pw中包含结点的个数; <,<,…,P;:分别为路径pw中的lw个结点,其中 < 表示的是根结点,表示词w对应的 结点;% 表示词w的Huffman编码,由lw-l位编码构成,< 表示路径 p沖第j个结点对应的编码;(^,…,ear表示路径p冲非叶子结点对应的向量, %表示pw中第j个非叶子结点对应的向量;对于词典D中任意词w,Huffman树中必存在且仅 存在一条从根结点到词w对应的路径Pw;路径Pw上存在Γ-1个分支,将每个分支看成一个二 次分类的过程,每一次分类就产生一个概率,所有概率的乘积为P(w | context(w)),其表达 式为:其中,σ(.)表示sigmoid函数上式即为CBOW模型的目标函数,采用随机梯度上升法来更新模型参数,即:每取一个样 本(context(w),w),就对目标函数的所有相关参数做一次更新,具体步骤如下:3.5)重复上述3.1)到3.4)步,直到模型训练结束。3.根据权利要求1中所述的一种基于中医药领域专业词向量的中草药植物图片爬取方 法,其特征在于,所述的步骤8)中感知哈希算法进行去重处理具体为: 8.1) 对于候选图片集图片,将其转换成灰度图片; 8.2) 将第8.1)步中所得的灰度图片缩放到尺寸为32 X 32的小图片; 8.3) 对第8.2)步所得的小图片进行离散余弦变换,并截取离散余弦变换结果左上角8 X8的低频部分LL; 8.4) 计算第8.3)步所得低频部分LL的所有值的平均值m; 8.5) 将第8.3)步所得低频部分LL的各像素值与第8.4)步中计算得到的平均值m比较, 将LL中大于m的像素值置为1,否则置为0; 8.6) 将第8.5)步所得64个0或1值从上到下、从左到右依序组合成一个长度为64的二进 制串,即图像指纹; 8.7) 计算第8.6)步所得的图像指纹之间汉明距离,当汉明距离越大,说明它们的差别 越大,反之,汉明距离越小,说明它们越相似;当汉明距离大于10时,便可认为两幅图像完全 不同。
【文档编号】G06F17/30GK105824904SQ201610146357
【公开日】2016年8月3日
【申请日】2016年3月15日
【发明人】魏宝刚, 张引, 庄越挺, 谭亮
【申请人】浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1