用于在文档中识别中文物种名称的方法与系统与流程

文档序号:12464656阅读:来源:国知局

技术特征:

1.一种在文档中识别中文生物物种名称的方法,其特征在于该方法包括:接收包含中文物种名称的文档,识别所述文档中的中文物种名称字段,识别所述文档中的非物种名称字段,基于所识别的中文物种名称字段向两端扩展、合并以得到所述完整的中文物种名称步骤。

2.如权利要求1所述的一种在文档中识别中文物种名称的方法,其特征在于其中所述非物种名称字段在基于所识别的中文物种名称字段向两端扩展以得到所述完整中文物种名称中作为终止符。

3.如权利要求1所述的一种在文档中识别中文物种名称的方法,其特征在于其中所述识别所述文档中的中文物种名称字段步骤包括:对所述文档进行分句,基于物种名称字典匹配所述文档的分句中出现的所有中文物种名称,记录所述中文物种名称字段的位置信息。

4.如权利要求3所述的一种在文档中识别中文生物物种名称的方法,其特征在于在识别所述文档中的中文物种名称字段步骤中,当同一分句中出现一个以上物种名称片段时,检查物种名称片段位置信息之间是否存在包含关系,响应于多个物种名称片段存在包含关系,保留最长的物种名称片段及位置信息。

5.如权利要求1所述的一种在文档中识别中文生物物种名称的方法,其特征在于其中所述识别所述文档中的非中文物种名称字段步骤包括:对所述文档进行分词,检查每个分词是否在非中文物种名称字段字典中,响应于所述分词在非中文物种名称字段字典中,确定所述分词为非中文物种名称字段,记录所述非物种名称字段的位置信息。

6.如权利要求1所述的一种在文档中识别中文物种名称的方法,其特征在于其中所述基于所识别的中文物种名称字段向两端扩展以得到所述完整中文物种名称步骤包括:从所述中文物种名称字段位置向前后两端扩展直至遇到非物种名称片段为止,以获得所述生物物种名称。

7.如权利要求3或5所述的一种在文档中识别物种名称的方法,其特征在于,所述位置信息由所述任一物种名称片段或非物种名称片段在所述文档中的起始位置和结束位置组成。

8.如权利要求3所述的一种在文档中识别中文生物物种名称的方法,其特征在于,该方法还包括以下步骤至少之一:

从已有的中文物种名称生成中文物种名称片段字典,包括物种中文学名、俗名、栽培驯化后的品种名称;或者,基于非生物领域的中文文档,收集出现频率较高的词,形成非物种名称片段字典。

9.一种在文档中识别中文物种名称的系统,包括:

接收装置,用于接收包括中文物种名称的文档;

识别装置一,用于识别所述文档中的中文物种名称字段;

识别装置二,用于识别所述文档中的非物种名称片段;

合并装置,用于基于所识别的中文物种名称字段向两端扩展、合并以得到所述完整的中文物种名称。

10.权利要求1或9所述的一种在文档中识别中文物种名称的方法或系统在从科技文献中识别中文物种名称中的应用。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1