一种资料集的同义词识别方法及系统与流程

文档序号：17825787发布日期：2019-06-05 22:38阅读：来源：国知局

技术总结
本申请公开了一种资料集的同义词识别方法及系统，该方法包括：获取包括N份资料的资料集；分别提取每份资料中的所有关键词；分别确定每个关键词的所有同生词；分别计算每个关键词与该关键词所对应的同生词之间的同生值；分别确定每个关键词的高值词群；对资料集中任意两个关键词之间是否为同义词进行识别，得到相应的同义词库，其中，若第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值，并且第一关键词和第二关键词之间的同生值为0，则将第一关键词和第二关键词识别为同义词。本申请中，同义词的识别过程无需涉及到词形本身的比较或者依赖于特定的文本结构，从而能够大幅地提升同义词的识别效果。

技术研发人员：钟伟金;李佳
受保护的技术使用者：广东医科大学
技术研发日：2016.08.30
技术公布日：2019.06.04