一种从文本提取所需内容的方法

文档序号：6635073阅读：1356来源：国知局

一种从文本提取所需内容的方法
【专利摘要】本发明涉及从文本提取所需内容的方法及装置。该方法包括以：根据预设的分词包对目标文本进行预处理，以使所述目标文本的每个句子中的每个词赋予词性类别，所述词性类别包括主语、谓语、宾语、定语、状语和补语；接收用户输入的标签，提取出用户需要的主语以及目标查找词，根据预设的同义词词林和语义场的类义词，统计目标文本的每个句子中与所述目标查找词同义的类义词出现的总次数，将总次数超过预设阈值的句子保存至提取库；计算提取库中每个句子各自的向量值，并根据所述向量值计算每两个句子之间的夹角，若出现夹角小于预设角度的两个句子，则随机删除该两个句子中的一个句子。本发明能够有效提高文本内容的提取效率。
【专利说明】一种从文本提取所需内容的方法

【技术领域】
[0001] 本发明涉及计算机程序。

【背景技术】
[0002] 报告是汇报工作、反映情况、提出建议、答复上级机关询问时使用的公文，同时，报告是谋事之道、成事之基，是领导作出正确判断和决策的前提基础。近年来，随着市场经济的推动，报告成为了一种新兴产业，报告的用途逐步扩大，用于新产品开发、投融资、公司发展规划、年度发展等方面。当前撰写报告的机构有全国高校、社科、研究会、研究院、智库等国家的研究机构，例如：中国科学院、中国社会科学院、北京大学、清华大学、中国非国有经济研究会、北京创新中实信息科学研究院等。撰写报告的形式主要是当前各机构工作人员主要是通过人工整理资料，筛选素材，自主撰写情报。
[0003] 由于目前都是基于人工去处理文本资料，因此，从文本中提取出所需的内容的效率就比较低下。

【发明内容】

[0004] 本发明的目的在于提出一种从文本提取所需内容的方法，其能解决提取效率低的问题。
[0005] 为了达到上述目的，本发明所采用的技术方案如下：
[0006] -种从文本提取所需内容的方法，其包括以下步骤：
[0007] 步骤1、根据预设的分词包对目标文本进行预处理，以使所述目标文本的每个句子中的每个词赋予词性类别，所述词性类别包括主语、谓语、宾语、定语、状语和补语；
[0008] 步骤2、接收用户输入的标签，根据预设的分词包对所述标签中的每个词赋予性类另IJ，根据依存句法提取出所述标签中的主语以及目标查找词，根据同义词词林和语义场的类义词，统计目标文本的每个句子中与所述目标查找词同义的类义词出现的总次数，将总次数超过预设阈值的句子保存至提取库；
[0009] 步骤3、计算提取库中每个句子各自的向量值，并根据所述向量值计算每两个句子之间的夹角，若出现夹角小于预设角度的两个句子，则随机删除该两个句子中的一个句子。
[0010] 优选的，在步骤1之前还有以下步骤：
[0011] 步骤11、接收用户设置的关键词和该关键词的权重，以及接收用户上传的文本；
[0012] 步骤12、根据公式一选取关联度大于预设值的文本作为目标文本；
[0013] 公式一为：

【权利要求】
1. 一种从文本提取所需内容的方法，其特征在于，包括以下步骤：步骤1、根据预设的分词包对目标文本进行预处理，以使所述目标文本的每个句子中的每个词赋予词性类别，所述词性类别包括主语、谓语、宾语、定语、状语和补语；步骤2、接收用户输入的标签，根据预设的分词包对所述标签中的每个词赋予性类别，根据依存句法提取出所述标签中的主语以及目标查找词，根据同义词词林和语义场的类义词，统计目标文本的每个句子中与所述目标查找词同义的类义词出现的总次数，将总次数超过预设阈值的句子保存至提取库；步骤3、计算提取库中每个句子各自的向量值，并根据所述向量值计算每两个句子之间的夹角，若出现夹角小于预设角度的两个句子，则随机删除该两个句子中的一个句子。
2. 如权利要求1所述的方法，其特征在于，在步骤1之前还有以下步骤：步骤11、接收用户设置的关键词和该关键词的权重，以及接收用户上传的文本；步骤12、根据公式一选取关联度大于预设值的文本作为目标文本；
，其中，G为文本的关联度，Pn为第n个关键词在文本中出现的次数，Mn为第n个关键词的权重，L预设次数。
3. 如权利要求2所述的方法，其特征在于，当Pn > L时，Pn取L。
4. 如权利要求2所述的方法，其特征在于，L = 10。
5. 如权利要求2所述的方法，其特征在于，预设值为20%。
6. 如权利要求1所述的方法，其特征在于，预设阈值为3。
7. 如权利要求1所述的方法，其特征在于，夹角为0.5°。
8. -种从文本提取所需内容的装置，其特征在于，包括以下模块：预处理模块，用于根据预设的分词包对目标文本进行预处理，以使所述目标文本的每个句子中的每个词赋予词性类别，所述词性类别包括主语、谓语、宾语、定语、状语和补语；提取模块，用于接收用户输入的标签，根据预设的分词包对所述标签中的每个词赋予性类别，根据依存句法提取出所述标签中的主语以及目标查找词，根据同义词词林和语义场的类义词，统计目标文本的每个句子中与所述目标查找词同义的类义词出现的总次数，将总次数超过预设阈值的句子保存至提取库；去重模块，用于计算提取库中每个句子各自的向量值，并根据所述向量值计算每两个句子之间的夹角，若出现夹角小于预设角度的两个句子，则随机删除该两个句子中的一个句子。
9. 如权利要求8所述的装置，其特征在于，在预处理模块之前还有以下模块：接收模块，用于接收用户设置的关键词和该关键词的权重，以及接收用户上传的文本；筛选模块，用于根据公式一选取关联度大于预设值的文本作为目标文本；
，其中，G为文本的关联度，Pn为第n个关键词在文本中出现的次数，Mn为第n个关键词的权重，L预设次数。
【文档编号】G06F17/27GK104360993SQ201410667560
【公开日】2015年2月18日申请日期:2014年11月19日优先权日:2014年11月19日
【发明者】彭宏利申请人:广州极盛信息科技开发有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：彭宏利;
技术所有人：广州极盛信息科技开发有限公司;
我是此专利的发明人

上一篇：一种erp环境下数据处理方法及系统的制作方法
上一篇：一种电子商务系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。