信息收集分类系统和方法及其检索和集成方法与流程

文档序号:17090338发布日期:2019-03-13 23:22阅读:399来源:国知局
信息收集分类系统和方法及其检索和集成方法与流程

本发明涉及信息收集和处理技术领域,具体涉及一种信息收集分类系统和方法及其检索和集成方法。



背景技术:

小微创业园和产业园内公司对于国家最新热点新闻、政策优惠和本公司业务所在细分领域的特定关注,体现了他们关注的信息语料的特别性。在他们所关注的细分领域建立有效的消息收集、分类、检索、推送系统将可以使他们第一时间发现和找到对自己有价值的信息,避免淹没在海量消息的汪洋大海里。

传统语料分类模型和词向量模型往往由大量通用语料训练而成,如由wikipedia训练的词向量,搜狗实验室新闻文本分类语料库。对于国家政策的细分领域支持不足;且对于专业领域、细分领域内出现的新词无法快速反应、有效处理。

因此,需要提供一种新的信息处理方法。



技术实现要素:

为解决现有技术存在的不足,本发明提供了一种信息检索和集成方法,包括如下步骤:

步骤s1:获得一个潜在新词,对其进行知识图谱的检索,若存在知识图谱中存在该潜在新词,则直接进行步骤s2,若不存在,则将该潜在新词及和其有关的所有三元组(e1,r,e2)集成进知识图谱,其中,e1表示该潜在新词,e2表示与该潜在新词有实体关系的词,r表示e1和e2的关系种类;

步骤s2:对所获得的潜在新词进行词向量集成;

步骤s3:重复步骤s1-步骤s2,直至所有的该潜在新词检索和集成完毕。

其中,所述步骤s2包括如下步骤:

步骤s21:在词向量库中检索该潜在新词,若存在,则返回步骤s1,获得下一个潜在新词;若不存在,则进行步骤s22;

步骤s22:判断目前累积获得的潜在新词种类数n是否大于等于阈值threshold_all,若是,则将潜在新词种类数n清零,并对整个词向量进行重训练,再返回步骤s1,获取下一个潜在新词;若不是,则进行步骤s23;

步骤s23:更新n值和该潜在新词对应的ni值,其中,ni值表示所获取的该潜在新词累计进入系统的次数;

步骤s24:判断该潜在新词对应的ni值是否大于等于阈值threshold_one,若不是,则返回步骤s1,获取下一个潜在新词;若是,则进行步骤s25;

步骤s25:将该潜在新词的词向量集成进词向量库。

其中,所述步骤s25包括:在知识图谱中检索与该潜在新词有关的实体词;

若检索到,则将有关实体词的词向量的加权平均值作为该潜在新词的词向量入库,并返回步骤s1;

若未检索到,则在同义词词库、近义词词库、及反义词词库中的至少一者检索该潜在新词的同义词、近义词或反义词,若检索到,则将该潜在新词的同义词、近义词及反义词中的至少一者的词向量的加权平均值作为该潜在新词的词向量入库,并返回步骤s1;若未检索到,则将该潜在新词的某个预设词向量插入词库。

其中,所述步骤s22中,在新词种类数n大于等于阈值threshold_all时,将潜在新词种类数n清零,在下一个潜在新词的检索和集成过程中,仅对清零之后新出现的潜在新词种类累积计算n值;

所述步骤s23中,更新n值的原则为:若所获取的该潜在新词之前在系统中出现过,则n值不变,若所获取的该潜在新词之前在系统中未出现过,则n值加1;更新ni的原则为,ni值加1。

本发明另外提供了一种信息收集分类方法,包括如下步骤:

步骤s1,信息爬取:通过网络爬虫对相关的新闻、网站和数据库上的相关文本进行信息爬取,以获取信息;

步骤s2:文本预处理;

步骤s3:从预处理后的信息中发现潜在新词和潜在新关系;

步骤s4,信息检索和集成:对发现的潜在新词和潜在新关系进行信息检索和集成;

步骤s5:将集成完后的信息进行分类;

其中,所述步骤s4中的信息检索和集成根据如上任一项所述的信息检索和集成方法完成。

其中,所述步骤s1中,信息爬取中,通过python的scrapy或urllib的网络爬虫进行信息爬取,并且,在信息爬取过程中,通过定时启动机制爬取最新数据,通过爬取历史管理机制保证只对增量数据进行爬取,通过推送或存储机制将爬取数据推动给后续模块,或将爬取数据存储下来;

所述步骤s2中,文本的预处理包括去除html标签、分词或引用停用词表以去除停止词。

其中,所述步骤s3包括:

步骤s31,发现潜在新词:通过基于词频的特征排序获得文本中出现频率最高的若干个关键词;通过特征字符获取专有词汇,通过句法分析获得与专有词汇有关的所有词汇,通过实体识别方法将名称在内的特殊意思实体删除;

步骤s32,发现潜在新关系:获取所有包括潜在新词的语句,使用关系提取方法获取其中的关系词,使用分类器对关系词进行分类,获得分类好关系的三元组(e1,r,e2)。

其中,所述步骤s5包括:

步骤s51:获取训练模型特征;

步骤s52:通过concat层将训练模型特征融合为一个大的特征向量;

步骤s53:通过fullyconnected层将训练模型特征输出单一的分类向量;

步骤s54:通过softmax层归一化输出的分类向量,并最终处理为(0,0,…,1,…,0)的结果,其中,第i个元素为1,代表文本属于第i个分类。

本发明还提供一种信息收集分类系统,包括:

信息爬取模块,用于对相关的新闻、网站和数据库上的相关文本进行信息爬取,以获取信息;

文本预处理模块,与信息爬取模块连接,用于对获取的信息进行文本预处理;

发现模块,与文本预处理模块连接,用于从预处理后的信息中发现潜在新词和潜在新关系;

信息检索和集成模块,与发现模块连接,用于对发现的潜在新词和潜在新关系进行信息检索和集成;

分类模块,用于将集成完后的信息进行分类;

其中,信息检索和集成模块根据如上任一项所述的信息检索和集成方法完成信息检索和集成。

其中,所述信息爬取模块包括政策信息爬取模块和业务信息爬取模块,分别用于通过不同的网络爬虫对相关的新闻、网站和数据库上的相关文本进行信息爬取;

所述发现模块包括潜在新词发现模块和潜在新关系发现模块,分别用于从预处理后的信息中发现潜在新词和潜在新关系;

所述信息检索和集成模块包括知识图谱检索和集成模块以及词向量检索和集成模块,其中,知识图谱检索和集成模块用于完成如上任一项所述的信息检索和集成方法中的步骤s1,词向量检索和集成模块用于完成如上任一项所述的信息检索和集成方法中的步骤s2。

其中,所述潜在新词发现模块的作用机制包括:通过基于词频的特征排序获得文本中出现频率最高的若干个关键词;通过特征字符获取专有词汇,通过句法分析获得与专有词汇有关的所有词汇,通过实体识别方法将名称在内的特殊意思实体删除;

所述潜在新关系发现模块的作用机制包括:获取所有包括潜在新词的语句,使用关系提取方法获取其中的关系词,使用分类器对关系词进行分类,获得分类好关系的三元组(e1,r,e2)。

其中,所述分类模块通过如下方法将集成完后的信息进行分类:

步骤sa:获取训练模型特征;

步骤sb:通过concat层将训练模型特征融合为一个大的特征向量;

步骤sc:通过fullyconnected层将训练模型特征输出单一的分类向量;

步骤sd:通过softmax层归一化输出的分类向量,并最终处理为(0,0,…,1,…,0)的结果,其中,第i个元素为1,代表文本属于第i个分类。

其中,所述步骤sa中,所获取的训练模型特征包括:

由通过词频统计的方法获得的文本中出现频率最高的若干个关键词形成的词向量均值的混合词句级别特征;

由通过训练文本获得的文本的主体模型嵌入特征所形成的文章级别特征;以及,

由通过transe或transr算法获得的知识图谱嵌入特征所形成的文章内逻辑特征。

其中,所述分类模块在将集成完后的信息进行分类时,所述步骤sb和sc之间还包括:通过batchnormalize层对融合后的特征向量进行归一化,以及,通过至少一个dropout层在训练模型的过程中随机无效化部分节点。

其中,所述信息收集分类系统还包括存储模块,其与分类模块连接,用于存储整个信息收集分类过程中获取收集的文本标题、正文、关键词、主体模型嵌入向量、知识图谱嵌入向量、分类向量以及分类结果。

其中,所述信息收集分类系统还包括用户交互模块,其与存储模块连接,用于根据存储模块所存储的信息为用户提供智能搜索服务和个定制化推送服务。

本发明提供的信息收集分类系统和方法及其检索和集成方法,可以有效地、增量式地集成信息,只在必要时触发重训练,在保证知识集成的质量的情况下,降低了系统成本,优化了系统流程。

附图说明

图1:本发明提供的信息收集分类系统的系统架构图。

图2:本发明的发现模块的工作方法的逻辑流程图。

图3:本发明的检索和集成模块的工作流程图。

图4:本发明的分类模块的工作流程图。

附图标记说明

10-信息爬取模块、11-政策信息爬取模块、12-业务信息爬取模块;

20-文本预处理模块;

30-发现模块、31-潜在新词发现模块、32-潜在新关系发现模块;

40-检索和集成模块、41-知识图谱检索和集成模块、42-词向量检索和集成模块;

50-分类模块、60-存储模块;

70-用户交互模块、71-可定制化推动模块、72-自然语言搜索模块;

80-用户。

具体实施方式

为了对本发明的技术方案及有益效果有更进一步的了解,下面结合附图详细说明本发明的技术方案及其产生的有益效果。

图1为本发明提供的信息收集分类系统的系统架构图,如图1所示,本发明提供的信息收集分类系统主要包括依次连接的:信息爬取模块10、文本预处理模块20、发现模块30、信息检索和集成模块40、分类模块50、存储模块60以及用户交互模块70,依次完成信息的获取、预处理、潜在新词和潜在新关系的发现、信息的检索和集成、文本的分类以及上述各模块工作过程中所产生的信息的存储,从而向终端用户80提供第一手的、个性化的、精准的消息服务,现对各模块具体的工作方法以及各模块之间配合工作的方式详述如下。

一、信息爬取模块

信息爬取模块10包括可并行运行的政策信息爬取模块11和业务信息爬取模块12,其采用现有的python的scrapy,urllib包等任何可提供网络爬虫的语言的技术对大量的:

1、热点新闻和政策网站、数据库(由政策信息爬取模块11爬取);

2、细分领域专业网站上进行的深度数据(由业务信息爬取模块12爬取);

进行爬取,所爬取的网站包括网页和该网页中提及的链接。本发明通过预设最大深度,来限制爬取网页的数量。对于数据库数据,不仅爬取源数据,也爬取数据间的主外键关系。

其数据来源可包括:

1、国家、省市政府官网,新闻、政策、财经、金融、创业、工业、科技等网、频道或开放数据库;

2、服务企业、园区客户官网,主营业务、相关技术咨询网、频道或开放数据库;

3、其他相关的网络或数据库,可通过本发明的信息收集分类系统进行预先设置。

为了保证爬取信息的高效、准确及深度,所述信息爬取模块10应当具备如下机制:

1、定时启动机制,具体的,通过外部计时器程度定期拉起所述信息爬取模块10,保证爬取最新数据;

2、爬取历史管理机制,以用于识别哪些网页内容已被爬取,并无更新,从而只对增量网页数据进行爬取;

3、推送或存储机制,将爬取数据推送给后续模块,或将爬取数据存储下来,便于后续模块消费。

二、文本预处理模块

本发明主要使用一些通用的文本预处理技术,如去除html标签(使用beautifulsoup),分词(使用jieba分词),引入停用词表以去除停止词等。

三、发现模块

图2为本发明的发现模块的工作方法的逻辑流程图,请结合图1及图2所示,本发明的发现模块30包括潜在新词发现模块31和潜在新关系发现模块32。

1、潜在新词发现模块

文本预处理模块20首先将处理完的文本分别发送给潜在新词发现模块31中不同的应用进程节点,各节点分别处理各自分配的文本。

具体的,通过tf-idf和bow等基于词频的特征排序获得文本中的topn关键词;通过引号,书名号,括号等特别字符,获取潜在政策和细分领域专有词汇;通过句法分析获得与以上词汇有谓词关系的所有词汇;通过实体识别技术判断上述词汇是否为人名、地名、公司名等特殊意思实体,若是则剔除。将以上词汇的并集作为潜在新词,结合附属信息(metadata,如是否在引号内,是否是topn)一起推送给潜在新关系发现模块32。

2、潜在新关系发现模块

获取各节点的潜在新词后,获取所有包含该潜在新词的语句。使用关系提取技术获取其中的关系词。再使用预训练好的分类器对关系词进行分类。将包含分类好关系的三元组(e1,r,e2)发送给检索和集成模块40。

本发明中,三元组(e1,r,e2)是发现模块30最终输出的形式。对于每一个发现模块30进程而言,处理一篇文档,将输出若干这样的实体关系三元组。所有三元组涉及到的实体的并集,即全部潜在新词集合,涉及的所有新关系的并集即潜在新关系集合。他们将输入进入检索和集成模块40进行后续处理。

本发明中,发现模块30传递给检索和集成模块40的信息,并不局限于所发现的潜在新词和潜在新关系本身,还可以包括获取潜在新词的获取途径,也即,潜在新词获取途径本身可以作为附属信息传递给后续模块,作为检索和集成的参考依据。

四、检索和集成模块

1、检索和集成基础

本发明使用已有的中文模型作为基础词向量,如使用搜狗全网新闻语料(http://www.sogou.com/labs/resource/ca.php)预训练好的中文word2vec模型作为基础词向量。同时使用已有的知识图谱库,如复旦中文cn-dbpedia(http://kw.fudan.edu.cn/cndbpedia/intro/)作为中文知识图谱。

图3为本发明的检索和集成模块的工作流程图,请结合图1及图3所示,本发明的检索和集成模块40包括知识图谱检索和集成模块41以及词向量检索和集成模块42,分别完成知识图谱和词向量的检索和集成。

2、知识图谱检索和集成模块

本发明中,对潜在新词的检索和集成逐个进行,即,获取一个潜在新词,分别对其进行知识图谱和词向量的检索和集成,之后再获取下一个潜在新词,本发明中,在进行潜在新词的检索和集成时,每个潜在新词在不同的检索和集成周期中可能会重复出现,重复出现的次数越多,代表该潜在新词在文本中出现的频率越高。本发明以ni代表对应的该潜在新词出现的次数,i代表各潜在新词在所有出现的不同的潜在新词中的排序下标,如第一个检索和集成周期中,获取到新词“a”,该潜在新词对应的n1=1,第二个检索和集成周期中,获取到新词“b”,该潜在新词对应的n2=1,第三个检索和集成周期中,再次获取到新词“a”,该潜在新词对应的n1值累积一次,为2。本发明中,以n代表系统累积获取的潜在新词的种类数,仍以上文为例,在三个检索和集成周期中,n值分别取1、2、2。

本发明中,当获得一个潜在新词后,先进行知识图谱的检索和集成。首先判断该词是否在知识图谱中。若不存在,则先将该词和与之相关的所有三元组(e1,r,e2)集成进知识图谱。完成这一步后进行词向量的检索和集成。

3、词向量检索和集成模块

在完成知识图谱的检索和集成后,进行词向量的检索和集成。

(1)首先,在词向量库中检索该潜在新词是否存在,若存在,则结束此轮检索和集成周期,重新获取下一个潜在新词;若不存在,则进行步骤(2)。

(2)判断累积出现的潜在新词的种类数是否大于等于预先设定的阈值threshold_all,若大于等于,则说明此文本中出现了大量的新语料和新词,为了获得更加精确的细分领域词向量模型,需要触发词向量的重训练过程,此时,将n值清零,并在重训练结束后,结束本轮检索和集成周期,重新获取下一个潜在新词。

需要注意的是,一旦n值清零,则在之后的检索和集成周期中,只要出现了从未出现过的新词,才会对n进行累加,比如,预设阈值threshold_all=3,当系统在三个检索和集成周期中,如果分别获取到词语“a”、“b”及“c”,该三个词语在之前的检索和集成周期中从未出现过,n值累加到3,触发重训练过程,在第四个检索和集成周期中,再次出现上述词语时,不计入潜在新词种类数,n值仍为0;即,n值一旦清零,之前出现的词语,在计算n值时均不再考虑。

threshold_all=3和n值的设定,决定了何时开始重训练全模型。

(3)若n值没有达到阈值threshold_all,则根据上文确定的原则对n和ni进行更新,ni值累加1,n值在该潜在新词从未出现的情况下加1,在该潜在新词出现过的情况下保持不变;更新完后进一步判断所获取的该潜在新词的ni值是否达到阈值threshold_one,若未达到,则认为该潜在新词不是一个有价值的潜在新词,此时结束当前检索和集成周期;若达到,则将该潜在新词集成入向量库,具体方法参加下述步骤。

(4)在知识图谱中检索与该潜在新词有关的实体词,判断获得到的实体词数量m(i)是否大于0,若是,则以这些实体词的词向量为基础计算其加权平均,作为该潜在新词的词向量并插入词向量库;若不是,则尝试在同义词或反义词词库中检索该潜在新词的同义词、近义词或反义词(下文统称对应词),以对应词的词向量为基础计算其加权平均,作为该潜在新词的词向量并插入词向量库。

(5)若通过上述方式仍无法获得有效的词向量,则以某个预设词向量插入词向量库,如赋值(0,0,0,…,0)并插入词库,或使用库内全词向量的加权平均作为该潜在新词的词向量入库。

综上,本发明通过引入阈值threshold_all和threshold_one,通过阈值threshold_all可以控制系统重训练的频率,通过阈值threshold_one可以控制系统对新词的敏感度,通过两个阈值的设置,提出了词向量的近似计算方法,使得系统不必在每次获取潜在新词的时候都进行重训练,而可由与之相关的一些相关词的向量计算得出其词向量,在n值达到设定阈值后再进行重训练,使得本发明可以检索和集成有价值的新词和新关系,节省了计算资源,并加快了新词和新关系的集成,使他们可以立即被后续分类模型、搜索、推送模块使用。提高了预测和搜索等的精度。

五、分类模块

图4为本发明的分类模块的工作流程图,请结合图1及图4所示,本发明的分类模块50与检索和集成模块40连接,训练分类模型的基础是所输入的训练模型特征,包括:

1、混合语句级别特征-topn词向量特征:该特征即上文通过词频统计的方法(tf-idf或bow等)所获得的topn词,经过检索和集成模块所获得的词向量的加权平均值。

2、主体模型嵌入特征:通过lda训练文本获得,其作为文章级别特征输入分类模块50。

3、知识图片嵌入特征:通过使用transe,transr等算法获得,作为文章内逻辑特征输入分类模块50。

模型特征的训练过程中所使用的必须的工具为图中所示的concat层和fullyconnected层:

1、concat层:用于将上述三种特征融合为一个大的特征向量,作为后续神经网络的输入。

2、fullyconnected层(全连接层):接收输入的上述特征后,输出单一的分类向量。

本发明中,concat层和fullyconnected层之间可以设置一个dropout层(丢弃正则化层)和至少一个batchnormalization层(批标准化层),dropout层和batchnormalization层的设置顺序无前后要求,即二者在concat层和fullyconnected层之间的设置方式可包括如下三种:

1、dropout层、batchnormalize层;

2、batchnormalize层、dropout层;

3、dropout层、batchnormalize层、dropout层。

batchnormalization层用于对融合后的特征向量进行归一化,以稳定数据分布,提高收敛速度。

dropout层用于在模型训练的过程中随机无效化部分节点,以避免过拟合。

最后,通过softmax层归一化输出的分类向量,并最终处理为(0,0,…,1,…,0)。这里第i个元素为1,代表文本属于第i个分类。

六、存储模块

在文本分类训练完成后,每一个新的输入样本都会经过上述文本预处理模块20、发现模块30、检索和集成模块40以及分类模块50处理后最终存入存储模块60,这里存入的信息包括文章标题、正文、topn关键词(含词向量)、主题模型嵌入向量、知识图谱嵌入向量、fullyconnected层输出的分类向量和文本的分类。

七、用户交互模块

在存储模块40将以上信息存入文件系统或数据库后,可以基于这些信息提供智能的搜索模块;也可依据不同用户对不同信息的订阅和兴趣,进行有目的和针对性的推送。

如图1所示,用户交互模块70包括可定制化推动模块71及自然语言搜索模块72,前者主要提供每日新消息的推送,如通过微信、短信、邮件等手段,将用户订阅的分类后信息实时推送给用户80,后者提供索引后新闻、政策信息的实时搜索,可使用关键词、分类和自然语言问题进行搜索。

本发明中,所谓的“python”、“scrapy”及“urllib”均为常见的网络爬虫工具。

本发明中,所谓的“tf-idf”是指,“词频-逆文本频率”,所谓的“bow”,是指“词袋模型”,二者均为现有的主要基于词频的通用文本处理技术,这些技术可以在词语、短语或者n-gram基础上,计算词频级别的文本特征,可以对计算好的特征进行排序,由此就能获得topn个这样的词语、短语,作为潜在新词的一种来源。

本发明中,所谓的“句法分析”的方法,是指通过将句子拆解为若干嵌套的句法树,从而从中提取:1.主系表关系、2.主谓宾关系、3.修饰关系、及4.其他关系等,由于关系词形式多样,通过对其分类,将众多关系词划分为几大类,有利于后续的检索和集成。

本发明中,所谓的“句法分析技术”,是指命名实体识别技术,其可以识别出公司名、人名、日期、地名等特别实体,这些实体对于模型预测等帮助不大,不作为潜在新词,故需要从潜在新词中剔除。

本发明中,所使用的“分类器”,选自任何已有的分类器,如搜狗新闻语料文本分类器等。

本发明中,所谓的“transe”和“transr”等技术,是对知识图谱的一种向量表示,主要用于把文本内部的关系和逻辑向量化成特征。

本发明中,所谓的“lda”训练文本,可通过主体模型对文本词分布建模,将一篇文章表示成一个向量,代表其在若干主题上的分布情况。

本发明中,所谓的“concat层”是指特征拼接层,是指将两个及以上的特征在相应维度上进行拼接。

本发明的有益效果如下:

1、通过潜在新词发现模块和潜在新关系发现模块,提出了一种快速、有针对性的新词和新关系发现方法:可以更好、更快满足企业对于时兴热点信息的需求。由于大量新词的具有出现快、短期频率高、生命周期较短的特点,如果等待积累了一定语料和数据后,触发重训练时再发现他们,并加入进系统,将有很大可能错过这些新词和新关系的最佳发现、分类和索引时机。频繁的重训练也将加大企业的计算负担。因此本发明通过潜在新词发现模块和潜在新关系发现模块的提出,还可以在加快发现有价值的新词、新关系的同时,避免频繁的重训练模型。在保证发现质量的同时,更高效和快速,并降低了计算成本。

2、通过知识图谱检索和集成模块及词向量检索和集成模块,提供了一种迭代式的高效新词和新关系的集成方法:通过加入指定新词数量的阈值threshold和累计新词数量的阈值threshold来界定何时触发词向量重训练。在触发重训练前,直接使用相关词的词向量的加权平均作为该新词的词向量直接集成。在集成中考虑潜在新关系的附属信息,做为集成的参考依据。从而可以有效地、增量式地集成信息,只在必要时触发重训练,在保证知识集成的质量的情况下,降低了系统成本,优化了系统流程。

3、通过分类模块,提供了结合多种非完备性文本特征的信息分类模型。使用3种特征,从3个维度对非结构化文本信息进行特征抽取,即分别从关键词维度(关键词词向量)、篇章词分布维度(主体模型向量)和篇章内部的逻辑维度(知识图谱嵌入向量)。由于在系统里这些信息是使用非监督学习单独提取和训练的,具有非完备性。通过结合上述3个维度,提升了预测精度。

虽然本发明已利用上述较佳实施例进行说明,然其并非用以限定本发明的保护范围,任何本领域技术人员在不脱离本发明的精神和范围之内,相对上述实施例进行各种变动与修改仍属本发明所保护的范围,因此本发明的保护范围以权利要求书所界定的为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1