文本模板识别方法、装置及计算机可读存储介质与流程

文档序号:18108645发布日期:2019-07-06 11:50阅读:182来源:国知局
文本模板识别方法、装置及计算机可读存储介质与流程

本发明涉及自然语言处理技术领域,尤其涉及一种文本模板识别方法、装置及计算机可读存储介质。



背景技术:

随着互联网技术的发展,各行各业的人们都能够通过网络平台自由发布和下载信息,这使得网络上的信息越来越多,大数据分析即对网络上海量的数据进行分析进而提取所需的信息。在进行大数据分析时有时需要用到文本模板,即包含某些特定文字的文本信息。通常,相同的文本信息或类似的文本信息可以对应一个文本模板。现有技术中,获取文本模板的方法通常是由工作人员从各种信息中进行提取,然而这种方法耗时耗力,工作人员需要花费很长的时间去识别进而获取文本模块。



技术实现要素:

本发明提供一种文本模板识别方法、装置及计算机可读存储介质,其主要目的在于提高文本模板识别的效率和准确度。

为实现上述目的,本发明还提供一种文本模板识别方法,该方法包括:

获取预设文本模板和匹配文本;

根据基于词频的文本相似度算法计算所述匹配文本与所述预设文本模板的第一相似度;和/或

根据基于语义的文本相似度算法计算所述匹配文本与所述预设文本模板的第二相似度;

当所述第一相似度和/或所述第二相似度满足预设相似度条件时,确定所述匹配文本为与所述预设文本模板相似的文本模板。

可选地,所述根据基于词频的文本相似度算法计算所述匹配文本与所述预设文本模板的第一相似度和/或根据基于语义的文本相似度算法计算所述匹配文本与所述预设文本模板的第二相似度包括:

利用向量空间模型计算所述匹配文本与所述预设文本模板的第一相似度;

利用lda文档主题生成模型计算所述匹配文本与所述预设文本模型的第二相似度;

所述第一相似度和所述第二相似度满足预设相似度条件包括:

根据所述第一相似度与所述第二相似度进行线性加权,得到所述匹配文本与所述预设文本模板的第三相似度;

判断所述第三相似度是否大于第三预设相似度;

若所述第三相似度大于所述预设相似度,确定所述第一相似度和所述第二相似度满足预设相似条件。

可选地,所述根据所述第一相似度与所述第二相似度进行线性加权,得到所述匹配文本与所述预设文本模板的第三相似度包括:

将所述第一相似度、所述第二相似度输入至预设线性加权公式,输出所述匹配文本与所述预设文本模板的第三相似度,所述预设线性加权公式为:

sim(p,q)=αsimlda(p,q)+βsimtfidf(p,q),

其中,p和q分别为所述匹配文本和所述预设文本模板,simtfidf(p,q)为所述第一相似度,simlda(p,q)为所述第二相似度,sim(p,q)为所述第三相似度,α和β为预设权重值。

可选地,所述方法还包括:

获取用于线性加权的权重值,包括:

对所述权重值赋予第一初始值,根据所述第一初始值计算所述第三相似度;

通过预设聚类算法判断所述匹配模板与所述预设文本模板是否为相同类别,获取聚类结果;

通过所述聚类结果判断根据所述第一初始值计算得到的所述第三相似度是否准确;

若确定根据所述第一初始值计算得到的所述第三相似度准确,确定所述第一初始值为用于线性加权的权重值;

若确定根据所述第一初始值计算得到的所述第三相似度准确不准确,调整所述第一初始值,执行所述根据所述第一初始值计算所述第三相似度的操作。

可选地,所述第一相似度或所述第二相似度满足预设相似度条件包括:

所述第一相似度大于第一预设相似度或所述第二相似度大于第二预设相似度。

此外,为实现上述目的,本发明还提供一种文本模板识别装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的文本模板识别程序,所述文本模板识别程序被所述处理器执行时实现如下步骤:

获取预设文本模板和匹配文本;

根据基于词频的文本相似度算法计算所述匹配文本与所述预设文本模板的第一相似度;和/或

根据基于语义的文本相似度算法计算所述匹配文本与所述预设文本模板的第二相似度;

当所述第一相似度和/或所述第二相似度满足预设相似度条件时,确定所述匹配文本为与所述预设文本模板相似的文本模板。

可选地,所述根据基于词频的文本相似度算法计算所述匹配文本与所述预设文本模板的第一相似度和/或根据基于语义的文本相似度算法计算所述匹配文本与所述预设文本模板的第二相似度包括:

利用向量空间模型计算所述匹配文本与所述预设文本模板的第一相似度;

利用lda文档主题生成模型计算所述匹配文本与所述预设文本模型的第二相似度;

所述第一相似度和所述第二相似度满足预设相似度条件包括:

根据所述第一相似度与所述第二相似度进行线性加权,得到所述匹配文本与所述预设文本模板的第三相似度;

判断所述第三相似度是否大于第三预设相似度;

若所述第三相似度大于所述预设相似度,确定所述第一相似度和所述第二相似度满足预设相似条件。

可选地,所述根据所述第一相似度与所述第二相似度进行线性加权,得到所述匹配文本与所述预设文本模板的第三相似度包括:

将所述第一相似度、所述第二相似度输入至预设线性加权公式,输出所述匹配文本与所述预设文本模板的第三相似度,所述预设线性加权公式为:

sim(p,q)=αsimlda(p,q)+βsimtfidf(p,q),

其中,p和q分别为所述匹配文本和所述预设文本模板,simtfidf(p,q)为所述第一相似度,simlda(p,q)为所述第二相似度,sim(p,q)为所述第三相似度,α和β为预设权重值。

可选地,所述文本模板识别程序被所述处理器执行,还实现如下步骤:

获取用于线性加权的权重值,包括:

对所述权重值赋予第一初始值,根据所述第一初始值计算所述第三相似度;

通过预设聚类算法判断所述匹配模板与所述预设文本模板是否为相同类别,获取聚类结果;

通过所述聚类结果判断根据所述第一初始值计算得到的所述第三相似度是否准确;

若确定根据所述第一初始值计算得到的所述第三相似度准确,确定所述第一初始值为用于线性加权的权重值;

若确定根据所述第一初始值计算得到的所述第三相似度准确不准确,调整所述第一初始值,执行所述根据所述第一初始值计算所述第三相似度的操作。

可选地,所述第一相似度或所述第二相似度满足预设相似度条件包括:

所述第一相似度大于第一预设相似度或所述第二相似度大于第二预设相似度。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有文本模板识别程序,所述文本模板识别程序可被一个或者多个处理器执行,以实现如上所述的文本模板识别方法的步骤。

本发明提出的文本模板识别方法、文本模板识别装置及计算机可读存储介质,获取预设文本模板和匹配文本;根据基于词频的文本相似度算法计算所述匹配文本与所述预设文本模板的第一相似度;和/或根据基于语义的文本相似度算法计算所述匹配文本与所述预设文本模板的第二相似度;当所述第一相似度和/或所述第二相似度满足预设相似度条件时,确定所述匹配文本为与所述预设文本模板相似的文本模板。无需工作人员一一人工判断,就能够快速的获取到与预设文本模板相似的文本模块,实现了提高文本模板识别的效率的目的,并且,在计算文本相似度时,通过基于词频的文本相似度算法和/或基于语义的文本相似度算法进行计算,能够提高文本模板识别的准确度。

附图说明

图1为本发明一实施例提供的文本模板识别方法的流程示意图;

图2为本发明一实施例提供的文本模板识别装置的内部结构示意图;

图3为本发明一实施例提供的文本模板识别装置中文本模板识别程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明提供一种文本模板识别方法。参照图1所示,为本发明第一实施例提供的文本模板识别方法的流程示意图。该方法可以由一个电子装置执行。

在本实施例中,文本模板识别方法包括:

步骤s10:获取预设文本模板和匹配文本。

所述预设文本模板可以是预先存储在预设存储区的(例如存储在电子设备的)文本模板。该预设文本模板可由用户获取并保存在预设存储区,或者,该预设文本模板由通过分析若干类似词语的文本,并提取该文本中相似的关键词,得到预设文本模板。

一种可能的实施例中,预设文本模板为一个文本模板集合中的任意一个文本模板,该文本集合中都为同一类文本模板,或者该文本集合中包括各种不同类的文本模板。所述获取预设文本模板包括:获取文本模板集合;获取所述文本模板集合中的一文本模板。

所述匹配文本是需要进行判断是否为相似文本模板的文本。该匹配文本可以由一个或多个语句组成。

步骤s20:根据基于词频的文本相似度算法计算所述匹配文本与所述预设文本模板的第一相似度和/或根据基于语义的文本相似度算法计算所述匹配文本与所述预设文本模板的第二相似度。

所述基于词频的文本相似度算法通过词的出现频率来计算两个文本之间相似度;所述基于语义的文本相似度算法通过此的语义来计算两个文本之间的相似度。

具体的基于词频的文本相似度算法以及所述基于语义的文本相似度算法可以从现有技术中获取,此处不再赘述。

可选的,在发明另一实施例中,所述根据基于词频的文本相似度算法计算所述匹配文本与所述预设文本模板的第一相似度和/或根据基于语义的文本相似度算法计算所述匹配文本与所述预设文本模板的第二相似度包括:

利用向量空间模型计算所述匹配文本与所述预设文本模板的第一相似度;

利用lda文档主题生成模型计算所述匹配文本与所述预设文本模型的第二相似度。

在本实施例中利用向量空间模型计算匹配文本与预设文本模板的第一相似度。

利用所述向量空间模型(vectorspacemodel,svm)计算匹配文本与预设文本模板的第一相似度包括:

对匹配文本和预设文本模板进行预处理操作,所述预处理操作包括但不限于分词、去停用词(包括对文本内容意义不大的词、符号、标点、乱码等,如“这”“的”“呀”等),得到预处理后的匹配文本和预处理后的预设文本模板;

从预处理后的匹配文本中词语的频率确定第一关键词,以及从预处理后的预设文本模板中词语的频率确定第二关键词,其中,第一关键词和第二关键词都可包含多个词语;

例如,确定预处理后的匹配文本中出现频率大于预设频率的词语为第一关键词。

在确定第一关键词和第二关键词之后,计算第一关键词的逆向文本频率,以及第二关键词的逆向文本频率,并生成表示匹配文本的第一向量和表示预设文本模板的第二向量;

其中,逆向文本频率(inversedocumentfrequency,idf)是用于衡量关键词权重的指数。

某一关键词的逆向文本频率可以根据其公式idf=log(d/dw)进行计算,其中,d为样本数据库中文本的总数量,dw为关键词出现过的文本的数量。

本实施例中,根据以下公式得到第一向量和第二向量:

d=d(t1,w1;t2,w2;…,tn,wn)

其中,t1为一个关键词,w1为该关键词的逆向文本频率;t2为另一个关键词,w2为该关键词的逆向文本频率;以此类推,tn为第n个关键词,wn为该关键词的逆向文本频率。

在向量空间模型中,两个文本之间的内容相关度sim(d1,d2)常用向量之间夹角的余弦值表示,因此,在得到匹配文本的第一向量空间模型和预设文本模板的第二向量之后,计算第一向量与第二向量的余弦,从而得到预匹配文本与预设文本模板的第一相似度,计算余弦的公式可以从现有技术中获取,此处不再赘述。

在本实施例中,将文本简化为以特征项(关键词)的权重为分量的n维向量进行表示,简化了文本中关键词之间的复杂关系,使模型具备了可计算性,进而能够快速得到匹配文本以及预设文本模板之间的第一相似度。。

本实施例中,lda(latentdirichletallocation,隐含狄利克雷分布)模型的基本思想是将文档描述为主题概率分布并进一步将主题描述为词项概率分布。具体的,如何根据lda文档主题生成模型计算匹配文本与预设文本模型的第二相似度可以从现有技术中获取,此处不再赘述。

步骤s30:当所述第一相似度和/或所述第二相似度满足预设相似度条件时,确定所述匹配文本为与所述预设文本模板相似的文本模板。

所述预设相似度条件可以为预先设置的。

可选的,在本发明另一实施例中,所述第一相似度或所述第二相似度满足预设相似度条件包括:

所述第一相似度大于第一预设相似度或所述第二相似度大于第二预设相似度。

所述第一预设相似度和所述第二预设相似度可以根据需要预先设置,所述第一预设相似度和所述第二预设相似度的值可以相同或者不同。例如,第一预设相似度为85%,第二预设相似度为90%;或者,第一预设相似度和所述第二预设相似度都为90%。

可选的,在本发明另一实施例中,所述第一相似度和所述第二相似度满足预设相似度条件包括:

根据所述第一相似度与所述第二相似度进行线性加权,得到所述匹配文本与所述预设文本模板的第三相似度;

判断所述第三相似度是否大于第三预设相似度;

若所述第三相似度大于所述第三预设相似度,确定所述第一相似度和所述第二相似度满足预设相似条件。

线性加权即对第一相似度和第二相似度赋予一定的权重值再相加,得到第三相似度。

所述第三预设相似度可以是预先设置的。

可选的,在本发明另一实施例中,所述根据所述第一相似度与所述第二相似度进行线性加权,得到所述匹配文本与所述预设文本模板的第三相似度包括:

将所述第一相似度、所述第二相似度输入至预设线性加权公式,输出所述匹配文本与所述预设文本模板的第三相似度,所述预设线性加权公式为:

sim(p,q)=αsimlda(p,q)+βsimtfidf(p,q),

其中,p和q分别为所述匹配文本和所述预设文本模板,simtfidf(p,q)为所述第一相似度,simlda(p,q)为所述第二相似度,sim(p,q)为所述第三相似度,α和β为预设权重值。

本实施例中,0≤α≤1,0≤β≤1,并且α与β之和为1。

可选的,在本发明另一实施例中,所述方法还包括:获取用于线性加权的权重值。所述获取用于线性加权的权重值包括:

对所述权重值赋予第一初始值,根据所述第一初始值计算所述第三相似度;

通过预设聚类算法判断所述匹配模板与所述预设文本模板是否为相同类别,获取聚类结果;

通过所述聚类结果判断根据所述第一初始值计算得到的所述第三相似度是否准确;

若确定根据所述第一初始值计算得到的所述第三相似度准确,确定所述第一初始值为用于线性加权的权重值;

若确定根据所述第一初始值计算得到的所述第三相似度不准确,调整所述第一初始值,执行所述根据所述第一初始值计算所述第三相似度的操作。

上述步骤用于获取α或β的值。

所述聚类结果为匹配模板与预设文本模板是相同类别,或者匹配模板与预设文本模板不是相同类别。

所述第一初始值可以为0.1,当调整第一初始值时,可以每次调整增加0.1。例如,若获取的权重为α,即刚开始赋值时令α为0.1,则此时β为0.9,根据预设线性加权公式计算匹配文本与预设文本模板的第三相似度,以及通过聚类算法判断匹配模板与预设文本模板是否为相同类别,若第三相似度小于50%,而聚类算法判断匹配模板与预设文本模板不为相同类别,则确定根据第一初始值计算得到的所述第三相似度不准确。令α=α+0.1,则α为0.2,此时β为0.8,根据预设线性加权公式计算匹配文本与预设文本模板的第三相似度,以及通过聚类算法判断匹配模板与预设文本模板是否为相同类别,若不准确,令α=α+0.1,则α为0.3,此时β为0.7,再次计算,以此类推,直到找到最优的α的值与β的值。

在本实施例中,当确定匹配文本为与预设文本模板相似的文本模板时,可以将匹配文本添加至预设文本模板的模板集合中,从而通过本实施例,可以得到多个文本模板集合,每个文本模板集合中都为相似的文本模板。

本实施例提出的文本模板识别方法,获取预设文本模板和匹配文本;根据基于词频的文本相似度算法计算所述匹配文本与所述预设文本模板的第一相似度;和/或根据基于语义的文本相似度算法计算所述匹配文本与所述预设文本模板的第二相似度;当所述第一相似度和/或所述第二相似度满足预设相似度条件时,确定所述匹配文本为与所述预设文本模板相似的文本模板。无需工作人员一一人工判断,就能够快速的获取到与预设文本模板相似的文本模块,实现了提高文本模板识别的效率的目的,并且,在计算文本相似度时,通过基于词频的文本相似度算法和/或基于语义的文本相似度算法进行计算,能够提高文本模板识别的准确度。

本发明还提供一种文本模板识别装置。参照图2所示,为本发明一实施例提供的文本模板识别装置的内部结构示意图。

在本实施例中,文本模板识别装置1可以是pc(personalcomputer,个人电脑),也可以是智能手机、平板电脑、便携计算机等终端设备。该文本模板识别装置1至少包括存储器11、处理器12,网络接口13以及通信总线14。

其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是文本模板识别装置1的内部存储单元,例如该文本模板识别装置1的硬盘。存储器11在另一些实施例中也可以是文本模板识别装置1的外部存储设备,例如文本模板识别装置1上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,存储器11还可以既包括文本模板识别装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于文本模板识别装置1的应用软件及各类数据,例如文本模板识别程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行文本模板识别程序01等。

网络接口13可选的可以包括标准的有线接口、无线接口(如wi-fi接口),通常用于在该装置1与其他电子设备之间建立通信连接。

通信总线14用于实现这些组件之间的连接通信。

可选地,该文本模板识别装置1还可以包括用户接口,用户接口可以包括显示器(display)、输入单元比如键盘(keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organiclight-emittingdiode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在文本模板识别装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及文本模板识别程序01的文本模板识别装置1,本领域技术人员可以理解的是,图2示出的结构并不构成对文本模板识别装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。

在图2所示的文本模板识别装置1实施例中,存储器11中存储有文本模板识别程序01;处理器12执行存储器11中存储的文本模板识别程序01时实现如下步骤:

获取预设文本模板和匹配文本。

所述预设文本模板可以是预先存储在预设存储区的(例如存储在电子设备的)文本模板。该预设文本模板可由用户获取并保存在预设存储区,或者,该预设文本模板由通过分析若干类似词语的文本,并提取该文本中相似的关键词,得到预设文本模板。

一种可能的实施例中,预设文本模板为一个文本模板集合中的任意一个文本模板,该文本集合中都为同一类文本模板,或者该文本集合中包括各种不同类的文本模板。所述获取预设文本模板包括:获取文本模板集合;获取所述文本模板集合中的一文本模板。

所述匹配文本是需要进行判断是否为相似文本模板的文本。该匹配文本可以由一个或多个语句组成。

根据基于词频的文本相似度算法计算所述匹配文本与所述预设文本模板的第一相似度和/或根据基于语义的文本相似度算法计算所述匹配文本与所述预设文本模板的第二相似度。

所述基于词频的文本相似度算法通过词的出现频率来计算两个文本之间相似度;所述基于语义的文本相似度算法通过此的语义来计算两个文本之间的相似度。

具体的基于词频的文本相似度算法以及所述基于语义的文本相似度算法可以从现有技术中获取,此处不再赘述。

可选的,在发明另一实施例中,所述根据基于词频的文本相似度算法计算所述匹配文本与所述预设文本模板的第一相似度和根据基于语义的文本相似度算法计算所述匹配文本与所述预设文本模板的第二相似度包括:

利用向量空间模型计算所述匹配文本与所述预设文本模板的第一相似度;

利用lda文档主题生成模型计算所述匹配文本与所述预设文本模型的第二相似度。

在本实施例中利用向量空间模型计算匹配文本与预设文本模板的第一相似度。

利用所述向量空间模型(vectorspacemodel,svm)计算匹配文本与预设文本模板的第一相似度包括:

对匹配文本和预设文本模板进行预处理操作,所述预处理操作包括但不限于分词、去停用词(包括对文本内容意义不大的词、符号、标点、乱码等,如“这”“的”“呀”等),得到预处理后的匹配文本和预处理后的预设文本模板;

从预处理后的匹配文本中词语的频率确定第一关键词,以及从预处理后的预设文本模板中词语的频率确定第二关键词,其中,第一关键词和第二关键词都可包含多个词语;

例如,确定预处理后的匹配文本中出现频率大于预设频率的词语为第一关键词。

在确定第一关键词和第二关键词之后,计算第一关键词的逆向文本频率,以及第二关键词的逆向文本频率,并生成表示匹配文本的第一向量和表示预设文本模板的第二向量;

其中,逆向文本频率(inversedocumentfrequency,idf)是用于衡量关键词权重的指数。

某一关键词的逆向文本频率可以根据其公式idf=log(d/dw)进行计算,其中,d为样本数据库中文本的总数量,dw为关键词出现过的文本的数量。

本实施例中,根据以下公式得到第一向量和第二向量:

d=d(t1,w1;t2,w2;…,tn,wn)

其中,t1为一个关键词,w1为该关键词的逆向文本频率;t2为另一个关键词,w2为该关键词的逆向文本频率;以此类推,tn为第n个关键词,wn为该关键词的逆向文本频率。

在向量空间模型中,两个文本之间的内容相关度sim(d1,d2)常用向量之间夹角的余弦值表示,因此,在得到匹配文本的第一向量空间模型和预设文本模板的第二向量之后,计算第一向量与第二向量的余弦,从而得到预匹配文本与预设文本模板的第一相似度,计算余弦的公式可以从现有技术中获取,此处不再赘述。

在本实施例中,将文本简化为以特征项(关键词)的权重为分量的n维向量进行表示,简化了文本中关键词之间的复杂关系,使模型具备了可计算性,进而能够快速得到匹配文本以及预设文本模板之间的第一相似度。。

本实施例中,lda(latentdirichletallocation,隐含狄利克雷分布)模型的基本思想是将文档描述为主题概率分布并进一步将主题描述为词项概率分布。具体的,如何根据lda文档主题生成模型计算匹配文本与预设文本模型的第二相似度可以从现有技术中获取,此处不再赘述。

当所述第一相似度和/或所述第二相似度满足预设相似度条件时,确定所述匹配文本为与所述预设文本模板相似的文本模板。

所述预设相似度条件可以为预先设置的。

可选的,在本发明另一实施例中,所述第一相似度或所述第二相似度满足预设相似度条件包括:

所述第一相似度大于第一预设相似度或所述第二相似度大于第二预设相似度。

所述第一预设相似度和所述第二预设相似度可以根据需要预先设置,所述第一预设相似度和所述第二预设相似度的值可以相同或者不同。例如,第一预设相似度为85%,第二预设相似度为90%;或者,第一预设相似度和所述第二预设相似度都为90%。

可选的,在本发明另一实施例中,所述第一相似度和所述第二相似度满足预设相似度条件包括:

根据所述第一相似度与所述第二相似度进行线性加权,得到所述匹配文本与所述预设文本模板的第三相似度;

判断所述第三相似度是否大于第三预设相似度;

若所述第三相似度大于所述第三预设相似度,确定所述第一相似度和所述第二相似度满足预设相似条件。

线性加权即对第一相似度和第二相似度赋予一定的权重值再相加,得到第三相似度。

所述第三预设相似度可以是预先设置的。

可选的,在本发明另一实施例中,所述根据所述第一相似度与所述第二相似度进行线性加权,得到所述匹配文本与所述预设文本模板的第三相似度包括:

将所述第一相似度、所述第二相似度输入至预设线性加权公式,输出所述匹配文本与所述预设文本模板的第三相似度,所述预设线性加权公式为:

sim(p,q)=αsimlda(p,q)+βsimtfidf(p,q),

其中,p和q分别为所述匹配文本和所述预设文本模板,simtfidf(p,q)为所述第一相似度,simlda(p,q)为所述第二相似度,sim(p,q)为所述第三相似度,α和β为预设权重值。

本实施例中,0≤α≤1,0≤β≤1,并且α与β之和为1。

可选的,在本发明另一实施例中,所述文本模板识别程序被所述处理器执行,还实现如下步骤:

获取用于线性加权的权重值。

所述获取用于线性加权的权重值包括:

对所述权重值赋予第一初始值,根据所述第一初始值计算所述第三相似度;

通过预设聚类算法判断所述匹配模板与所述预设文本模板是否为相同类别,获取聚类结果;

通过所述聚类结果判断根据所述第一初始值计算得到的所述第三相似度是否准确;

若确定根据所述第一初始值计算得到的所述第三相似度准确,确定所述第一初始值为用于线性加权的权重值;

若确定根据所述第一初始值计算得到的所述第三相似度不准确,调整所述第一初始值,执行所述根据所述第一初始值计算所述第三相似度的操作。

上述步骤用于获取α或β的值。

所述聚类结果为匹配模板与预设文本模板是相同类别,或者匹配模板与预设文本模板不是相同类别。

所述第一初始值可以为0.1,当调整第一初始值时,可以每次调整增加0.1。例如,若获取的权重为α,即刚开始赋值时令α为0.1,则此时β为0.9,根据预设线性加权公式计算匹配文本与预设文本模板的第三相似度,以及通过聚类算法判断匹配模板与预设文本模板是否为相同类别,若第三相似度小于50%,而聚类算法判断匹配模板与预设文本模板不为相同类别,则确定根据第一初始值计算得到的所述第三相似度不准确。令α=α+0.1,则α为0.2,此时β为0.8,根据预设线性加权公式计算匹配文本与预设文本模板的第三相似度,以及通过聚类算法判断匹配模板与预设文本模板是否为相同类别,若不准确,令α=α+0.1,则α为0.3,此时β为0.7,再次计算,以此类推,直到找到最优的α的值与β的值。

在本实施例中,当确定匹配文本为与预设文本模板相似的文本模板时,可以将匹配文本添加至预设文本模板的模板集合中,从而通过本实施例,可以得到多个文本模板集合,每个文本模板集合中都为相似的文本模板。

本实施例提出的文本模板识别装置,获取预设文本模板和匹配文本;根据基于词频的文本相似度算法计算所述匹配文本与所述预设文本模板的第一相似度;和/或根据基于语义的文本相似度算法计算所述匹配文本与所述预设文本模板的第二相似度;当所述第一相似度和/或所述第二相似度满足预设相似度条件时,确定所述匹配文本为与所述预设文本模板相似的文本模板。无需工作人员一一人工判断,就能够快速的获取到与预设文本模板相似的文本模块,实现了提高文本模板识别的效率的目的,并且,在计算文本相似度时,通过基于词频的文本相似度算法和/或基于语义的文本相似度算法进行计算,能够提高文本模板获识别的准确度。

可选地,在其他实施例中,文本模板识别程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述文本模板识别程序在文本模板识别装置中的执行过程。

例如,参照图3所示,为本发明文本模板识别装置一实施例中的文本模板识别程序01的程序模块示意图,该实施例中,文本模板识别程序可以被分割为获取模块10、计算模块20和确定模块30,示例性地:

获取模块10用于:获取预设文本模板和匹配文本;

计算模块20用于:根据基于词频的文本相似度算法计算所述匹配文本与所述预设文本模板的第一相似度;和/或根据基于语义的文本相似度算法计算所述匹配文本与所述预设文本模板的第二相似度;

确定模块30用于:当所述第一相似度和/或所述第二相似度满足预设相似度条件时,确定所述匹配文本为与所述预设文本模板相似的文本模板。

上述获取模块10、计算模块20和确定模块30等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。

此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有文本模板识别程序,所述文本模板识别程序可被一个或多个处理器执行,以实现如下操作:

获取预设文本模板和匹配文本;

根据基于词频的文本相似度算法计算所述匹配文本与所述预设文本模板的第一相似度;和/或

根据基于语义的文本相似度算法计算所述匹配文本与所述预设文本模板的第二相似度;

当所述第一相似度和/或所述第二相似度满足预设相似度条件时,确定所述匹配文本为与所述预设文本模板相似的文本模板。

本发明计算机可读存储介质具体实施方式与上述文本模板识别装置和方法各实施例基本相同,在此不作累述。

需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1