一种计算文本主题归属度的方法及装置与流程

文档序号:19818480发布日期:2020-02-04 09:29阅读:191来源:国知局
一种计算文本主题归属度的方法及装置与流程

本发明涉及计算机技术领域,尤其涉及一种计算文本主题归属度的方法及装置。



背景技术:

在大数据背景下,相关信息抽取是一个重要课题。信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。通过抽取出文章中的特征关键词来确定该篇文章所表达的主题内容。

现有相关信息抽取算法大多以文章中是否存在与某一主题相关的特征关键词,从而判断该文章所表达的内容是否属于该主题。这种以关键词是否出现在文章中作为特征,虽然可以比较全面的获取文章中的相关信息,但提取到的信息可能存在大量噪音,因为文章中并不是所有词语都与主题密切关联。因此,在最终判断该文章所表达的主题时可能会得出相反的判断结果,造成后续分析的更大误差。



技术实现要素:

有鉴于此,本发明提供一种计算文本主题归属度的方法及装置,主要目的在于通过预设主题归属度模型为主题关键词分类配置权重,从而综合计算待测文本的主题归属度,达到提高判断准确性的目的。

为达到上述目的,本发明主要提供如下技术方案:

根据业务类型选择相应的具有树形结构的主题模型,所述主题模型中的节点用于划分主题关键词的类别,其中,所述主题模型中的各节点均包含至少一个主题关键词,并且所述各节点均设置有节点权重值,所述节点权重值用于表示所述节点与其父节点的相关度;

对待测文本进行分句,得到句子列表;

根据主题模型各节点的主题关键词和所述句子列表,统计所述主题模型中各节点所含的所述待测文本中句子的数量;

根据所述主题模型中各节点的节点权重值以及分句数量,计算所述待测文本的主题归属度。

另一方面,本发明还提供了一种计算文本主题归属度的装置,该装置包括:

选择单元,用于根据业务类型选择相应的具有树形结构的主题模型,所述主题模型中的节点用于划分主题关键词的类别,其中,所述主题模型中的各节点均包含至少一个主题关键词,并且所述各节点均设置有节点权重值,所述节点权重值用于表示所述节点与其父节点的相关度;

分句单元,用于对待测文本进行分句,得到句子列表;

统计单元,用于根据所述选择单元选择的主题模型中各节点的主题关键词和所述分句单元得到的句子列表,统计所述主题模型中各节点所含的所述待测文本中句子的数量;

计算单元,用于根据所述主题模型中各节点的节点权重值以及统计单元统计的分句数量,计算所述待测文本的主题归属度。

依据上述本发明所提出的计算文本主题归属度的方法及装置,通过选择一个预置的主题模型来计算待测文本的主题归属度,在该主题模型中,将不同的主题关键按照类别进行分类,按照不同的分类以及各个类别之间的关系在主题模型中创建不同的节点,并且为节点设置不同的权重值。在计算待测文本的主题归属度时,是将文本分句后,根据各个句子中含有的主题关键词来确定句子对应主题模型中节点权重值,为每个句子分配完节点权重值后,利用主题模型的结构,通过统计各节点中含有的句子数量计算模型中根节点含有的句子数量,而该句子数量占待测文本中总句子数量的比值就是待测文本相对该主题模型的主题归属度。和现有的主题归属度计算方法相比,本发明通过建立主题模型为主题关键进行分类并设置不同的权重值,从而细化主题关键词与测试主题的相关程度,再通过与待测文本的匹配来综合计算文本中含有的关键词权重占比,使得主题归属度的计算与主题关键词的权重值以及在文本中出现的次数相关联,以提高主题归属度计算的准确性。此外,本发明的主题归属度计算结果为概率值,区别于现有的二分计算方法的结果过于绝对化的弊端,将待测文本与测试主题的相关度以概率值的形式表示更加的直观、明确。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例提出的一种计算文本主题归属度的方法的流程图;

图2示出了本发明实施例提出的另一种计算文本主题归属度的方法的流程图;

图3示出了本发明实施例提出的一种主题模型结构示意图;

图4示出了本发明实施例提出的一种计算文本主题归属度的装置的组成框图;

图5示出了本发明实施例提出的另一种计算文本主题归属度的装置的组成框图;

图6示出了本发明实施例提出的第三种计算文本主题归属度的装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种计算文本主题归属度的方法,如图1所示,具体步骤包括:

101、根据业务类型选择相应的具有树形结构的主题模型。

在计算文本的主题归属度时,一般是给出预定的主题以及与该主题相关的若干主题关键词,再判断文本中是否含有这些主题关键词来判断文本与预定主题的相关性。其中,预定主题的类别则是根据不同的行业、学科或者是业务的范围进行区分。在本实施例中,是根据业务的类型进行主题的划分,针对不同的业务类型,可以选择相对应的主题模型对待测试文本进行测试以计算文本与主题的相关性。

该主题模型是通过树形结构进行搭建的,其中,树形结构指的是数据元素之间存在着“一对多”的属性关系的数据结构。根据该结构,在主题模型中存在有若干的节点,并且是以根节点为基础向外发散。其中,父节点与子节点的关系是包含与从属的关系。其中,主题模型中的每个节点都包含有至少一个的主题关键词,而主题关键词与节点的对应关系则是根据主题关键词的分类以及类别之间的包含关系确定的。

本实施例中的主题模型除了包含有相应的主题关键词外,还对主题模型中的每个节点设置有节点权重值,用以表示该节点与主题的相关度。需要特别指出的是主题模型的节点权重值为相对权重值,也就是一个节点的权重值是相对于该节点的父节点的权重值。例如,节点1包含有2个子节点,分别为节点2和节点3,那么节点2和节点3的节点权重值都是相对节点1设置的,如果规定节点1的总权重为1,那么节点2与节点3的权重值之和为1,而节点2和节点3权重值可以进行关联地自由设定。这样就可以将主题模型的业务范围通过节点权重值的设置来拓展、外延,增加相关的主题关键词,从而使得主题归属度的计算更加的全面。

102、对待测文本进行分句,得到句子列表。

在选择了主题模型后,就可对待测文本进行相关主题归属度的计算了。在计算时,首先是将待测文本进行分句处理,得到一个句子列表。本发明实施例在处理待测文本时,使用的分句形式相对于现有技术中将文本进行分词处理的方式而言,分句处理的实现方式更为简单,执行速度也更加的快速。并且,由于分词技术在中文文本中存在分词不准确的问题,而分句只需要根据固定的标点字符就可以实现准确的分句。因此,分句相对分词来说实现方式更简单且效率更高。

统计分句后得到的句子列表中的句子数量用以后续的主题归属度计算。

103、根据主题模型各节点的主题关键词和句子列表,统计该主题模型中各节点所含的待测文本中句子的数量。

在对待测文本完成分句后,将句子列表中的句子逐个的带入到选中的主题模型中,与主题模型中的主题关键词进行匹配,查看该句子中是否含有主题关键词。如果含有,就确定该关键词所在的节点,并在该节点的计数器中加1,其中,该计数器是用于记录该节点出现待测文本中句子的数量,当句子中含有该节点中的主题关键词时,就将该句记录在此节点中,即在计数器上加1。

需要特别指出的是,句子列表中的句子在带入到主题模型后,只为该句匹配一个节点,即该句子不能做重复记录。也就是说,当一个句子中存在有多个主题关键词时,主题模型将在多个关键词中确定一个主要的关键词来确定该句子与节点的对应关系,并在该节点的计数器上加1。

通过此步骤,能将句子列表中所有含有关键词的句子匹配到主题模型中唯一的一个节点中。如此,在该主题模型中,就可以查看到待测文档中句子在各个节点中的分布情况。

104、根据主题模型中各节点的节点权重值以及分句数量,计算待测文本的主题归属度。

在统计出待测文本的句子在主题模型中各节点的数量后,根据上述提到的节点权重值的相对性,就可以将该节点的句子数量转换为其父节点的句子数量值,以此类推,就可以计算出该主题模型的根节点出现的待测文本中句子的数量。再根据该数量在句子列表中句子总数量的占比就可以得出该待测文本相对于主题模型的主题归属度。

进一步,作为上述计算方式的扩展,可以将主题模型进行拆分,一个父节点与其子节点以及再向下关联的节点就可以单独组成一个主题模型来计算待测文本与该父节点的归属度。因此,在创建主题模型时,还可以为每一个节点规定一个主题名称,这样就可以根据需求在同一个主题模型下计算出多个相关主题的主题归属度。

结合上述的实现方式可以看出,本发明实施例所采用的计算文本主题归属度方法,是通过选择一个预置的主题模型来计算待测文本的主题归属度,在该主题模型中,将不同的主题关键词按照类别进行分类,按照不同的分类以及各个类别之间的关系在主题模型中创建不同的节点,并且为节点设置不同的权重值。在计算待测文本的主题归属度时,是将文本分句后,根据各个句子中含有的主题关键词来确定句子对应主题模型中节点权重值,为每个句子分配完节点权重值后,利用主题模型的结构,通过统计各节点中含有的句子数量计算模型中根节点含有的句子数量,而该句子数量占待测文本中总句子数量的比值就是待测文本相对该主题模型的主题归属度。和现有的主题归属度计算方法相比,本发明通过建立主题模型为主题关键进行分类并设置不同的权重值,从而细化主题关键词与测试主题的相关程度,再通过与待测文本的匹配来综合计算文本中含有的关键词权重占比,使得主题归属度的计算与主题关键词的权重值以及在文本中出现的次数相关联,以提高主题归属度计算的准确性。此外,本发明的主题归属度计算结果为概率值,区别于现有的二分计算方法的结果过于绝对化的弊端,将待测文本与测试主题的相关度以概率值的形式表示更加的直观、明确。

为了更加详细地说明本发明提出的一种计算文本主题归属度的方法,本发明实施例将通过具体的实现方式加以说明,如图2所示,该方法在对计算文本主题归属度时所包括步骤为:

201、创建具有树形结构的主题模型。

根据上述101中叙述,不同业务具有不同的主题。因此,要创建一个主题模型就需要先根据该主题所属的业务范围来获取相关的主题关键词,再根据主题关键词的分类,创建具有树形结构的主题模型。本实施例以主题旅游为例创建一个主题模型,如图3所示,首先获取与旅游相关的主题关键词,包括:景点、目的地、酒店、宾馆、游客、票价等。之后将旅游作为该模型的根节点,其子节点设置有:景点、酒店、游客等,而景点的子节点还设置有:景点名、消费等。在设置好主题模型中的节点后,将获取的主题关键词分配到向对应的节点中去,确保每个节点包含有至少一个主题关键词,如此,该主题模型的主体构架就已经创建完成。之后,还需要对该主题模型中的节点设置相应的节点权重值,需要说明的是,该节点权重值为该节点与其父节点的相关程度,而不是与主题的相关程度,即节点权重值为父节点的相对权重值,而不是主题的绝对权重值。

需要说明的是,节点权重值的设置可以根据一定的算法由计算机进行自动的分配,也可以根据经验进行人为设置,对于具体的设置方式,本实施例不进行具体限定。

202、根据业务类型选择相应的具有树形结构的主题模型。

在进行归属度计算前,首先要根据需要测试的主题选择一个属于主题的主题模型。对于具体的选择方式,可以根据具体算法由计算机选择,也可以通过人工指定具体主题模型,本实施例对该选择的方式也不做具体限定。

203、对待测文本进行分句,得到句子列表。

本步骤同上述的102步骤,具体内容可参考102中的内容,此处不再赘述。

204、根据主题模型各节点的主题关键词和句子列表,统计该主题模型中各节点所含的待测文本中句子的数量。

使用主题模型计算待测文本的主题归属度,首先是将待测文本中的句子带入到主题模型中,判断该句子中是否含有主题模型中包含的主题关键词。具体的实现方式可以是将该句子先进行分词处理,将句子分成若干词后,再与主题模型中的所有主题关键词逐一的进行匹配。此外,也可以将主题关键词带入到句子中逐个字的进行比对,判断该句子中是否含有该关键词。以上的这两种方式,已经在现有的技术中得到广泛应用,因此,对于具体技术的实现细节,本实施例不再进行描述。

其次,通过判断可以确定该句子中是否含有主题关键词,当句子含有一个主题关键词时,主题模型将确定该主题关键词所在的节点,并将该节点所记录的句子数量加1。而当判断的结果是该句子含有多个主题关键词时,主题模型将先确定这些关键词所在的节点,根据节点的不同位置选择其中的一个节点,并更新该节点的句子数量值。具体的选择方式为:判断这些主题关键词所在节点的位置,当在一个节点中时,就确定该节点为句子所在的节点。而当主题关键词分属不同的节点时,则需要继续判断不同节点是否为同一个父节点的子节点,如果是,则选择节点权重值大的节点作为所述分句所在的节点,因为在同一层级中的节点权重值越大说明该节点与父节点以及根节点的相关度越高;如果不是,则选择最接近根节点的节点作为所述分句所在的节点,因为在不同层级中的节点越接近根节点的节点,其与主题的相关度也越高。以图3所示的主题模型为例,当一个句子中含有的关键词为:颐和园与票价,则将该句子的数量加到节点权重值大的节点中;而当一个句子中含有的关键词为:颐和园与游客时,则将该句子的数量加到游客所在的节点中。

通过上述的判断匹配方式,可以避免由于句子中含有多个关键词时导致的该句被重复计数的问题,使得句子列表中含有主题关键词的每一句都对应主题模型中唯一的一个节点。

205、根据主题模型中各节点的节点权重值以及分句数量,计算待测文本的主题归属度。

在确定了主题模型中各节点记录的句子数量后,结合各个节点的节点权重值,可以将该节点的句子数量换算到该节点的父节点中,其父节点的句子数量总值为本节点的数量值与所有子节点转化的数量值之和。具体的计算公式为:

其中,frej为j节点句子数量的总值,sentfrej为j节点的句子数量,weightj为j节点的节点权重值,sentfrei为i节点的句子数量,weighti为i节点的节点权重值,i节点为j节点的子节点。

通过上述的公式,能够计算出主题模型中根节点的句子数量总值,将该总值占句子总数的比值定义为该待测文本相对于主题模型的主题归属度。该主题归属度的值为一个概率值,用于表示待测文本所表达的主题内容或中心思想,与主题模型所规定的主题的近似程度。通过主题模型中不同层级的节点以及各节点的不同权重值,综合的分析待测文本与主题模型的相关程度,大幅提高了判断的准确性。

进一步的,作为对上述方法的实现,本发明实施例还提供了一种计算文本主题归属度的装置,如图4所示,该装置实施例与前述方法实施例相对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置包括:

选择单元41,用于根据业务类型选择相应的具有树形结构的主题模型,所述主题模型中的节点用于划分主题关键词的类别,其中,所述主题模型中的各节点均包含至少一个主题关键词,并且所述各节点均设置有节点权重值,所述节点权重值用于表示所述节点与其父节点的相关度;

分句单元42,用于对待测文本进行分句,得到句子列表;

统计单元43,用于根据所述选择单元41选择的主题模型中各节点的主题关键词和所述分句单元42得到的句子列表,统计所述主题模型中各节点所含的所述待测文本中句子的数量;

计算单元44,用于根据所述主题模型中各节点的节点权重值以及统计单元43统计的分句数量,计算所述待测文本的主题归属度。

进一步的,如图5所述,所述装置还包括:

获取单元45,用于在所述选择单元41根据业务类型选择相应的具有树形结构的主题模型前,根据业务类型获取相应的主题关键词;

创建单元46,用于根据获取单元45获取的主题关键词的分类创建具有树形结构的主题模型;

设置单元47,用于根据所述创建单元46创建的主题模型中的节点与其父节点的相关程度,设置所述节点相对其父节点的节点权重值。

进一步的,如图6所示,所述统计单元43包括:

判断模块431,用于判断所述句子列表中的分句是否含有所述主题模型中的主题关键词;

确定模块432,用于当所述判断模块431的判断所述分句含有主题关键词时,确定所述主题关键词所在主题模型中的节点;

统计模块433,用于将所述分句统计在所述节点含有的分句数量中,更新所述确定模块432确定的节点含有的分句数量。

进一步的,如图6所示,所述确定模块432包括:

判断子模块4321,用于当所述分句中含有多个不同节点的主题关键词时,判断所述多个不同节点是否为同一个父节点的子节点;

选择子模块4322,用于当所述判断子模块4321的判断结果为属于时,选择节点权重值大的节点作为所述分句所在的节点;

选择子模块4322还用于,当所述判断子模块4321的判断结果为不属于时,选择最接近根节点的节点作为所述分句所在的节点。

进一步的,如图6所示,所述判断模块431包括:

分词子模块4311,用于将所述句子进行分词处理;

匹配子模块4312,用于将所述分词子模块4311得到的分词与所述主题模型中的主题关键词逐一进行匹配。

进一步的,如图6所示,所述装置的计算单元44包括:

换算模块441,用于根据各节点的节点权重值,将子节点的分句数量转换为其父节点的分句数量;

计算模块442,用于利用递归算法计算所述主题模型中根节点的分句数量,再计算所述根节点的分句数量与所述句子列表中的分句数量的商,得出所述待测文本相对于所述主题模型的主题归属度。

综上所述,本发明实施例所采用的计算文本主题归属度的方法及装置,是通过选择一个预置的主题模型来计算待测文本的主题归属度,在该主题模型中,将不同的主题关键按照类别进行分类,按照不同的分类以及各个类别之间的关系在主题模型中创建不同的节点,并且为节点设置不同的权重值。在计算待测文本的主题归属度时,是将文本分句后,根据各个句子中含有的主题关键词来确定句子对应主题模型中节点权重值,为每个句子分配完节点权重值后,利用主题模型的结构,通过统计各节点中含有的句子数量计算模型中根节点含有的句子数量,而该句子数量占待测文本中总句子数量的比值就是待测文本相对该主题模型的主题归属度。和现有的主题归属度计算方法相比,本发明通过建立主题模型为主题关键进行分类并设置不同的权重值,从而细化主题关键词与测试主题的相关程度,再通过与待测文本的匹配来综合计算文本中含有的关键词权重占比,使得主题归属度的计算与主题关键词的权重值以及在文本中出现的次数相关联,以提高主题归属度计算的准确性。此外,本发明的主题归属度计算结果为概率值,区别于现有的二分计算方法的结果过于绝对化的弊端,将待测文本与测试主题的相关度以概率值的形式表示更加的直观、明确。

所述计算文本主题归属度的装置包括处理器和存储器,上述选择单元、分句单元、统计单元和计算单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来计算测试文本相对于主题模型的主题归属度,从而提高主题归属度判断的准确性。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:根据业务类型选择相应的具有树形结构的主题模型,所述主题模型中的节点用于划分主题关键词的类别,其中,所述主题模型中的各节点均包含至少一个主题关键词,并且所述各节点均设置有节点权重值,所述节点权重值用于表示所述节点与其父节点的相关度;对待测文本进行分句,得到句子列表;根据主题模型各节点的主题关键词和所述句子列表,统计所述主题模型中各节点所含的所述待测文本中句子的数量;根据所述主题模型中各节点的节点权重值以及分句数量,计算所述待测文本的主题归属度。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1