文本检测方法、装置及计算机可读存储介质与流程

文档序号:29042011发布日期:2022-02-25 20:59阅读:70来源:国知局
文本检测方法、装置及计算机可读存储介质与流程

1.本技术涉及信息检测技术领域,特别是涉及文本检测方法、装置及计算机可读存储介质。


背景技术:

2.现有技术中,通常会通过检测一文本中是否存在敏感词来判断该文本的文本类型,若存在敏感词则认为该文本是第一类文本,若不存在敏感词则认为该文本是第二类文本或其它类型的文本。
3.现有技术的缺陷在于,仅凭是否存在敏感词作为判断依据,判断一文本的文本类型,容易将一些在文本中并不具备敏感词词义的多义词误识别为敏感词,影响了文本检测的准确率。


技术实现要素:

4.本技术主要解决的技术问题是提高文本检测的准确性。
5.为了解决上述技术问题,本技术采用的第一个技术方案是:一种文本检测方法,包括:获取待检测文本;在待检测文本中存在至少一个敏感词的情况下,根据每一敏感词所属类型对应的权值,得到待检测文本中存在的所有敏感词的权值之和;在权值之和大于预设阈值的情况下,分析得到待检测文本的情感极性;根据情感极性确定待检测文本的文本类型;其中,所述文本类型包括第一类文本以及第二类文本。
6.为了解决上述技术问题,本技术采用的第二个技术方案是:一种第一类文本检测装置,包括:存储器和处理器;存储器用于存储程序指令,处理器用于执行程序指令以实现上述文本检测方法。
7.为了解决上述技术问题,本技术采用的第三个技术方案是:一种计算机可读存储介质,计算机可读存储介质存储有程序指令,程序指令被处理器执行时实现上述文本检测方法。
8.区别于现有技术,本技术通过获取待检测文本,并在待检测文本中存在至少一个敏感词时,根据每一敏感词所属类型对应的权值计算待检测文本中的权值之和,若该权值之和大于预设阈值则进一步对该检测文本进行情感极性的分析,最后根据该分析结果确定待检测文本的文本类型。根据上述方式,可通过敏感词的权值之和、情感极性的分析对待检测文本进行两次处理,以最终得到待检测文本的类型,该两次处理的方式可避免仅针对待检测文本进行敏感词检测以判断待检测文本的类型的情况出现,防止将在待检测文本的语义环境中,不具备敏感词词义的多义词误识别为敏感词的情况发生,提高了文本检测的准确性。
附图说明
9.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使
用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
10.图1是本技术文本检测方法的一实施例的一流程示意图;
11.图2是本技术敏感词权值列表的示意图;
12.图3是本技术文本检测方法的一实施例的另一流程示意图;
13.图4是本技术文本检测装置的一实施例的结构示意图;
14.图5是本技术计算机可读存储介质的一实施例的结构示意图。
具体实施方式
15.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。根据本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,均属于本技术保护的范围。
16.本技术中的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。本技术的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体地限定。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
17.在传统文本检测方法中,通常会先获取一待检测文本,再检测获取得到的待检测文本中是否存在的敏感词,最后,在该待检测文本中不存在敏感词时将该待检测文本判定为第二类文本,以及,在该待检测文本中存在敏感词时将该待检测文本判定为第一类文本。
18.对于一个敏感词而言,根据语言环境的不同其词义也可能不同,也即,在不同待检测文本中,相同一个词可能具备敏感词词义也可能不具备敏感词词义。传统文本检测方法的问题在于,仅仅通过检测待检测文本中是否存在敏感词,容易将不具备敏感词词义的词误识别为敏感词,从而将实际为第二类文本的待检测文本误判为第一类文本。
19.本技术为了解决上述技术问题,提出一种文本检测方法,如图1所示,图1是本技术文本检测方法的一实施例的一流程示意图,在本技术的一个实施例中,该文本检测方法包括:
20.步骤s11:获取待检测文本。
21.其中,所获取的待检测文本可以是任意类型的文本文字信息,例如:手机短信内容、社交软件中的聊天记录、自媒体软件的新闻及评论和其它类型的文本信息。
22.可选地,在一些实施例中,目标文本信息也可以是图像、视频或者语音信息,进而可通过图像、视频或者语音信息转换得到文本文字信息。举例来说,当目标文本信息是语音信息时,可以根据asr(automatic speech recognition,自动语音识别)技术,将目标语音信息转换为目标文本文字信息。
23.具体地,该语音信息可以是一语音质检场景下客服与客户之间的对话信息,也可以是其它类型的语音信息,此处不作限定。
24.步骤s12:在待检测文本中存在至少一个敏感词的情况下,根据每一敏感词所属类型对应的权值,得到待检测文本中的所有敏感词的权值之和。
25.其中,不同敏感词可以分属不同类型,而不同类型可对应不同的权值。敏感词分为第一类型、第四类型、第三类型和第二类型,不同类型对应有不同权值。举例说明,图2是本技术敏感词权值列表的示意图,如图2所示,可依据业务场景的行业规范、管理规范、纪律规范等制定敏感词词库,也即制定该敏感词权值列表中的敏感词,该敏感词词库或该敏感词权值列表中主要可包括脏词、辱骂词、敏感词、威胁恐吓词、重大事件相关词及其它包含敏感词义的词,在本实施例中,并可将敏感词分为高危类型(第一类型)、严重类型(第四类型)、普通类型(第三类型)和一般类型(第四类型),不同类型对应有不同权值。
26.各敏感词所属类型对应的权值可以理解为该类型的敏感词在待检测文本的语义环境中,具备敏感词词义的可能程度,所对应的权值越高则代表该可能程度越高,反之,所对应的权值越低则代表该可能程度越低,一般情况下,第一类型的敏感词对应的权值最高,第四类型的敏感词、第三类型的敏感词及第二类型的敏感词对应的权值依次降低。
27.因此,基于权值之和可以确定待检测文本中的各敏感词均具备敏感词词义的总可能程度,后续可基于该总可能程度确定是否需要继续分析待检测文本的情感极性。
28.步骤s13:在权值之和大于预设阈值的情况下,分析得到待检测文本的情感极性。
29.其中,在经步骤s12得到权值之和后,若该权值之和大于预设阈值,则可进一步对待检测文本进行情感极性的分析,以便后续根据分析结果作进一步处理。
30.举例说明,在预设阈值为4的情况下,根据图2所示的敏感词权值列表可知:若待检测文本中存在一个第四类型的敏感词和一个第二类型的敏感词,则权值之和为5,可判定权值之和大于预设阈值,可进一步分析得到待检测文本的情感极性。若待检测文本中存在两个第三类型的敏感词,则权值之和为4,可判定权值之和不大于预设阈值,可不必对待检测文本进行情感极性的分析,且直接可以确定该待检测文本为第二类文本。
31.步骤s14:根据情感极性确定待检测文本的文本类型。
32.其中,文本类型包括第一类文本以及第二类文本。可根据待检测文本所对应的情感极性的不同,确定待检测文本所属的文本类型,举例说明,若待检测文本的情感极性被认为是恶意的、不好的,则可确定待检测文本的文本类型为第一类文本,反之,若待检测文本的情感极性被认为是善意的、友好的,则可确定待检测文本的文本类型为第二类文本。也可以说,第一类文本为语义含有恶意的文本,第二类文本为语义没有恶意的文本。
33.区别于现有技术,本技术通过获取待检测文本,并在待检测文本中存在至少一个敏感词时,根据各敏感词所属类型对应的权值计算待检测文本中的权值之和,若该权值之和大于预设阈值则进一步对该检测文本进行情感极性的分析,最后根据该分析结果确定待检测文本的类型。根据上述方式,可通过敏感词的权值之和、情感极性的分析对待检测文本进行两次处理,以最终得到待检测文本的类型,该两次处理的方式可避免仅针对待检测文本进行敏感词检测以判断待检测文本的类型的情况出现,防止将在待检测文本的语义环境中,不具备敏感词词义的多义词误识别为敏感词的情况发生,提高了文本检测的准确性。
34.此外,现有技术中采用特征工程和分类器的机器学习分类方法进行文本检测,在机器学习方法中,文本表示是高纬度高稀疏的,特征表达能力较弱,且需要人工进行特征工程,成本较高。而本技术采用的文本检测方法因采用权值之和的大小及情感极性的分析两
步对文本类型进行确定,可通过更改各类型敏感词所对应的权值或对敏感词的调整(如:修改、增加和减少),简单实现文本检测方法的更新迭代,提高文本检测方法的可维护性和可拓展性,并因无需人工进行特征工程而降低了文本检测方法的使用成本。
35.可选地,在一些实施例中,步骤s14具体可包括:
36.在情感极性为负向的情况下,确定待检测文本的类型为第一类文本。
37.具体地,情感极性可包括负向、中性和正向,分别对应负面情感、中性情感和正面情感。若情感极性为负向,则可判定待检测文本所对应的情感为负面情感,进而可确定待检测文本的文本类型为第一类文本。同理,若情感极性为中性/正向,则可判定待检测文本所对应的情感为中性情感/正面情感,进而可确定待检测文本的文本类型为第二类文本。
38.可选地,在一些实施例中,步骤s13中的分析得到待检测文本的情感极性具体可包括:
39.将待检测文本输入情感识别模型,得到待检测文本的情感极性。
40.具体地,情感识别模型可以是朴素贝叶斯模型、最大熵模型、支持向量机模型、bert模型、robert模型、lstm模型和其它类型的模型中的一种或多种的结合。可根据待检测文本的类型确定最合适的情感识别模型,并可根据最合适的情感识别模型判断待检测文本的情感极性,以提高文本检测的准确性。
41.进一步地,在步骤s13之前,文本检测方法还可包括:
42.获取至少一训练文本,训练文本为带有情感极性标注的文本。
43.将标注后的训练文本输入情感识别模型,以对情感识别模型进行训练。
44.更进一步地,目标训练文本为至少一训练文本中的训练文本。
45.对每一训练文本进行情感极性的标注的步骤包括:
46.在目标训练文本中不存在敏感词的情况下,将目标训练文本的情感极性标注为正向。
47.在目标训练文本中存在敏感词的情况下,根据人工标注方式,判断目标训练文本的情感极性,并将目标训练文本的情感极性标注为负向或中性。
48.具体地,在对每一训练文本进行情感极性的标注后,可将标注后的训练文本划分为训练集、验证集和测试集,之后可根据训练集训练情感识别模型,并在训练完成后根据验证集验证情感识别模型是否达到预设效果,以及在验证完成后根据测试集对情感识别模型作最终测试,以测得情感识别模型的准确率或其它属性。
49.由于尽在目标训练文本存在敏感词时,才会根据人工标注的方式进行负向或中性的标注,而目标训练文本中包含敏感词的含量通常较小,相较于人工标注全部情感极性的方式,上述方式可节约大量人力物力,提高标注效率。
50.此外,采用人工标注的方式对存在敏感词的目标训练文本进行标注,也可提高标注的准确率,情感极性偏于有责则标注负向,情感极性偏于无责则标注中性。
51.最后,根据上述方式对情感识别模型进行训练,可有效提高情感识别模型进行文本的情感极性的分析时的准确率。
52.可选地,在一些实施例中,本实施例的文本检测方法中,还包括:敏感词的类型包括:第一类型。
53.在待检测文本中存在至少一个第一类型的敏感词的情况下,确定待检测文本的文
本类型为第一类文本。具体地,若待检测文本中出现了第一类型的敏感词,则可直接判定待检测文本的文本类型为第一类文本,而无需进行后续的情感极性的判断。
54.可选地,在一些实施例中,步骤s12具体可包括:
55.在待检测文本中存在至少一个敏感词但不存在第一类型的敏感词的情况下,根据敏感词所属类型对应的权值,得到待检测文本中所有敏感词的权值之和。
56.若待检测文本中存在敏感词但不存在第一类型的敏感词,则可计算该权值之和并进行后续步骤的处理。若待检测文本中不存在敏感词,则可直接判定待检测文本的文本类型为第二类文本。
57.其中,如图2所示,第一类型所对应权值为“无”的含义是第一类型所对应权值为极高权值或无限大权值,该极高权值或无限大权值大于预设阈值。举例说明,当待检测文本中存在第一类型的敏感词时,由于一个第一类型的敏感词所对应的权值就已大于预设阈值,故此时即使进行权值之和与预设阈值的比较以判断待测文本的类别,也必然会判定该待测文本为第一类文本。
58.因此,可在存在第一类型的敏感词时,不再进行权值之和的计算以及权值之和与预设阈值的大小比较等步骤,直接判定待检测文本的文本类型为第一类文本,以提高文本检测的效率。
59.根据上述方式,可在存在第一类型的敏感词时,不再耗费计算量进行权值之和的计算,提高了文本检测的效率和准确率。
60.可选地,在一些实施例中,敏感词的类型包括:第二类型、第三类型和第四类型,第二类型对应的权值为第一权值,第三类型对应的权值为第二权值,第四类型对应的权值为第三权值。
61.根据敏感词所属类型对应的权重,得到待检测文本中存在的所有敏感词的权值之和的步骤包括:
62.分别确定待检测文本中第二类型的敏感词、第三类型的敏感词和第四类型的敏感词的数量。
63.根据第一权值、第二权值、第三权值和各类型敏感词的数量,计算待检测文本中存在的所有敏感词的权值之和。
64.具体的,可基于不同类型的敏感词所对应的具备敏感词词义的可能程度,确定各类型所对应的权值大小。
65.举例说明,如图2所示,第二类型所对应权值为1,第三类型所对应权值为2,第四类型所对应权值为4,可见,第一权值小于第二权值,第二权值小于第三权值,也即第二类型的敏感词具备敏感词词义的可能程度最低,第三类型的敏感词具备敏感词词义的可能程度中等,第四类型的敏感词具备敏感词词义的可能程度最高。
66.进一步地,根据第一权值、第二权值、第三权值和各类型敏感词的数量,计算待检测文本中存在的所有敏感词的权值之和的步骤包括:
67.将第二类型的敏感词的数量乘第一权值,以得到第一乘积。
68.将第三类型的敏感词的数量乘第二权值,以得到第二乘积。
69.将第四类型的敏感词的数量乘第三权值,以得到第三乘积。
70.计算第一乘积与第二乘积与第三乘积之和,以得到待检测文本中存在的所有敏感
词的权值之和。
71.具体地,敏感词的类型还可包括除第二类型、第三类型和第四类型以外的其它类型,并对不同的敏感词类型赋予相应的权值,具体权值之和计算思路可类比上述若干第一权值、若干第二权值和若干第三权值的权值之和的计算方法,此处不再赘述。
72.在一实际应用场景中,可根据以下公式计算权值之和:
[0073][0074]
式中,d为权值之和,ij为j类型的敏感词的数量,wj为j类型的敏感词所对应的权值,i为敏感词,t为敏感词词库,s为待检测文本。
[0075]
根据上述方式,可采用不同类型敏感词的权值大小表示不同类型敏感词的危害程度,之后可根据不同类型敏感词的数量及权值大小计算得到权值之和,以便于后续步骤根据该权值之和作相应处理,可通过将危害程度量化为数据的方式确定待检测文本的文本类型是否为有可能是第一类文本或其它需要进一步判断情感极性的文本,提高文本检测的准确率。
[0076]
可选地,文本检测方法还包括:
[0077]
从类型为第一类文本的所有待检测文本中,根据第一类文本对应敏感词的类型,选取预设数量的类型为第一类文本的待检测文本。
[0078]
具体的,在实际的文本质量检查中,在采用上述文本检测方法获得若干类型为第一类文本的文本后,由于业务处理人员有限或其它因素,对第一类文本的业务处理能力有限,无法对数量过于庞大的类型为第一类文本的文本进行处理。因此,需要从全部类型为第一类文本的文本中选取预设数量的文本,减少业务人员需要处理的文本数量,提高文本检测方法的效率。
[0079]
进一步的,敏感词的类型包括:第一类型;
[0080]
文本检测方法还包括:
[0081]
在待检测文本中存在至少一个第一类型的敏感词的情况下,确定待检测文本的文本类型为第一类文本;
[0082]
从文本类型为第一类文本的所有待检测文本中,根据第一类文本对应敏感词的类型,选取预设数量的文本类型为第一类文本的待检测文本的步骤包括:
[0083]
在第一类文本中存在第一类型的敏感词的情况下,从文本类型为第一类文本的所有待检测文本中,先根据所包含第一类型的敏感词的数量从高到低,选取文本类型为第一类文本的待检测文本,再根据权值之和从高到低,选取类型为第一类文本且不包含第一类型的敏感词的待检测文本,直至选取到预设数量的待检测文本为止。
[0084]
需要说明的是,在存在通过是否包含第一类型的敏感词而判断待检测文本是否为第一类文本的情况下,因为包含第一类型的敏感词通常包含更严重的恶意含义,所以可在对所有待检测文本进行排序时,将包含第一类型敏感词的排序置于不包含第一类型敏感词的待检测文本排序之前,以提高排序的准确性,进而提高文本检测方法的准确性。
[0085]
更进一步地,在第一类文本中存在第一类型的敏感词的情况下,从文本类型为第一类文本的所有待检测文本中,先根据所包含第一类型的敏感词的数量从高到低,选取文本类型为第一类文本的待检测文本,再根据权值之和从高到低,选取文本类型为第一类文
本且不包含第一类型的敏感词的待检测文本,直至选取到预设数量的待检测文本为止,具体可包括:
[0086]
将存在第一类型的敏感词的文本类型为第一类文本的待检测文本,根据第一类型的敏感词数量从高到低进行排序,之后,在排序的基础上,将权值之和大于预设阈值的文本类型为第一类文本的所有待检测文本,根据权值之和从高到低进行排序。
[0087]
从文本类型为第一类文本的所有待检测文本中,根据第一类文本对应敏感词的类型,选取预设数量的文本类型为第一类文本的待检测文本的步骤还包括:
[0088]
在排序后的所有文本类型为第一类文本的待检测文本中,根据顺序从前往后选取预设数量的文本类型为第一类文本的待检测文本。
[0089]
具体地,将存在第一类型的敏感词的文本类型为第一类文本的待检测文本,根据第一类型的敏感词数量从高到低进行排序,具体可包括:
[0090]
将存在第一类型的敏感词的文本类型为第一类文本的待检测文本,根据第一类型的敏感词数量从高到低进行排序;
[0091]
其中,在存在第一类型的敏感词数量相同的多个待检测文本的情况下,根据第一类型的种类数量从高到低对第一类型的敏感词数量相同的多个待检测文本进行排序,并且,
[0092]
在存在第一类型的种类数量相同的多个待检测文本的情况下,根据文本长度从短到长对第一类型的敏感词数量相同的多个待检测文本进行排序,以及,
[0093]
在存在文本长度相同的多个待检测文本的情况下,根据被确定文本类型为第一类文本的顺序从前到后对文本长度相同的多个待检测文本进行排序。
[0094]
需要说明的是,在对存在第一类型的敏感词的多个待检测文本进行排序时,可优先基于所包含的第一类型的敏感词的数量从高到低进行排序,此时,在遇到两个以上待检测文本具备相同数量的第一类型的敏感词时,可从所包含的第一类型的种类数量从高到低进行排序。接着,在遇到两个以上待检测文本具备相同第一类型的种类数量时,可从文本长度从短到长对具备相同数量的第一类型的种类的待检测文本进行排序。最后,在根据文本长度进行排序时,可根据被确定类型为第一类文本的顺序,从前往后对具备相同数量的第一类型的敏感词的、具备相同第一类型的种类数量的、文本长度相同的多个待检测文本进行排序。
[0095]
基于上述方式,可基于多重排序规则,精准确定各待检测文本的排序位置,以进一步提高排序的准确性,进而提高文本检测方法的准确性。
[0096]
具体地,敏感词的类型包括:第二类型、第三类型和第四类型。
[0097]
将权值之和大于预设阈值的文本类型为第一类文本的所有待检测文本,根据权值之和从高到低进行排序的步骤包括:
[0098]
将权值之和大于预设阈值的文本类型为第一类文本的所有待检测文本,根据权值之和从高到低进行排序;
[0099]
其中,在存在权值之和相同的多个待检测文本的情况下,根据第四类型的敏感词的数量从高到低对权值之和相同的多个待检测文本进行排序,并且,
[0100]
在存在第四类型的敏感词的数量相同的多个待检测文本的情况下,根据文本长度从短到长对权值之和相同的多个待检测文本进行排序,以及,
[0101]
在存在文本长度相同的多个待检测文本的情况下,根据被确定类型为第一类文本的顺序从前到后对文本长度相同的多个待检测文本进行排序。
[0102]
需要说明的是,在对权值之和大于预设阈值的多个待检测文本进行排序时,可优先基于权值之和从高到低进行排序,此时,在遇到两个以上待检测文本具备相同的权值之和时,可从所包含的第四类型的敏感词的数量从高到低进行排序。接着,在遇到两个以上待检测文本具备相同第四类型的敏感词的数量时,可从文本长度从短到长对具备相同权值之和的待检测文本进行排序。最后,在根据文本长度进行排序时,可根据被确定文本类型为第一类文本的顺序,从前往后对具备相同权值之和的、具备相同第四类型的敏感词的数量、文本长度相同的多个待检测文本进行排序。
[0103]
基于上述方式,可基于多重排序规则,精准确定各待检测文本的排序位置,以进一步提高排序的准确性,进而提高文本检测方法的准确性。
[0104]
具体地,在排序后的所有文本类型为第一类文本的待检测文本中,根据顺序从前往后选取预设数量的文本类型为第一类文本的待检测文本,具体可包括:
[0105]
在排序后的所有文本类型为第一类文本的待检测文本中,按顺序从前往后选取预设数量的所对应唯一标识码不同的文本类型为第一类文本的待检测文本,其中,一待检测文本对应一唯一标识码。
[0106]
具体的,包含相同文字内容及文字顺序的多个待检测文本具备相同的唯一标识码,而所包含文字内容不同或文字顺序不同的多个待检测文本则具备不同的唯一标识码。
[0107]
基于上述方式,可在排序后,按顺序选取预设数量的文本类型为第一类文本的待检测文本,且该预设数量的待检测文本均具备不同的唯一标识码,以确保不会选出相同的待检测文本,提高了文本检测方法的可靠性。
[0108]
图3是本技术文本检测方法的一实施例的另一流程示意图。为清楚描述本公开实施例所提出的方案,如图3所示,以如下方案进行举例:
[0109]
步骤s11:获取待检测文本。
[0110]
在步骤s11执行完毕后,若待检测文本中存在至少一个敏感词但不存在第一类型的敏感词,则执行步骤s121。若待检测文本中存在至少一个第一类型的敏感词,则执行步骤s122。
[0111]
步骤s121:在待检测文本中存在至少一个敏感词但不存在第一类型的敏感词的情况下,根据敏感词所属类型对应的权值,得到待检测文本中存在的所有敏感词的权值之和。
[0112]
步骤s122:在待检测文本中存在至少一个第一类型的敏感词的情况下,确定待检测文本的类型为第一类文本。
[0113]
在步骤s121执行完毕后,若权值之和大于预设阈值,则执行步骤s131。若权值之和不大于预设阈值,则执行步骤s132。
[0114]
步骤s131:在权值之和大于预设阈值的情况下,分析得到待检测文本的情感极性。
[0115]
步骤s132:在权值之和不大于预设阈值的情况下,确定待检测文本的类型为第二类文本。
[0116]
在步骤s131执行完毕后,执行步骤s141。
[0117]
步骤s141:在情感极性为负向的情况下,确定待检测文本的类型为第一类文本。在情感极性为中性或正向的情况下,确定待检测文本的类型为第二类文本。
[0118]
根据上述方式,可通过是否存在敏感词、存在何种敏感词、敏感词的权值之和的大小是多少、情感极性的分析的多次分析或判断,最终得到待检测文本的类型,可避免仅针对待检测文本进行敏感词检测以判断待检测文本的类型的情况出现,防止将不具备敏感词词义的多义词误识别为敏感词的情况发生,提高了文本检测的准确性。
[0119]
图4是本技术文本检测装置的一实施例的结构示意图。
[0120]
本技术还提出一种文本检测装置,如图4所示,文本检测装置40包括:处理器41、存储器42以及总线43。
[0121]
该处理器41、存储器42分别与总线43相连,该存储器42中存储有程序指令,处理器41用于执行程序指令以实现上述实施例中的文本检测方法。
[0122]
在本实施例中,处理器41还可以称为cpu(central processing unit,中央处理单元)。处理器41可能是一种集成电路芯片,具有信号的处理能力。处理器41还可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器41也可以是任何常规的处理器等。
[0123]
区别于现有技术,本技术通过获取待检测文本,并在待检测文本中存在至少一个敏感词时,根据各敏感词所属类型对应的权值计算待检测文本中的权值之和,若该权值之和大于预设阈值则进一步对该检测文本进行情感极性的分析,最后根据该分析结果确定待检测文本的文本类型。根据上述方式,可通过敏感词的权值之和、情感极性的分析对待检测文本进行两次处理,以最终得到待检测文本的类型,该两次处理的方式可避免仅针对待检测文本进行敏感词检测以判断待检测文本的类型的情况出现,防止将在待检测文本的语义环境中,不具备敏感词词义的多义词误识别为敏感词的情况发生,提高了文本检测的准确性。
[0124]
图5是本技术计算机可读存储介质的一实施例的结构示意图。
[0125]
本技术提出一种计算机可读存储介质,如图5所示,计算机可读存储介质50其上存储有程序指令51,程序指令51被处理器(图未示)执行时实现上述实施例中的文本检测方法。
[0126]
本实施例计算机可读存储介质50可以是但不局限于u盘、sd卡、pd光驱、移动硬盘、大容量软驱、闪存、多媒体记忆卡、服务器、fpga或asic中的存储单元等。
[0127]
区别于现有技术,本技术通过获取待检测文本,并在待检测文本中存在至少一个敏感词时,根据各敏感词所属类型对应的权值计算待检测文本中的权值之和,若该权值之和大于预设阈值则进一步对该检测文本进行情感极性的分析,最后根据该分析结果确定待检测文本的类型。根据上述方式,可通过敏感词的权值之和、情感极性的分析对待检测文本进行两次处理,以最终得到待检测文本的类型,该两次处理的方式可避免仅针对待检测文本进行敏感词检测以判断待检测文本的类型的情况出现,防止将在待检测文本的语义环境中,不具备敏感词词义的多义词误识别为敏感词的情况发生,提高了文本检测的准确性。
[0128]
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
[0129]
在本技术所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划
分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
[0130]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。根据这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1