本发明涉及自然语言处理领域,具体是一种面向中文反讽文本的夸张表征词提取方法。
背景技术:
1、社交媒体的用户经常使用夸张的表达方式来增强自己的反讽表达。反讽文本中存在的夸张表述可以帮助人们更好地传达观点和情感,使文字更加生动有趣,让听众或读者更容易理解或记住所传达的信息。同时,通过夸张的手法,可以突出反讽语句的反差性,引起公众的关注和反思。而通过提取中文反讽文本中存在的夸张表征词,能够为挖掘反讽文本的语言特征,准确识别中文反讽文本提供技术支持,从而使网络平台的监管部门可以更准确地识别和处理平台上出现的一些不当言行,有针对性地采取相应的措施,提高维护工作的准确性和效率。
2、目前,关于反讽文本的语言特征词提取方法一般分为基于规则的方法和基于统计词频的方法,基于规则的方式通过预定义的规则和逻辑来提取文本中的特征词,但无法处理复杂的模式且解决的不确定性高;基于统计词频方式常用的方法主要有聚类方法,互信息,tf-idf算法等,但忽略了单词之间的语义信息对特征词提取的影响,这容易忽略对含有重要信息的特征词的提取,使提取的特征词缺乏重要的识别信息,从而导致反讽文本识别效率较低。
3、针对以上不足,本发明提出一种面向中文反讽文本的夸张表征词提取方法。本发明不同之处在于通过基于wobert语义相似度计算框架计算文本单词与种子词之间的语义相似度,深入挖掘了单词间的语义信息,寻找到更加有效的特征词提取方法,来增强提取的特征词对反讽识别准确率的辅助提升效果。
技术实现思路
1、本发明的目的在于提供一种面向中文反讽文本的夸张表征词提取方法,通过卡方统计和卡方检验方法计算相关性并设置阈值来选取出中文反讽文本中存在的夸张表征种子词,然后计算文本单词与种子词之间的语义相似度,从而提取包含语义信息的特征词,最终实现夸张表征词的提取。
2、本发明涉及相关定义如下:
3、定义1:夸张表征词:对于中文反讽文本中存在的夸张表述的感叹词,程度副词,强调词,以及一些搭配规则,记为夸张表征词。{例如:“呵呵,很好,又失眠了。”“呵呵”以及“很好…又”为该句中包含夸张表述的语言特征词和搭配规则。}
4、本发明为了实现发明目的采用如下技术方案:
5、一种面向中文反讽文本的夸张表征词提取方法,包括以下步骤:
6、(1)获取中文反讽文本数据与文本预处理及分词;
7、获取中文反讽文本数据,并将其作为研究对象,对其进行文本预处理与分词操作。
8、(2)选取高频词作为夸张表征候选词;
9、利用tf-idf算法,计算词频,选取高频词作为夸张表征候选词集。
10、(3)基于卡方统计和卡方检验方法,挖掘出中文反讽文本中强关联夸张表征,进而提取出夸张表征种子词集。
11、利用卡方统计衡量中文反讽文本与其中存在的夸张表征词的关联程度,通过卡方检验设置阈值,从而选取达到阈值的强关联夸张表征词,进而提取出夸张表征种子词集。
12、(4)基于wobert的语义相似度计算框架来提取夸张表征词集,丰富词集涵盖的语义信息;
13、分别利用wobert模型获取文本词粒度特征向量和种子词集中词的特征向量,计算两者之间余弦相似度,设定阈值,过滤掉相似度低的候选词。
14、其中,所述步骤(1)中,中文反讽文本数据获取与文本预处理和分词的具体操作为:
15、(1.1)整合“ciron”和“chinesesarcasmcorpus”数据集中的中文反讽文本数据,得到所需中文反讽文本数据集。
16、(1.2)预处理。对文本中出现的表情符号、停用词等噪声数据进行处理。
17、(1.3)分词。对预处理后的文本使用双向最大匹配法对中文反讽文本进行分词。采用双向最大匹配方法进行分词处理,通过正向分词与逆向分词方法比较,为具有歧义的词找到更加符合语境的分词方法。
18、其中,所述步骤(2)中,基于tf-idf算法提取出夸张表征候选词集的具体步骤为:
19、(2.1)使用tf-idf从文本中计算词汇的词频和逆文档频率,通过两者结果乘积得到该词的tf-idf值,并同时通过softmax函数对计算结果进行归一化处理,选取高频词,最终提取出夸张表征候选词集。
20、其中,所述步骤(3)中,基于卡方统计与卡方检验方法,挖掘出强关联夸张表征的具体步骤为:
21、(3.1)根据卡方统计计算中文反讽文本与候选词集中的夸张表征词之间的卡方值。
22、(3.2)通过卡方检验计算最佳阈值tv,选取卡方值达到最佳阈值tv的夸张表征,构建出夸张表征种子词集。计算方法如下:
23、
24、其中,n为总文本数,ai为实际频数,b为理论频数。
25、根据卡方检验所设置的最佳阈值tv需要计算自由度v,根据计算出的自由度v查询卡方分布临界值表,默认显著性水平α=0.01,表示概率为0.99的情况下假设为真。自由度计算公式如下:
26、v=(row-1)*(col-1)
27、其中,row表示分类的类别数,col表示与分类类别相关的特征文本数。
28、根据计算的自由度的结果值与显著性水平α的值来查询对应的卡方分布临界值表得到最佳阈值tv为10.83,将所选取的候选词集中夸张表征词的卡方值与最佳阈值tv进行对比,将卡方值达到最佳阈值所对应的夸张表征候选词纳入夸张表征种子词集中,以此构建夸张表征种子词集。
29、其中,所述步骤(4)中,基于wobert语义相似度计算框架来构建夸张表征词集的具体步骤为:
30、(4.1)根据步骤(3.2)所获取到的种子词集,将其与文本同时输入wobert模型中获取词粒度的特征向量,之后采用计算余弦相似度的方式来逐个计算种子词向量与文本的词粒度特征向量之间的语义相似度。
31、余弦相似度计算过程为:
32、
33、其中,反讽文本词向量表示为ia,种子词向量表示为ib,i为第i个词向量,n表示为向量的维度。
34、(4.2)设定余弦相似度的阈值,过滤掉低于阈值的文本,高于阈值的文本则会被保留。
35、为了丰富提取的夸张表征词集包含的语义信息,在本专利中,余弦相似度的阈值设置为0.7,即,若文本词向量ia与种子词向量ib之间相似度值高于0.7,则认为ia和ib之间存在语义信息相似,ia所表示的词将会被纳入夸张表征词集中。
36、本发明提供的一种面向中文反讽文本的夸张表征词提取方法具有以下优点:
37、(1)本发明利用卡方统计和卡方检验方法衡量中文反讽文本与夸张表征的关联程度,提取出与中文反讽文本强关联的夸张表征种子词集;(2)使用wobert模型获取文本词向量和种子词集词向量,计算语义相似度,得到夸张表征词集,丰富所提取的词集涵盖的语义信息。
1.一种面向中文反讽文本的夸张表征词提取方法,其特征在于包括如下步骤:
2.根据权利要求1所述一种面向中文反讽文本的夸张表征词提取方法,其特征在于步骤1,包括如下步骤:
3.根据权利要求1所述一种面向中文反讽文本的夸张表征词提取方法,其特征在于步骤2,包括如下步骤:
4.根据权利要求1所述一种面向中文反讽文本的夸张表征词提取方法,其特征在于步骤3包括如下:
5.根据权利要求1所述一种面向中文反讽文本的夸张表征词提取方法,其特征在于步骤3包括如下:
6.根据权利要求1所述一种面向中文反讽文本的夸张表征词提取方法,其特征在于步骤4包括: