基于反识别渲染的文本内容识别率测试方法及装置的制造方法

文档序号：9810566阅读：410来源：国知局

基于反识别渲染的文本内容识别率测试方法及装置的制造方法
【技术领域】
[0001]本发明属于计算机技术领域，具体涉及一种基于反识别渲染的文本内容识别率测试方法及装置。
【背景技术】
[0002]随着计算机技术的飞速发展，互联网技术应用中，很多场景都需要对文本内容进行识别，例如舆情识别，其用于收集各种社交媒体渠道的实时信息，并对信息的文本内容进行识别。
[0003]然而，在现有技术中，缺少对文本内容识别算法的测试体系，尤其是对反识别渲染后的文本内容识别算法缺少测试体系，导致每次对文本内容识别算法优化后，无法测试其识别效果是否提升，只能依靠人为的经验对其做出判断后，不断尝试对文本内容识别算法进行修改，费时费力。

【发明内容】

[0004]本发明的目的在于提供一种基于反识别渲染的文本内容识别率测试方法及装置。
[0005]为实现上述发明目的之一，本发明一实施方式提供了一种基于反识别渲染的文本内容识别率测试方法，其包括:
[0006]接收关键词和与所述关键词对应的识别率测试样本，所述识别率测试样本为所述关键词和反识别元素的组合；
[0007]通过文本内容识别算法计算所述识别率测试样本，以获得所述关键词对应的识别率，其中，所述识别率=成功识别数/识别率测试样本的数量，所述成功识别数为通过所述算法将识别率测试样本识别为所述关键词的数量。
[0008]“接收关键词和与所述关键词对应的识别率测试样本，所述识别率测试样本为所述关键词和反识别元素的组合”具体包括:
[0009]接收关键词；
[0010]根据反识别模板将所述关键词渲染为识别率测试样本，所述反识别模板包括反识别元素及反识别元素与所述关键词的对应关系。
[0011]作为本发明一实施方式的进一步改进，所述方法还包括:
[0012]接收与所述关键词对应的误报关键词，以及与所述误报关键词对应的误报率测试样本，所述误报率测试样本为所述误报关键词和反识别元素的组合；
[0013]通过文本内容识别算法计算所述误报率测试样本，以获得所述关键词对应的误报率，其中，所述误报率=误识别数/误报率测试样本的数量，所述误识别数为通过所述算法将所述误报率测试样本识别为所述关键词的数量。
[0014]作为本发明一实施方式的进一步改进，“接收与所述关键词对应的误报关键词，以及与所述误报关键词对应的误报率测试样本，所述误报率测试样本为所述误报关键词和反识别元素的组合”具体包括:
[0015]接收与所述关键词对应的误报关键词；
[0016]根据反识别模板将所述误报关键词渲染为误报率测试样本，所述反识别模板包括反识别元素及反识别元素与所述误报关键词的对应关系。
[0017]作为本发明一实施方式的进一步改进，“接收与所述关键词对应的误报关键词”具体包括:
[0018]对所述关键词中的至少一个字进行组词，以将所述关键词生成为至少一个误报关键词。
[0019]作为本发明一实施方式的进一步改进，所述方法还包括计算所述反识别渲染文本内容的识别有效性，
[0020]所述识别有效性=[识别率+(1-误报率)]/2。
[0021]为实现上述发明目的之一，本发明一实施方式提供了一种基于反识别渲染的文本内容识别率测试装置，其包括:样本获取模块，用于接收关键词和与所述关键词对应的识别率测试样本，所述识别率测试样本为所述关键词和反识别元素的组合；
[0022]计算模块，用于通过文本内容识别算法计算所述识别率测试样本，以获得所述关键词对应的识别率，其中，所述识别率=成功识别数/识别率测试样本的数量，所述成功识别数为通过所述算法将识别率测试样本识别为所述关键词的数量。
[0023]作为本发明一实施方式的进一步改进，所述样本获取模块用于:接收关键词；
[0024]根据反识别模板将所述关键词渲染为识别率测试样本，所述反识别模板包括反识别元素及反识别元素与所述关键词的对应关系。
[0025]作为本发明一实施方式的进一步改进，所述样本获取模块还用于:
[0026]接收与所述关键词对应的误报关键词，以及与所述误报关键词对应的误报率测试样本，所述误报率测试样本为所述误报关键词和反识别元素的组合；
[0027]所述计算模块还用于:通过文本内容识别算法计算所述误报率测试样本，以获得所述关键词对应的误报率，其中，所述误报率=误识别数/误报率测试样本的数量，所述误识别数为通过所述算法将所述误报率测试样本识别为所述关键词的数量。
[0028]作为本发明一实施方式的进一步改进，所述样本获取模块还具体用于:接收与所述关键词对应的误报关键词；
[0029]根据反识别模板将所述误报关键词渲染为误报率测试样本，所述反识别模板包括反识别元素及反识别元素与所述误报关键词的对应关系。
[0030]作为本发明一实施方式的进一步改进，所述样本获取模块还具体用于:对所述关键词中的至少一个字进行组词，以将所述关键词生成为至少一个误报关键词。
[0031]作为本发明一实施方式的进一步改进，所述计算模块还用于:计算所述反识别渲染文本内容的识别有效性，所述识别有效性=[识别率+(1-误报率)]/2。
[0032]与现有技术相比，本发明的有益效果是:本发明的基于反识别渲染的文本内容识别率测试方法及装置，可实时地对文本内容识别的有效性算法进行测试评估，以通过该测试结果对文本内容识别算法进行优化，不仅提升了文本内容识别算法优化的及时性，也大大的节约了人力成本。
【附图说明】
[0033]图1是本发明一实施方式中基于反识别渲染的文本内容识别率测试方法的流程示意图；
[0034]图2是本发明一实施方式的基于反识别渲染的文本内容识别率测试装置的模块示意图。
【具体实施方式】
[0035]以下将结合附图所示的各实施方式对本发明进行详细描述。但这些实施方式并不限制本发明，本领域的普通技术人员根据这些实施方式所轻易做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
[0036]如图1所示，在本发明一实施方式中，所述基于反识别渲染的文本内容识别率测试方法包括:
[0037]接收关键词和与所述关键词对应的识别率测试样本。
[0038]具体的，接收关键词；所述关键词为一些网络上的出现的词汇，例如敏感词汇，当其在网络上出现时，可通过网络抓取或人为添加获得该关键词。例如:所述关键词为“支付宝” “发票” “老虎” “迷药” “办证” “六四”等。
[0039]在通过网络自动获得关键词后，可将这些关键词存储至关键词数据库，通常情况下，所述关键词数据库中存储的关键词越多，最终对识别率、误报率、算法有效性的评测就越精确。
[0040]在本实施方式中，所述识别率测试样本为所述关键词和反识别元素的组合。

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张翔;
技术所有人：阿里巴巴集团控股有限公司;
我是此专利的发明人

上一篇：一种晶圆测试数据的处理方法及系统的制作方法
上一篇：一种信息处理方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。