基于反识别渲染的文本内容识别率测试方法及装置的制造方法_2

文档序号:9810566阅读:来源:国知局
>[0041]具体的,根据反识别模板可将所述关键词渲染为识别率测试样本。其中,所述反识别模板是模拟针对文本内容的反识别行为,其包括反识别元素及反识别元素与所述关键词的对应关系。本发明一实施方式中,采用反识别数据库来存储所述反识别模板,所述反识别数据库可通过人为进行扩充,所述反识别模板越多,最终的算法有效性的评测就越精确。同时,采用关键字与反识别模版渲染的方式,可模拟未来可能出现的多种“反识别”模式,指导文本内容识别算法能够在问题爆发前,就进行调优。
[0042]以下列举一具体示例进行说明。
[0043]例如:原始内容为:“通过支付宝进行交易,联系电话【138XXXXXXXX,张】”;为了避免识别出“支付宝”这个关键词后将该内容屏蔽或处理,发布上述内容方会对其进行反识别渲染形成反识别内容,例如:“通过*#&支%@.付.& Y宝进行交易,联系电话【138XXXXXXXX,张】,,,相应的,该反识别内容的反识别模板为:場{0} % @.{H.& ¥ {2-},其中,“#,,” “Y”为反识别元素,所述反识别元素与所述关键词的对应关系解析为:“ H”中的内容分别对应所述关键词中的字或词。如此,根据所述反识别模板% 1.{1-}.& ¥ {2-} ”将所述关键词“支付宝”进行渲染后,即可形成的识别率测试样本为:“*#&支% 0.付.& Y宝”。如此可知,通过构建多个反识别模板,即可对一个关键词获得多个识别率测试样本。
[0044]进一步的,通过文本内容识别算法计算所述识别率测试样本,以获得所述关键词对应的识别率,其中,所述识别率=成功识别数/识别率测试样本的数量,所述成功识别数为通过所述算法将识别率测试样本识别为所述关键词的数量。
[0045]例如:关键字为:“支付宝”,反识别模板为{1-}.& Y {2-},相应的,生成的识别率测试样本为:“*#&支%@.付.& Y宝”,通过文本内容识别算法计算后,判断识别率测试样本为:“*#&支% @.付.& Y宝”是否被识别为关键词“支付宝”,如果识别为“支付宝”,则表示通过文本内容识别算法计算后,识别率测试样本被成功识别;相应的,所述成功识别数量相应增加。
[0046]举例说明,按照上述算法,对一个关键词随机抽取20个识别率测试样本,通过文本内容识别算法计算后,其中有17个识别率测试样本中的关键字被还原,那么,所述成功识别数为17,识别率测试样本的数量为20 ;所述识别率为17/20。进一步的,在本实施方式中,所述基于反识别渲染的文本内容识别率测试方法还包括:
[0047]接收与所述关键词对应的误报关键词,以及与所述误报关键词对应的误报率测试样本。
[0048]具体的,可对接收到的关键词进行组词,以将所述关键词生成为至少一个误报关键词。
[0049]在本实施方式中,可将所述关键词进行拆分,再对各个字或词进行组词造句,生成误报关键词。例如:关键词为:“支付宝”,通过解析,将“支”扩展为“支持”,将“付”扩展为“赔付”,将“报”扩展为“夺宝”,之后将上述词语进行组后,得出关键词“支付宝”对应的其中一个误报关键词为:“支持赔付夺宝”。进一步的,采用误报关键词数据库存储所述误报关键词,通常情况下,所述误报关键词数据库中存储的误报关键词越多,最终的算法的误报率、有效性的测试结果就越精确。
[0050]优选的,所述误报率测试样本为所述误报关键词和反识别元素的组合。
[0051]具体的,根据反识别模板将所述误报关键词渲染为误报率测试样本。
[0052]相应的,所述反识别模板模拟针对文本内容的反识别行为,其包括反识别元素及反识别元素与所述误报关键词的对应关系。
[0053]例如:反识另Ij模板为% §.¥{2-},其中, “#,,“&” “O” ” “Y”为反识别元素,所述反识别元素与所述误报关键词的对应关系解析为:“{}”中的内容分别对应所述误报关键词中的字或词。如此,根据所述反识别模板% @.{1-}.& ¥ {2-} ”将所述误报关键词“支持赔付夺宝”进行渲染后,形成的误报率测试样本为:“*#&支% 1.持.& Y赔付夺宝”。
[0054]进一步的,可通过文本内容识别算法计算所述误报率测试样本,以获得所述关键词对应的误报率,其中,所述误报率=误识别数/误报率测试样本的数量,所述误识别数为通过所述算法将所述误报率测试样本识别为所述关键词的数量。
[0055]例如:关键字为:“支付宝”,通过解析后,其对应的其中一个误报关键词为“支持赔付夺宝”,反识别模板为{1-}.& Y {2-},相应的,生成的误报率测试样本为:“*#&支% @.持.& Y赔付夺宝”,通过文本内容识别算法计算后,判断识别率测试样本:“爾支% 0.持.& Y赔付夺宝”是否被识别为关键词“支付宝”,如果识别为“支付宝”,则表示通过文本内容识别算法计算后,误报率测试样本被成功识别;相应的,所述误识别数量相应增加。
[0056]举例说明,按照上述算法,对一个误报关键词随机抽取20个误报率测试样本,通过文本内容识别算法计算后,其中有2个误报率测试样本中的所述误报关键字被还原为所述关键字,那么,所述误识别数为2,误报率测试样本的数量为20 ;所述误报率为2/20。
[0057]进一步的,在本实施方式中,还可计算所述反识别渲染文本内容的识别有效性,所述识别有效性=[识别率+(1-误报率)]/2。
[0058]如上述例子,所述识别有效性=[17/20+(1-2/20)]/2。
[0059]进一步的,可以设置一系统阈值,将所述识别有效性与所述系统阈值做比较,若所述识别有效性大于所述系统阈值,则判断运行正常;若所述识别有效性小于所述系统阈值,则可对所述文本内容识别算法进行相应修改。
[0060]通过上述基于反识别渲染的文本内容识别率测试方法,可在每次文本内容识别算法优化后,检测其客观的优化程度,同时,还可分析未成功识别的识别率测试样本和成功识别的误报率测试样本,以进一步地更新所述文本内容识别算法。
[0061]结合图2所示,本发明一实施方式中,所述基于反识别渲染的文本内容识别率测试装置包括:样本获取模块100,计算模块200。
[0062]样本获取模块100用于接收关键词和与所述关键词对应的识别率测试样本。
[0063]具体的,样本获取模块100接收关键词;所述关键词为一些网络上的出现的词汇,例如敏感词汇,当其在网络上出现时,可通过网络抓取或人为添加获得该关键词。例如:所述关键词为“支付宝” “发票” “老虎” “迷药” “办证” “六四”等。
[0064]样本获取模块100在通过网络自动获得关键词后,可将这些关键词存储至关键词数据库,通常情况下,所述关键词数据库中存储的关键词越多,最终对识别率、误报率、
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1