基于反识别渲染的文本内容识别率测试方法及装置的制造方法_3

文档序号：9810566阅读：来源：国知局

算法有效性的评测就越精确。
[0065]在本实施方式中，所述识别率测试样本为所述关键词和反识别元素的组合。
[0066]具体的，样本获取模块100用于根据反识别模板可将所述关键词渲染为识别率测试样本。其中，所述反识别模板是模拟针对文本内容的反识别行为，其包括反识别元素及反识别元素与所述关键词的对应关系。本发明一实施方式中，采用反识别数据库来存储所述反识别模板，所述反识别数据库可通过人为进行扩充，所述反识别模板越多，最终的算法有效性的评测就越精确。同时，采用关键词与反识别模版渲染的方式，可模拟未来可能出现的多种“反识别”模式，指导文本内容识别算法能够在问题爆发前，就进行调优。
[0067]以下列举一具体示例进行说明。
[0068]例如:原始内容为:“通过支付宝进行交易，联系电话【138XXXXXXXX，张】”；为了避免识别出“支付宝”这个关键词后将该内容屏蔽或处理，发布上述内容方会对其进行反识别渲染形成反识别内容，例如:“通过*#&支％ 0.付.& Y宝进行交易，联系电话【138XXXXXXXX，张】，，，相应的，该反识别内容的反识别模板为:場{0} % @.{H.& ￥ {2-}，其中，“#，，” “Y”为反识别元素，所述反识别元素与所述关键词的对应关系解析为:“ H ”中的内容分别对应所述关键词中的字或词。如此，根据所述反识别模板% 1.{1-}.& ￥ {2-} ”将所述关键词“支付宝”进行渲染后，即可形成的识别率测试样本为:“*#&支％ 0.付.& Y宝”。如此可知，通过构建多个反识别模板，即可对一个关键词获得多个识别率测试样本。
[0069]进一步的，计算模块200通过文本内容识别算法计算所述识别率测试样本，以获得所述关键词对应的识别率，其中，所述识别率=成功识别数/识别率测试样本的数量，所述成功识别数为通过所述算法将识别率测试样本识别为所述关键词的数量。
[0070]例如:关键字为:“支付宝”，反识别模板为{1-}.& Y {2-}，相应的，生成的识别率测试样本为:“*#&支％@.付.& Y宝”，通过文本内容识别算法计算后，判断识别率测试样本为:“*#&支％ @.付.& Y宝”是否被识别为关键词“支付宝”，如果识别为“支付宝”，则表示通过文本内容识别算法计算后，识别率测试样本被成功识别；所述成功识别数量相应增加。
[0071 ] 举例说明，例如:计算模块200对一个关键词随机抽取20个识别率测试样本，通过文本内容识别算法计算后，其中有17个识别率测试样本中的关键字被还原，那么，所述成功识别数为17，识别率测试样本的数量为20 ;所述识别率为17/20。
[0072]进一步的，样本获取模块100还用于接收与所述关键词对应的误报关键词，以及与所述误报关键词对应的误报率测试样本。
[0073]具体的，样本获取模块100可对接收到的关键词进行组词，以将所述关键词生成为至少一个误报关键词。
[0074]在本实施方式中，样本获取模块100可将所述关键词进行拆分后，再对各个字或词进行组词造句，生成误报关键词。例如:关键词为:“支付宝”，通过解析，将“支”扩展为“支持”，将“付”扩展为“赔付”，将“报”扩展为“夺宝”，之后将上述词语进行组后，得出关键词“支付宝”对应的其中一个误报关键词为:“支持赔付夺宝”。进一步的，采用误报关键词数据库存储所述误报关键词，通常情况下，所述误报关键词数据库中存储的误报关键词越多，最终的算法的误报率、有效性的测试结果就越精确。
[0075]优选的，所述误报率测试样本为所述误报关键词和反识别元素的组合。
[0076]具体的，样本获取模块100用于根据反识别模板将所述误报关键词渲染为误报率测试样本。
[0077]相应的，所述反识别模板模拟针对文本内容的反识别行为，其包括反识别元素及反识别元素与所述误报关键词的对应关系。
[0078]例如:反识另Ij模板为% §.￥{2-},其中， “#，，“&” “O” ” “Y”为反识别元素，所述反识别元素与所述误报关键词的对应关系解析为:“{}”中的内容分别对应所述误报关键词中的字或词。如此，根据所述反识别模板% @.{1-}.& ￥ {2-} ”将所述误报关键词“支持赔付夺宝”进行渲染后，形成的误报率测试样本为:“*#&支％ 1.持.& Y赔付夺宝”
[0079]进一步的，计算模块200还可用于通过文本内容识别算法计算所述误报率测试样本，以获得所述关键词对应的误报率，其中，所述误报率=误识别数/误报率测试样本的数量，所述误识别数为通过所述算法将所述误报率测试样本识别为所述关键词的数量。
[0080]例如:关键字为:“支付宝”，通过解析后，其对应的其中一个误报关键词为“支持赔付夺宝”，反识别模板为{1-}.& Y {2-}，相应的，生成的误报率测试样本为:“*#&支％ @.持.& Y赔付夺宝”，通过文本内容识别算法计算后，判断识别率测试样本:“爾支％ 0.持.& Y赔付夺宝”是否被识别为关键词“支付宝”，如果识别为“支付宝”，则表示通过文本内容识别算法计算后，误报率测试样本被成功识别；相应的，所述误识别数量相应增加。
[0081 ] 举例说明，例如:计算模块200对一个误报关键词随机抽取20个误报率测试样本，通过文本内容识别算法计算后，其中有2个误报率测试样本中的所述误报关键字被还原为所述关键字，那么，所述误识别数为2，误报率测试样本的数量为20 ;所述误报率为2/20。
[0082]进一步的，在本实施方式中，计算模块200还可用于计算所述反识别渲染文本内容的识别有效性，所述识别有效性=[识别率+(1-误报率)]/2。
[0083]如上述例子中，所述识别有效性=[17/20+(1-2/20)]/2。
[0084]进一步的，可以设置一系统阈值，将所述识别有效性与所述系统阈值做比较，若所述识别有效性大于所述系统阈值，则判断运行正常；若所述识别有效性小于所述系统阈值，则可对所述文本内容识别算法进行相应修改。
[0085]综上所述，本发明的基于反识别渲染的文本内容识别率测试方法及装置，可实时地对文本内容识别的有效性算法进行测试评估，以通过该测试结果对文本内容识别算法进行优化，不仅提升了文本内容识别算法优化的及时性，也大大的节约了人力成本。
[0086]在本发明所提供的几个实施方式中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接

完整全部详细技术资料下载

当前第3页1 2 3 4