一种高保真文本主语义提取系统及方法与流程

文档序号:32404199发布日期:2022-12-02 20:02阅读:来源:国知局

技术特征:
1.一种高保真文本主语义提取系统,其特征在于,所述系统包括:文本处理执行模块,用于获得目标识别文本,对所述目标识别文本进行文本预处理,得到预处理文本;文本类型匹配模块,用于对所述预处理文本进行初始文本识别,基于初始文本识别结果匹配文本类型,基于所述文本类型生成类型约束参数;写作特征匹配模块,用于基于所述目标识别文本获得文本作者信息,通过所述文本作者信息进行写作特征匹配,通过写作特征匹配结果生成用户特征语义约束参数;文本分割执行模块,用于对所述预处理文本进行文本多层级分割,生成预处理文本的多层级分割结果;聚合处理执行模块,用于通过所述类型约束参数和所述用户特征语义约束参数进行所述多层级分割结果的文本分割聚合选择,获得文本分割聚合选择结果;语义识别处理模块,用于基于文本类型匹配识别数据库,基于所述识别数据库进行所述文本分割聚合选择结果的语义识别,基于语义识别结果生成语义提取结果。2.根据权利要求1所述的系统,其特征在于,所述系统还包括:词性特征构建单元,用于构建词性识别特征;初始层级划分单元,用于基于所述词性识别特征进行所述预处理文本的初始词性识别划分,获得初始层级分割结果;分割结果聚合单元,用于对所述初始层级分割结果进行相邻分割词聚合评价,生成相邻分割词聚合评价结果;评价结果判断单元,用于判断所述相邻分割词聚合评价结果是否满足预设聚合评价阈值;判断结果执行单元,用于当所述相邻分割词聚合评价结果可以满足所述预设聚合评价阈值时,则进行相邻分割词聚合,其中,每一组相邻分割词聚合方案对应一层级分割结果;分割结果整合单元,用于根据相邻分割词聚合结果和所述初始层级分割结果获得所述多层级分割结果。3.根据权利要求2所述的系统,其特征在于,所述系统还包括:成语词库构建单元,用于构建成语词库集合;分割结果判断单元,用于基于所述成语词库集合进行所述多层级分割结果的聚合评价,判断是否存在与所述成语词库集合匹配的成语聚合结果;判断结果处理单元,用于当所述多层级分割结果中存在所述成语聚合结果时,则保留所述成语聚合结果,并在将所述多层级分割结果中所述成语聚合结果部分的其他分割结果剔除。4.根据权利要求1所述的系统,其特征在于,所述系统还包括:词汇特征获得单元,用于构建发言识别词汇特征集合,并将所述发言识别词汇特征集合作为第一识别特征;标点特征获得单元,用于将发言标点识别特征作为第二识别特征,基于所述第一识别特征和所述第二识别特征进行所述预处理文本的发言识别,获得发言识别标识结果;独立处理执行单元,用于对所述发言识别标识结果部分进行独立的文本分割聚合选择,基于独立文本分割聚合选择结果获得所述文本分割聚合选择结果。
5.根据权利要求1所述的系统,其特征在于,所述系统还包括:关键词识别单元,用于基于所述语义识别结果进行关键词识别,获得关键词识别结果;结构化识别单元,用于对所述语义识别结果进行结构化识别,生成结构化识别结果;语义提取执行单元,用于将所述关键词识别结果和所述结构化识别结果作为语义识别参考数据,基于所述语义识别参考数据获得所述语义提取结果。6.根据权利要求5所述的系统,其特征在于,所述系统还包括:层次划分执行单元,用于基于所述结构化识别结果进行语句层级划分,获得语句层级划分结果;层级标识获得单元,用于基于所述语句层级划分结果进行所述语义提取结果的层级标识。7.根据权利要求1所述的系统,其特征在于,所述系统还包括:人工辅助处理单元,用于将所述语义提取结果发送至工作人员,获得所述工作人员的反馈标识数据;数据解析执行单元,用于对所述反馈标识数据进行数据解析,获得数据解析结果,其中,所述数据解析结果包括适用场景和优化特征;识别优化执行单元,用于通过所述数据解析结果进行文本识别的识别优化。8.一种高保真文本主语义提取方法,其特征在于,所述方法包括:获得目标识别文本,对所述目标识别文本进行文本预处理,得到预处理文本;对所述预处理文本进行初始文本识别,基于初始文本识别结果匹配文本类型,基于所述文本类型生成类型约束参数;基于所述目标识别文本获得文本作者信息,通过所述文本作者信息进行写作特征匹配,通过写作特征匹配结果生成用户特征语义约束参数;对所述预处理文本进行文本多层级分割,生成预处理文本的多层级分割结果;通过所述类型约束参数和所述用户特征语义约束参数进行所述多层级分割结果的文本分割聚合选择,获得文本分割聚合选择结果;基于文本类型匹配识别数据库,基于所述识别数据库进行所述文本分割聚合选择结果的语义识别,基于语义识别结果生成语义提取结果。

技术总结
本发明提供了一种高保真文本主语义提取系统及方法,涉及数据处理技术领域,通过匹配文本类型生成类型约束参数,匹配文本作者写作特征生成用户特征语义约束参数,对文本进行多层级分割生成文本的多层级分割结果,通过类型约束参数和用户特征语义约束参数对多层级分割结果进行文本分割聚合选择,基于文本类型匹配识别数据库进行文本分割聚合选择结果的语义识别,基于语义识别结果生成语义提取结果。解决现有技术中存在智能识别文本语义准确度较低,无法获得较为准确的文章主语义的缺陷,导致文本语义识别的人工依赖度和识别成本较高的技术问题。达到提高智能识别文本语义准确度,降低文本语义识别对于人工经验的需求,降低识别成本的技术效果。低识别成本的技术效果。低识别成本的技术效果。


技术研发人员:宋永生 王楠
受保护的技术使用者:文灵科技(北京)有限公司
技术研发日:2022.11.04
技术公布日:2022/12/1
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1