文本信息处理方法、系统、介质和设备与流程

文档序号：26279477发布日期：2021-08-13 19:36阅读：102来源：国知局

本发明涉及自然语言处理技术领域，尤其涉及一种文本信息处理方法、系统、介质和设备。

背景技术：

在自然语言处理中，通常会涉及多种输入途径和多种用途的文本，就以医疗数据而言，档案室老旧的纸质文本信息，各个医院或者平台的电子病历信息，现有的医疗数据越来越繁杂，且不同医院或者平台对医疗数据的定义、记载方式等存在差异，对应的诊断文本存在着特定用语、同义词表达、缩略语以及拼写和打字错误等造成诊断文本不一致的问题。

因此，如何对繁复的医学文本信息进行有效地归纳总结，提高医学文本信息的处理效率与准确率是目前亟需解决的问题。

技术实现要素：

鉴于以上现有技术存在的问题，本发明提供一种文本信息的处理技术方案，用于解决据上述技术问题。

为了实现上述目的及其他目的，本发明采用的技术方案如下。

一种文本信息处理方法，包括：

获取待处理的文本信息；

对所述文本信息进行预处理，生成多个词语及参数；

对多个所述词语及所述参数进行分类提取，获取对应的数据预处理集合，所述数据预处理集合包括相互之间存在映射关系的专业名词预处理集合、专业名词描述预处理集合以及参数预处理集合；

获取相关领域的数据参考集合，所述数据参考集合包括相互之间存在映射关系的专业名词参考集合、专业名词描述参考集合以及参数参考集合；

根据所述数据参考集合，基于关键词匹配，对所述数据预处理集合进行第一次筛选，获取第一数据集合，所述第一数据集合包括相互之间存在映射关系的第一专业名词集合、第一专业名词描述集合以及第一参数集合；

根据所述数据参考集合，基于深度学习，对所述数据预处理集合进行第二次筛选，获取第二数据集合，所述第二数据集合包括相互之间存在映射关系的第二专业名词集合、第二专业名词描述集合以及第二参数集合；

根据所述第一数据集合与所述第二数据集合，输出处理后的文本信息。

可选地，对所述文本信息进行预处理时，至少对所述文本信息依次进行数据清洗、标点符号去除、切词、停用词去除以及重复词去除。

可选地，对多个所述词语及所述参数进行分类提取的步骤包括：

对所述词语进行词性标注；

根据所述词语的词性和上下文关系，对多个所述词语及所述参数进行分类提取，获取所述数据预处理集合。

可选地，根据所述数据参考集合，基于关键词匹配，对所述数据预处理集合进行第一次筛选的步骤包括：

针对所述专业名词预处理集合中的第a个元素，依次计算其与所述专业名词参考集合中的第b个元素之间的第一词串距离s1（a，b），得到第一词串距离集合s1（a）；

若所述第一词串距离集合s1（a）的元素取值包含零，则保留第a个元素，将其加入所述第一专业名词集合，并将所述专业名词描述预处理集合中与其对应的元素加入所述第一专业名词描述集合，将所述参数预处理集合中与其对应的元素加入所述第一参数集合。

可选地，根据所述数据参考集合，基于关键词匹配，对所述数据预处理集合进行第一次筛选的步骤还包括：

若所述第一词串距离集合s1（a）的元素取值不包含零，则进一步判断所述第一词串距离集合s1（a）中是否存在取值小于第一阈值的元素；

若所述第一词串距离集合s1（a）中至少有一个元素的取值小于所述第一阈值，则按照从小到大的顺序对所述第一词串距离集合s1（a）中小于第一阈值的元素进行统计排序，得到第一词串距离筛选集合s10（a）；

针对第一词串距离筛选集合s10（a）中的元素，从第一个元素开始，依次计算所述专业名词描述预处理集合中对应的第i个元素与所述专业名词描述参考集合中对应的第j个元素之间的第二词串距离s2（i，j），得到第二词串距离集合s2（i）；

若所述第二词串距离集合s2（i）的元素取值包含零，则进一步判断所述第二词串距离集合s2（i）中取值为零的元素的个数是否大于第二阈值；

若所述第二词串距离集合s2（i）中取值为零的元素的个数大于等于所述第二阈值，则保留所述专业名词描述预处理集合中的对应元素，将其加入所述第一专业名词描述集合，并将与其对应的所述专业名词预处理集合中的元素加入所述第一专业名词集合，将与其对应的所述参数预处理集合中的元素加入所述第一参数集合；

若所述第二词串距离集合s2（i）中取值为零的元素的个数小于所述第二阈值，则放弃所述专业名词描述预处理集合中对应的第i个元素，并放弃所述专业名词预处理集合中的对应元素与所述参数预处理集合中的对应元素。

可选地，根据所述数据参考集合，基于关键词匹配，对所述数据预处理集合进行第一次筛选的步骤进一步包括：

若所述第一词串距离集合s1（a）的元素取值不包含零，且所述第一词串距离集合s1（a）中没有元素的取值小于所述第一阈值，则放弃所述专业名词预处理集合中的第a个元素，并放弃所述专业名词描述预处理集合中的对应元素与所述参数预处理集合中的对应元素。

可选地，根据所述数据参考集合，基于关键词匹配，对所述数据预处理集合进行第一次筛选的步骤进一步包括：

可选地，所述第一词串距离s1（a，b）和所述第二词串距离s2（i，j）的计算公式分别为：

s1（a，b）=[m]；

m=[s2（a，b）+s3（a，b）]/2；

s2（a，b）=|g2(a)|+|g2(b)|−2*|g2(a)∩g2(b)|；

s3（a，b）=|g3(a)|+|g3(b)|−2*|g3(a)∩g3(b)|；

s2（i，j）=[n]；

n=[s2’（i，j）+s3（i，j）]/2；

s2’（i，j）=|g2(i)|+|g2(j)|−2*|g2(i)∩g2(j)|；

s3（i，j）=|g3(i)|+|g3(j)|−2*|g3(i)∩g3(j)|；

其中，第一词串距离s1（a，b）为对m取整的值，s2（a，b）表示第一2-gram词串距离，s3（a，b）表示第一3-gram词串距离，第二词串距离s2（i，j）为对n取整的值，s2’（i，j）表示第一3-gram词串距离，s3（i，j）表示第二3-gram词串距离；g2(a)和g2(b)分别表示所述专业名词预处理集合中的第a个元素和所述专业名词参考集合中的第b个元素中2-gram的集合，g2(i)和g2(j)分别表示所述专业名词描述预处理集合中的第i个元素和所述专业名词描述参考集合中对应的第j个元素中2-gram的集合，g3(a)和g3(b)分别表示所述专业名词预处理集合中的第a个元素和所述专业名词参考集合中的第b个元素中3-gram的集合，g3(i)和g3(j)分别表示所述专业名词描述预处理集合中的第i个元素和所述专业名词描述参考集合中对应的第j个元素中3-gram的集合。

可选地，根据所述数据参考集合，基于深度学习，对所述数据预处理集合进行第二次筛选的步骤包括：

构建卷积循环神经网络模型，并基于所述第一数据集合与所述数据参考集合，对所述卷积循环神经网络模型进行训练；

利用训练后的所述卷积循环神经网络模型，对所述数据预处理集合进行筛选识别，获取所述第二数据集合。

可选地，根据所述第一数据集合与所述第二数据集合，输出处理后的文本信息的步骤包括：

分析所述第一数据集合与所述第二数据集合，得出二者的交集和并集；

根据所述交集，输出第一文本信息，所述第一文本信息包括所述交集的所有元素。

可选地，根据所述第一数据集合与所述第二数据集合，输出处理后的文本信息的步骤还包括：

根据所述交集与所述并集，输出第二文本信息，所述第二文本信息包括所述并集中除去与所述交集重复后的所有元素。

一种文本信息处理系统，包括：

接收单元，接收待处理的文本信息，接收相关领域的数据参考集合，所述数据参考集合包括相互之间存在映射关系的专业名词参考集合、专业名词描述参考集合以及参数参考集合；

预处理单元，对所述文本信息进行预处理，生成多个词语及参数；

分类提取单元，对多个所述词语及所述参数进行分类提取，获取对应的数据预处理集合，所述数据预处理集合包括相互之间存在映射关系的专业名词预处理集合、专业名词描述预处理集合以及参数预处理集合；

筛选单元，对所述数据预处理集合进行两次筛选，获取第一数据集合与第二数据集合，所述第一数据集合包括相互之间存在映射关系的第一专业名词集合、第一专业名词描述集合以及第一参数集合，所述第二数据集合包括相互之间存在映射关系的第二专业名词集合、第二专业名词描述集合以及第二参数集合；

输出单元，根据所述第一数据集合与所述第二数据集合输出处理后的文本信息。

可选地，所述筛选单元包括关键词匹配模块和深度学习模块，所述关键词匹配模块对所述数据预处理集合进行第一次筛选，得到所述第一数据集合，所述深度学习模块对所述数据预处理集合进行第二次筛选，得到所述第二数据集合。

一种计算机可读存储介质，所述存储介质上存储有多条指令，所述指令适于处理器进行加载，以执行上述任一项所述的文本信息处理方法。

一种电子设备，包括：

处理器；

计算机可读存储介质，其上存储有指令，当所述处理器执行所述指令时，实现上述任一项所述的文本信息处理方法。

如上所述，本发明提供的一种文本信息处理方法、系统、介质和设备，至少具有以下有益效果：

在对文本信息进行预处理得到数据预处理集合的基础上，根据数据参考集合，基于关键词匹配对数据预处理集合进行第一次筛选，基于深度学习对数据预处理集合进行第二次筛选，结合前后两次筛选的数据集合生成处理后的文本信息，能有效防止文本信息的误筛，提高文本信息的处理效率和准确率；每个数据集合均包括相互之间存在映射关系的专业名词集合、形容词集合以及参数集合，在每个子集合单独对比筛选的基础上，结合存在映射关系的其他子集合的筛选结果的辅助验证，能进一步提高筛选的效率和准确率。

附图说明

图1为本发明一实施例中文本信息处理方法的步骤示意图。

图2为本发明一实施例中文本信息处理系统的模块图。

图3为本发明一实施例中用户终端的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1，本发明提供一种文本信息处理方法，包括以下步骤：

s1、获取待处理的文本信息。如通过扫描识别或者文本传输等采集方式，从纸质文档或者医疗数据库中，获取海量的医学文本信息。

s2、对文本信息进行预处理，生成多个词语及参数。

在本发明的一可选实施例中，对文本信息进行预处理时，至少对文本信息依次进行数据清洗、标点符号去除、切词、停用词去除以及重复词去除。

其中，数据清洗、切词、停用词去除的详细步骤可参考现有技术，在此不再赘述。

s3、对多个词语及参数进行分类提取，获取对应的数据预处理集合，数据预处理集合包括相互之间存在映射关系的专业名词预处理集合、专业名词描述预处理集合以及参数预处理集合。

在本发明的一可选实施例中，对多个词语及参数进行分类提取的步骤s3进一步包括：

s31、对词语进行词性标注；

s32、根据词语的词性和上下文关系，对多个词语及参数进行分类提取，获取数据预处理集合。

其中，数据预处理集合包括专业名词预处理集合、专业名词描述预处理集合以及参数预处理集合，且专业名词预处理集合、专业名词描述预处理集合以及参数预处理集合三者之间存在映射关系，描述的是同一对象，便于后续识别筛选时的关联判别，提高识别筛选的准确率。

s4、获取相关领域的数据参考集合，数据参考集合包括相互之间存在映射关系的专业名词参考集合、专业名词描述参考集合以及参数参考集合。

在本发明的一可选实施例中，基于互联网或者区块链等渠道，通过专业或者权威认定的医学词典、医学数据库等方式，获取相关领域的数据参考集合，该数据参考集合用作后续识别筛选时的比对标准，其包括相互之间存在映射关系的专业名词参考集合、专业名词描述参考集合以及参数参考集合。

s5、根据数据参考集合，基于关键词匹配，对数据预处理集合进行第一次筛选，获取第一数据集合，第一数据集合包括相互之间存在映射关系的第一专业名词集合、第一专业名词描述集合以及第一参数集合。

在本发明的一可选实施例中，根据数据参考集合，基于关键词匹配，对数据预处理集合进行第一次筛选的步骤s5进一步包括：

s51、针对专业名词预处理集合中的第a个元素，依次计算其与专业名词参考集合中的第b个元素之间的第一词串距离s1（a，b），得到第一词串距离集合s1（a）；

s52、若第一词串距离集合s1（a）的元素取值包含零，则保留第a个元素，将其加入第一专业名词集合，并将专业名词描述预处理集合中与其对应的元素加入第一专业名词描述集合，将参数预处理集合中与其对应的元素加入第一参数集合；

s53、若第一词串距离集合s1（a）的元素取值不包含零，则进一步判断第一词串距离集合s1（a）中是否存在取值小于第一阈值的元素；

s54、若第一词串距离集合s1（a）中至少有一个元素的取值小于第一阈值，则按照从小到大的顺序对第一词串距离集合s1（a）中小于第一阈值的元素进行统计排序，得到第一词串距离筛选集合s10（a）；

s55、针对第一词串距离筛选集合s10（a）中的元素，从第一个元素开始，依次计算专业名词描述预处理集合中对应的第i个元素与专业名词描述参考集合中对应的第j个元素之间的第二词串距离s2（i，j），得到第二词串距离集合s2（i）；

s56、若第二词串距离集合s2（i）的元素取值包含零，则进一步判断第二词串距离集合s2（i）中取值为零的元素的个数是否大于第二阈值；

s57、若第二词串距离集合s2（i）中取值为零的元素的个数大于等于第二阈值，则保留专业名词描述预处理集合中的对应元素，将其加入第一专业名词描述集合，并将与其对应的专业名词预处理集合中的元素加入第一专业名词集合，将与其对应的参数预处理集合中的元素加入第一参数集合；

s58、若第二词串距离集合s2（i）中取值为零的元素的个数小于第二阈值，则放弃专业名词描述预处理集合中对应的第i个元素，并放弃专业名词预处理集合中的对应元素与参数预处理集合中的对应元素。

此外，根据数据参考集合，基于关键词匹配，对数据预处理集合进行第一次筛选的步骤s5还包括：

s59、若第一词串距离集合s1（a）的元素取值不包含零，且第一词串距离集合s1（a）中没有元素的取值小于第一阈值，则放弃专业名词预处理集合中的第a个元素，并放弃专业名词描述预处理集合中的对应元素与参数预处理集合中的对应元素；

s510、若第二词串距离集合s2（i）中取值为零的元素的个数小于第二阈值，则放弃专业名词描述预处理集合中对应的第i个元素，并放弃专业名词预处理集合中的对应元素与参数预处理集合中的对应元素。

其中，第一阈值为1~2，可根据专业名词预处理集合中的第a个元素的词串长度灵活调整；第二阈值为专业名词描述预处理集合中对应的第i个元素包含的元素个数的2/3。

详细地，基于关键词匹配，对数据预处理集合进行第一次筛选的步骤s5主要基于n-gram模型进行分析，基于n-gram模型进行切词和词串距离计算，对数据预处理集合和数据参考集合进行识别比对，保留数据预处理集合中与数据参考集合中相同的元素，得到第一数据集合。

在本发明的一可选实施例中，第一词串距离s1（a，b）和第二词串距离s2（i，j）的计算公式分别为：

s1（a，b）=[m]；

m=[s2（a，b）+s3（a，b）]/2；

s2（a，b）=|g2(a)|+|g2(b)|−2*|g2(a)∩g2(b)|；

s3（a，b）=|g3(a)|+|g3(b)|−2*|g3(a)∩g3(b)|；

s2（i，j）=[n]；

n=[s2’（i，j）+s3（i，j）]/2；

s2’（i，j）=|g2(i)|+|g2(j)|−2*|g2(i)∩g2(j)|；

s3（i，j）=|g3(i)|+|g3(j)|−2*|g3(i)∩g3(j)|；

其中，第一词串距离s1（a，b）为对m取整的值，s2（a，b）表示第一2-gram词串距离，s3（a，b）表示第一3-gram词串距离，第二词串距离s2（i，j）为对n取整的值，s2’（i，j）表示第一3-gram词串距离，s3（i，j）表示第二3-gram词串距离；g2(a)和g2(b)分别表示专业名词预处理集合中的第a个元素和专业名词参考集合中的第b个元素中2-gram的集合，g2(i)和g2(j)分别表示专业名词描述预处理集合中的第i个元素和专业名词描述参考集合中对应的第j个元素中2-gram的集合，g3(a)和g3(b)分别表示专业名词预处理集合中的第a个元素和专业名词参考集合中的第b个元素中3-gram的集合，g3(i)和g3(j)分别表示专业名词描述预处理集合中的第i个元素和专业名词描述参考集合中对应的第j个元素中3-gram的集合。

其中，第一词串距离s1（a，b）、第二词串距离s2（i，j）均为对应的2-gram词串距离和3-gram词串距离的平均值取整，能适当增大较长字符串识别时的容错率，降低误筛的几率。

s6、根据数据参考集合，基于深度学习，对数据预处理集合进行第二次筛选，获取第二数据集合，第二数据集合包括相互之间存在映射关系的第二专业名词集合、第二专业名词描述集合以及第二参数集合。

在本发明的一可选实施例中，根据数据参考集合，基于深度学习，对数据预处理集合进行第二次筛选的步骤s6进一步包括：

s61、构建卷积循环神经网络模型，并基于第一数据集合与数据参考集合，对卷积循环神经网络模型进行训练；

s62、利用训练后的卷积循环神经网络模型，对数据预处理集合进行筛选识别，获取第二数据集合。

在本发明的一可选实施例中，卷积循环神经网络模型至少包括：

cnn（卷积层），使用深度cnn，对输入图像提取特征，得到特征图；

rnn（循环层），使用双向rnn（blstm）对特征序列进行预测，对序列中的每个特征向量进行学习，并输出预测标签（真实值）分布；

ctcloss（转录层），使用ctc损失，把从循环层获取的一系列标签分布转换成最终的标签序列。

卷积循环神经网络模型的具体结构可参见现有技术，在此不再赘述。

在利用训练后的卷积循环神经网络模型进行筛选识别时，依次对专业名词预处理集合、专业名词描述预处理集合及参数预处理集合中的相关元素（即存在映射关系的元素）进行识别筛选，获取第二数据集合。

s7、根据第一数据集合与第二数据集合，输出处理后的文本信息。

详细地，根据第一数据集合与第二数据集合，输出处理后的文本信息的步骤s7还包括：

s71、分析第一数据集合与第二数据集合，得出二者的交集和并集；

s72、根据交集，输出第一文本信息，第一文本信息包括交集的所有元素；

s73、根据交集与并集，输出第二文本信息，第二文本信息包括并集中除去与交集重复后的所有元素。

其中，根据第一数据集合与第二数据集合的交集输出第一文本信息，即前后两次筛选都通过的数据构成第一文本信息，第一文本信息为默认筛选无误的信息，提高了筛选的准确率；根据第一数据集合与第二数据集合的并集中去除与交集重复后的元素输出第二文本信息，即前后两次筛选中有且仅有一次筛选通过的数据构成第二文本信息，第二文本信息为疑似信息，能有效降低误筛的几率，进一步提高了筛选的准确率。

请参阅图2，本发明还提供了一种文本信息处理系统，用于执行前述方法实施例中所述的文本信息处理方法，由于系统实施例的技术原理与前述方法实施例的技术原理相似，因而不再对同样的技术细节做重复性赘述。

如图2所示，在本发明的一可选实施例中，文本信息处理系统包括：

接收单元10，用于接收待处理的文本信息，还用于接收相关领域的数据参考集合，数据参考集合包括相互之间存在映射关系的专业名词参考集合、专业名词描述参考集合以及参数参考集合；

预处理单元11，用于对文本信息进行预处理，生成多个词语及参数；

分类提取单元12，用于对多个词语及参数进行分类提取，获取对应的数据预处理集合，数据预处理集合包括相互之间存在映射关系的专业名词预处理集合、专业名词描述预处理集合以及参数预处理集合；

筛选单元13，用于对数据预处理集合进行两次筛选，获取第一数据集合与第二数据集合，第一数据集合包括相互之间存在映射关系的第一专业名词集合、第一专业名词描述集合以及第一参数集合，第二数据集合包括相互之间存在映射关系的第二专业名词集合、第二专业名词描述集合以及第二参数集合；

输出单元14，用于根据第一数据集合与第二数据集合输出处理后的文本信息。

其中，接收单元10用于辅助执行前述方法实施例介绍的步骤s1及步骤s4，预处理单元11用于执行前述方法实施例介绍的步骤s2，分类提取单元12用于执行前述方法实施例介绍的步骤s3，筛选单元13用于执行前述方法实施例介绍的步骤s5~s6，输出单元14用于执行前述方法实施例介绍的步骤s7。

进一步地，筛选单元13包括关键词匹配模块131和深度学习模块132，关键词匹配模块131对数据预处理集合进行第一次筛选，得到第一数据集合，深度学习模块132对数据预处理集合进行第二次筛选，得到第二数据集合。

基于前述实施例相同的发明构思，本发明还提供了一种计算机可读存储介质，其上存储有多条指令，指令适于处理器进行加载，以执行上述文本信息处理方法。其中，计算机可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

基于前述实施例相同的发明构思，本发明还提供了一种电子设备，该电子设备可以包括：处理器；计算机可读存储介质，其上存储有指令，当处理器执行指令时，使得电子设备执行图1所述的文本信息处理方法。

在实际应用中，该电子设备可以作为用户终端，也可以作为服务器，用户终端的例子可以包括：智能手机、平板电脑、电子书阅读器、mp3(动态影像专家压缩标准语音层面3，movingpictureexpertsgroupaudiolayeriii)播放器、mp4(动态影像专家压缩标准语音层面4，movingpictureexpertsgroupaudiolayeriv)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等，本申请实施例对于具体的设备不加以限制。

图3为本发明一可选实施例提供的用户终端的硬件结构示意图。如图所示，该用户终端可以包括：输入设备200、处理器201、输出设备202、存储器203和至少一个通信总线204。通信总线204用于实现元件之间的通信连接。存储器203可能包含高速ram存储器，也可能还包括非易失性存储nvm，例如至少一个磁盘存储器，存储器203中可以存储各种程序，用于完成各种处理功能以及实现本实施例的方法步骤。

可选的，处理器201例如可以为中央处理器(centralprocessingunit，简称cpu)、应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，处理器201通过有线或无线连接耦合到输入设备200和输出设备202。

可选的，输入设备200可以包括多种输入设备，例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的，该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如usb接口、串口等)；可选的，该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等)；可选的，上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口，例如芯片的输入引脚接口或者输入接口等；输出设备202可以包括显示器、音响等输出设备。

在本实施例中，该用户终端的处理器包括用于执行各设备中语音识别装置各模块的功能，具体功能和技术效果参照上述实施例即可，此处不再赘述。

综上所述，在本发明所提供的一种文本信息处理方法、系统、介质和设备中，在对文本信息进行预处理得到数据预处理集合的基础上，根据数据参考集合，基于关键词匹配对数据预处理集合进行第一次筛选，基于深度学习对数据预处理集合进行第二次筛选，结合前后两次筛选的数据集合生成处理后的文本信息，能有效防止文本信息的误筛，提高了文本信息的准确率和处理效率；每个数据集合均包括相互之间存在映射关系的专业名词集合、形容词集合以及参数集合，在每个子集合单独对比筛选的基础上，结合存在映射关系的其他子集合的筛选结果的辅助验证，能进一步提高筛选的准确率和效率。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：姚娟娟;钟南山;樊代明
技术所有人：明品云(北京)数据科技有限公司
我是此专利的发明人

上一篇：一种吡唑二硫的合成方法与流程
上一篇：用于制造烟酰胺衍生物的重组微生物和方法、以及其中使用的载体与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。