一种标准化文本信息的方法和装置与流程

文档序号：12271412阅读：187来源：国知局

本发明涉及数据处理技术领域，特别是涉及一种标准化文本信息的方法和装置。

背景技术：

目前，各个医疗系统往往会对同一医疗相关事物采用不同的文本信息进行描述。例如，对于“内科”这一医疗概念，一些医疗系统可能采用文本信息“内科”，另一些医疗系统可能采用文本信息“内科Ⅰ”和“内科Ⅱ”。又如，对于“上呼吸道感染”这一医疗概念，一些医疗系统可能采用文本信息“上呼吸道感染”，另一些医疗系统可能采用文本信息“感冒”，又一些医疗系统可能采用文本信息“发烧”。这种文本信息不一致的情况会使得各个医疗系统的数据信息难以共享，从而不利于医疗行业的发展。

为了消除文本信息不一致的情况，可以为各医疗相关事务设置标准文本信息并为用于描述同一医疗相关事物的标准文本信息与各医疗系统采用的非标准文本信息建立对应关系。根据该对应关系，各医疗系统用于描述同一医疗相关事物的不同的非标准文本信息可以被统一成该医疗相关事物的标准文本信息，从而实现了文本信息的标准化，消除了文本信息不一致的情况，从而有利于各个医疗系统的数据信息共享。但是，发明人经过研究发现，由于存在大量的医疗相关事物，通常标准文本信息的数量非常庞大。而在为各医疗系统采用的非标准文本信息建立对应关系时，需要人工在大量的标准文本信息查找出与该非标准文本信息用于描述同一医疗相关事物的标准文本信息，从而造成人工工作繁琐、复杂。

技术实现要素：

本申请所要解决的技术问题是，提供一种标准化文本信息的方法和装置，以解决按照现有技术中人工在大量的标准文本信息查找出与该非标准文本信息用于描述同一医疗相关事物的标准文本信息而导致的人工工作繁杂的技术问题。

第一方面，提供了一种标准化文本信息的方法，该方法包括：

获取非标准文本信息及所述非标准文本信息的关联信息，所述非标准文本是医疗系统中用于描述医疗相关事物的文本信息；

基于所述关联信息与第一备选标准文本信息，建立贝叶斯分类算法模型，其中，所述贝叶斯分类算法模型的输入节点对应于所述关联信息，所述贝叶斯分类算法模型的输出节点对应于所述第一备选标准文本信息；

通过历史标准文本信息的历史关联信息和历史标准文本信息，对所述贝叶斯分类算法模型进行训练；

在训练完成的所述贝叶斯分类算法模型中，输入所述关联信息，输出所述非标准文本信息与所述第一备选标准文本信息之间的相关性信息，所述相关性信息表示所述非标准文本与所述第一备选标准文本信息均用于描述同一医疗相关事务的可能性；

根据所述非标准文本信息与所述第一备选标准文本信息之间的相关性信息，在所述第一备选标准文本信息中选取出第二备选标准文本；

在所述第二备选标准文本信息中确定目标标准文本信息，其中，所述目标标准文本信息用于与所述非标准文本信息建立用于标准化的对应关系。

可选的，

在所述贝叶斯分类算法模型中节点之间的相关关系通过有向矢量来体现，每一个有向矢量具有一个对应的权重；

所述通过历史标准文本信息的关联信息和历史标准文本信息，对所述贝叶斯分类算法模型进行训练，具体为：通过历史标准文本信息的关联信息和历史标准文本信息，计算所述贝叶斯分类算法模型中各有向矢量的权重；

所述在训练完成的所述贝叶斯分类算法模型中，输入所述关联信息，输出所述关联信息与所述第一备选标准文本信息之间的相关性信息，具体为：根据所述关联信息对应在所述贝叶斯分类算法模型的各输入节点上的信息，通过所述贝叶斯分类算法模型中各有向矢量的权重，计算所述贝叶斯分类算法模型的各输出节点上的信息，作为各输出节点对应的第一备选标准文本信息与所述非标准文本信息之间的相关性信息。

可选的，所述在所述第二备选标准文本信息中确定目标标准文本信息，包括：

反馈所述第二备选标准文本信息；

响应于选取操作，在所述第二备选标准文本信息中将所述选取操作对应的标准文本信息确定为所述目标标准文本信息。

可选的，在所述获取非标准文本信息及所述非标准文本信息的关联信息之后，还包括：

将所述非标准文本信息与第三备选标准文本信息进行文本匹配；

在所述第三备选标准文本信息中选取所述文本匹配得到的标准文本信息，作为所述第一备选标准文本信息。

可选的，所述文本匹配得到的标准文本信息包括具有所述非标准文本信息的标准文本信息。

可选的，所述将所述非标准文本信息与第三备选标准文本信息进行文本匹配，包括：

对所述非标准文本信息进行分词处理，并基于所述分词处理的结果，确定所述非标准文本信息对应的词元；

将所述非标准文本信息对应的词元与所述第三备选标准文本信息进行文本匹配；

其中，所述文本匹配得到的标准文本信息包括具有所述非标准文本信息的任意一个词元的标准文本信息。

可选的，所述基于所述分词处理的结果，确定所述非标准文本信息对应的词元，包括：

在所述分词处理的结果中排除属于预设的停词字典中的词元，并将剩余的词元确定为所述非标准文本信息对应的词元。

可选的，所述基于所述分词处理的结果，确定所述非标准文本信息对应的词元，包括：

在预设的同义词字典中查找与所述分词处理的结果相对应的同义词，并将所述分词处理的结果与查找到的同义词确定为所述非标准文本信息对应的词元。

可选的，所述方法还包括：

确定所述非标准文本信息对应的分类，并将所述分类中的标准文本信息确定为所述第三备选标准文本信息。

第二方面，提供了一种标准化文本信息的装置，包括：

获取单元，用于获取非标准文本信息及所述非标准文本信息的关联信息，所述非标准文本是医疗系统中用于描述医疗相关事物的文本信息；

建立单元，用于基于所述关联信息与第一备选标准文本信息，建立贝叶斯分类算法模型，其中，所述贝叶斯分类算法模型的输入节点对应于所述关联信息，所述贝叶斯分类算法模型的输出节点对应于所述第一备选标准文本信息；

训练单元，用于通过历史标准文本信息的关联信息和历史标准文本信息，对所述贝叶斯分类算法模型进行训练；

计算单元，用于在训练完成的所述贝叶斯分类算法模型中，输入所述关联信息，输出所述非标准文本信息与所述第一备选标准文本信息之间的相关性信息，所述相关性信息表示所述非标准文本与所述第一备选标准文本信息均用于描述同一医疗相关事务的可能性；

第一选取单元，用于根据所述非标准文本信息与所述第一备选标准文本信息之间的相关性信息，在所述第一备选标准文本信息中选取出第二备选标准文本；

第一确定单元，用于在所述第二备选标准文本信息中确定目标标准文本信息，其中，所述目标标准文本信息用于与所述非标准文本信息建立用于标准化的对应关系。

可选的，在所述贝叶斯分类算法模型中节点之间的相关关系可以通过有向矢量来体现，每一个有向矢量具有一个对应的权重。

可选的，所述训练单元，具体用于：通过历史标准文本信息的关联信息和历史标准文本信息，计算所述贝叶斯分类算法模型中各有向矢量的权重。

可选的，所述计算单元，具体用于：根据所述关联信息对应在所述贝叶斯分类算法模型的各输入节点上的信息，通过所述贝叶斯分类算法模型中各有向矢量的权重，计算所述贝叶斯分类算法模型的各输出节点上的信息，作为各输出节点对应的第一备选标准文本信息与所述非标准文本信息之间的相关性信息。

可选的，所述第一确定单元具体可以包括：

反馈子单元，用于反馈所述第二备选标准文本信息；

第一确定子单元，用于响应于选取操作，在所述第二备选标准文本信息中将所述选取操作对应的标准文本信息确定为所述目标标准文本信息。

可选的，所述装置还包括：

匹配单元，用于在所述获取单元获取非标准文本信息之后，将所述非标准文本信息与第三备选标准文本信息进行文本匹配；

第二选取单元，用于在所述第三备选标准文本信息中选取所述文本匹配得到的标准文本信息，作为所述第一备选标准文本信息。

可选的，所述文本匹配得到的标准文本信息包括具有所述非标准文本信息的标准文本信息。

可选的，所述匹配单元具体包括：

分词子单元，用于对所述非标准文本信息进行分词处理；

第二确定子单元，用于基于所述分词处理的结果，确定所述非标准文本信息对应的词元；

匹配子单元，用于将所述非标准文本信息对应的词元与所述第三备选标准文本信息进行文本匹配；

其中，所述文本匹配得到的标准文本信息可以包括具有所述非标准文本信息的任意一个词元的标准文本信息。

可选的，所述确定子单元具体用于：

在所述分词处理的结果中排除属于预设的停词字典中的词元，并将剩余的词元确定为所述非标准文本信息对应的词元。

可选的，所述确定子单元具体用于：

可选的，所述装置还包括：

第二确定单元，用于确定所述非标准文本信息对应的分类；

第三确定单元，用于将所述分类中的标准文本信息确定为所述第三备选标准文本信息。

与现有技术相比，本申请具有以下优点：

在本申请中，以某医疗系统中用于描述医疗相关事物的文本信息作为非标准文本信息，当需要对该非标准文本信息进行标准化时，获取该非标准文本信息的关联信息，基于该关联信息与第一备选标准文本信息建立贝叶斯分类算法模型。对于已知具有对应关系的历史标准文本信息的关联信息与历史标准文本信息，通过历史标准文本信息的历史关联信息与历史标准文本信息，对贝叶斯分类算法模型进行训练。然后，在训练完成的贝叶斯分类算法模型中，输入该非标准文本信息的关联信息，输出所述非标准文本信息与各第一备选标准文本信息之间的相关性信息，其中，该相关性信息标识该非标准文本信息与各第一备选标准文本信息均用于描述同一医疗相关事务的概率。最后，根据该非标准文本信息与各第一备选标准文本信息之间的相关性信息，在第一备选标准文本信息中选取出第二备选标准文本信息，从而就可以在第二备选标准文本信息中确定用于标准化该非标准文本信息的标准文本信息。由此可见，通过贝叶斯分类算法模型计算出的相关性信息，为非标准文本信息查找目标标准文本信息的范围可以从数量较多的第一备选标准文本信息缩小到数量更少的第二备选标准文本信息，因此，人工工作得以简化，人工负担得以减轻。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种标准化文本信息的方法的流程示意图；

图2为本发明实施例中一种标准化文本信息的方法的流程示意图；

图3为本发明实施例中一种标准化文本信息的装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

发明人经过研究发现，现有技术中，在为各医疗系统为描述医疗相关事务而采用的非标准文本信息进行标准化时，需要人工在所有的标准文本信息中查找出与非标准文本信息用于描述同一医疗相关事物的标准文本信息，而用于描述大量的医疗相关事物的标准文本信息本身又数量庞大，因此，人工工作非常繁琐、复杂，这样就造成了针对医疗相关事物的文本信息标准化过程效率低下。

为了解决这一问题，在本发明实施例中，对于医疗系统中用于描述医疗相关事物的非标准文本信息，根据非标准文本信息的关联信息，通过贝叶斯分类算法模型，可以得出非标准文本信息与各备选的标准文本信息均用于描述同一医疗相关事物的可能性，然后，可以基于可能性在所有备选的标准文本信息中选取出一部分标准文本信息，从而仅在这一部分的标准文本信息中就可以查找出用于标准化该非标准文本信息的目标标准文本信息。因此，为非标准文本信息查找目标标准文本信息的范围大大地缩小了，因此，人工工作得以简化，人工负担得以减轻。

举例来说，本发明实施例的场景之一，可以是应用到任意一种计算机系统中。该计算机系统可以获取非标准文本信息及所述非标准文本信息的关联信息，其中，所述非标准文本是医疗系统中用于描述医疗相关事物的文本信息。然后，该计算机系统可以基于所述关联信息与第一备选标准文本信息，建立贝叶斯分类算法模型，其中，所述贝叶斯分类算法模型的输入节点对应于所述关联信息，所述贝叶斯分类算法模型的输出节点对应于所述第一备选标准文本信息。再后，该计算机系统可以通过历史标准文本信息的历史关联信息和历史标准文本信息，对所述贝叶斯分类算法模型进行训练。又再后，该计算机系统可以在训练完成的所述贝叶斯分类算法模型中，输入所述关联信息，输出所述非标准文本信息与所述第一备选标准文本信息之间的相关性信息，所述相关性信息表示所述非标准文本与所述第一备选标准文本信息均用于描述同一医疗相关事务的可能性。又再后，该计算机系统可以根据所述非标准文本信息与所述第一备选标准文本信息之间的相关性信息，在所述第一备选标准文本信息中选取出第二备选标准文本。又再后，该计算机系统可以在所述第二备选标准文本中确定目标标准文本信息，其中，所述目标标准文本信息用于与所述非标准文本信息建立用于标准化的对应关系。

可以理解的是，上述场景仅是本发明实施例提供的一个场景示例，本发明实施例并不限于此场景。

下面结合附图，通过实施例来详细说明本发明实施例中标准化文本信息的方法和装置的具体实现方式。

参见图1，示出了本发明实施例中一种标准化文本信息的方法的流程示意图。在本实施例中，所述方法例如具体可以包括以下步骤：

步骤101、获取非标准文本信息及所述非标准文本信息的关联信息，所述非标准文本是医疗系统中用于描述医疗相关事物的文本信息。

具体实现时，在各医疗系统用于描述医疗相关事物的各文本信息中，获取一个文本信息作为当前进行标准化的非标准文本信息。同时，也获取该非标准文本信息的关联信息。

在本实施例中，非标准文本信息表示医疗系统为描述医疗相关事物而采用的文本信息，标准文本信息表示标准化规则中用于描述医疗相关事物的文本信息。可以理解的是，非标准文本信息通常不属于标准文本信息，即该非标准文本信息与任何一个标准文本信息都不相同，也因此，需要查找出与非标准文本信息用于描述同一医疗相关事物的标准文本信息，以实现对非标准文本信息的标准化。当然，有些情况下，非标准文本信息也可能本身就是一个标准文本信息，即该医疗系统是采用该标准文本信息本身去描述医疗相关事物的。

需要说明的是，本实施例所涉及的非标准文本信息的关联信息，可以用于确定非标准文本信息与各标准文本信息用于描述同一医疗相关事物的可能性。具体地，非标准文本信息的关联信息，可以是与非标准文本信息所描述的医疗相关事物有关的其他信息。例如，假设非标准文本信息为“感冒”，非标准文本信息的关联信息可以是诊断结果为“感冒”的处方信息，更具体地，关联信息可以包括诊断结果为“感冒”的处方中的病症描述信息和/或治疗方案信息。

步骤102、基于所述关联信息与第一备选标准文本信息，建立贝叶斯分类算法模型，其中，所述贝叶斯分类算法模型的输入节点对应于所述关联信息，所述贝叶斯分类算法模型的输出节点对应于所述第一备选标准文本信息。

具体实现时，若需要在第一备选标准文本信息中确定用于标准化非标准文本信息的目标标准文本信息，可以基于非标准文本信息的目标标准文本信息建立贝叶斯分类算法模型。

可以理解的是，贝叶斯分类算法模型中具有输入节点和输出节点。其中，对于一个计算过程来说，每个输入节点对应该计算过程的一个自变量，每个输出节点对应该计算过程的一个因变量。在本实施例中，贝叶斯分类算法模型用于依据非标准文本信息的关联信息计算非标准文本信息与各第一备选标准文本信息均用于描述同一医疗相关事物的可能性程度，因此，在建立贝叶斯分类算法模型时，贝叶斯分类算法模型的输入节点可以对应于非标准文本信息的关联信息，贝叶斯分类算法模型的输出节点可以对应于第一备选标准文本信息。具体地，在所建立的贝叶斯分类算法模型中，每一个输入节点对应于非标准文本信息的一项关联信息，每一个输出节点对应于一个第一备选标准文本信息。对于一个输入节点来说，该输入节点是与其对应的一项关联信息的具体值在贝叶斯分类算法模型中的输入位置。对于一个输出节点来说，该输出节点是与其对应的第一备选标准文本信息与非标准文本信息用于描述同一医疗相关事物的可能性程度在贝叶斯分类算法模型中的输出位置。

需要说明的是，在贝叶斯分类算法模型中，输入节点与输出节点之间的关系满足贝叶斯分类算法。在本实施例中，任意一种贝叶斯分类算法的实现方式均可以用于组织贝叶斯分类算法模型中的节点。例如，在一些实施方式中，在所述贝叶斯分类算法模型中节点之间的相关关系可以通过有向矢量来体现。其中，每一个有向矢量可以具有一个对应的权重。通过各节点之间有向矢量对应的权重，贝叶斯分类算法模型中输入节点与输出节点之间的相关关系可以被限定出来，因此，在输入节点上对应地输入非标准文本信息的各项关联信息，经过各有向矢量对应的权重进行计算，就可以在输出节点上对应地输出非标准文本信息与各第一备选标准文本信息用于描述同一医疗相关事物的可能性程度。

步骤103、通过历史标准文本信息的历史关联信息和历史标准文本信息，对所述贝叶斯分类算法模型进行训练。

可以理解的是，对于所建立的贝叶斯分类算法模型，该模型中用于限定各节点之间相关关系的参数可以通过训练来确定。用于训练贝叶斯分类算法模型的数据可以包括历史标准文本信息的历史关联信息与历史标准文本信息。其中，历史标准文本信息的历史关联信息与历史标准文本信息之间具有已知的对应关系，该已知的对应关系表示历史标准文本信息的历史关联信息与历史标准文本信息是已知用于描述同一医疗相关事物的文本信息。

具体实现时，可以基于大量具有已知对应关系的历史标准文本信息的历史关联信息与历史标准文本信息，以这些历史标准文本信息的历史关联信息以及这些历史标准文本信息组成训练数据集。通过训练数据集，对贝叶斯分类算法模型进行训练，从而在训练之后能够确定贝叶斯分类算法模型中用于限定各节点之间相关关系的参数。也即，在训练完成的贝叶斯分类算法模型中，输入节点、输出节点以及用于限定各节点之间相关关系的参数均是已经确定的。

例如，在一些实施方式中，在所述贝叶斯分类算法模型中节点之间的相关关系可以通过有向矢量来体现，每一个有向矢量可以具有一个对应的权重，此时，各有向矢量对应的权重即是用于限定各节点之间相关关系的参数。可见，在这种实施方式中，步骤103例如具体可以包括：通过历史标准文本信息的关联信息和历史标准文本信息，计算所述贝叶斯分类算法模型中各有向矢量的权重。

步骤104、在训练完成的所述贝叶斯分类算法模型中，输入所述关联信息，输出所述非标准文本信息与所述第一备选标准文本信息之间的相关性信息，所述相关性信息表示所述非标准文本与所述第一备选标准文本信息均用于描述同一医疗相关事物的可能性。

具体实现时，在已训练完成的贝叶斯分类算法模型中，将非标准文本信息的各项关联信息对应地输入到各输入节点上，基于贝叶斯分类算法模型中用于限定各节点之间相关关系的参数进行计算，可以在各输出节点上对应地得到各第一备选标准文本信息与非标准文本信息之间的相关性信息。

例如，在一些实施方式中，在所述贝叶斯分类算法模型中节点之间的相关关系可以通过有向矢量来体现，每一个有向矢量可以具有一个对应的权重，此时，各有向矢量对应的权重即是用于限定各节点之间相关关系的参数。可见，在这种实施方式中，步骤104例如具体可以包括：根据所述关联信息对应在所述贝叶斯分类算法模型的各输入节点上的信息，通过所述贝叶斯分类算法模型中各有向矢量的权重，计算所述贝叶斯分类算法模型的各输出节点上的信息，作为各输出节点对应的第一备选标准文本信息与所述非标准文本信息之间的相关性信息。

在本实施例中，第一备选标准文本信息与非标准文本信息之间的相关性信息，具体表示的是，第一备选标准文本信息与非标准文本信息用于描述同一医疗相关事物的可能性大小。例如，在一些实施方式中，第一备选标准文本信息与非标准文本信息之间的相关性信息，具体可以是，第一备选标准文本信息与非标准文本信息用于描述同一医疗相关事物的概率。

步骤105、根据所述非标准文本信息与所述第一备选标准文本信息之间的相关性信息，在所述第一备选标准文本信息中选取出第二备选标准文本。

具体实现时，根据非标准文本信息与各第一备选标准文本信息之间的相关性信息，可以从各第一备选标准文本信息中选取出最有可能与非标准文本信息用于描述同一医疗相关事物的一个或多个标准文本信息作为第二备选标准文本信息。

例如，在一些实施方式中，若第一备选标准文本信息与非标准文本信息之间的相关性信息具体为第一备选标准文本信息与非标准文本信息用于描述同一医疗相关事物的概率，则可以从各第一备选标准文本信息中选取与非标准文本信息用于描述相关事物的概率最大的前n个标准备选文本作为第二备选标准文本。其中，n属于正整数。

步骤106、在所述第二备选标准文本信息中确定目标标准文本信息，其中，所述目标标准文本信息用于与所述非标准文本信息建立用于标准化的对应关系。

可以理解的是，目标标准文本信息可以是被确定与非标准文本信息用于描述同一医疗相关事物的文本信息。

在本实施例的一些实施方式中，可以基于用户的操作在第二备选标准文本信息中确定目标标准文本信息。具体地，步骤106例如可以包括：反馈所述第二备选标准文本信息；响应于选取操作，在所述第二备选标准文本信息中将所述选取操作对应的标准文本信息确定为所述目标标准文本信息。更具体地，通过向用不反馈所有的第二备选标准文本信息，在用户在这些第二备选标准文本信息中对某标准文本信息执行了选取操作之后，响应于用户的该选取操作，可以将用户选取的标准文本信息作为目标标准文本信息。

需要说明的是，第二备选标准文本信息可能是一个标准文本信息，也可能是多个标准文本信息。若第二备选标准文本信息仅是一个标准文本信息，可以直接将该第二备选标准文本信息确定为目标标准文本信息，或者也可以在响应到用户的确认操作之后再将该第二备选标准文本信息确定为目标标准文本信息。若第二备选标准文本信息是多个标准文本信息，可以基于用户的选取操作将用户在多个第二备选标准文本信息中选取出的标准文本信息作为目标标准文本信息。

通过本实施例提供的各种实施方式，对于医疗系统中用于描述医疗相关事物的非标准文本信息，根据非标准文本信息的关联信息，通过贝叶斯分类算法模型，可以得出非标准文本信息与各备选的标准文本信息均用于描述同一医疗相关事物的可能性，然后，可以基于可能性在所有备选的标准文本信息中选取出一部分标准文本信息，从而仅在这一部分的标准文本信息中就可以查找出用于标准化该非标准文本信息的目标标准文本信息。因此，为非标准文本信息查找目标标准文本信息的范围大大地缩小了，因此，人工工作得以简化，人工负担得以减轻。

可以理解的是，计算机系统对贝叶斯分类算法模型的处理负担会随着节点数量的增大而急剧增大。为了减小贝叶斯分类算法模型的处理负担，可以通过与非标准文本信息进行文本匹配的方式，在所有备选的标准文本信息中筛选出一部分标准文本信息作为第一备选标准文本信息，然后再通过贝叶斯分类算法模型的处理，为非标准文本信息确定目标标准文本信息。这样不仅可能会进一步缩小人工为非标准文本信息查找目标标准文本信息的范围，而且能够减小计算机系统对贝叶斯分类算法模型的处理负担，从而节约处理资源、提高处理速度并减小处理时延。

具体地，参见图2，示出了本发明实施例中一种标准化文本信息的方法的流程示意图。在本实施例中，所述方法例如具体可以包括以下步骤：

步骤201、获取非标准文本信息及所述非标准文本信息的关联信息，所述非标准文本是医疗系统中用于描述医疗相关事物的文本信息。

步骤202、将所述非标准文本信息与第三备选标准文本信息进行文本匹配。

步骤203、在所述第三备选标准文本信息中选取所述文本匹配得到的标准文本信息，作为所述第一备选标准文本信息。

可以理解的是，在通过贝叶斯分类算法模型处理之前，将非标准文本信息与第三备选标准文本信息进行文本匹配并从第三备选标准文本信息中选取匹配得到的标准文本信息作为第一备选标准文本信息，从而可以基于第一备选标准文本信息进行贝叶斯分类算法模型处理。可见，对于医疗系统中用于描述医疗相关事物的非标准文本信息，可以先基于文本匹配在所有备选的标准文本信息中选取一部分标准文本信息进行贝叶斯分类算法模型处理，然后再通过贝叶斯分类算法处理进一步从中选取一部分标准文本信息，以使得在贝叶斯分类算法模型的处理所得到的标准文本信息中确定目标标准。这样，不仅进一步缩小了人工为非标准文本信息查找目标标准文本信息的范围，而且也大大减少了需要通过贝叶斯分类算法模型处理的标准文本信息的数量。

在本实施例中，所述文本匹配有多种可能的实施方式。

例如，在一些实施方式中，完整的非标准文本信息可以作为一种匹配词与第三备选标准文本信息进行文本匹配。具体地，所述文本匹配得到的标准文本信息可以包括具有所述非标准文本信息的标准文本信息。例如，若非标准文本信息为“男”而标准文本信息为“男性”，则该非标准文本信息与该标准文本信息满足文本匹配的条件，也即，对于非标准文本信息“男”来说，标准文本信息“男性”属于文本匹配得到的标准文本信息。

又如，在一些实施方式中，通过对非标准文本信息进行分词处理，非标准文本信息对应的词元可以作为又一种匹配词与第三备选标准文本信息进行文本匹配。具体地，步骤203例如可以包括：对所述非标准文本信息进行分词处理，并基于所述分词处理的结果，确定所述非标准文本信息对应的词元；将所述非标准文本信息对应的词元与所述第三备选标准文本信息进行文本匹配；其中，所述文本匹配得到的标准文本信息包括具有所述非标准文本信息的任意一个词元的标准文本信息。例如，假设非标准文本信息为“内科Ⅲ”，该非标准文本信息对应的词元可以包括“内科”，则标准文本信息“神经内科”与该非标准文本信息满足文本匹配的条件，也即，对于非标准文本信息“内科Ⅲ”来说，标准文本信息“神经内科”属于文本匹配得到的标准文本信息。

进一步而言，考虑到非标准文本信息分词所得到的有些词元可能不便于直接参与文本匹配，故可以先对由非标准文本信息分词得到的词元进行调整，再以调整后得到的词元作为非标准文本信息对应的词元进行文本匹配。

例如，在一些实施方式中，考虑到非标准文本信息分词后得到的词元可能包括“的”、“了”等不具有实际含义的词元，可以将这些不具有实际含义的词元预设在停词字典中，在每次非标准文本信息分词之后，先通过停词字典对非标准文本信息分词后得到的词元进行过滤再形成非标准文本信息对应的词元，从而避免非标准文本信息对应的词元中包括不具有实际含义的词元。具体地，基于分词处理的结果对非标准文本信息对应的词元的确定方式，例如可以包括：在所述分词处理的结果中排除属于预设的停词字典中的词元，并将剩余的词元确定为所述非标准文本信息对应的词元。

又如，在一些实施方式中，考虑到非标准文本信息分词后得到的词元可能包括难以匹配上标准文本信息的词元，若这些词元具有同义词并且其同义词能够匹配上标准文本信息，则可以将这些难以匹配上标准文本信息的词元及其对应的同义词预设在同义词字典中，在每次非标准文本信息分词之后，先通过同义词字典对非标准文本信息分词后得到的词元进行同义词转换再形成非标准文本信息对应的词元，从而使得备选的标准文本信息更全面地匹配非标准文本信息对应的词元。具体地，基于分词处理的结果对非标准文本信息对应的词元的确定方式，例如可以包括：在预设的同义词字典中查找与所述分词处理的结果相对应的同义词，并将所述分词处理的结果与查找到的同义词确定为所述非标准文本信息对应的词元。

可以理解的是，上述两种实施方式可以以任意组合的方式实现对非标准文本信息对应的词元进行确定。例如，可以仅基于停词字典确定非标准文本信息对应的词元，此时，非标准文本信息对应的词元中不包括没有实际含义的词元。又如，可以仅基于同义词词典确定非标准文本信息对应的词元，此时，非标准文本信息对应的词元中不仅包括非标准文本信息分词得到的词元也包括非标准文本信息分词得到的词元的同义词。再如，可以同时基于停词字典和同义词词典确定非标准文本信息对应的词元，此时，在非标准文本信息对应的词元中，一方面不包括没有实际含义的词元，另一方面不仅包括非标准文本信息分词得到的词元也包括非标准文本信息分词得到的词元的同义词。

在本实施例的一些实施方式中，为了减轻计算机系统对文本匹配的处理负担，可以依据非标准文本信息的分类在所有备选的标准文本信息中筛选出一部分标准文本信息进行文本匹配。具体地，在步骤202之前，本实施例的方法还可以包括：确定所述非标准文本信息对应的分类，并将所述分类中的标准文本信息确定为所述第三备选标准文本信息。在确定第三备选标准文本信息之后，可以进入执行步骤202。

更具体地，所有备选的标准文本信息可以基于分类索引预设在数据库中。在获取到当前需要标准化的非标准文本信息之后，可以基于非标准文本信息对应的分类确定目标分类索引，再在数据库中查找出目标分类索引对应的标准文本信息作为第三备选标准文本信息进行文本匹配。

步骤204、基于所述关联信息与第一备选标准文本信息，建立贝叶斯分类算法模型，其中，所述贝叶斯分类算法模型的输入节点对应于所述关联信息，所述贝叶斯分类算法模型的输出节点对应于所述第一备选标准文本信息。

步骤205、通过历史标准文本信息的历史关联信息和历史标准文本信息，对所述贝叶斯分类算法模型进行训练。

步骤206、在训练完成的所述贝叶斯分类算法模型中，输入所述关联信息，输出所述非标准文本信息与所述第一备选标准文本信息之间的相关性信息，所述相关性信息表示所述非标准文本与所述第一备选标准文本信息均用于描述同一医疗相关事务的可能性。

步骤207、根据所述非标准文本信息与所述第一备选标准文本信息之间的相关性信息，在所述第一备选标准文本信息中选取出第二备选标准文本。

步骤208、在所述第二备选标准文本信息中确定目标标准文本信息，其中，所述目标标准文本信息用于与所述非标准文本信息建立用于标准化的对应关系。

可以理解的是，本实施例所提及的步骤201对应于前述图1所示的实施例所提及的步骤101，本实施例所提及的步骤204对应于前述图1所示的实施例所提及的步骤102，本实施例所提及的步骤205对应于前述图1所示的实施例所提及的步骤103，本实施例所提及的步骤206对应于前述图1所示的实施例所提及的步骤104，本实施例所提及的步骤207对应于前述图1所示的实施例所提及的步骤105，本实施例所提及的步骤208对应于前述图1所示的实施例所提及的步骤106。上述步骤的具体实现方式可以参见图1所示的实施例的介绍，本实施例在此不再赘述。

通过本实施例提供的实施方式，对于医疗系统中用于描述医疗相关事物的非标准文本信息，可以先基于文本匹配在所有备选的标准文本信息中选取一部分标准文本信息进行贝叶斯分类算法模型处理，然后再通过贝叶斯分类算法处理进一步从中选取一部分标准文本信息，以使得在贝叶斯分类算法模型的处理所得到的标准文本信息中确定目标标准。这样，不仅进一步缩小了人工为非标准文本信息查找目标标准文本信息的范围，从而进一步简化了人工工作并减轻了人工负担，而且大大减少了需要通过贝叶斯分类算法模型处理的标准文本信息的数量，从而减小了计算机系统的处理负担、节约了处理资源、提高了处理速度并减小了处理时延。

参见图3，示出了本发明实施例中一种标准化文本信息的装置的结构示意图。在本实施例中，所述装置例如可以包括：

获取单元301，用于获取非标准文本信息及所述非标准文本信息的关联信息，所述非标准文本是医疗系统中用于描述医疗相关事物的文本信息；

建立单元302，用于基于所述关联信息与第一备选标准文本信息，建立贝叶斯分类算法模型，其中，所述贝叶斯分类算法模型的输入节点对应于所述关联信息，所述贝叶斯分类算法模型的输出节点对应于所述第一备选标准文本信息；

训练单元303，用于通过历史标准文本信息的关联信息和历史标准文本信息，对所述贝叶斯分类算法模型进行训练；

计算单元304，用于在训练完成的所述贝叶斯分类算法模型中，输入所述关联信息，输出所述非标准文本信息与所述第一备选标准文本信息之间的相关性信息，所述相关性信息表示所述非标准文本与所述第一备选标准文本信息均用于描述同一医疗相关事务的概率；

第一选取单元305，用于根据所述非标准文本信息与所述第一备选标准文本信息之间的相关性信息，在所述第一备选标准文本信息中选取出第二备选标准文本；

第一确定单元306，用于在所述第二备选标准文本信息中确定目标标准文本信息，其中，所述目标标准文本信息用于与所述非标准文本信息建立用于标准化的对应关系。

可选的，在所述贝叶斯分类算法模型中节点之间的相关关系可以通过有向矢量来体现，每一个有向矢量具有一个对应的权重。

进一步而言，所述训练单元，具体可以用于：通过历史标准文本信息的关联信息和历史标准文本信息，计算所述贝叶斯分类算法模型中各有向矢量的权重。

进一步而言，所述计算单元，具体可以用于：根据所述关联信息对应在所述贝叶斯分类算法模型的各输入节点上的信息，通过所述贝叶斯分类算法模型中各有向矢量的权重，计算所述贝叶斯分类算法模型的各输出节点上的信息，作为各输出节点对应的第一备选标准文本信息与所述非标准文本信息之间的相关性信息。

可选的，所述第一确定单元具体可以包括：

反馈子单元，用于反馈所述第二备选标准文本信息；

第一确定子单元，用于响应于选取操作，在所述第二备选标准文本信息中将所述选取操作对应的标准文本信息确定为所述目标标准文本信息。

可选的，所述装置还可以包括：

匹配单元，用于在所述获取单元获取非标准文本信息之后，将所述非标准文本信息与第三备选标准文本信息进行文本匹配；

第二选取单元，用于在所述第三备选标准文本信息中选取所述文本匹配得到的标准文本信息，作为所述第一备选标准文本信息。

可选的，所述文本匹配得到的标准文本信息可以包括具有所述非标准文本信息的标准文本信息。

可选的，所述匹配单元具体可以包括：

分词子单元，用于对所述非标准文本信息进行分词处理；

第二确定子单元，用于基于所述分词处理的结果，确定所述非标准文本信息对应的词元；

匹配子单元，用于将所述非标准文本信息对应的词元与所述第三备选标准文本信息进行文本匹配；

其中，所述文本匹配得到的标准文本信息可以包括具有所述非标准文本信息的任意一个词元的标准文本信息。

可选的，所述确定子单元具体可以用于：

在所述分词处理的结果中排除属于预设的停词字典中的词元，并将剩余的词元确定为所述非标准文本信息对应的词元。

可选的，所述确定子单元具体可以用于：

可选的，所述装置还可以包括：

第二确定单元，用于确定所述非标准文本信息对应的分类；

第三确定单元，用于将所述分类中的标准文本信息确定为所述第三备选标准文本信息。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘旭;吴贺贤;赵伟东;
技术所有人：东软集团股份有限公司;
我是此专利的发明人

上一篇：文件管理方法及文件管理系统与流程
上一篇：自动生成数据模型的方法和装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。