一种中文疾病诊断信息的自然语言处理方法及系统的制作方法_5

文档序号：9376047阅读：来源：国知局

程度术语词典、疾病并发术语词典、发病部位术语词典，将预处理后的中文疾病诊断信息字符串切分成第一类型子字符串和第二类型子字符串；其中，
[0244] 第一类型子字符串和第二类型子字符串所表示的医疗信息不受其在中文疾病诊断信息字符串中所在位置之前或之后的字符影响，且第一类型子字符串能够与本体词典中的本体直接匹配，第二类型子字符串不能够与本体词典中的本体直接匹配；
[0245] 匹配模块55,用于对第二类型子字符串和本体词典中的每个本体进行预设维度的解析，得到第二类型子字符串的解析结果，以及本体词典中每个本体的解析结果；并通过将第二类型子字符串的解析结果与本体词典中每个本体的解析结果进行匹配，查找第二类型子字符串相匹配的本体，或查找与所述第二类型子字符串达到预设匹配条件的一个或多个本体；
[0246] 输出模块56,用于输出第一类型子字符串、第二类型子字符串相匹配的本体。
[0247] 本发明示例性实施方式的中文疾病诊断信息的自然语言处理系统与本发明示例性实施方式的中文疾病诊断信息的自然语言处理方法基于相同的发明思想实现，其具体实施方式可参照前述对中文疾病诊断信息的自然语言处理方法的介绍，此处不再赘述。
[0248] 应当注意，尽管在上文详细描述中提及了中文疾病诊断信息的自然语言处理系统的若干模块，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
[0249] 此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。
[0250] 虽然已经参考若干【具体实施方式】描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的【具体实施方式】，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
[0251] 本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块 (illustrative logical block)，单元，和步骤可以通过电子硬件、电脑软件，或两者的结合进行实现。为清楚展示硬件和软件的可替换性（interchangeability)，上述的各种说明性部件（illustrative components)，单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用，可以使用各种方法实现所述的功能，但这种实现不应被理解为超出本发明实施例保护的范围。
[0252] 本发明实施例中所描述的各种说明性的逻辑块，或单元，或装置都可以通过通用处理器，数字信号处理器，专用集成电路（ASIC)，现场可编程门阵列或其它可编程逻辑装置，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。
[0253] 本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、⑶-ROM或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中，ASIC可以设置于用户终端中。可选地，处理器和存储媒介也可以设置于用户终端中的不同的部件中。
[0254] 在一个或多个示例性的设计中，本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现，这些功能可以存储与电脑可读的媒介上，或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如，这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPR0M、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置，或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外，任何连接都可以被适当地定义为电脑可读媒介，例如，如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线（DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片（disk)和磁盘（disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘，磁盘通常以磁性复制数据，而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
【主权项】
1. 一种中文疾病诊断信息的自然语言处理方法，包括：步骤1，输入中文疾病诊断信息字符串；步骤2,对所述中文疾病诊断信息字符串进行预处理，得到预处理后的中文疾病诊断信息字符串；步骤3,基于预先建立的本体词典、疾病程度术语词典、疾病并发术语词典、发病部位术语词典，将所述预处理后的中文疾病诊断信息字符串切分成若干第一类型子字符串和第二类型子字符串；其中，所述第一类型子字符串能够与所述本体词典中的本体直接匹配，所述第二类型子字符串不能够与所述本体词典中的本体直接匹配；所述本体词典包括若干本体，所述本体为标准术语或扩充术语；所述标准术语为国际疾病分类ICD版本中规定的疾病名称；所述扩充术语为与所述标准术语具有同义关系的词语或具有属种关系的词语；所述疾病程度术语词典包括若干疾病程度术语，所述疾病程度术语是用于描述疾病急慢性程度或疾病严重程度或病理类型或临床分期的词语；所述疾病并发术语词典包括若干疾病并发术语，所述疾病并发术语是用于描述至少两种疾病并发出现的词语；所述发病部位术语词典包括若干发病部位术语，所述发病部位术语是用于描述疾病发病部位的词语；步骤4,对所述第二类型子字符串和所述本体词典中的每个本体进行预设维度的解析，得到所述第二类型子字符串的解析结果，以及所述本体词典中每个本体的解析结果；并通过将所述第二类型子字符串的解析结果与所述本体词典中每个本体的解析结果进行匹配，查找所述第二类型子字符串相匹配的本体，或查找与所述第二类型子字符串达到预设匹配条件的一个或多个本体；步骤5,输出所述第一类型子字符串相匹配的本体，以及输出所述第二类型子字符串相匹配的本体或与所述第二类型子字符串达到预设匹配条件的一个或多个本体。2. 根据权利要求1所述的中文疾病诊断信息的自然语言处理方法，其中，所述步骤2包括：对所述中文疾病诊断信息字符串中的非汉字进行格式归一化处理，并删除所述中文疾病诊断信息字符串中的非医学术语，得到预处理后的中文疾病诊断信息字符串，其中所述非医学术语由一预先建立的非医学术语词典提供，且所述非医学术语为起备注作用的词语。3. 根据权利要求1所述的中文疾病诊断信息的自然语言处理方法，其中，所述步骤3包括：判断所述预处理后的中文疾病诊断信息字符串是否包含符号；如果所述预处理后的中文疾病诊断信息字符串包含符号，则将所述预处理后的中文疾病诊断信息字符串中每相邻两个符号之间的字符作为整体与本体词典中的本体进行匹配；若匹配成功，则将该相邻两个符号之间的字符切分出来作为第一类型子字符串；若匹配失败，则将该相邻两个符号及其之间的字符确定为暂不切分字符串，并判断所述暂不切分字符串中是否包含预设的特殊符号；若所述暂不切分字符串中包含特殊符号，则查找所述暂不切分字符串所属的字符模型，并根据该所属的字符模型对应的切分规则对所述暂不切分字符串进行切分，将切分出来的字符与本体词典中的本体进行匹配，若匹配成功，则将该切分出来的字符作为第一类型子字符串，若匹配失败，则将该切分出来的字符作为第二类型子字符串；其中，所述字符模型由一预先建立的字符模型库提供，且所述字符模型具有一一对应的切分规则；若所述暂不切分字符串中不包含特殊符号，则将所述暂不切分字符串直接确定为第二类型子字符串；如果所述预处理后的中文疾病诊断信息字符串未包含符号，则采用机械分词法将所述预处理后的中文疾病诊断信息字符串中的单个字符或多个连续的字符与所述本体词典中的本体进行匹配；若所述预处理后的中文疾病诊断信息字符串中的所有字符均能够与本体匹配，则依据所匹配的本体将所述预处理后的中文疾病诊断信息字符串中的单个字符或多个连续的字符切分出来作为第一类型子字符串；若所述预处理后的中文疾病诊断信息字符串中存在未能与本体匹配的单个字符或多个连续的字符，则判断所述未能与本体匹配的单个字符或多个连续的字符是否为疾病程度术语、疾病并发术语或发病部位术语；当所述未能与本体匹配的单个字符或多个连续的字符为疾病程度术语、疾病并发术语或发病部位术语时，根据所述未能与本体匹配的单个字符或多个连续的字符在所述预处理后的中文疾病诊断信息字符串中的位置，将所述未能与本体匹配的单个字符或多个连续的字符与其之前或之后能够与本体匹配的单个字符或多个连续的字符合并切分出来作为第二类型子字符串，并将所述预处理后的中文疾病诊断信息字符串中其余的能够与本体匹配的单个字符或多个连续的字符切分出来作为第一类型子字符串；当所述未能与本体匹配的单个字符或多个连续的字符不为疾病程度术语、疾病并发术语或发病部位术语时，将所述预处理后的中文疾病诊断信息字符串整体切分出来作为第二类型

完整全部详细技术资料下载

当前第5页1 2 3 4 5 6