一种药品信息的自然语言处理方法及系统的制作方法_4

文档序号：9349928阅读：来源：国知局

暂不切分字符串中不包含特殊符号，则执行步骤 S233。
[0242] 步骤S231，查找暂不切分字符串所属的字符模型，并根据该所属的字符模型对应的切分规则对暂不切分字符串进行切分；其中，字符模型由一预先建立的字符模型库提供，且字符模型具有一一对应的切分规则。
[0243] 步骤232,将切分出来的字符与词典集中的词条进行匹配，若匹配成功，则将该切分出来的字符确定为第一类型子字符串，若匹配失败，则将该切分出来的字符确定为第二类型子字符串；
[0244] 步骤S233,将暂不切分字符串直接确定为第二类型子字符串。
[0245] 步骤S23、步骤S231、步骤232、步骤S233依据的处理规则是：当暂不切分字符串中包含预设的特殊符号时，根据暂不切分字符串所属的字符模型进行切分，否则直接切分出来；而且将基于字符模型切分出的字符再次与词典集中的词条进行匹配，将其中能够与词条直接匹配的作为第一类型子字符串，不能够直接匹配的作为第二类型子字符串。
[0246] 例如预设的特殊符号可以包括但不限于竖线、括号、逗号、顿号、句号、冒号、加号、分号、斜杜线等等。
[0247]例如以下为字符模型库中的部分字符模型及其切分规则：
[0248] (1)字符模型：B⑶E型，且C、E为括号，B、D为文字；
[0249]切分规则：将B、D切分出来；
[0250] (2)字符模型：FGH型，且F、H均为汉字，G为竖线；
[0251] 切分规则：将F、H作为切分出来；
[0252](3)字符模型：IJK型，且I、K均为汉字，J为分号、句号、问号、叹号、顿号，切
[0253] 分规则：将I和K分别切分出来；
[0254] (4)字符模型：STU型，T为斜杠线，且S、U均无法与词典匹配成功；
[0255] 切分规则：将STU作为整体切分出来。
[0256] 以下为几个根据字符模型进行切分的示例：
[0257] 原始字符串"巨和粒（山东齐鲁）"，符合字符模型B⑶E型，因此切分为"巨和粒"、 "山东齐鲁"。
[0258] 原始字符串"奥美拉唑镁肠溶片I洛赛克MUPS"，符合字符模型FGH型，因此切分为"奥美拉唑镁肠溶片"，"洛赛克MUPS"。
[0259] 原始字符串"美沙拉桑缓释颗粒剂、艾迪莎"，符合字符模型IJK型，因此切分为 "美沙拉桑缓释颗粒剂"，"艾迪莎"。
[0260] 原始字符串"B型嗜血菌/乙型肝炎疫苗"，符合字符模型STU型，因此切分为"B 型嗜血菌/乙型肝炎疫苗"。
[0261] 实施例二
[0262] 参见图4所示，为本发明示例性方法中步骤S15 (对第二类型子字符串进行模糊匹配）的一实施方式示例。
[0263] 如图4所示，查找第二类型子字符串相匹配的词条的过程可以包括：
[0264] 步骤S31，对第二类型子字符串和词典集中的每个词条进行预设维度的解析，得到第二类型子字符串的各个维度的解析结果，以及词典集中每个词条的各个维度的解析结果。
[0265] 该步骤将第二类型子字符串和本体分别作为解析对象，可选地，对解析对象进行预设维度的解析可以包括但不限于：
[0266] (1)确定解析对象中的每个汉字；
[0267] (2)确定解析对象中每个汉字的声母；
[0268] (3)确定解析对象中每个汉字的韵母；
[0269] (4)确定解析对象的首字符；
[0270] (5)确定解析对象的首字符的拼音；以及，
[0271] (6)确定解析对象中的非汉字字符，如果其中不包含非汉字字符，则该项解析结果为空。
[0272] 当解析对象为第二类型子字符串时，其各个维度的解析结果可以包括但不限于：第二类型子字符串中的每个汉字、第二类型子字符串中每个汉字的声母、第二类型子字符串中每个汉字的韵母、第二类型子字符串的首字符、第二类型子字符串的首字符的拼音、第二类型子字符串中的非汉字字符。
[0273] 当解析对象为词条时，解析结果可以包括但不限于：词条中的每个汉字、词条中每个汉字的声母、词条中每个汉字的韵母、词条的首字符、词条的首字符的拼音、词条的非汉字字符。
[0274] 例如，表22为第二类型子字符串"尼莫地平"的解析结果。
[0275]表 22
[0276]
[0277] 步骤S32,按照如下公式计算第二类型子字符串与每个词条的相似度：
[0279] 其中，M表示相似度；
[0280] t表示第二类型子字符串的各个维度的解析结果；
[0281] q表示第二类型子字符串；
[0282] t in q表示第二类型子字符串的各个维度；
[0283] d表示词条；
[0284] tf(t in d)表示在相同的维度上，第二类型子字符串的解析结果与词条的解析结果相匹配的频次；
果均与第二类型子字符串的各个维度的解析结果相匹配的词条的总数；
[0286] t. getBoostO表示各个维度的预设权值；
[0287] norm(t, d)表示词条的长度归一化因子；
[0288] 其中，解析对象的各个维度分别是：每个汉字、每个汉字的声母、每个汉字的韵母、首字符、首字符的拼音、非汉字字符。
[0289] 步骤S33,根据第二类型子字符串与各个词条的相似度，确定一个或多个词条作为第二类型子字符串相匹配的词条。
[0290] 可选地，该步骤可以有如下的【具体实施方式】：按照与第二类型子字符串的相似度的大小对全部词条排序，并将其中排序靠前的预设数量的（例如为排序靠前的10个）词条确定为第二类型子字符串相匹配的词条；或者，将与第二类型子字符串的相似度达到预设阈值（例如为相似度大于0.9)的一个或多个词条，确定为第二类型子字符串相匹配的词条。
[0291] 具体实施本发明时，为了明确第二类型子字符串与每一个相匹配的词条的相似度并对其加以利用，还可以在最终输出的结果中一并输出第二类型子字符串与其相匹配的各个词条的相似度。例如，输出第二类型子字符串与各个相匹配的词条的相似度，然后可以根据相似度的大小，通过人工方式从中再选出一个作为第二类型子字符串相匹配的词条。
[0292] 具体实施本发明时，如果对第二类型子字符串与词条相似程度的计算有更高、更准确的要求，则还可以计算第二类型子字符串与其相匹配的各个词条的总置信度。其中，总置信度按照如下过程计算：
[0293] 步骤（1)，确定第二类型子字符串中的每个汉字。
[0294] 步骤（2)，按照如下公式计算第二类型子字符串与其相匹配的各个词条的余弦置信度：
[0296] 其中，N表示余弦置信度；
[0297] V表示第二类型子字符串及其相匹配的词条所包含的汉字总数；
[0298] Q表示第二类型子字符串；
[0299] d'表示与第二类型子字符串相匹配的词条；
[0300] Wtu表示每个汉字在第二类型子字符串中出现的频次；
[0301] ^^表示每个汉字在第二类型子字符串相匹配的词条中出现的频次；
[0302] j表示第二类型子字符串及其相匹配的词条所包含的汉字的序号。
[0303] 步骤（3)，按照如下公式计算第二类型子字符串与其相匹配的各个词条的总置信度：
[0304] S = MXa+NXb
[0305] 其中，S表示总置信度；
[0306] a表示相似度M对应的预设权值；
[0307] b表示余弦置信度N对应的预设权值，其中b = l_a。
[0308] 例如，假设第二类型子字符串"尼莫地平注射液"的一个相匹配的本体为"尼莫地平"，其中每个汉字的出现频次如表23所示。
[0309]表 23
[0310]
[0311] 则根据余弦置信度计算公式计算出第二类型子字符串"尼莫地平注射液"与本体 "尼莫地平"的余弦置信度为：
0. 92〇
[0314] 根据总置信度计算公式S = MXa+NXb计算出"尼莫地平注射液"与"注射用尼莫地平"的总置信度为 S = MXa+NXb = 0? 92X40% +0? 75X60%= 0? 82。
[0315] 实施例三
[0316] 本实施例对一具体的药品信息进行自然语言处理。
[0317] 药品信息字符串为：
[0318] H ▲注射用盐酸伊立替康I ?艾力40mgl只（成都）江苏恒瑞水针
[0319] 按照如下步骤对该药品信息进行自然语言处理：
[0320]步骤（1)，输入以上该药品信息字符串。
[0321] 步骤（2)，对该药品信息字符串中的非汉字进行格式归一化处理；并根据无关字符词典删除药品信息字符串中的无关字符▲?，得到预处理药品信息字符串"H注射用盐酸伊立替康I艾力40mgl只（成都）江苏恒瑞水针"。
[0322]步骤（3)，判断以上预处理药品信息字符串中存在数字"40"和"1"，基于规格词典和包装规格词典，从以上预处理药品信息字符串中切分出规格字符串"40mg"和包装规格字符串"1只"，所述预处理药品信息字符串的剩余字符为注射用盐酸伊立替康I艾力（成都）江苏恒瑞水针"。
[0323]步骤（4)，基于词典集，将以上所述预处理药品信息字符串的剩余字符切分成第一类型子字符串"艾力"、"（成都）江苏恒瑞"、"水针"，和第二类型子字符串"注射用盐酸伊立替康"。
[0324]步骤（5)，输出第一类型子字符串"艾力"、"（成都）江苏恒瑞"、"水针"，以及输出第二类型子字符串"注射用盐酸伊立替康"。
[0325] 步骤（6)，对第二类型子字符串"注射用盐酸伊立替康"进行解析，查找出第二类型子字符串相匹配的多个词条分别为"盐酸伊立替康"、"伊立替康"、"康艾注射液"、"痹痛立康酊"。
[0326] 步骤（7)，输出规格字符串"40mg"，包装规格字符串" 1只"，第一类型子字符串相匹配的词条"艾力"、"（成都）江苏恒瑞"、"水针"，第二类型子字符串匹配的词条"盐酸伊立替康"、"伊立替康"、"康艾注射液"、"痹痛立康酊"以及各个词条的词条属性，如下表24所示。其中，"1只"是"1支"的错别字；"（成都）江苏恒瑞"是生产厂家名称同义词，属于同义词型词条，其对应的标准型词条为"（成都）江苏恒瑞制药";"水针"是剂型同义词，属于同义词型词条，其对应的标准型词条为"注射液"，表24中输出的是标准型词条。
[0327] 表 24

[0330] 实施例四
[0331] 本实施例对另一具体的药品信息进行自然语言处理。
[0332] 药品信息字符串为：
[0333](立普妥）阿托伐他汀钙片20mg*7片
[0334] 按照如下步骤对该药品信息进行自然语言处理：
[0335]步骤（1)，输入以上药品信息字符串。
[0336] 步骤（2)，对该药品信息字符串中的非汉字进行格式归一化处理；并根据无关字符词典删除药品信息字符串中的无关字符*，得到预处理药品信息字符串"（立普妥）阿托伐他汀钙片20mg 7片"。
[0337]步骤（3)，判断以上预处理药品信息字符串中存在数字"20"和"7"，基于规格词典和包装规格词典，从以上预处理药品信息字符串中切分出规格字符串"20mg"和包装规格字符串"7片"，所述预处理药品信息字符串的剩余字符为："（立普妥）阿托伐他汀钙片"。
[0338] 步骤（4)，基于词典集，对以上所述预处理药品信息字符串的剩余字符进行切分，切分出第一类型子字符串"立普妥"、"阿托伐他汀钙片"，无第二类型子字符串。
[0339] 步骤（5)，输出规格字符串"20mg"，包装规格字符串"7片"，第一类型子字符串相匹配的词条"立普妥"、"阿托伐他汀钙片"以及各个词条的词条属性，如下表25所示。
[0340]表 25
[0341]
[0342] 示

完整全部详细技术资料下载

当前第4页1 2 3 4 5 6