一种基于音形泛化的模糊搜索方法与流程

文档序号：26852162发布日期：2021-10-09 02:20阅读：来源：国知局

技术特征：
1.一种基于基于音形泛化的模糊搜索方法，其特征在于：包括以下步骤：步骤一、对搜索信息s
s
进行分词，生成关键词组{w0、...、w
i
}；基于词典分词或机器学习算法对所搜索信息s
s
进行中文分词处理，解析出关键词组{w0、...、w
i
、...、w
n
}；步骤二、对关键词组w
i
进行语音泛化，生成泛化字音集合yw
i
；步骤1、关键词语w
i
转换为拼音串p
i
，p
i
＝[y1...y
i
...y
n
]，其中单个拼音的下标i的范围是从1到n，y
i
为第i个字的拼音，y
i
忽略掉声调；步骤2、泛化字音集合yw
i
默认包括拼音串p
i
，即yw
i
＝{p
i
}；步骤3、设定字音泛化规则组sr，sr＝{r1、r2、r3}；由平舌音和对应的翘舌音组成字音泛化规则r1，包括：{zh，z}、{ch、c}、{sh、s}三个组对；由前鼻音和后鼻音组成字音泛化规则r2，包括：{ang，an}、{eng、en}、{ing、in}三个组对；由鼻音与边音组成字音泛化规则r3，包括：{l，n}一个组对；步骤4、对泛化字音集合yw
i
中的元素按照顺序从前向后依次参照字音泛化规则组sr进行泛化；具体过程如下：(a)对泛化字音集合yw
i
中的拼音串p
i
，即[y1...y
i
...y
n
]，依次根据字音泛化规则r1进行泛化；如果y1包含字音泛化规则r1中的任一字音，则使用与该字音同一组对中的字音进行替换得到y1‘
，由y1‘
...y
i
...y
n
组成p
i
‑
11
，将p
i
‑
11
加入泛化字音集合yw
i
，即yw
i
＝{p
i
，p
i
‑
11
}；同理，对y2...y
n
进行匹配替换，得到泛化字音集合yw
i
＝{p
i,
p
i
‑
11
,...,p
i
‑
1n
}；(b)对泛化字音集合yw
i
中的拼音串p
i
，即[y1...y
i
...y
n
]，依次进行根据字音泛化规则r2进行泛化，得到泛化字音集合yw
i
＝{p
i,
p
i
‑
21
,...,p
i
‑
2n
,p
i
‑
11
...,p
i
‑
11
‑
2n
,...,p
i
‑
1n
,p
i
‑
1n
‑
21
,...,p
i
‑
1n
‑
2n
}；(c)对泛化字音集合yw
i
中的拼音串p
i
，即[y1...y
i
...y
n
]，依次进行根据字音泛化规则r3进行泛化，得到泛化字音集合yw
i
＝{p
i,
p
i
‑
31
,...,p
i
‑
21
,p
i
‑
21
‑
31
...,p
i
‑
2n
,p
i
‑
2n
‑
31
...,p
i
‑
1n
‑
2n
,p
i
‑
1n
‑
2n
‑
31
}；(d)由w
i
的首字母组成泛化串fp
i
，将泛化串fp
i
加入泛化字音集合中，得到泛化字音集合yw
i
＝{p
i,
p
i
‑
31
,...,p
i
‑
21
,p
i
‑
21
‑
31
...,p
i
‑
2n
,p
i
‑
2n
‑
31
...,p
i
‑
1n
‑
2n
,p
i
‑
1n
‑
2n
‑
31
、fp
i
}；步骤三、对关键词语w
i
进行字形泛化，生成泛化字形集合xw
i
。字形相近不同于字音，无法进行规则的自动化泛化；选择字形识别中通用的部分空间法，对常用的汉字匹配筛选，形成相似汉字的字典；步骤1、泛化字形集合xw
i
默认包括w
i
，即xw
i
＝{w
i
}；步骤2、关键词语w
i
包含的字为x1x2...x
n
，从x1开始进行字形泛化；具体如下：根据x1查找形近字词典获得{x
11
、...、x
1n
},由形近字替代生成字形泛化词组{t1‑1、...t1‑
n
}，其中，t1‑1＝x
11
x2..
.
x
n
，t1‑
n
＝x
1n
x2...x
n
，将泛化后的词组加入泛化字形集合xw
i
，即泛化字形集合
xw
i
＝{w
i
、t1‑1、...t1‑
n
}；步骤3、依次从x2～x
n
进行查找替代，形成泛化字形集合xw
i
＝{w
i
、...t
i
‑1、...t
i
‑
n
、...t
n
‑1、...t
n
‑
n
}；步骤四、根据搜索信息s
s
中的关键词组{w0、...、w
i
}的泛化字音集合yw
i
、泛化字形集合xw
i
，形成总的模糊搜索集合s
all
；s
all
＝{yw0、...yw
i
、...yw
n
、...xw0、...xw
i
、...xw
n
}；步骤五、从总的模糊搜索集合s
all
中逐一取出进行检索的内容，完成相应的信息搜索，对搜索结果进行合并，搜索完成。

技术总结
一种基于基于音形泛化的模糊搜索方法，步骤为：1、对搜索信息进行分词，生成关键词组；2、对关键词组进行语音泛化，生成泛化字音集合；3、对关键词语进行字形泛化，生成泛化字形集合；4、根据搜索信息中的关键词组的泛化字音集合、泛化字形集合，形成总的模糊搜索集合；5、从总的模糊搜索集合中逐一取出进行检索的内容，完成相应的信息搜索，对搜索结果进行合并，搜索完成。本发明方法搜索关键字的字音、字形进行泛化处理，形成与搜索关键字关联的模糊搜索关键字集合，再基于该搜索关键字集合进行匹配搜索，实现与关键字字音相同或相近、字形相近的文字内容的检索，显著提高了检索的覆盖度和成功率。成功率。成功率。

技术研发人员：王文庆毕玉冰曾荣汉杨东邓楠轶董夏昕介银娟刘超飞朱博迪崔逸群
受保护的技术使用者：西安热工研究院有限公司
技术研发日：2021.06.30
技术公布日：2021/10/8

完整全部详细技术资料下载

当前第2页1 2