一种基于音形泛化的模糊搜索方法与流程

文档序号:26852162发布日期:2021-10-09 02:20阅读:来源:国知局

技术特征:
1.一种基于基于音形泛化的模糊搜索方法,其特征在于:包括以下步骤:步骤一、对搜索信息s
s
进行分词,生成关键词组{w0、...、w
i
};基于词典分词或机器学习算法对所搜索信息s
s
进行中文分词处理,解析出关键词组{w0、...、w
i
、...、w
n
};步骤二、对关键词组w
i
进行语音泛化,生成泛化字音集合yw
i
;步骤1、关键词语w
i
转换为拼音串p
i
,p
i
=[y1...y
i
...y
n
],其中单个拼音的下标i的范围是从1到n,y
i
为第i个字的拼音,y
i
忽略掉声调;步骤2、泛化字音集合yw
i
默认包括拼音串p
i
,即yw
i
={p
i
};步骤3、设定字音泛化规则组sr,sr={r1、r2、r3};由平舌音和对应的翘舌音组成字音泛化规则r1,包括:{zh,z}、{ch、c}、{sh、s}三个组对;由前鼻音和后鼻音组成字音泛化规则r2,包括:{ang,an}、{eng、en}、{ing、in}三个组对;由鼻音与边音组成字音泛化规则r3,包括:{l,n}一个组对;步骤4、对泛化字音集合yw
i
中的元素按照顺序从前向后依次参照字音泛化规则组sr进行泛化;具体过程如下:(a)对泛化字音集合yw
i
中的拼音串p
i
,即[y1...y
i
...y
n
],依次根据字音泛化规则r1进行泛化;如果y1包含字音泛化规则r1中的任一字音,则使用与该字音同一组对中的字音进行替换得到y1‘
,由y1‘
...y
i
...y
n
组成p
i

11
,将p
i

11
加入泛化字音集合yw
i
,即yw
i
={p
i
,p
i

11
};同理,对y2...y
n
进行匹配替换,得到泛化字音集合yw
i
={p
i,
p
i

11
,...,p
i

1n
};(b)对泛化字音集合yw
i
中的拼音串p
i
,即[y1...y
i
...y
n
],依次进行根据字音泛化规则r2进行泛化,得到泛化字音集合yw
i
={p
i,
p
i

21
,...,p
i

2n
,p
i

11
...,p
i

11

2n
,...,p
i

1n
,p
i

1n

21
,...,p
i

1n

2n
};(c)对泛化字音集合yw
i
中的拼音串p
i
,即[y1...y
i
...y
n
],依次进行根据字音泛化规则r3进行泛化,得到泛化字音集合yw
i
={p
i,
p
i

31
,...,p
i

21
,p
i

21

31
...,p
i

2n
,p
i

2n

31
...,p
i

1n

2n
,p
i

1n

2n

31
};(d)由w
i
的首字母组成泛化串fp
i
,将泛化串fp
i
加入泛化字音集合中,得到泛化字音集合yw
i
={p
i,
p
i

31
,...,p
i

21
,p
i

21

31
...,p
i

2n
,p
i

2n

31
...,p
i

1n

2n
,p
i

1n

2n

31
、fp
i
};步骤三、对关键词语w
i
进行字形泛化,生成泛化字形集合xw
i
。字形相近不同于字音,无法进行规则的自动化泛化;选择字形识别中通用的部分空间法,对常用的汉字匹配筛选,形成相似汉字的字典;步骤1、泛化字形集合xw
i
默认包括w
i
,即xw
i
={w
i
};步骤2、关键词语w
i
包含的字为x1x2...x
n
,从x1开始进行字形泛化;具体如下:根据x1查找形近字词典获得{x
11
、...、x
1n
},由形近字替代生成字形泛化词组{t1‑1、...t1‑
n
},其中,t1‑1=x
11
x2..
.
x
n
,t1‑
n
=x
1n
x2...x
n
,将泛化后的词组加入泛化字形集合xw
i
,即泛化字形集合
xw
i
={w
i
、t1‑1、...t1‑
n
};步骤3、依次从x2~x
n
进行查找替代,形成泛化字形集合xw
i
={w
i
、...t
i
‑1、...t
i

n
、...t
n
‑1、...t
n

n
};步骤四、根据搜索信息s
s
中的关键词组{w0、...、w
i
}的泛化字音集合yw
i
、泛化字形集合xw
i
,形成总的模糊搜索集合s
all
;s
all
={yw0、...yw
i
、...yw
n
、...xw0、...xw
i
、...xw
n
};步骤五、从总的模糊搜索集合s
all
中逐一取出进行检索的内容,完成相应的信息搜索,对搜索结果进行合并,搜索完成。

技术总结
一种基于基于音形泛化的模糊搜索方法,步骤为:1、对搜索信息进行分词,生成关键词组;2、对关键词组进行语音泛化,生成泛化字音集合;3、对关键词语进行字形泛化,生成泛化字形集合;4、根据搜索信息中的关键词组的泛化字音集合、泛化字形集合,形成总的模糊搜索集合;5、从总的模糊搜索集合中逐一取出进行检索的内容,完成相应的信息搜索,对搜索结果进行合并,搜索完成。本发明方法搜索关键字的字音、字形进行泛化处理,形成与搜索关键字关联的模糊搜索关键字集合,再基于该搜索关键字集合进行匹配搜索,实现与关键字字音相同或相近、字形相近的文字内容的检索,显著提高了检索的覆盖度和成功率。成功率。成功率。


技术研发人员:王文庆 毕玉冰 曾荣汉 杨东 邓楠轶 董夏昕 介银娟 刘超飞 朱博迪 崔逸群
受保护的技术使用者:西安热工研究院有限公司
技术研发日:2021.06.30
技术公布日:2021/10/8
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1