一种基于贝叶斯分词算法的中文地址语义标注方法与流程

文档序号：12120969阅读：来源：国知局

技术特征：

1.一种基于贝叶斯分词算法的中文地址语义标注方法，其特征在于，包括：

步骤S1：预设置针对中文地址数据进行语义标注的标注关系表，其中，所述标注关系表中至少包含行政区名称以及用于标注所述行政区名称的行政区标记；

步骤S2：获取已预先切分、标注好NT条中文地址数据的集合T作为训练语料，设集合T＝{T_i}，其中各条中文地址数据为T_i，且1≤i≤NT；

步骤S3：对集合T进行统计学习，所述统计学习具体包括步骤S31：统计集合T中切分出的各词语、各词语的词频、各词语与其相邻上一词语同时出现的频度值，并存入词频词典Word_dic中；步骤S32：统计各词语以及与该词语对应的标注关系，存入标注关系词典Taging_dic中；步骤S33：统计各条中文地址数据T_i的标注模式及其模式频度值，存入标注模式表Taging_mode中；

步骤S4：输入待标注的地址字符串S，并对地址字符串S进行全切分，得到切分集合W＝{W_i}，1≤i≤2^l-1，其中，l是地址字符串S的长度；

步骤S5：根据所述词频词典Word_dic中各词语的词频值，根据贝叶斯分词算法计算集合W＝{W_i}中每一个元素W_i的概率，并保存概率最大的分词方案记为seg_result；

步骤S6：根据所述标注关系词典Taging_dic中每个词语对应的标注关系，对所述分词方案seg_result中切分好的每一个词语进行标注，得到针对地址字符串S的标注结果tag_temp。

2.根据权利要求1所述的一种基于贝叶斯分词算法的中文地址语义标注方法，其特征在于，所述贝叶斯分词算法包括：

设地址字符串S的第i种切分方式为W_i＝w₁w₂…w_n，则w₁、w₂、…、w_n就代表了切分方式中的n个词，求最大概率分词方式即为：

$<mrow> <msup> <mi>W</mi> <mo>′</mo> </msup> <mo>=</mo> <mi>M</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>P</mi> <mo>(</mo> <mrow> <msub> <mi>W</mi> <mn>1</mn> </msub> <mo>|</mo> <mi>S</mi> </mrow> <mo>)</mo> <mo>,</mo> <mi>P</mi> <mo>(</mo> <mrow> <msub> <mi>W</mi> <mn>2</mn> </msub> <mo>|</mo> <mi>S</mi> </mrow> <mo>)</mo> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>P</mi> <mo>(</mo> <mrow> <msub> <mi>W</mi> <mi>n</mi> </msub> <mo>|</mo> <mi>S</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mi>argmax</mi> <msub> <mi>W</mi> <mi>i</mi> </msub> </munder> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>i</mi> </msub> <mo>|</mo> <mi>S</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>,</mo> </mrow>$

若所有的词语确定，则句子唯一确定，P(S|W_i)＝1，对于地址字符串S的多种分词方式，P(S)为常数，根据贝叶斯公式有：

$<mrow> <msup> <mi>W</mi> <mo>′</mo> </msup> <mo>=</mo> <munder> <mrow> <mi>arg</mi> <mi>max</mi> </mrow> <msub> <mi>W</mi> <mi>i</mi> </msub> </munder> <mi>P</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>W</mi> <mi>i</mi> </msub> <mo>|</mo> <mi>S</mi> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mrow> <mi>arg</mi> <mi>max</mi> </mrow> <msub> <mi>W</mi> <mi>i</mi> </msub> </munder> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mrow> <mi>S</mi> <mo>|</mo> <msub> <mi>W</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>&Proportional;</mo> <munder> <mrow> <mi>arg</mi> <mi>max</mi> </mrow> <msub> <mi>W</mi> <mi>i</mi> </msub> </munder> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>$

应用二元语法模型(Bigram)根据联合概率公式有：

$<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>Π</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>n</mi> </msub> <mo>|</mo> <msub> <mi>w</mi> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>$

$<mrow> <msup> <mi>W</mi> <mo>′</mo> </msup> <mo>=</mo> <munder> <mi>argmax</mi> <msub> <mi>W</mi> <mi>i</mi> </msub> </munder> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mi>argmax</mi> <msub> <mi>W</mi> <mi>i</mi> </msub> </munder> <munderover> <mo>Π</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>n</mi> </msub> <mo>|</mo> <msub> <mi>w</mi> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>$

求解式(2)相当于寻找到联合概率最大的路径W'，记为seg_result。

3.根据权利要求1所述的一种基于贝叶斯分词算法的中文地址语义标注方法，其特征在于，在步骤S6之后，该方法还包括：

步骤S7：设不确定标注关系的词语对应的行政区标记为Unknown，判断所述标注结果tag_temp中是否包含不确定标注关系的词语，如果包含，则提取所述标注结果tag_temp中的词语标注序列并记为L，设L的长度为len；

步骤S8：选取标注模式表Taging_dic中标注模式长度为len的n个标注模式作为待匹配模式集合M＝{M_i}，其中1≤i≤n，与L进行模式匹配，该模式匹配的方式包括：

步骤a：取待匹配模式集合M中的标注模式M_i与L进行匹配，设匹配起始位置为start＝1，结束位置为end＝len，匹配位置为j,1≤j≤len，使j＝start；

步骤b：取词语标注序列L中的行政区标记l_j与M_i中的行政区标记m_j进行对比，如果l_j≠Unknown，判断l_j是否等于m_j，如果l_i＝m_j相等，则j＝j+1，继续步骤b；如果l_i≠m_j，将此M_i从M＝{M_i}中删除；如果l_j＝Unknown，则j＝j+1，继续步骤b；直到j＝len；

步骤c：使i＝i+1，继续步骤a，直到i＝n，得到一个新的模式集合M’；

步骤S9：根据所述标注模式表Taging_mode，取模式集合M’中模式频度值最大的模式作为标注结果，将tag_temp中的Unknown标注改变为模式频度值最大的模式中与Unknown标注位置相对应的行政区标记，得到新的标注结果并记为tag_result；

步骤S10：输出新的标注结果tag_result。

4.根据权利要求3所述的一种基于贝叶斯分词算法的中文地址语义标注方法，其特征在于，在得到标注结果tag_result之后所述方法还包括：

将所述标注结果tag_temp中Unknown标注原来对应的词语，及该词语现在的标注关系添加到所述标注关系词典Taging_dic中。

5.根据权利要求1所述的一种基于贝叶斯分词算法的中文地址语义标注方法，其特征在于，所述标注关系表中的行政区名称分类为至少五级行政区类别，其中一级行政区名称至少包括省、自治区、直辖市、特别行政区；二级行政区名称至少包括地级市、自治州、地区、盟；三级行政区名称至少包括市辖区、县、县级市、旗、特区、林区；四级行政区名称至少包括区公所、乡、镇、苏木、街道办事处、商业区；五级行政区名称至少包括社区、居委会、行政村。

6.根据权利要求5所述的一种基于贝叶斯分词算法的中文地址语义标注方法，其特征在于，所述标注关系表中的行政区名称至少还包括以下六类其一，其中第一类为基本区域限定物至少包括地片、区片、自然村、居民小区；其中第二类为街巷名至少包括道路、街、巷、胡同、弄；其中第三类为门址至少包括门牌号；其中第四类为兴趣点至少包括兴趣点、标志物；其中第五类为标点符号；其中第六类为不确定项对应不确定关系的名称。

完整全部详细技术资料下载

当前第2页1 2 3