自动识别网页中维吾尔文的方法及其系统的制作方法

文档序号:6603477阅读:442来源:国知局
专利名称:自动识别网页中维吾尔文的方法及其系统的制作方法
技术领域
本发明涉及网页处理领域,尤其涉及自动识别网页中维吾尔文的方法及其系统。
背景技术
目前世界上大约有60多个民族的文字是以阿拉伯字母为基础来书写的,中国新疆地区使用的维吾尔文、哈萨克文和柯尔克孜文都属于这类文字,称以阿拉伯字母书写的 维文为ASU (Arabic-Script Uyghur),如何在阿拉伯文、波斯文、哈萨克文和柯尔克孜文等 文字中识别出维吾尔文为所要解决的问题。为了区分维吾尔文字,尤其是网页上出现的维吾尔文,现有技术中有两种做法。一 是查看文字编码,看中间有没有出现维吾尔文特有而阿拉伯文没有的18个字母;二是查看 网页中的字体文件,看有没有出现维吾尔文常见的字体名称。依赖特殊字母识别维吾尔文字有两个缺点,一是要求网页中必须出现这18个特 殊字母之一才能判别;二是这18个字母的编码有可能也被其他使用阿拉伯字母的文字如 哈萨克文等使用,从而造成识别错误。在有些维文网页中使用了 WEFT (Microsoft Web Embedding Font Tool网页字体 嵌入工具技术),能够将网页中的字体制作成一个E0T(Embedded0penType嵌入式轮廓型字 体)格式的压缩字库,用这个字库来显示维文的特殊变形。不同的网站有不同的EOT文件 名,如果仅仅提出根据这些字体文件的名称等信息来识别维文,会有三个缺点一是现实中 有些藏文网页也采用了 WEFT技术,不能确保藏文的EOT文件名与维文不同;二是未来可能 有很多维文网站使用了新的EOT文件名,新的EOT名称不可预知;三是非IE内核的浏览器 如f irefox、谷歌浏览器chrome等不支持TOFT技术,从而使得这种方法失效。现在很多少数民族的文字在网页上主要以utf8编码来显示、传递和存储,而utf8 编码理论上可以处理所有语言,也就是不区分语言的类别。对中文使用者而言,阿拉伯文、 维文、哈萨克文,柯尔克孜文非常相似,如果不借助于识别算法,这几种文字几乎无法分辨。 解决对维吾尔文自动识别的问题。

发明内容
为解决上述问题,本发明提供了自动识别网页中维吾尔文的方法及其系统,通过 使用语言η元组识别网页中所用语言是否为维吾尔文,提高识别的准确性。本发明公开了一种自动识别网页中维吾尔文的方法,包括步骤1,确定作为识别特征的η元组中η的取值,对于训练网页中使用的每种语 言,统计所述语言的各个η元组在使用所述语言的训练网页中的出现频率,以所述出现频 率为一个权重值,并且取所述η元组在预设标准编码中的有效位生成所述权重值对应的特 征ID,所述训练网页中使用的语言包括维吾尔文和同维吾尔文相似文字;步骤2,统计待识别网页中每个η元组的出现次数,取所述η元组在预设标准编码 中有效位生成所述出现次数对应的识别ID,对于训练网页使用的每种语言,将特征ID的权重值和与所述特征ID相同的识别ID的出现次数相乘,叠加乘积,所得和值为待识别网页对 应于所述语言的分值,所述待识别网页使用的语言为最高分值对应的语言。所述步骤1前还包括步骤21,对训练网页和待识别网页进行预处理,除去网页标签,获得网页显示的字 符的正文,并对转义字符进行还原。所述步骤21还包括步骤31,将正文中代表两个字符的连写字母编码转换为拆分后对应的两个字符的 编码;步骤32,判断词首元音字母前是否具有hamza,如果不具有,则在所述词首元音字母前添加;步骤33,判断词首元音字母是否为复合元音字母,如果是,则将所述复合元音字母 拆分为对应的两个字符;步骤34,将阿拉伯字母扩展区中的字母转换为阿拉伯字母基本区中对应形状的字母。所述步骤1中确定作为识别特征的η元组中η的取值进一步为,步骤41,对于训练网页中使用的每种语言,统计所述语言中i元组的出现概率,i 的取值为1至m,m为预设值;步骤42,依据所述出现概率优先选择出现概率较高的i元组作为识别特征。所述步骤1中还包括步骤51,对于每种语言,将权重值按从大到小排名,选取前K个权重值,将选取的 权重值和所述权重值对应的特征ID记录到所述语言的特征权重表中;所述语言的前K个权 重值相加大于预设阀值,K为所述语言对应的选取值;所述步骤2中对于训练网页使用的每种语言,将特征ID的权重值和与所述特征ID 相同的识别ID的出现次数相乘进一步为,步骤52,对于训练网页使用的每种语言,将所述语言的特征权重表中特征ID的权 重值和与所述特征ID相同的识别ID的出现次数相乘。所述步骤2中统计待识别网页中每个η元组的出现次数,取所述η元组在预设标 准编码中有效位生成所述出现次数对应的识别ID后还包括,步骤61,在存储单元中存储所述η元组的出现次数,以所述识别ID为所述存储单 元的下标,各个存储单元组成η元组数组;所述步骤2中对于训练网页使用的每种语言,将特征ID的权重值和与所述特征ID 相同的识别ID的出现次数相乘进一步为,步骤62,对于每种语言,遍历所述语言的特征权重表,对于特征权重表每一行,读 取所述行的特征ID,在所述η元组数组中查找下标为所述特征ID的存储单元,将查找到的 存储单元存储的数值与所述行的权重值相乘。本发明还公开了一种自动识别网页中维吾尔文的系统,包括训练模块,用于确定作为识别特征的η元组中η的取值,对于训练网页中使用的每 种语言,统计所述语言的各个η元组在使用所述语言的训练网页中的出现频率,以所述出 现频率为一个权重值,并且取所述η元组在预设标准编码中的有效位生成所述权重值对应的特征ID,所述训练网页中使用的语言包括维吾尔文和同维吾尔文相似文字;
识别模块,用于统计待识别网页中每个η元组的出现次数,取所述η元组在预设标 准编码中有效位生成所述出现次数对应的识别ID,对于训练网页使用的每种语言,将特征 ID的权重值和与所述特征ID相同的识别ID的出现次数相乘,叠加乘积,所得和值为待识别 网页对应于所述语言的分值,所述待识别网页使用的语言为最高分值对应的语言。所述系统还包括预处理模块,所述预处理模块在所述训练模块和所述识别模块启 动前运行,所述预处理模块,用于对训练网页和待识别网页进行预处理,除去网页标签,获得 网页显示的字符的正文,并对转义字符进行还原。
所述预处理模块还用于将正文中代表两个字符的连写字母编码转换为拆分后对 应的两个字符的编码;判断词首元音字母前是否具有hamza,如果不具有,则在所述词首元 音字母前添加;判断词首元音字母是否为复合元音字母,如果是,则将所述复合元音字母拆 分为对应的两个字符;将阿拉伯字母扩展区中的字母转换为阿拉伯字母基本区中对应形状 的字母。所述训练模块在确定作为识别特征的η元组中η的取值时进一步用于对于训练网 页中使用的每种语言,统计所述语言中i元组的出现概率,i的取值为1至m,m为预设值; 依据所述出现概率优先选择出现概率较高的i元组作为识别特征。所述训练模块还用于对于每种语言,将权重值按从大到小排名,选取前K个权重 值,将选取的权重值和所述权重值对应的特征ID记录到所述语言的特征权重表中;所述语 言的前K个权重值相加大于预设阀值,K为所述语言对应的选取值;所述识别模块在对于训练网页使用的每种语言,将特征ID的权重值和与所述特 征ID相同的识别ID的出现次数相乘时进一步用于对于训练网页使用的每种语言,将所述 语言的特征权重表中特征ID的权重值和与所述特征ID相同的识别ID的出现次数相乘。所述识别模块在统计待识别网页中每个η元组的出现次数,取所述η元组在预设 标准编码中有效位生成所述出现次数对应的识别ID后还用于,在存储单元中存储所述η元组的出现次数,以所述识别ID为所述存储单元的下 标,各个存储单元组成η元组数组;所述识别模块在对于训练网页使用的每种语言,将特征ID的权重值和与所述特 征ID相同的识别ID的出现次数相乘时进一步用于对于每种语言,遍历所述语言的特征权 重表,对于特征权重表每一行,读取所述行的特征ID,在所述η元组数组中查找下标为所述 特征ID的存储单元,读取查找到的存储单元存储的数值,将所述数值同所述行的权重值相 乘。本发明的有益效果在于,通过使用语言η元组识别网页中所用语言是否为维吾尔 文,提高识别的准确性;通过对训练网页和待识别网页进行预处理,提高识别的准确性,通 过建立特征权重表提高识别效率;通过使用特征ID和识别ID进行搜索,提高识别效率。


图1为本发明自动识别网页中维吾尔文的方法的流程图;图2为本发明自动识别网页中维吾尔文的方法的具体实施方式
流程图3为采用本发明进行自动识别网页中维吾尔文方法的结果显示图;图4为本发明自动识别网页中维吾尔文的系统的结构图;图5为本发明一个更优的实施方式中自动识别网页中维吾尔文的系统的结构图。
具体实施例方式下面结合附图,对本发明做进一步的详细描述。本发明自动识别网页中维吾尔文的方法的流程如图1所示。步骤S100,确定作为识别特征的n元组中n的取值,对于训练网页中使用的每种语 言,统计所述语言的各个n元组在使用所述语言的训练网页中的出现频率,以所述出现频 率为一个权重值,并且取所述n元组在预设标准编码中的有效位生成所述权重值对应的特 征ID,所述训练网页中使用的语言包括维吾尔文和同维吾尔文相似文字。步骤S200,统计待识别网页中每个n元组的出现次数,取所述n元组在预设标准编 码中有效位生成所述出现次数对应的识别ID,对于训练网页使用的每种语言,将特征ID的 权重值和与所述特征ID相同的识别ID的出现次数相乘,叠加乘积,所得和值为待识别网页 对应于所述语言的分值,所述待识别网页使用的语言为最高分值对应的语言。本发明自动识别网页中维吾尔文的方法的具体实施方式
的流程如图2所示。步骤S301,对训练网页和待识别网页进行预处理,除去网页标签,获得网页显示的 字符的正文,并对转义字符进行还原,训练网页中使用的语言包括维吾尔文和同维吾尔文 相似文字。预处理是将网页转换为纯文本。现有的HTML分析器按D0M树进行分析,最终生成 的正文在叶子结点上,而且转义字符没有解析,是原样复制。而维吾尔文的字符很多使用了 十进制或者十六进制的字符实体,如“ti”在网页中表示为“ئ ”,或者“&#X0626 ; ”, 或者 “&#x626 ;,,。因此,在预处理时,在去除网页标签的同时,对转义字符,十进制及十六进制,都进 行了还原。例如&#DDDDD,将十进制数 DDDDD 转换为 unsigned short int ;&#XHHHH,将十六进制数 HHHH 转换为 unsigned short int ;其它转义字符,如&nbsp,按空格处理,也起到切分单词的作用。通过预处理,生成网页实际显示的字符的正文,以方便后续使用n元语法进行文 种判断。使用同维吾尔文相似文字的网页,其中是否相似以不懂维吾尔文的读者是否能够 区分该文字同维吾尔文为标准;例如,维吾尔文相似文字包括阿拉伯文、哈萨克文、柯尔克 孜文。在较佳的实施方式中,对训练网页和待识别网页的预处理还包括如下操作。针对一个字母两个编码问题,例如^对应编码为0xfefb,V实际代表了两个字符 (I J),而进行如下操作。将正文中代表两个字符的编码拆分为对应的两个字符,例如,将Y 拆分为对应的两个字符(Id)。针对词首元音字母前加hamZa(G代表闭锁音的符号)的不一致问题,进行如下操作,判断词首元音字母前是否具有hamza,如果不具有,则在所述词首元音字母前添加;判 断词首元音字母是否为复合元音字母,如果是,则将所述复合元音字母拆分为对应的两个 字符;例如,词首元音字母是复合元音字母“U”,则把它拆分为对应的和I。针对一个字母n个编码问题,其中n大于2,该问题原因主要是维文借助阿拉伯字 母来书写,但又具有维文特有的一些语言现象;而Unicode标准并没有给维文一个单独的 编码区,所以不同网站设计者为显示特殊维文字母的需要选择了不同的编码来代表同一个 维文字母。把阿拉伯字母扩展区中的字母转换为阿拉伯字母基本区中对应形状的字母,保 持了编码上的一致性。通过预处理,使得维吾尔文和同维吾尔文相似文字的网页的分析和判断基于一致 的标准,避免了混乱,提高了判断准确性。步骤S302,确定作为识别特征的n元组中n的取值。n的确定方法,一种简单的实施方式是通过配置输入。确定n的优选实施方式如下。对于训练网页中使用的每种语言,统计所述语言中i元组的出现概率,i的取值为 1至m,m为预设值。对于一个i的取值,统计该i元组在各个语言的训练网页中出现概率。依据所述出现概率优先选择出现概率较高的i元组作为识别特征。一种选择方式 为对于每个i元组,将该i元组在各个语言中的出现概率相加,选择加和最大的i元组为识 别特征;也可将出现概率同配置的对于各个语言的权重值相乘后相加。或者对于每种语言, 将各个i元组按出现概率排序,对应排序中的每个位置设定分值,将每个i元组在各个语言 的队列中的分值相加,按分值选择识别特征。例如,从所有预处理后的训练网页的文本中,统计各种语言的的bigram(二元 组)、trigram(三元组)、4gram(四元组)和5gram(五元组)的出现概率。依据bigram、 trigram、4gram和5gram在各个语言的训练网页中出现概率优先选择出现概率较高的i元 组作为识别特征。具体实施例中n的值取2。步骤S303,在训练阶段,根据训练网页中各个语言的出现频率生成特征权重表。对于训练网页中使用的每种语言,统计所述语言的各个n元组在使用所述语言的 训练网页中的出现频率,以出现频率为一个权重值。对于每种语言,将按权重值按从大到 小,将n元组排名,选取前K个n元组。实施例中,对于每种语言,从使用所述语言的训练网页的正文中统计各个二元组 的出现次数,对于每个二元组,将该二元组的出现次数除以该语言的训练网页中所有二元 组出现次数的总和,所得商值为该二元组的出现频率。对每种语言,取出现频率最高的K个 二元组,生成该语言对应的特征权重表。K的值要满足该K个二元组的出现频率的加和大于 预设阀值。例如,预设阀值为95%,则对于维吾尔文K为1000,对于阿拉伯文K为400。理论上本申请中二元组的个数上限为65536,实际实验中统计得到的维文二元组 个数为1130,最高的二元组出现了 5106348次,最低的出现1次,其中出现次数较少的100 多个二元组的出现次数在1次到30次之间,说明这些二元组是该文字的字母间的罕见搭 配,对该语言的表达能力不强,属于无效的二元组;而且这些二元组的权重极小,接近机器 零,用浮点数无法表示。保留这些二元组,不仅对于文种的判别帮助不大,而且会造成较大的存储开销和计算时间复杂度;这些丢弃不用的二元组出现次数累计1300次左右,在所有 二元组次数总和中占据不足1 %的比例,影响甚小。特征权重表中每一行包括n元组的出现频率,为权重值,和n元组对应的特征ID。 特征ID根据该n元组在预设标准编码中的有效位而生成。例如,预设编码标准为Unicode, 则二元组“J c5”的Unicode编码为0x0644和0x0649,用各自的低位十六进制数即0x44和 0x49组合为0x4449,即十进制数17481作为二元组“cJ c ”的ID。以维吾尔文特征权重表为例,表长1000,以记录维吾尔文的1000个bigram的出现 频率,如表1所示。 表 1每一行的第一项表示特征ID,用一个无符号数表示,识别过程中也作为待 识别网页中bigram出现次数统计数组的下标。如第五行的“ 17481”表示识别特征 bigram"J ?,,为了清楚起见字母用空格隔开,真实文本表现为“j”,对应的特征ID为 17481。第二项表示该识别特征的权重值,是在训练过程中该识别特征在维吾尔文训练网页 的所有bigram中所占的比例,如第五行的“0. 013896”表示“ J c ”权重值为0. 013896。步骤S304,统计待识别网页中每个n元组的出现次数,取所述n元组在预设标准编 码中有效位生成所述出现次数对应的识别ID。在存储单元中存储n元组的出现次数,以对应的识别ID为该存储单元的下标,各 个n元组的存储单元组成n元组数组。将待识别网页中所有bigram统计一遍,时间复杂度是0(n),共需要256X256 = 65536个存储单元,存放到一个整数数组中,对于每个bigram的存储单元,取bigram在预设 标准编码中有效位生成对应的识别ID,,存储单元的下标为该识别ID,每个存储单元存储 的值为待识别网页中该bigram的出现次数。把这个数组称为bigram数组。
步骤S305,对于训练网页使用的每种语言,将特征ID的权重值和与所述特征ID相 同的识别ID的出现次数相乘,叠加乘积,所得和值为待识别网页对应于所述语言的分值, 所述待识别网页使用的语言为最高分值对应的语言。对于每种语言,遍历所述语言的特征权重表,对于特征权重表每一行,读取所述行 的特征ID,在所述n元组数组中查找下标为所述特征ID的存储单元,将查找到的存储单元 存储的数值与所述行的权重值相乘;如果为零,说明该特征在待识别网页中没有出现。具体地,对阿拉伯文的Bigram特征权重表的每一行,以该行的权重值为被乘数, 在Bigram数组中查找以该行的特征ID为下标的存储单元,取出该存储单元存储的bigram 的出现次数,作为乘数;将乘数和被乘数相乘。阿拉伯的的Bigram特征权重表共有400行,把上述400个乘积累计后,就是该待 识别网页的阿拉伯文得分,表示为待识别网页属于阿拉伯文的概率。同样,算出维吾尔文得分,1000个乘积项的累加,如果维文分值最大,则该待识别 网页就是维吾尔文。有益效果在于,特征权重表比较小(1000行以内),以特征ID作为待识别网页的 Bigram数组下标,查询速度快,计算得分,该得分表示待识别网页属于某种语言的概率,的 乘法次数少,执行效率高。下面通过两个测试来表明维文识别的准确率,测试1的项目如表2所示。 表 2如图3所示,最后分值大于0的为维吾尔文,其中uy_12.htm是维吾尔软件公司 (维软公司)的一个页面,另一个维文页面来自新疆泽普县维吾尔高级中学的网站,能够准 确识别出来。测试2的项目如表3所示测试2批量网页的识别准确率测试测试内容对批量的网页进行测试测试条件100个网页,其中98个页面来自维吾尔软件公司的 网站,另外加入一个中文页面“中国Msn. html,,, 一个阿拉伯文页面“阿拉伯.html” 页面中包含有转义字符(字符实体),转义字符中 表示包括中文及阿拉伯文测试过程100个网页进行测试后,给出哪些是维文测试结果识别准确率100%测试结果说明在 100 个文件中,swflash-1. cab 和 float, asp 不 是网页文件,另有六个网页文件不是utf-8编码, 剩余的92个网页文件判断完全正确 表 3一种自动识别网页中维吾尔文的系统的结构如图4所示。训练模块200,用于确定作为识别特征的n元组中n的取值,对于训练网页中使用 的每种语言,统计所述语言的各个n元组在使用所述语言的训练网页中的出现频率,以所 述出现频率为一个权重值,并且取所述n元组在预设标准编码中的有效位生成所述权重值 对应的特征ID,所述训练网页中使用的语言包括维吾尔文和同维吾尔文相似文字。识别模块300,用于统计待识别网页中每个n元组的出现次数,取所述n元组在预 设标准编码中有效位生成所述出现次数对应的识别ID,对于训练网页使用的每种语言,将 特征ID的权重值和与所述特征ID相同的识别ID的出现次数相乘,叠加乘积,所得和值为 待识别网页对应于所述语言的分值,所述待识别网页使用的语言为最高分值对应的语言。在一个较佳的方案中,所述系统还包括预处理模块100,所述预处理模块100在训 练模块200和识别模块300启动前运行,如图5所示。预处理模块100,用于对训练网页和待识别网页进行预处理,除去网页标签,获得 网页显示的字符的正文,并对转义字符进行还原。进一步的,预处理模块100还用于将正文中代表两个字符的连写字母,例如^和》, 编码转换为拆分后对应的两个字符的编码;判断词首元音字母前是否具有hamza,如果不 具有,则在所述词首元音字母前添加;判断词首元音字母是否为复合元音字母,如果是,则 将所述复合元音字母拆分为对应的两个字符;将阿拉伯字母扩展区中的字母转换为阿拉伯 字母基本区中对应形状的字母。在一个较佳的方案中,训练模块200在确定作为识别特征的n元组中n的取值时 进一步用于对于训练网页中使用的每种语言,统计所述语言中i元组的出现概率,i的取值为1至m,m为预设值;依据所述出现概率优先选择出现概率较高的i元组作为识别特征。在一个较佳的方案中,训练模块200还用于对于每种语言,将权重值按从大到小 排名,选取前K个权重值,将选取的权重值和所述权重值对应的特征ID记录到所述语言的 特征权重表中;所述语言的前K个权重值相加大于预设阀值,K为所述语言对应的选取值。识别模块300在对于训练网页使用的每种语言,将特征ID的权重值和与所述特征 ID相同的识别ID的出现次数相乘时进一步用于对于训练网页使用的每种语言,将所述语 言的特征权重表中特征ID的权重值和与所述特征ID相同的识别ID的出现次数相乘。进一步的,识别模块300在统计待识别网页中每个n元组的出现次数,取所述n元 组在预设标准编码中有效位生成所述出现次数对应的识别ID后还用于在存储单元中存储 所述n元组的出现次数,以所述识别ID为所述存储单元的下标,各个存储单元组成n元组 数组;识别模块300在对于训练网页使用的每种语言,将特征ID的权重值和与所述特征 ID相同的识别ID的出现次数相乘时进一步用于对于每种语言,遍历所述语言的特征权重 表,对于特征权重表每一行,读取所述行的特征ID,在所述n元组数组中查找下标为所述特 征ID的存储单元,读取查到的存储单元中存储的数值将该数值与所述行的权重值相乘。本领域的技术人员在不脱离权利要求书确定的本发明的精神和范围的条件下,还 可以对以上内容进行各种各样的修改。因此本发明的范围并不仅限于以上的说明,而是由 权利要求书的范围来确定的。
权利要求
一种自动识别网页中维吾尔文的方法,其特征在于,包括步骤1,确定作为识别特征的n元组中n的取值,对于训练网页中使用的每种语言,统计所述语言的各个n元组在使用所述语言的训练网页中的出现频率,以所述出现频率为一个权重值,并且取所述n元组在预设标准编码中的有效位生成所述权重值对应的特征ID,所述训练网页中使用的语言包括维吾尔文和同维吾尔文相似文字;步骤2,统计待识别网页中每个n元组的出现次数,取所述n元组在预设标准编码中有效位生成所述出现次数对应的识别ID,对于训练网页使用的每种语言,将特征ID的权重值和与所述特征ID相同的识别ID的出现次数相乘,叠加乘积,所得和值为待识别网页对应于所述语言的分值,所述待识别网页使用的语言为最高分值对应的语言。
2.如权利要求1所述的自动识别网页中维吾尔文的方法,其特征在于, 所述步骤1前还包括步骤21,对训练网页和待识别网页进行预处理,除去网页标签,获得网页显示的字符的 正文,并对转义字符进行还原。
3.如权利要求2所述的自动识别网页中维吾尔文的方法,其特征在于, 所述步骤21还包括步骤31,将正文中代表两个字符的连写字母编码转换为拆分后对应的两个字符的编码;步骤32,判断词首元音字母前是否具有hamza,如果不具有,则在所述词首元音字母前 添加;步骤33,判断词首元音字母是否为复合元音字母,如果是,则将所述复合元音字母拆分 为对应的两个字符;步骤34,将阿拉伯字母扩展区中的字母转换为阿拉伯字母基本区中对应形状的字母。
4.如权利要求1所述的自动识别网页中维吾尔文的方法,其特征在于, 所述步骤1中确定作为识别特征的η元组中η的取值进一步为,步骤41,对于训练网页中使用的每种语言,统计所述语言中i元组的出现概率,i的取 值为1至m,m为预设值;步骤42,依据所述出现概率优先选择出现概率较高的i元组作为识别特征。
5.如权利要求1所述的自动识别网页中维吾尔文的方法,其特征在于, 所述步骤1中还包括步骤51,对于每种语言,将权重值按从大到小排名,选取前K个权重值,将选取的权重 值和所述权重值对应的特征ID记录到所述语言的特征权重表中;所述语言的前K个权重值 相加大于预设阀值,K为所述语言对应的选取值;所述步骤2中对于训练网页使用的每种语言,将特征ID的权重值和与所述特征ID相 同的识别ID的出现次数相乘进一步为,步骤52,对于训练网页使用的每种语言,将所述语言的特征权重表中特征ID的权重值 和与所述特征ID相同的识别ID的出现次数相乘。
6.如权利要求5所述的自动识别网页中维吾尔文的方法,其特征在于,所述步骤2中统计待识别网页中每个η元组的出现次数,取所述η元组在预设标准编 码中有效位生成所述出现次数对应的识别ID后还包括,步骤61,在存储单元中存储所述n元组的出现次数,以所述识别ID为所述存储单元的 下标,各个存储单元组成n元组数组;所述步骤2中对于训练网页使用的每种语言,将特征ID的权重值和与所述特征ID相 同的识别ID的出现次数相乘进一步为,步骤62,对于每种语言,遍历所述语言的特征权重表,对于特征权重表每一行,读取所 述行的特征ID,在所述n元组数组中查找下标为所述特征ID的存储单元,将查找到的存储 单元存储的数值与所述行的权重值相乘。
7.一种自动识别网页中维吾尔文的系统,其特征在于,包括训练模块,用于确定作为识别特征的n元组中n的取值,对于训练网页中使用的每种语 言,统计所述语言的各个n元组在使用所述语言的训练网页中的出现频率,以所述出现频 率为一个权重值,并且取所述n元组在预设标准编码中的有效位生成所述权重值对应的特 征ID,所述训练网页中使用的语言包括维吾尔文和同维吾尔文相似文字;识别模块,用于统计待识别网页中每个n元组的出现次数,取所述n元组在预设标准编 码中有效位生成所述出现次数对应的识别ID,对于训练网页使用的每种语言,将特征ID的 权重值和与所述特征ID相同的识别ID的出现次数相乘,叠加乘积,所得和值为待识别网页 对应于所述语言的分值,所述待识别网页使用的语言为最高分值对应的语言。
8.如权利要求7所述的自动识别网页中维吾尔文的系统,其特征在于,所述系统还包括预处理模块,所述预处理模块在所述训练模块和所述识别模块启动前 运行,所述预处理模块,用于对训练网页和待识别网页进行预处理,除去网页标签,获得网页 显示的字符的正文,并对转义字符进行还原。
9.如权利要求8所述的自动识别网页中维吾尔文的系统,其特征在于,所述预处理模块还用于将正文中代表两个字符的连写字母编码转换为拆分后对应的 两个字符的编码;判断词首元音字母前是否具有hamza,如果不具有,则在所述词首元音字 母前添加;判断词首元音字母是否为复合元音字母,如果是,则将所述复合元音字母拆分为 对应的两个字符;将阿拉伯字母扩展区中的字母转换为阿拉伯字母基本区中对应形状的字 母。
10.如权利要求7所述的自动识别网页中维吾尔文的系统,其特征在于,所述训练模块在确定作为识别特征的n元组中n的取值时进一步用于对于训练网页中 使用的每种语言,统计所述语言中i元组的出现概率,i的取值为1至m,m为预设值;依据 所述出现概率优先选择出现概率较高的i元组作为识别特征。
11.如权利要求7所述的自动识别网页中维吾尔文的系统,其特征在于,所述训练模块还用于对于每种语言,将权重值按从大到小排名,选取前K个权重值,将 选取的权重值和所述权重值对应的特征ID记录到所述语言的特征权重表中;所述语言的 前K个权重值相加大于预设阀值,K为所述语言对应的选取值;所述识别模块在对于训练网页使用的每种语言,将特征ID的权重值和与所述特征ID 相同的识别ID的出现次数相乘时进一步用于对于训练网页使用的每种语言,将所述语言 的特征权重表中特征ID的权重值和与所述特征ID相同的识别ID的出现次数相乘。
12.如权利要求11所述的自动识别网页中维吾尔文的系统,其特征在于,所述识别模块在统计待识别网页中每个n元组的出现次数,取所述n元组在预设标准 编码中有效位生成所述出现次数对应的识别ID后还用于,在存储单元中存储所述n元组的出现次数,以所述识别ID为所述存储单元的下标,各 个存储单元组成n元组数组;所述识别模块在对于训练网页使用的每种语言,将特征ID的权重值和与所述特征ID 相同的识别ID的出现次数相乘时进一步用于对于每种语言,遍历所述语言的特征权重表, 对于特征权重表每一行,读取所述行的特征ID,在所述n元组数组中查找下标为所述特征 ID的存储单元,读取查找到的存储单元存储的数值,将所述数值同所述行的权重值相乘。
全文摘要
本发明涉及自动识别网页中维吾尔文的方法和系统,方法包括步骤1,确定作为识别特征的n元组中n的取值,使用的每种语言,统计语言的各个n元组在使用语言的训练网页中的出现频率,为一个权重值,并且取n元组在预设标准编码中的有效位生成权重值对应的特征ID;步骤2,统计待识别网页中每个n元组的出现次数,取n元组在预设标准编码中有效位生成出现次数对应的识别ID,对于训练网页使用的每种语言,将特征ID的权重值和与特征ID相同的识别ID的出现次数相乘,叠加乘积,所得和值为待识别网页对应于语言的分值,待识别网页使用的语言为最高分值对应的语言。本发明能够提高识别的准确性。
文档编号G06F17/22GK101882148SQ20101018985
公开日2010年11月10日 申请日期2010年5月24日 优先权日2010年5月24日
发明者倪耀群, 许洪波 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1