一种标示词汇习语的装置及方法

文档序号:6335330阅读:251来源:国知局
专利名称:一种标示词汇习语的装置及方法
技术领域
本发明涉及标示方法,尤其涉及一种标示词汇、习语的装置及方法。
背景技术
在中文的学习过程中,词汇是一个很重要的部分,很多意思只有特定的词汇才能 够表达,组成这个词汇的每个单字都不具备整体词汇的意思,这就会造成学习者每个单字 都认识却还是不明白整体的意思的状况出现。比如东西这个词拆开来是两个表示方向的字 组合在一起却是一个与方向毫不相干的词。由于词汇量很大,很多不熟悉中文的学习者很 多时候不知道那些是一个词,那些是单字,这样用户就不知道具体应该通过电子辞典查找 那些内容才能得到自己真正需要的意思。

发明内容
为了解决背景技术中所存在的技术问题,本发明提出了一种标示词汇习语的装置 及方法,通过分词技术,当用户选中了一个词汇的一部分的时候,把其余部分也标示出来告 诉用户这些可以当作一个词汇来理解,帮助用户识别文章内容中的词汇和习语。本发明的技术解决方案是本发明为一种标示词汇习语的装置,其特殊之处在于 所述装置包括用于对用户反白内容进行分词处理的分词模块、用于将分词模块传递过来的 组合结果用特定的标示方法进行标示,并且把结果传回显示模块进行显示的标示模块,以 及用于将用户选择的内容传递给分词模块进行分词的显示模块;所述分词模块连接于标示 模块;所述标示模块连接于显示模块;所述显示模块连接于分词模块。本发明还提供一种标示词汇习语的方法,其特殊之处在于所述方法包括以下步 骤1)获取用户对文本中关键字的反白内容;2)分词模块获取反白内容和反白内容前后内容的组合关系;3)判断反白内容和反白内容前后内容的组合是否是词组;若是,则进行步骤4);4)判断分析步骤3)中组合词组是否仅有一种组合方式,若是,则进行步骤5);5)选取组合词组的表现形式。上述步骤5)之后还包括步骤6)选取对应的处理方式对所选取词组的表现形式进 行数据处理。上述步骤6)中数据处理的具体步骤如下如果反白的关键词被单独划分出来那 就表明不能组成词汇或固定表达,如果和别的内容划分到一起表明可以和划分到的内容组 成组成一个词汇或者固定表达,把组合的结果进行标示,在分词的过程中如果反白的关键 字可以得到没有歧义的划分,表明划分结果是唯一的,则标示划分的结果,如果划分的过程 中反白的关键字有歧义出现,在分词模块的词库中进行机械匹配,分别用最大匹配算法和 最小匹配算法分别去查找得到结果,如果得到相同的结果选用相应得单一标示方法去标 示,如果得到的结果不一样,选用组合的标示方法去标示。
上述步骤6)之后还包括步骤7)显示数据处理后的词组。上述步骤2)中分词模块反白内容和反白内容前后内容的组合关系的具体步骤 是判断获取的关键字在分词中是否有歧义;若有,则获取反白关键字的最大匹配和最小 匹配结果;若无,则获取与反白关键字组合的相应字串。上述步骤3)中反白内容和反白内容前后内容的组合若不是词组,则返回步骤1) 重新进行。上述步骤4)组合词组的组合方式多于一种时,则进行以下步骤用多种的组合方 式进行组合,并对每种组合方式用不同方式进行数据处理。本发明提供的一种标示词汇习语的装置及方法,可以在学习者mark 了中文之后, 利用分词技术检查其是否可以和前后组成一个词或者是组成几个词,如果可以就把这些字 用特定方法标记出来,告诉用户这些可以组成一个词,方便用户学习。这个方法也适用于其 它语种的学习,例如对于英语中的俗语等固定表达也可以标示。


图1是本发明的结构示意图;图2是本发明的方法流程图;图3是本发明的分词方法流程图;图4(a)-图4(e)为本发明标示模块标示方式示意图;图5是标示模块对多种组合方式的标示示意图。
具体实施例方式参见图1,本发明的一种标示词汇习语的装置,包括分词模块1、标示模块2、显示 模块3 ;分词模块1连接于标示模块2 ;标示模块2连接于显示模块3 ;显示模块3连接于 分词模块1。分词模块1用于对用户反白内容进行分词处理;标示模块2用于将分词模块 1传递过来的组合结果用特定的标示方法进行标示,并且把结果传回显示模块3进行显示; 显示模块3用于将用户选择的内容传递给分词模块1进行分词;参见图2、图3,本发明的一种标示词汇习语的方法,本方法包括以下步骤1)获取用户对文本中关键字的反白内容;2)分词模块获取反白内容和反白内容前后内容的组合关系;具体步骤是断获取 的关键字在分词中是否有歧义;若有,则获取反白关键字的最大匹配和最小匹配结果;若 无,则获取与反白关键字组合的相应字串;3)判断反白内容和反白内容前后内容的组合是否是词组;若是,则进行步骤4); 若反白内容和反白内容前后内容的组合若不是词组,则返回步骤1)重新进行;4)判断分析步骤3)中组合词组是否仅有一种组合方式,若是,则进行步骤5);若 组合词组的组合方式多于一种时,则进行以下步骤用多种的组合方式进行组合,并对每种 组合方式用不同方式进行数据处理。5)选取组合词组的表现形式;6)选取对应的处理方式对所选取词组的表现形式进行数据处理;7)显示数据处理后的词组。
本发明的方法利用分词技术把从显示模块3处得来的数据进行处理,如果反白的关键词被单独划分出来那就表明不能组成词汇或固定表达,如果和别的内容划分到一起表 明可以和划分到的内容组成组成一个词汇或者固定表达,这时我们就可以把组合的结果传 递给标示模块2让其进行标示,在分词的过程中如果反白的关键字可以得到没有歧义的划 分,表明划分结果是唯一的,这时就把划分的结果传给标示模块1去标示。如果划分的过程 中反白的关键字有歧义出现,这时就可以在分词模块1的词库中进行机械匹配,可以分别 用最大匹配算法和最小匹配算法分别去查找得到结果(最大匹配算法就是优先考虑长词, 最小匹配算法就是优先考虑短词),如果得到相同的结果就选用相应得单一标示方法去标 示,如果得到的结果不一样,就选用组合的标示方法去标示。标示模块2对于分词模块1传递过来的组合结果,选用特定的标示方法进行标示 的标示方式参见图4 (a)-图4 (),参见图4 (a),用颜色来标示的方式,假设用一种颜色标示 了“一”,那就可以用另一种颜色把“丁不识”标记出来告诉用户“一丁不识”是个词组,可以 整体反白查找获得更精确的意思;参见图4(b),用字的大小来标示的方式,将“一”、“丁不 识”用不同大小字号标示;参见图4(c),用字型来标示的方式,例如标示的字“一”用楷体, 把“丁不识”三个字用黑体,表示可以和“一”组成词“一丁不识”;同上述方式,也可以采用 用下划线来标示的方式和用弹出框标示的方式,效果和上述几种方式一样,参见图4 (d)、图 4(e)。如果反白的字能够有几种组合方式,可以用弹出框把几种可能性都列出来供用户 参考,参见图5,“东西南北”,如果反白了 “东”,就可以有两种组合方式,一种是“东西”,一 种是“东西南北”,可以把两种组合方式都列出来供用户参考。
权利要求
1. 一种标示词汇习语的装置,其特征在于所述装置包括用于对用户反白内容进行分 词处理的分词模块、用于将分词模块传递过来的组合结果用特定的标示方法进行标示,并 且把结果传回显示模块进行显示的标示模块,以及用于将用户选择的内容传递给分词模块 进行分词的显示模块;所述分词模块连接于标示模块;所述标示模块连接于显示模块;所 述显示模块连接于分词模块。
2. 一种标示词汇习语的方法,其特征在于所述方法包括以下步骤1)获取用户对文本中关键字的反白内容;2)分词模块获取反白内容和反白内容前后内容的组合关系;3)判断反白内容和反白内容前后内容的组合是否是词组;若是,则进行步骤4);4)判断分析步骤3)中组合词组是否仅有一种组合方式,若是,则进行步骤5);5)选取组合词组的表现形式。
3.根据权利要求2所述的标示词汇习语的方法,其特征在于所述方法在步骤5)之后 还包括步骤6)选取对应的处理方式对所选取词组的表现形式进行数据处理。
4.根据权利要求3所述的标示词汇习语的方法,其特征在于所述步骤6)中数据处理 的具体步骤如下如果反白的关键词被单独划分出来那就表明不能组成词汇或固定表达, 如果和别的内容划分到一起表明可以和划分到的内容组成组成一个词汇或者固定表达,把 组合的结果进行标示,在分词的过程中如果反白的关键字可以得到没有歧义的划分,表明 划分结果是唯一的,则标示划分的结果,如果划分的过程中反白的关键字有歧义出现,在分 词模块的词库中进行机械匹配,分别用最大匹配算法和最小匹配算法分别去查找得到结 果,如果得到相同的结果选用相应得单一标示方法去标示,如果得到的结果不一样,选用组 合的标示方法去标示。
5.根据权利要求4所述的标示词汇习语的方法,其特征在于所述方法在步骤6)之后 还包括步骤7)显示数据处理后的词组。
6.根据权利要求2或3或4或5所述的标示词汇习语的方法,其特征在于所述步骤2) 中分词模块反白内容和反白内容前后内容的组合关系的具体步骤是判断获取的关键字在 分词中是否有歧义;若有,则获取反白关键字的最大匹配和最小匹配结果;若无,则获取与 反白关键字组合的相应字串。
7.根据权利要求6所述的标示词汇习语的方法,其特征在于所述步骤3)中反白内容 和反白内容前后内容的组合若不是词组,则返回步骤1)重新进行。
8.根据权利要求7所述的标示词汇习语的方法,其特征在于所述步骤4)组合词组的 组合方式多于一种时,则进行以下步骤用多种的组合方式进行组合,并对每种组合方式用 不同方式进行数据处理。
全文摘要
本发明为一种标示词汇习语的装置,该装置包括用于对用户反白内容进行分词处理的分词模块、用于将分词模块传递过来的组合结果用特定的标示方法进行标示,并且把结果传回显示模块进行显示的标示模块,以及用于将用户选择的内容传递给分词模块进行分词的显示模块;分词模块连接于标示模块;标示模块连接于显示模块;显示模块连接于分词模块。本发明提出的标示词汇习语的装置及方法,通过分词技术,当用户选中了一个词汇的一部分的时候,把其余部分也标示出来告诉用户这些可以当作一个词汇来理解,帮助用户识别文章内容中的词汇和习语。
文档编号G06F17/21GK102004721SQ201010534360
公开日2011年4月6日 申请日期2010年11月10日 优先权日2010年11月10日
发明者李凤强, 陈淮琰 申请人:无敌科技(西安)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1