自定义词管理装置、方法及分词系统的制作方法

文档序号:6462115阅读:221来源:国知局
专利名称:自定义词管理装置、方法及分词系统的制作方法
技术领域
本发明涉及中文信息处理技术领域,特别涉及一种自定义词管理装置、 方法及分词系统。
背景技术
中文信息处理技术现已在计算机网络、数据库技术、软件工程等领域得 到了广泛应用,而中文分词是中文信息处理的一项重要的基础性工作,在许多中文信息处理项目(例如机器翻译、自动文摘、自动分类、文献库全文 检索、搜索引擎等)中都会涉及到中文分词问题。众所周知,英文是以词为单位的,词和词之间有空格隔开。例如,英文 句子I am a student (我是一个学生)。计算机可以很简单地通过空格知道 student (学生)是一个单词。然而,中文是以字为单位的,所有字连起来才 能描述一个意思,句子中的字和字之间没有类似空格这样的分割标记。例如, 中文句子我是一个学生。计算机就很难明白"学"、"生"两个字合起来 才表示一个词。因此,在中文文本处理中,首先需要解决的问题是对文中每 个句子进行中文分词(也称切词),即为句中的每个词增加一个词界标记。 例如,对上面中文句子的分词的结果是"我""是""一个""学生"。参见图1,图1为现有技术中中文分词方法的流程示意图。由图l可见, 该方法包4舌步骤101、生成自定义词典。现有的自定义词典一般为一个单独的文本文件,在该文件的每行中存储 了一个用户添加的自定义词。在收录自定义时,通常可以采用机器学习的方 法训练得到,如互信息或基于字标注的最大熵、条件随机场等方法;也可以采用人工添加自定义词的方法得到。步骤102、利用自定义词典进行中文分词。按照一定的策略将待识别的中文文本切分为汉字串,并将自定义词典中 所有自定义词加载到内存中,将上述汉字串与上述自定义词典中的自定义词 逐个进行匹配,若在词典中找到相应自定义词,则匹配成功,从而识别出一 个词。显然,采用上述方法保i正了待识别的中文文本中包含有词典中自定义词 时的中文分词情况。但是,由于现有技术的自定义词典中只是机械地存储了自定义词本身,这就存在一个问题用户利用自定义词进行中文分词时的准 确性不高。具体来说,存储在词典中的某个自定义词可能在某个体裁的语境中应该 被作为一个整体切出,而在另一个体裁的语境中,就不应该被作为一个整体 切出。例如人可以很容易理解句子"马晓虎去北京玩了,,中的"马晓虎,, 是一个词,即一个人的名字,但要是让计算机去识别就困难了。这时如果把 "马晓虎"作为一个自定义词收录到词典中了。那么在另一句子"马晓虎头 虎脑的"中"马晓虎"就会被错误地作为一个整体切出。显然,本领域技术人员可以领会到上述对中文分词的分析,也适用于例 如韩文、日文等其他类似语言的分词过程中。发明内容有鉴于此,本发明的实施例提供了自定义词管理装置、方法及分词系统, 解决了用户利用自定义词进行分词时的准确性不高的问题。 根据本发明 一 个实施例的 一 种自定义词管理装置,包括 接收模块,用于接收用户输入的自定义词及其属性; 词典生成模块,用于根据所述自定义词及其属性,生成自定义词典; 词典加载模块,用于将所述自定义词典中的自定义词及其属性加载到内 存中,等待调用。根据本发明另 一 实施例的 一种自定义词管理方法,包括
接收用户输入的自定义词及其属性;
根据所述自定义词及其属性,生成自定义词典;
将所述自定义词典中的自定义词及其属性加载到内存中,等待调用。
根据本发明又 一 实施例的 一种分词系统,包括
自定义词管理装置,用于接收用户输入的自定义词及其属性,根据所述 自定义词及其属性生成自定义词典,并将所述自定义词典中的自定义词及其 属性加载到内存中;
分词装置,用于利用加载在内存中的自定义词及其属性,对待识别文本 进行分词,匹配所述待识别文本中的自定义词,并为所述匹配成功的自定义 词进行属性标注。
由上述的技术方案可见,相比现有技术,本发明实施例提供的自定义词 管理装置、方法及分词系统,可以接收用户输入的自定义词及其属性,根据 上述自定义词及其属性生成自定义词典,并将上述自定义词典中的自定义词 及其属性加载到内存中,等待调用。利用本发明实施例提供的自定义词典进 行分词时,除了可以提供用户输入的自定义词本身外,还可以提供该自定义 词的相关属性。这样就可以在将来进行分词校验时进一步对自定义词的属性 进行判断,从而确定在当时的特定语境中该分词方式是否正确。因此,本发 明解决了用户利用自定义词进行分词时的准确性不高的问题。


图1为现有技术中中文分词方法的流程示意图; 图2为本发明实施例中自定义词管理装置的结构示意图; 图3为本发明实施例中自定义词管理方法的流程示意图; 图4为本发明实施例一中自定义词管理装置的结构示意图; 图5为本发明实施例一中自定义词管理方法的流程示意图; 图6为本发明实施例二中自定义词管理装置的结构示意图;图7为本发明实施例二中自定义词管理方法的流程示意图;图8为本发明实施例三中分词系统的结构示意图;图9为本发明实施例三中分词方法的流程示意图;图IO为本发明实施例三中自定义词典的组织结构示意图;图11为本发明实施例三中类别表的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体 实施例对本发明作进 一 步地详细描述。本发明实施例提供的自定义词管理装置及方法,可以接收用户输入的自 定义词及其属性;根据上述自定义词及其属性生成自定义词典;并将上述自 定义词典中的自定义词及其属性加载到内存中,等待调用。参见图2,图2为本发明实施例中自定义词管理装置的结构示意图。由 图2可见,该装置包括接收模块201、词典生成模块202、词典加载模块 204。其中,接收模块201用于接收用户输入的自定义词及其属性。 词典生成模块202用于根据上述自定义词及其属性,生成自定义词典。 词典加载模块204用于将上述自定义词典中的自定义词及其属性加载到内存中,等待调用。参见图3,图3为本发明实施例中自定义词管理方法的流程示意图。由图3可见,该方法包括步骤301、接收用户输入的自定义词及其属性。步骤302、根据上述自定义词及其属性,生成自定义词典。步骤303、将上述自定义词典中的自定义词及其属性加载到内存中,等待调用。下面,通过实施例对本发明提供的好友添加装置及方法进行详细说明。 实施例一参见图4,图4为本发明实施例一中自定义词管理装置的结构示意图。 由图4可见,该装置包括接收模块201、词典生成模块202、词典加载模 块204。其中,接收模块201包括自定义词接收单元2011、类别属性接收单元2012和词性属性4妄收单元2013。自定义词接收单元2011用于接收用户输入的自定义词。 类别属性接收单元2012用于接收用户输入的自定义词的类别属性。 词性属性接收单元2013用于接收用户输入的自定义词的词性属性。 词典生成模块202用于根据上述自定义词及其属性,生成自定义词典。 词典加载模块204用于将上述自定义词典中的自定义词及其属性加载到内存中,等待分词时进行调用。参见图5,图5为本发明实施例一中自定义词管理方法的流程示意图。由图5可见,该方法包括步骤501、接收用户输入的自定义词。自定义词管理装置可以接收用户采用人工添加方法得到的自定义词,也 可以接收其他方法得到的自定义词。其中,自定义词是指除去现有技术的核 心词典中包含的常用词汇外,诸如人名、地名、组织机构名、科技术语、网 络语言之类的新词。步骤502、接收上述自定义词的类别属性和/或词性属性。 自定义词管理装置在接收到上述自定义词后,还可以进一步接收上述自 定义词的类别属性和/或词性属性。例如,用户接收到"魔兽"这个自定义 词后,还可以进一步接收"魔兽"为名词属性且属于游戏类别。如果该自定 义词包括多个类别属性和/或词性属性时,则自定义词管理装置接收全部类 别属性和/或词性属性。步骤503、生成包含上述自定义词及其属性的自定义词典。 自定义词管理装置采用目录文件体系结构的方式生成自定义词典,根据 接收到的自定义词的类别属性,逐级创建对应于各个类别的目录或文件。目录名为大类别,目录下的自定义词文件为该大类别下的某一个特定的小类 别。该自定义词文件的中每行包含一个具体的用户自定义词条,该词条如果 有词性,则词性和词之间用","分隔,如包含多个词性,则词性与词性之 间用'T分隔,该词条后也可以不包含词性,则系统默认会给出一个名词 词性。步骤504、将上述自定义词典中的自定义词及其属性加载到内存中,等待分词时进行调用。本实施例提供的自定义词管理装置、方法,可以接收用户输入的自定义 词及其类别和/或词性属性,根据上述自定义词及其类别和/或词性属性生成 自定义词典,并将上述自定义词典中的自定义词及其属性加载到内存中,等 待分词时进行调用。利用本发明实施例提供的自定义词典进行分词时,除了 可以提供用户输入的自定义词本身外,还可以提供该自定义词的相关属性。 这样就可以在将来进行分词校验时进一步对自定义词的属性进行判断,从而 确定在当时的特定语境中该分词方式是否正确。因此,本发明解决了用户利 用自定义词进行分词时的准确性不高的问题。 实施例二本实施例在实施例一的基础上,在自定义词管理装置中进一步增加了根 据类别加载自定义词的功能和自定义词典的动态管理功能,通过以上功能可 以根据用户需要的类别加载自定义词典中的自定义词,还可以为用户管理自 定义词典提供便利。参见图6,图6为本发明实施例二中自定义词管理装置的结构示意图。 由图6可见,该装置包括接收模块201、词典生成模块202、词典加载模 块204。该装置还可以包括类别选择模块603。其中,接收模块201、词典生成模块202与实施例一中的功能相同。类别选择模块603用于根据自定义词的类别属性,生成自定义词典的类 别表,并提供给用户进行选择。词典加载模块204.用于根据用户在类别表中选择的类别,将自定义词典中对应的自定义词及其属性加载到内存中。该装置还可以进一步包括词典编辑模块605、词典备份模块606。 词典编辑模块605用于对加载在内存中的自定义词进行编辑。 词典备份模块606用于根据用户请求或实时地对加载在内存中的自定 义词进行备份。参见图7,图7为本发明实施例二中自定义词管理方法的流程示意图。 由图7可见,该方法包括步骤701、接收用户输入的自定义词。 步骤702、接收上述自定义词的类别属性和/或词性属性。 步骤703、生成包含上述自定义词及其属性的自定义词典。 该方法还可以包括步骤704、根据自定义词的类别属性,生成自定义词典的类别表,并提 供给用户进行选择。自定义词管理装置获得自定义词典中所有类别的用户自定义词文件的 目录路径,及其对应的类别信息,将上述信息保存在配置文件中,并根据配 置文件中保存的上述类别信息,生成自定义词的类别表提供给用户进行选 择。步骤705、根据用户在类别表中选择的类别,将自定义词典中对应的自 定义词及其属性加载到内存中。用户选择某类别后,将上述自定义词文件(组)中的全部自定义词加载 到内存中,同时给每个自定义词关联上其所属的类别和该自定义词的词性。该方法还可以进 一 步包括步骤706、对加载在内存中的自定义词进行编辑。如果用户发现加载到内存中的自定义词拼写、词性或者类别有误时,可 以对加载在内存中的自定义词进行修改或删除,用户还可以直接在内存中将 自定义词典中未包含的自定义词添加到词典中。步骤707、根据用户请求或实时地对加载在内存中的自定义词进行备份。当用户编辑完自定义词后,自定义词管理装置可以自动将内存中的全部 自定义词保存到相应目录的相应自定义词文件中。自定义词管理装置也可以 也可以根据用户请求将内存中的全部自定义词保存到相应目录的相应自定 义词文件中。本实施例提供的自定义词管理装置、方法,在实施例一的基础上可以根 据用户选择的自定义词类别,将对应的自定义词及其属性加载到分词装置中 进行分词,并为自定义词典提供了动态管理功能。 实施例三本实施例在实施例二的基础上,进一步提出一种分词系统。本发明实施 例提供的分词系统,可以接收用户输入的自定义词及其属性,根据上述自定 义词及其属性生成自定义词典,并将上述自定义词典中的自定义词及其属性 加载到内存中,对待识别文本进行分词。参见图8,图8为本发明实施例三中分词系统的结构示意图。由图8可 见,该系统包括自定义词管理装置801、分词装置802。其中,自定义词管理装置用于接收用户输入的自定义词及其属性,根据 上述自定义词及其属性生成自定义词典,并将上述自定义词典中的自定义词 及其属性加载到内存中。该装置可以采用上述实施例中的任一种自定义词管理装置实现。分词装置802用于利用加载在内存中的自定义词及其属性,对待识别文 本进行分词,匹配上述待识别文本中的自定义词,并为上述匹配成功的自定 义词进行属性标注。其中属性标注可以包4舌词性标注和类别标注。参见图9,图9为本发明实施例三中分词方法的流程示意图。由图9可 见,该方法包括步骤901 、接收用户输入的自定义词。 自定义词管理装置可以接收采用分词方法识别得到自定义词;可以接收 采用机器学习方法训练得到自定义词,如采用互信息或基于字标注的最大 熵、条件随机场等方法得到自定义词;可以接收用户采用人工添加方法得到的自定义词,也可以接收其他方法得到的自定义词。 步骤902、接收上述自定义词的类别。自定义词管理装置在接收自定义词后,可以进一 步接收用户输入的各个 自定义词的类别属性。步骤903 、接收上述自定义词的词性。自定义词管理装置还可以进一步接收用户输入的各个自定义词的词性属性。需要注意的是,在本实施例中步骤502和步骤503并没有严格的先后次 序,这里仅为了描述方便而先说明步骤502后说明步骤503。步骤904、生成包含上述自定义词及其属性的自定义词典。自定义词管理装置采用目录文件体系结构的方式生成自定义词典。具体 来说,参见图10,图IO为本发明实施例三中自定义词典的组织结构示意图。 由图IO可见,自定义词管理装置在系统的外部存储器上创建自定义词典的 才艮目录,并根据接收到的自定义词的类别属性,对应各个类别逐级创建相应 目录或文件。例如位于根目录下的第一级子目录为第一级类别,即大类别, 位于第一级子目录下的第二级子目录为第二级类别,即中类别,位于第二级 子目录下的自定义词文件为该中类别下的某一个特定的小类别。当然,在第 二级子目录下仍然可以继续嵌套子目录,以此类推,通过为自定义词添加各 级目录的方式,为自定义词划分多种类别。当然,本领域技术人员可以意识到,以目录管理的方式添加自定义词的 类别属性仅仅是示范性的,在实际应用中也可以采用数据库等其他方式。自定义词管理装置生成上述目录或文件后,将接收到的自定义词按照该 自定义词类别保存在相应自定义词文件的一行中。上述自定义词文件可以是 一个普通的文本文件,也可以是其他类型文件,用于保存用户自己定义的新 词。自定义词文件中每行单独存储一个自定义词,在该自定义词后添加词性, 词和词性之间用逗号(,)分隔,多个词性之间以'T分隔,以回车换行结 束,不计算多余的空格。当然,用户也可以不为自定义词典中的自定义词设置词性,由系统默认该自定义词为名词词性。当然,在实际应用中也可以将 其他词性作为默认词性。通过上述方式,自定义词管理装置以一种目录文件体系结构的方式将全 部待输入的自定义词及其类别和词性信息保存起来,生成一个完整的自定义词典。步骤卯5、生成自定义词典的类别信息,并提供给用户进行选择。自定义词管理装置釆用递归方式遍历用户自定义词典,获得其中所有类 别的用户自定义词文件的目录路径,及其对应的类别信息,并将上述信息保 存在配置文件中。其中,配置文件主要用于管理用户自定义词的加载方式, 为用户提供类别表,对希望加载的自定义词类别进行控制。自定义词管理装置根据配置文件中保存的类别信息,生成自定义词的类 别表提供给用户进行选择。参见图11,图11为本发明实施例三中类别表的示意图。由图11可见, 类别表同样采用树形结构显示,当用户选择类别表中显示的某个大类的名称 时,自定义词管理装置加载该个大类下面的所有小类中的自定义词;当用户 选择类别表中显示的某个大类中某个小类的名称时,自定义词管理装置加载 该特定的小类中的自定义词。例如当用户需要对游戏文章进行分词的时候,用户可以在类别表中选择 "游戏"类别,这时自定义词管理装置根据配置文件中的相应信息,将"游 戏"类别中所有子类别的自定义词加载到内存中,同时记录所有自定义词所 属的类别。如果能够用户能够进一步确定这是一篇关于魔兽游戏的文章,则 用户可以在类别表中选择"魔兽,,子类别,这时自定义词管理装置根据配置 文件中的相应信息,将"魔兽"子类别中的全部自定义词加载到内存中,以 更精确地对这篇文章进行分词。当然,如果用户不能确定所要分词的文章的 类别时,也可以在类别表中选择全部类别,以便能够在分词的时候包括全部 的自定义词。步骤906、根据用户请求加载的类别信息,将对应的自定义词及其属性加载到内存中。用户选择某类别后,自定义词管理装置分析配置文件中的该类别信息, 得到需要加载的自定义词文件(组)的路径,将上述自定义词文件(组)中的全部自定义词以字符树(Trie)的方式加栽到内存中,同时给每个自定义 词关联上其所属的类别和词性。步骤907、利用加载在内存中的自定义词进行分词。自定义词管理装置将用户需要的自定义词加载到内存中后,提供给分词 装置进行中文文本识别。子步骤l、用户自定义词条匹配。分词装置读取待识别文本当前汉字串序列中的 一个汉字,在自定义词典 中进行查找,若词典中存在这样的自定义词,则认为匹配成功,保存当前匹 配结果,并在该汉字的基础上读取待识别文本当前汉字串序列中的下一个汉 字加在上述汉字之后,即形成两个字的词,然后再在自定义词典中进行查找, 若词典中存在这样的自定义词,则认为匹配成功,如此类推,循环该过程并 记录中间匹配成功的词条,直至匹配失败为止,这样就可以得到从某一位置 开始的所有可能词条。子步骤2、针对上述匹配成功的自定义词进一步执行词性标注。由于自定义词管理装置中保存的 一个自定义词条可以有多个词性,因此 当匹配出的一个包含多个词性的自定义词条的时候,需要确定在特定的上下 文中具体选择该自定义词条的何种词性。针对该问题,分词装置采用隐马尔科夫模型对自定义词、词性及其上下 文建模,并采用Viterbi算法搜索确定最后的用户自定义词词性。该过程需 要两步,第一步为用户自定义词词性标注模型训练,第二步为用户自定义词 词性标注模型应用。1)用户自定义词词性标注模型训练在利用自定义词进行分词前,分词装置需要对自定义词管理装置中的所 有自定义词训练两个参数, 一个是P(WIT), —个是P(TITh)。其中,W为用户自定义词,T为自定义词的词性,Th为自定义词前驱词的词性,P(W|T) 为自定义词为某个词性时使用该自定义词的概率,P(TITh)为自定义词的前驱 词为某个词性时使用该自定义词某个词性的概率。分词装置在训练时进一步釆用相应的平滑算法来解决数据稀疏问题。训 练结束后,分词装置就可以得到一个针对用户自定义词的词性标注隐马模 型。2)用户自定义词词性标注模型应用在利用自定义词进行分词时,分词装置利用上个步骤得到的词性标注隐 马模型就可以对匹配出的包含多个词性的用户自定义词进行词性标注,即确 定该自定义词在当前待识别文本中的词性。该标注过程采用隐马尔科夫模型 建模,并采用Viterbi算法解码,以确定最优的词性。子步骤3、针对上述匹配成功的自定义词进一步执行类别标注。由于自定义词管理装置中保存的一个自定义词条可以属于多个类别,因 此当匹配出的一个包含多个类别的用户自定义词条的时候,需要确定在特定 的体裁的文本中具体选择该自定义词条的何种类別。针对该问题,分词装置采用隐马尔科夫模型对自定义词、类别及其上下 文建模,并采用Viterbi算法搜索确定最后的用户自定义词类别。该过程需 要两步,第一步为用户自定义词类别标注模型训练,第二步为用户自定义词 类别标注模型应用。1)用户自定义词类别标注模型训练在利用自定义词进行分词前,分词装置需要对自定义词管理装置中的所 有自定义词训练两个参数, 一是P(WIC), 一是p(qch)。其中,W为用户自 定义词,C为用户自定义词的类别,Ch为自定义词前驱词的类别,P(W|C) 为自定义词为某个类别时使用该自定义词的概率,P(CICh)为自定义词的前 驱词为某个词性时使用该自定义词某个词性的概率。分词装置在训练时进一步采用相应的平滑算法来解决数据稀疏问题。训 练结束后,分词装置就可以得到一个针对用户自定义词的类别标注隐马模型。2)用户自定义词类别标注模型应用在利用自定义词进行分词时,分词装置利用上个步骤得到的类别标注隐 马模型就可以对匹配出的包含多个类别的用户自定义词进行类别标注了,即 确定该自定义词在当前待识别文本中的类别。该标注过程釆用隐马尔科夫模型建模,并采用Viterbi算法解码,以确定最优的类别。通过上面几个子步骤,分词装置就可以成功地实现分词,并输出分词的 词性、类别属性。这样就可以在将来进行分词校验时进一步对自定义词的属 性进行判断,从而确定在特定语境中该分词方式是否正确。分词装置可以根据用户请求,单独输出匹配出的用户自定义词。例如, 待识别中文文本为"我们一起去玩QQ飞车吧,,,々支设这段文本中的"QQ 飞车" 一词为自定义词管理装置中游戏类别下的用户自定义词,如杲此时用 户只需要分词结果时,那么分词装置将把"QQ飞车"作为一个独立的词输 出。分词装置也可以根据用户请求,输出匹配出的用户自定义词及其标注。 例如,同样对于"我们一起去玩QQ飞车吧"这段文本,如果用户在输出"QQ 飞车,,这个用户自定义词的时候还希望输出其词性,那么分词装置输出"QQ 飞车"、以及这里的词性(例如"名词(n)")、和这里该词所属的类别(例 如,为"游戏(game)")。当然,本领域技术人员可以意识到,在实际应用中,分词装置还可以采 用其他识别算法,以进一步提高用户利用自定义词进行分词时的准确性。另外需要注意的是,在本步骤中的子步骤2和子步骤3并没有严格的先 后次序,这里仅为了描述方便而先说明子步骤2后说明子步骤3。步骤908、对加载在内存中的自定义词进行编辑。当分词装置利用自定义词管理装置中的自定义词进行分词时,自定义词 管理装置可以对加载在内存中的自定义词进行检索,将用户指定的自定义词 及其词性和类别显示给用户。如果用户发现上述自定义词拼写、词性或者类别有误时,可以对加载在 内存中的自定义词进行编辑。例如,如果用户发现自定义词管理装置中被载 入内存中的某个自定义词不正确,可以直接在内存中删除该词条。又如,如 果用户发现某个类别的词条拼写有误时,可以直接在内存中将该词条修改为 正确的词条。再如,如果用户在进行分词时发现某个自定义词在相关类别的 自定义词典未收录而导致切分错误,可以直接在内存中将该词条添加到相应 类别的词典中。步骤909、对加载在内存中的自定义词进行备份。自定义词管理装置可以对自定义词进行实时备份。即当用户编辑完自定 义词后,自定义词管理装置可以自动将内存中的全部自定义词保存到相应目 录的相应自定义词文件中。自定义词管理装置也可以根据用户请求或者在分词系统关闭时,对自定 义词进行备份。当然,本领域技术人员可以意识到,在实际应用中,自定义词管理装置 也可以采用增量备份的方式,以节约系统在备份过程需要占用的资源。由上述的实施例可见,现有技术中在利用自定义词典进行分词时,由于 在自定义词典中只是机械地存储了自定义词本身,所以自定义词典仅能提供 自定义词本身,这就造成用户利用自定义词进行分词时的准确性不高。应用 本发明,分词系统可以接收用户输入的自定义词及其属性,根据上述自定义 词及其属性生成自定义词典,并将上述自定义词典中的自定义词及其属性加 载到内存中,对待识别文本进行分词。通过该分词系统,用户可以利用自定 义词典对待识别文本进行自定义词匹配,并可以对匹配出的自定义词进行词 性标注和/或类别标注,还可以对自定义词典进行动态管理。这样就可以在 将来进行分词校验时进一步对自定义词的属性进行判断,从而确定在当时的 特定语境中该分词方式是否正确。因此,本发明实施例解决了用户利用自定 义词进行分词时的准确性不高的问题,提高了利用自定义词典进行分词时的 效率。于例如韩文、日文等其他类似语言的分词过程中。综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的 保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改 进等,均应包含在本发明的保护范围之内。
权利要求
1、一种自定义词管理装置,其特征在于,包括接收模块,用于接收用户输入的自定义词及其属性;词典生成模块,用于根据所述自定义词及其属性,生成自定义词典;词典加载模块,用于将所述自定义词典中的自定义词及其属性加载到内存中,等待调用。
2、 如权利要求l所述的装置,其特征在于,所述接收模块包括 自定义词接收单元,用于接收用户输入的自定义词; 类别属性接收单元,用于接收用户输入的自定义词的类别属性; 词性属性接收单元,用于接收用户输入的自定义词的词性属性。
3、 如权利要求l所述的装置,其特征在于,所述词典生成模块用于采用目 录文件体系结构的方式,根据接收到的自定义词的类别属性,逐级创建对应于 各个类别的目录或文件,生成自定义词典。
4、 如权利要求l所述的装置,其特征在于,进一步包括 类别选择模块,用于根据自定义词的类别属性,生成自定义词典的类别表,并提供给用户进行选择;所述词典加载模块,用于根据用户在类别表中选择的类别,将自定义词典 中对应的自定义词及其属性加载到内存中。
5、 如权利要求1至4中任一项所述的装置,其特征在于,所述词典加载模 块用于将所述自定义词典中的自定义词及其属性以字符树的方式加载到内存 中。
6、 如权利要求5所述的装置,其特征在于,进一步包括 词典编辑^t块,用于对加载在内存中的自定义词进行编辑。
7、 如权利要求6所述的装置,其特征在于,进一步包括 词典备份模块,用于根据用户请求或实时地对加载在内存中的自定义词进行备份。
8、 一种自定义词管理方法,其特征在于,包括 接收用户输入的自定义词及其属性; 根据所述自定义词及其属性,生成自定义词典;将所述自定义词典中的自定义词及其属性加载到内存中,等待调用。
9、 如权利要求8所述的方法,其特征在于,所述接收用户输入的自定义词 及其属性包括接收用户输入的自定义词;接收所述自定义词的类别属性和/或词性属性。
10、 如权利要求8所述的方法,其特征在于,所述根据自定义词及其属性, 生成自定义词典包括采用目录文件体系结构的方式,根据接收到的自定义词的类别属性,逐级 创建对应于各个类别的目录或文件,生成自定义词典。
11 、如权利要求8所述的方法,其特征在于,所述将自定义词典中的自定 义词及其属性加载到内存中包括根据自定义词的类别属性,生成自定义词典的类别表,并提供给用户进行 选择;根据用户在类别表中选择的类别,将自定义词典中对应的自定义词及其属 性加载到内存中。
12、 如权利要求11所述的方法,其特征在于,所述生成自定义词典的类别 表包括采用递归方式遍历用户自定义词典;获得其中所有类别的用户自定义词文件的目录路径,及其对应的类别信息; 将所述信息保存在配置文件中;冲艮据配置文件中保存的类别信息,生成自定义词的类别表。
13、 如权利要求8至12任一项所述的方法,其特征在于,所述将自定义词 典中的自定义词及其属性加载到内存中包括将所述自定义词典中的自定义词及其属性以字符树的方式加载到内存中。
14、 如权利要求8所述的方法,其特征在于,进一步包括利用加载在内存中的自定义词及其属性,对待识别文本进行分词,匹配所 述待识别文本中的自定义词,并为所述匹配成功的自定义词进行属性标注。
15、 如权利要求14所述的方法,其特征在于,进一步包括 对加载在内存中的自定义词进4亍编辑。
16、 如权利要求15所述的方法,其特征在于,进一步包括 根据用户请求或实时地对加载在内存中的自定义词进行备份。
17、 一种分词系统,其特征在于,包括自定义词管理装置,用于接收用户输入的自定义词及其属性,根据所述自 定义词及其属性生成自定义词典,并将所述自定义词典中的自定义词及其属性 加载到内存中;分词装置,用于利用加载在内存中的自定义词及其属性,对待识别文本进 行分词,匹配所述待识别文本中的自定义词,并为所述匹配成功的自定义词进 4亍属性标注。
全文摘要
本发明公开了一种自定义词管理装置、方法及分词系统。该装置包括接收模块,用于接收用户输入的自定义词及其属性;词典生成模块,用于根据所述自定义词及其属性,生成自定义词典;词典加载模块,用于将所述自定义词典中的自定义词及其属性加载到内存中,等待调用。应用本发明提供的自定义词典在进行分词时,除了可以提供用户输入的自定义词本身外,还可以提供该自定义词的相关属性。这样就可以在将来进行分词校验时进一步对自定义词的属性进行判断,从而确定在当时的特定语境中该分词方式是否正确。因此,本发明解决了用户利用自定义词进行分词时的准确性不高的问题。
文档编号G06F17/28GK101256557SQ20081009046
公开日2008年9月3日 申请日期2008年4月16日 优先权日2008年4月16日
发明者鉴 朱, 珩 李 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1