多级数据存储方法及装置、多级数据结构、信息检索方法_3

文档序号:9646593阅读:来源:国知局
关联关系信息用于保存该数据及其所对应的上下级数据之间的关系。
[0086]词类库中具有若干单个数据分类,本实施例中以建立词类库中的一个单个数据分类,并且该单个数据分类具有三级数据结构进行示例性说明。需要说明的是,多层数据的级数以及数据的具体内容不应限制本发明的保护范围。
[0087]本实施例中以建立跟关键词“外企”有关的词类库作为示例进行说明。所述分别生成各级数据的数据标签,所述数据标签为词类标签的过程包括:分别生成一个父级(或第一级)词类标签:外企,两个子级(或第二级)词类标签:外独资企业和中外合资企业,六个孙级(或底层)词类标签:日企、德企、美企、中日合资、中美合资、中非合资。所述父级(或第一级)词类标签的数量为一个,子级(或第二级)词类标签和孙级(或底层)词类标签的数量均大于1个。
[0088]所述孙级(或底层)词类标签为最小分类,所述子级(或第二级)词类标签为若干孙级(或底层)词类标签对应的大分类,所述父级(或第一级)词类标签为若干子级(或第二级)词类标签对应的大分类。
[0089]分别记录各词类标签对应的关联关系信息包括:对应各词类标签生成携带上级数据的词类标签和下级数据的词类标签的关联关系信息。具体的,记录父级词类标签“外企”对应的关联关系信息:/外企/外独资企业、中外合资企业,由于父级(或第一级)数据不存在上级数据,因而该关联关系信息中不记录上级词类标签,只记录并列的子级(或下级)词类标签“外独资企业”和“中外合资企业”;记录子级词类标签“外独资企业”对应的关联关系信息:外企/外独资企业/日企、德企、美企,该关联关系信息中记录父级(或上级)词类标签“外企”,以及并列的孙级(或下级)词类标签“日企”、“德企”和“美企”;记录子级词类标签“中外合资企业”对应的关联关系信息:外企/中外合资企业/中日合资、中美合资、中非合资,该关联关系信息中记录父级(或上一级)词类标签“外企”,以及并列的孙级(或下一级)词类标签“中日合资”、“中美合资”和“中非合资”;记录孙级词类标签“日企”对应的关联关系信息:外独资企业/日企,由于孙级(或底层)数据不存在下层数据,该关联关系信息只记录孙级(上一级)词类标签;记录孙级词类标签“德企”对应的关联关系信息:外独资企业/德企;记录孙级词类标签“美企”对应的关联关系信息:外独资企业/美企;记录孙级词类标签“中日合资”对应的关联关系信息:中外合资企业/中日合资;记录孙级词类标签“中美合资”对应的关联关系信息:中外合资企业/中美合资;记录孙级词类标签“中非合资”对应的关联关系信息:中外合资企业/中非合资。
[0090]进行步骤S202,判断是否对各词类标签记录语义内容。
[0091 ] 在一实施例中,判断是否对各词类标签记录语义内容的过程包括:提供字典,所述字典中存储有若干单独词;将词类标签与字典进行匹配,若匹配,则该词类标签为单独词,则进行对对应的词类标签记录语义内容的步骤。
[0092]判断是否对各词类标签记录语义内容的判断时可以先从第一级的词类标签进行判断,然后逐级对下一级的词类标签进行判断。比如,本实施例中,先对父级词类分类进行判断,然后对子级词类分类进行判断。
[0093]词类标签与字典进行匹配的目的是判断该词类标签是否为单独词,若词类标签与字典里的某个关键词匹配,则该词类标签为单独词,则进行对该词类标签记录语义内容步骤;反之,在匹配时,字典里没有与词类标签匹配的关键词,则该词类标签不是单独词,对该词类标签不记录语义内容。
[0094]以判断对父级词类标签“外企”是否要记录语义内容作为示例,将父级词类标签“外企”与字典进行匹配,字典中存在于父级词类标签“外企”相匹配的单独词“外企”,则需要对父级词类标签“外企”记录语义内容。对子级词类标签是否要记录语义内容的判断与这类似。
[0095]当随机对各词类标签是否记录语义内容进行判断时,在另一实施例中,判断是否对各词类标签记录语义内容的过程包括:判断词类标签是否为底层词类标签,若该词类标签不是底层词类标签,则判断该词类标签是否为单独词,若该词类标签为单独词,则进行对该词类标签记录语义内容的步骤。
[0096]判断词类标签是否为单独词的过程包括:提供字典,所述字典中存储有若干单独词;将词类标签与字典进行匹配,若匹配,则该词类标签为单独词。
[0097]可以根据词类标签对应的关联关系信息判断某个词类标签是否为底层词类标签。
[0098]需要说明的是,本实施例中,由于孙级词类标签是最底层数据,无需进行是否进行记录语义内容的判断,直接对孙级词类标签记录语义内容。
[0099]在其他实施例中,也可以通过根据应用的需要人为判断是否对某一个词类标签进行记录语义内容的操作。
[0100]在一实施例中,采用不同方式标记记录有语义内容的词类标签以及未记录有语义内容的词类标签。具体的,可以仅标记记录有语义内容的词类标签,也可以仅标记未记录有语义内容的词类标签,还可以采用不同标记标记两种不同的语义,因而,在进行搜索时,可以根据标记快速确定搜索范围,提高搜索的准确性。
[0101]进行步骤S203,如果是,则对对应的词类标签记录语义内容。
[0102]所述语义内容为表达对应的数据标签的语义的词语集合。在一实施例中,所述语义内容可以为若干同义词或近义词。
[0103]具体的,记录父级词类标签“外企”对应的语义内容:外企、外资企业、外商投资企业;记录子级词类标签“外独资企业”对应的语义内容:外独资企业、外商独资企业;记录子级词类标签“中外合资企业”对应的语义内容:中外合资企业;记录孙级词类标签“日企”对应的语义内容:日企、日资企业;记录孙级词类标签“德企”对应的语义内容:德企、德资企业;记录孙级词类标签“美企”对应的语义内容:美企、美资企业;记录孙级词类标签“中日合资”对应的语义内容:中日合资、中日合资企业;记录孙级词类标签“中美合资”对应的语义内容:中美合资、中美合资企业;记录孙级词类标签“中非合资”对应的语义内容:中非合资、中非合资企业。
[0104]通过对对应的词类标签记录语义内容,使得该词类标签具有实际的语义,在单个词类库中即表达了词类标签的语义,使得词类库的数据存储结构简单。
[0105]本实施例中,所述语义内容与对应的词类标签存储的位置相同,使得词类标签具有实际语义的同时,词类库的数据存储结构较为简单。
[0106]上述方法形成的与“外企”相关的词类库结构,请参考图4,为了方便示意,图4中粗实线框及内容表示词类标签、带箭头实线表示词类标签之间的上下级关系、细实线框中内容表示对某一词类标签记录的语义内容,曲线表示语义内容针对记录的数据标签对象。其中,词类标签包括父级词类标签“外企”,子级词类标签“外独资企业”,子级词类标签“中外合资企业”,孙级词类标签“日企”,孙级词类标签“美企”,孙级词类标签“中日合资”,孙级词类标签“中美合资”,记录孙级词类标签“中非合资”;各语义内容包括:记录父级词类标签“外企”对应的语义内容:外企、外资企业、外商投资企业;记录子级词类标签“外独资企业”对应的语义内容:外独资企业、外商独资企业;记录子级词类标签“中外合资企业”对应的语义内容:中外合资企业;记录孙级词类标签“日企”对应的语义内容:日企、日资企业;记录孙级词类标签“德企”对应的语义内容:德企、德资企业;记录孙级词类标签“美企”对应的语义内容:美企、美资企业;记录孙级词类标签“中日合资”对应的语义内容:中日合资、中日合资企业;记录孙级词类标签“中美合资”对应的语义内容:中美合资、中美合资企业;记录孙级词类标签“中非合资”对应的语义内容:中非合资、中非合资企业。
[0107]本发明实施例还提供了一种多级数据结构,包括:多级数据标签以及各数据标签对应的关联关系信息;至少部分数据标签的语义内容。
[0108]其中,所述语义内容与对应的数据标签存在相同的位置。
[0109]其中,具有语义内容的数据标签位于底层或者为单独词。
[0110]本发明实施例还提供了一种多级数据存储装置,请参考图5,包括:
[0111]数据标签生成单元401,用于分别生成各级数据的数据标签;
[0112]关联关系信息记录单元402,用于记录各数据标签对应的关联关系信息,所述关联关系信息用于保存该数据及其所对应的上下级数据之间的关系;
[0113]判断单元403,用于判断是否对各数据标签记录语义内容;
[0114]语义内容记录单元404,用于对需要记录语义内容的数据标签记录语义内容。
[0115]所述判断单元403包括数据标签层级判断单元和单独词判断单元,所述数据标签层级判断单元用于判断数据标签是否为底层数据标签,若该数据标签为底层数据标签,数据标签层级判断单元则向语义内容记录单元404发送语义记录指令,语义内容记录单元404在接收到语义记录指令时对该标签记录语义内容,若该数据标签
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1