一种基于词频的数字出版物词汇抽取方法与流程

文档序号：13661329阅读：270来源：国知局

本发明涉及一种基于词频的数字出版物词汇抽取方法，属于数字出版技术领域。

背景技术：

人类已经进入数字出版时代，数字出版平台和电子读物自身的数字化特点，使利用各种现代技术为读者提供包括娱乐和辅助学习功能的新型有效服务成为可能。多媒体技术与人工智能研究领域成果的引用，如自然语言处理等，不仅给数字化出版带来信息载体、读物来源和阅读方式的改变，而且会使人们在阅读过程中的学习方式、学习效果等发生很多新的变化。

词汇是语言学习和阅读的基础，在超前阅读和外文阅读时，很多时候由于词汇所产生的阅读挫折阻碍或减缓了读者进入熟练阅读的阶段，从而导致最终语言磨蚀严重，浪费了大量智力资源。而对于普通的熟练阅读，也会遇到某些出现概率极低的词汇。

面对如何解决和缓解阅读中的生词问题，提高语言学习和阅读质量，目前已经提出在数字出版中对数字出版物提供词汇抽取服务的理念，其是指在数字出版过程中，把书籍原稿文档或各种其他文档(如影视或游戏对白)中读者可能不认识的生词提前抽取出来，给出解释，生成按词频分段，能按照章节、页码及其他分割单位进行查询筛选的词汇表放到出版平台上供下载，或形成适于移动终端的app打包下载。

由此可见，词汇抽取服务具有非常重要的实用意义，但是，截止目前为止，国内外还没有出现具体提供这种服务的技术方案。这其中的原因之一是由于数字出版提供词汇抽取服务底层需要各类优质的电子词典资源，这是出版社自身难以承担的，然而如今云计算和自然语言处理的不断发展，可以使这一服务成为可能。在词汇提取服务中，一个较困难的问题是词汇的按页查询以随机返回原语境。有的词汇在一本书中会出现几千次，有的词汇可能仅出现1次，但记录每个词汇的页码不仅繁琐，而且没有规律可循。同时，一个文档只有在排版后才存在页码信息，因此在改版或变更文件格式时都需要重新确定每个词汇的页码，工作量十分巨大。因此，如何共享和利用已存在的信息来减少页码定位及改版时的页码重新定位所产生的计算量具有十分现实的意义。

此外，数字出版物未来会基于xml技术实现“一次创建多次使用”的永久性传播方式，即把数字出版物的文档转换成xml格式文档，并在xml文档中进行标识工作，形成全媒体出版，以及实现个性化、片段化、碎片化出版，因此，如何在各种媒体和个性化出版中使词汇抽取变得简单、自动化，也是今后需要考虑的问题。

技术实现要素：

本发明的目的在于提供一种基于词频的数字出版物词汇抽取方法，其减少了按章节、页码抽取数字出版物中词汇所花费的计算量，并便于各词汇在重新排版后实现快速无误地页码定位，提高了出版工作效率。

为了实现上述目的，本发明采用了以下技术方案：

一种基于词频的数字出版物词汇抽取方法，其特征在于，它包括步骤：

1)判断待出版的数字出版物的语言以及其属于初级读物、中级读物、高级读物中的哪种阅读等级读物，根据判断结果调取对应的高频词典、中频词典和低频词典，其中：按照章节排序的数字出版物为涉及一种语言且以空格分隔词汇的语言文本；

2)将数字出版物的原始文档转换成xml格式文档，通过对xml格式文档进行排版来获得页码标记，形成带有章节、段落和页码标记的xml格式文件，并将xml格式文件保存为数字出版物的文档副本；

3)对文档副本进行词汇抽取，生成高频词汇表、中频词汇表、低频词汇表和新增词汇表：

3-1)基于高频词典，抽取文档副本中的高频词汇：

对高频词典中记录的各高频词汇，按词频由大到小的顺序逐个遍历文档副本进行查找，其中：在查找一个高频词汇时，当在文档副本中第一次查找到时，此高频词汇被记录到高频词汇表中并在文档副本中删除，但当此高频词汇再次在文档副本中查找到时，则不再被记录到高频词汇表中而在文档副本中直接删除；高频词典中的高频词汇按照词频大小降序排序；

3-2)基于中频词典，抽取文档副本中的中频词汇：

对中频词典中记录的各中频词汇，按词频由大到小的顺序逐个遍历文档副本进行查找，其中：在查找一个中频词汇时，当在文档副本的一个章节中第一次查找到时，此中频词汇被记录到中频词汇表中，标记此中频词汇所在章节号、所在页码号并累加词频，以及在文档副本中删除，当此中频词汇再次在同一章节中或其他章节中查找到时，则不再被记录到中频词汇表中，但累加词频，记录新出现的章节号和页码号，以及在文档副本中删除；中频词典中的中频词汇按照词频大小降序排序；

3-3)对文档副本剩余词汇逐个进行抽取，直到遍历并抽取完所有词汇：

若待抽取的词汇在低频词典中查找到，则此词汇被认为是低频词汇，记录到低频词汇表中，标记此低频词汇所在章节号、所在段落号和所在页码号并累加词频，以及在文档副本中删除；反之，此词汇被记录到新增词汇表中，标记此词汇所在章节号、所在段落号和所在页码号并累加词频，以及添加新增标记，并在文档副本中删除；

4)词汇抽取完成，数字出版物等待出版。

在实际运用中，当所述数字出版物中还存在少量其它语言的词汇时，此词汇视为新增词汇处理。

在实际运用中，若所述数字出版物具有两种或两种以上语言时，每种语言所对应的内容各自按照所述步骤2)和3)来处理。

另外，如果所述数字出版物改版，则通过对所述xml格式文档重新排版来获得新的页码标记，从而对所述中频词汇表、所述低频词汇表中各词汇的所在页码号进行更新。

本发明的优点是：

本发明在对数字出版物进行词汇抽取时排除了对高频词汇不必要的页码号标注，而基于章节排序固定不变的原则，对于因改版等变更出版格式或出版方式重新排版后的数字出版物，则可以直接使用现成的高、中、低频词汇表和新增词汇表，极大减少了排版后重新定位各类词汇所在页码号的计算量。本发明实现的词汇抽取准确率高，简单、便捷、快速，工作量小，大大提升了数字出版提供数字出版物词汇提取服务的效率。

附图说明

图1是本发明的实施流程图。

具体实施方式

数字出版物的词汇抽取服务基于如下语言规律实现：

语言学家的研究发现，一种语言中，尽管词汇很多，但在人们的实际生活和书籍中，常用词占了绝大部分。一个读者的语言水平越高，其所认识的难词、或者说低频词就越多。如果把一种语言的词汇按词频分段，语言水平高的读者生词少且趋于低频词段，语言水平较低的读者生词较多，词频段跨度较大。因此，可以根据语言学研究成果，通过采用不同的词汇抽取策略来提供不同频段的词汇表，以满足不同语言水平读者的需要。这样就可以解决目前人们语言学习和阅读中出现的下列问题：1)读物语言难度信息缺乏；2)阅读文本中的生词无法预知；3)返回原语境复习知识点困难；4)语言学研究成果在服务中难以体现；5)减少屏幕或网络阅读副作用。

本发明主要依据下面几点来设计：

第一，词频词典的可实现性：目前通过词汇计量来对一种语言中的词汇进行统计分析已在语言研究中普遍使用。以英语为例，美国当代英语词汇研究项目建立了4亿词汇的文献资料库，美国杨百翰大学对这个资料库用计算机筛选出了美语使用频率最高的100000个高频词汇和它的类词库。目前，根据词汇统计结果形成的词频词典已出版，因为词频词典是对国家母语大数据统计计量的结果，因此其在统计学上具有重要意义。

第二，高频词汇的规律：在词汇计量中发现，一种语言的词汇量很大，但高频词汇的数量很少而覆盖率却极大。例如，据francis和kucera在1982年的统计，在一百多万词的brown语料库中，频率居前1000个的单词就可以覆盖72％的语料库，频率居前2000个的单词可以覆盖79.7％，频率居前5000个的单词可以覆盖88.7％，频率居前6000个的单词可以覆盖89.9％，频率居前15851个的单词覆盖97.8％。从上面的数据我们可以发现常用的单词(词频在前2000个的单词)大约占语料库的80％。而在近年进行的汉语词汇计量研究中发现，10亿字以上的汉语文本中，覆盖率为90％的词汇，其占总词汇种数的0.53％-0.68％。根据《现代汉语频率词典》发现，如果按频率递减的顺序排序词表，前100个词汇占语料库总量的40％以上，前500个词汇占语料库总量的70％以上，前2562个词汇占语料库总量的85％，而词频排在前4000的常用词汇基本上已经覆盖了语料库的绝大部分。所以，在对数字出版物进行词汇抽取时，因为高频词汇都是人们已经非常熟悉的词，因此可以不用进行词频统计，以及不用按章节或按页码定位，这样便可减少许多不必要的计算量。

第三，低频词汇的同频词统计规律：据基于齐夫第二定律的低频词汇的同频词统计规律，虽然低频词汇对于语料库覆盖的作用是微乎其微的，但一本书中词频为1次的词汇数量约占词汇总量(不同词汇的总数)的50％，词频为1和2次的词汇数量之和在整篇文章中占的比例很大，能够达到文本词汇总量的70％。因此，在实现低频词汇的按章节和页码统计时，如果能快速定位并记录词频为1或2的词汇位置，也可以有效减少词汇抽取时的计算量。

第四，中频词汇的规律：目前对于中频词汇没有准确的定义，在本发明中是指词频介于高频词汇与低频词汇之间的词汇，它们一般出现的次数较多。根据同频次统计规律，在一个文本中，词频小于等于5的词汇占词汇总量的83％左右，而词频大于5的词汇数量仅占词汇量总量的17％左右。所以，中频词汇无论在数量和词频上的比例都不高，同时，在确定页码时，在页码中第一次查询到即可定位，所以可以采用逐页确定页码的方法来实现。

这里需要提及的是，对于汉语这样的表意文字，词与词之间不像英语那样有空格，在进行词汇提取之前需要先进行词切分。但在形成xml文件时，如果不保留词与词之间留有空格的词切分形式，获取词汇表中词汇对应页码就存在困难。但值得欣慰的是，通过研究发现，汉语文本添加词间空格对中国学生无影响，且对于外国留学生学习汉语则具有促进作用，无论是欧美学生还是俄语学生，特别是在初级和中级阶段。因此，数字出版提供词汇抽取服务也可以适用在汉语出版物，特别是对外汉语出版中实现和应用。

故而，在下面本发明中，不论是本身以空格分隔词汇的诸如英文的语言文本，还是无空格、连续书写词汇的诸如中文的语言文本，对于步骤1)所需要的以空格分隔词汇的语言文本都是可以容易获得的，此属于本领域的已有技术，在这里不再详述。换句话说，在执行步骤1)前，诸如中文的语言文本要事先转换成以空格分隔词汇的文本。

基于上述考虑，本发明提出了如下基于词频的数字出版物词汇抽取方法，具体包括步骤：

1)判断待出版的数字出版物的语言以及其属于初级读物、中级读物、高级读物中的哪种阅读等级读物，根据判断结果调取对应的高频词典、中频词典和低频词典，其中：按照章节排序的数字出版物为涉及一种语言且以空格分隔词汇的语言文本。

2)将数字出版物的原始文档转换成xml格式文档，通过对xml格式文档进行排版来获得页码标记，形成带有章节、段落和页码标记的xml格式文件，并将xml格式文件保存为数字出版物的文档副本。

3)对文档副本进行词汇抽取，生成高频词汇表、中频词汇表、低频词汇表和新增词汇表：

3-1)基于高频词典，抽取文档副本中的高频词汇：

对于步骤3-1)，一方面，文档副本中的高频词汇是按照高频词典中词频由高到低的顺序进行查找的，因此，词频最高的高频词汇会首先被删除，因此需要遍历查找的词汇量会越来越少，甚至是说急剧下降，而当高频词典中的所有高频词汇全部查找完毕，文档副本完成高频词汇抽取后，文档副本中所剩的词汇量或说文本量会变得很少，因此后面对中低频词汇的抽取工作量会极大减少，另一方面，对于高频词汇，因其是最常用的词，甚至可在每页中出现，覆盖率极高，因此本发明不在高频词汇表中统计其出现的次数(词频)以及所在章节号等信息。

3-2)基于中频词典，抽取文档副本中的中频词汇：

对中频词典中记录的各中频词汇，按词频由大到小的顺序逐个遍历文档副本进行查找，其中：在查找一个中频词汇时，当在文档副本的一个章节中第一次查找到时，此中频词汇被记录到中频词汇表中，标记此中频词汇所在章节号、所在页码号并累加词频(词频数量加1，下同)，以及在文档副本中删除，当此中频词汇再次在同一章节中或其他章节中查找到时，则不再被记录到中频词汇表中，但累加词频，记录新出现的章节号和页码号，以及在文档副本中删除；中频词典中的中频词汇按照词频大小降序排序。

对于步骤3-2)，一方面，文档副本中的中频词汇是按照中频词典中词频由高到低的顺序进行查找的，因此，词频最高的中频词汇会首先被删除，因此需要遍历查找的词汇量会越来越少，而当中频词典中的所有中频词汇全部查找完毕，文档副本完成中频词汇抽取后，文档副本中所剩的词汇量或说文本量会进一步变得更少，因此后面对低频词汇的抽取工作量会更加极大减少，另一方面，因中频词汇可能会出现在多个章节或页码中，但通常不会在每一章节中都出现，因此本发明的这种仅记录同一章节中出现的头一个中频词汇的做法，在排版格式发生变化时可以避开无用查询。

3-3)对文档副本剩余词汇逐个进行抽取，直到遍历并抽取完所有词汇：

通常，当对文档副本抽取完高、中频词汇后，剩下的词汇便基本上为低频词汇了。

若待抽取的词汇在低频词典中查找到，则此词汇被认为是低频词汇，记录到低频词汇表中，标记此低频词汇所在章节号、所在段落号和所在页码号并累加词频，以及在文档副本中删除；

反之，若待抽取的词汇没有在低频词典中查找到，则此词汇被记录到新增词汇表中，标记此词汇所在章节号、所在段落号和所在页码号并累加词频，以及添加新增标记，并在文档副本中删除。

对于步骤3-3)，低频词汇众多但出现次数极少，如果按照高、中频词汇那样进行抽取的话，则查询效率会极大降低，所以本发明采取了文本中词汇到低频词典中查询的方法，这样大大提高了查找效率。

4)词汇抽取完成，数字出版物等待出版。

在本发明中，根据语言词汇频率的实际统计情况，初级读物、中级读物和高级读物都会对应制定有高频词典、中频词典和低频词典，换句话说，对于一种语言，初级读物对应制定有高频词典、中频词典和低频词典，中级读物对应制定有高频词典、中频词典和低频词典，同样地，高级读物也对应制定有高频词典、中频词典和低频词典。

进一步来说，对于一种语言的某种阅读等级的读物，其高频词典用于记录该种语言读物的高频词汇，即该种语言读物中惯常出现次数高的词汇，低频词典用于记录该种语言读物的低频词汇，即该种语言读物中惯常出现次数低的词汇，中频词典用于记录中频词汇，即该种语言读物中惯常出现次数介于高频词汇与低频词汇之间的词汇。但是，初级读物、中级读物和高级读物对高、中、低频词汇的定义是不同的。例如，对于初级读物来说，由于其服务的读者语言水平较低，所以初级读物对应的高频词典所包含的词汇数量会较少。又例如，对于高级读物来说，由于其服务的读者语言水平较高，所以高级读物对应的高频词典包含的词汇可能会较多。

在本发明中，对于各种语言的数字出版物来说，可根据与该语言相关的频率词典、相关语言教学要求及最新的语言研究成果，对初级读物、中级读物和高级读物的高、中、低频词汇进行定义。

对于英语，可根据相关的英语频率词典，第4版《剑桥词典》在词语频率标注时，改用了英语词汇使用概况(englishvocabularyprofile)标识，把语言交际能力分为三等六级。三等是a(初级使用者/基础)、b(独立使用者/中等)和c(熟练使用者/高等)，六级是a1(入门级)、a2(基础级)、b1(进阶级)、b2(高阶级)、c1(流利运用级)和c2(精通级)。在确定不同频段词汇时，可根据上述等级具体量化后的标准来确定。

对于汉语，《国际汉语分级词汇表》(2012年)中包含词汇8531个，由易到难分为四级：一级1032个，二级1999个，三级2155个，四级3345个。初级读物的高频词汇可以结合词频在一级词汇的1032个词汇中选定，中级读物的高频词汇可结合词频在一级和二级词汇中确定。高级读物的高频词汇可结合词频在一级、二级和三级词汇中选定。而初、中和高级读物中的中频词汇和低频词汇的制定需要由语言学家、教育学家等根据具体语言研究结果，结合词频来确定。

在本发明中：高频词汇表用于记录高频词汇，即在文档副本中出现次数多的词汇；低频词汇表用于记录低频词汇，即在文档副本中出现次数少的词汇；而中频词汇表用于记录在文档副本中出现次数介于高频词汇与低频词汇之间的词汇；新增词汇表用于记录不属于高、中、低频词汇之外的其它词汇。

在本发明中：

高频词汇表的属性包括词汇原型、发音、释义和附加信息(如词汇书写动画演示、汉语的字理解释)。

中频词汇表的属性包括词汇原型、发音、释义、词汇所在章节号、词汇所在页码号、词频(词汇在文档副本中出现的次数)和附加信息。

低频词汇表的属性包括词汇原型、发音、释义、词汇所在章节号、词汇所在页码号、词汇所在段落号、词频(词汇在文档副本中出现的次数)和附加信息。

新增词汇表的属性包括词汇原型、发音、释义、词汇所在章节号、词汇所在段落号、词汇所在页码号、词频(词汇在文档副本中出现的次数)、附加信息和新增标记。

在实际实施时，如果记录段落号较困难或花费的计算量较大，则可不记录段落号，即：被认为是低频词汇的词汇，不标记其所在段落号；被记录到新增词汇表中的词汇，不标记其所在段落号。

在步骤3-3)中，低频词典中的低频词汇按照设定规则排序，其中：当文档语言为英语时，低频词典按词汇首个英语字母顺序排序；当文档语言为汉语时，低频词典按汉字编码规则排序；当然对于其它语言，低频词典中低频词汇的排序可根据其语言特点合理设计，不受局限。

在实际实施中，若新增词汇表中的词汇属于拼写错误，则经过出版编辑人员或作者的改正后应补入高、中或低频词汇表中。

上述本发明解决的是数字出版物全部为一种语言的情形，但当数字出版物中还存在少量其它语言的词汇时，如英语书籍中含有少量德语词汇，那么出现的那些少量其它语言的词汇视为新增词汇来处理。

另外，上述本发明解决的是数字出版物全部或绝大多数为一种语言的情形，若数字出版物具有两种或两种以上语言时，如英汉全译本，那么执行完步骤1)后，每种语言所对应的内容各自按照上述步骤2)至3)来处理。

在实际实施时，如果数字出版物需要改版的话，则只需通过对xml格式文档重新排版来获得新的页码标记，以便对中频词汇表、低频词汇表中各词汇的所在页码号进行更新，而高频词汇表不需要更新。从实际实施可以看出，因为初始形成的中频词汇表、低频词汇表中已经存在章节号、词频信息，甚至段落号信息，因此词汇表中的这些已有信息有助于在确定词汇所在新页码时减少查询计算量。

在这里，xml格式文档在排版过程中生成页码标记，是本领域的熟知技术，故在本发明中不再详述。

本发明的优点是：

以上所述是本发明较佳实施例及其所运用的技术原理，对于本领域的技术人员来说，在不背离本发明的精神和范围的情况下，任何基于本发明技术方案基础上的等效变换、简单替换等显而易见的改变，均属于本发明保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙继兰
技术所有人：北京工商大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。