用于电子书的自定义字典的制作方法_3

文档序号：8516092阅读：来源：国知局

-ROM)、DVD或固态存储设备。存储器206持有由处理器202使用的指令和数据。定点设备214是鼠标、轨迹球或其他类型的定点设备，并且与键盘210组合使用以将数据输入到计算机200中。图形适配器212在显示器218上显示图像和其他信息。网络适配器216将计算机200耦合至一个或多个计算机网络。
[0036]计算机200被适配为执行用于提供本文所描述的功能的计算机程序模块。如本文所使用的，术语“模块”指代用于提供指定的功能的计算机程序逻辑。因此，可以在硬件、固件和/或软件中实施模块。在一个实施例中，程序模块被存储在存储设备208上、被加载到存储器206中、并且由处理器202执行。
[0037]由图1的实体所使用的计算机200的类型可以根据实施例和实体所要求的处理能力而改变。例如，DGS 102可能包括一起工作以提供本文所描述的功能的多个刀片服务器。计算机200可以缺少上述部件中的一些部件，诸如键盘210、图形适配器212和显示器218。此外，DGS 102可以在单个计算机200或多个计算机200上运行，该多个计算机通过诸如服务器群的网络来相互通信。
[0038]图3是图示了根据一个实施例的DGS 102内的模块的详细视图的高级别框图。DGS102的一些实施例具有与这里描述的那些模块不同的模块。类似地，功能可以以与这里描述的方式不同的方式被分布在模块之间。DGS 102由包括用户账户管理器210、数据管理器312、电子书定位器319、组分析器320、词标识器321、字典生成器330和字典服务器335的模块组成。
[0039]用户账户管理器310从由用户操作的用户客户端接收自定义字典请求，该自定义字典请求标识电子书并且包括描述用户的字典管理信息。例如，用户账户管理器310可以从在用户客户端100上操作的服务器交互模块106接收电子书请求或自定义字典请求。用户账户管理器310从自定义字典请求中提取字典管理信息。用户账户管理器310向DGS 102中的其他模块分发字典管理信息。
[0040]此外，用户账户管理器310使用与用户相关联的字典管理信息来标识和认证用户。每个用户可以在DGS 102上具有独特的账户。在用户的允许下，用户账户管理器310收集关于每个用户的数据，该数据在针对具体用户自定义的字典的创建中是有用的。该信息可以包括来自服务器交互模块106等的字典管理信息。用户账户管理器310还可以从诸如书籍零售商、电子书数据库101、社会网络系统等第三方源收集与用户相关的数据。同样，用户账户管理器310可以收集与请求电子书的用户相关联的用户相关的数据。
[0041]数据管理器312存储和管理用户信息、字典管理信息、与电子书有关的数据以及组阅读简档。在一个实施例中，数据管理器312包括电子书简档存储库315和组阅读简档存储库317。
[0042]电子书简档存储库315存储与电子书相关的信息。与电子书相关的信息是描述电子书或电子书的文本的信息。用于每个电子书的信息可以被存储在针对该电子书的电子书简档中。针对给定的电子书，电子书简档可以包含电子书标识符、电子书的文本、与电子书内的词相关联的复杂性得分、以及与电子书相关的元数据。例如，元数据可以包括书的作者、出版日期、评论、流派信息、出版商、评级等。
[0043]组阅读简档存储库317存储组阅读简档。组阅读简档描述具有特定背景的用户的特定组的阅读水平。每个组阅读简档都具有相关联的组阅读得分。
[0044]电子书定位器319使用包括在自定义字典请求中的字典管理信息检索由用户客户端100请求的电子书以及电子书内的词的复杂性得分。在一个实施例中，电子书定位器319从字典管理信息中提取电子书标识符，该电子书标识符可以被用来从电子书数据库101中检索电子书以及电子书内的词的复杂性得分。备选地，电子书定位器319可以从字典管理信息中提取电子书元数据，并且使用查找表将电子书元数据与电子书标识符相匹配。电子书定位器319向电子书简档存储库315提供检索到的电子书和复杂性得分。
[0045]组分析器320通过分析用于具有相似背景(例如，人口统计、阅读历史等)的用户的组的字典管理信息来创建组阅读简档，以标识用于每个用户组的组阅读得分。因此，每个组阅读简档都具有对应的组阅读得分。组阅读得分是指示与对应的组阅读简档相关联的用户的阅读能力的数值得分。例如，大学毕业生可以分组到具有对应的第一组阅读得分的组阅读简档中，以及高中生可以分组到具有低于第一组阅读得分的对应的第二组阅读得分的单独的组阅读简档中。组分析器320使用与组阅读简档相关联的用户的字典管理信息来确定用于每个组阅读简档的组阅读得分。例如，组分析器320可以通过对与相同组阅读简档相关联的用户中的一些或所有用户的阅读水平阈值求平均值并且将平均的阅读水平阈值设置为组阅读得分来确定组阅读得分。
[0046]此外，组分析器320可以通过分析从具有相似背景的各个用户客户端100接收到的字典管理信息作为组阅读简档来更新与该组阅读简档相关联的组阅读得分。组分析器320监控包括在用户的字典信息中的每个字典信息的阅读水平。如果组分析器320确定阅读水平以平均阅读水平阈值已经改变的这种方式而被调整(例如，用户手动改变阅读水平)，则组分析器320将组阅读得分调整为对应于新的平均阅读水平阈值。
[0047]组分析器320基于字典管理信息来选择用于用户的组阅读简档。例如，DGS 102可以将字典管理信息的人口统计分量与各个组阅读简档进行比较以选择最接近用户的组阅读简档。
[0048]词标识器321在所标识的电子书中标识用于包括在定制的自定义字典中的候选词。如果词具有相关联的复杂性得分，则词标识器321在电子书中将该词标识为候选词。词标识器321从电子书中检索文本并且例如从电子书简档存储库315或电子书数据库101中检索其相关联的复杂性得分。
[0049]在没有检索到复杂性得分(例如，从电子书数据库101中)的实施例中，词标识器321可以计算电子书中的词的复杂性得分。词标识器321可以以不同的方式来计算复杂性得分。例如，在一个实施例中，使用例如从电子书数据库101中接收到的词频-逆文档频率(TF-1DF)信息来计算复杂性得分。这里，TF-1DF值基于所请求的电子书中的术语的频率，除以频率或者由电子书的全集中术语的频率的倒数加权(相乘)。因此，TF-1DF与词出现在所请求的电子书中的次数成比例地增加，但是由电子书的全集中的词的频率抵消，这针对一些词通常比其他词更常用的事实来帮助控制。
[0050]此外，在TF-1DF计算中作用为分母的电子书的全集在不同实施例中可以不同。在一个实施例中，电子书的全集可以为存储在电子书数据库101中的所有电子书。相反，在其他实施例中，电子书的全集可以是所有存储的电子书的子集。例如，如果所请求的电子书是儿童书，则书的全集可以被限制于儿童书。此外，书的全集可以是从用户的阅读历史中得出的书的集合。例如，仅阅读医学文本的医生(例如，眼科医生)在书的全集中将仅具有医学文本。TF-1DF计算将过滤通常出现在全集中的复杂医学术语，从而防止如“眼科医生”的词语出现在眼科医生的自定义字典中。
[0051]词标识器321响应于用于所选的组阅读简档的相关联的组阅读得分，从候选词中选择用于包括在自定义字典中的词。词标识器321将初始阅读水平阈值设置为组阅读得分。具有阅读水平阈值之上的复杂性得分的词不太可能被用户理解。词标识器321选择具有高于阅读水平阈值的复杂性得分的候选词用于包括在自定义字典中。在备选实施例中，词标识器321选择所有的候选词用于包括在自定义字典中。
[0052]词标识器321可以根据字典管理信息来将复杂性得分调整得更高或更低。例如，针对“田园诗”的初始阅读阈值和复杂性得分可以使得它被初始地标识为候选词(即，复杂性得分小于初始阅读阈值)。词标识器321可以根据字典管理信息确定用户最近查找了术语“田园诗”。因此，词标识器321可以减小针对“田园诗”的复杂性得分。如果经调整的复杂性得分小于初始阅读水平阈值，则该词不再被选择用于包括在自定义字典中。类似地，用户简档可以指示用户来自英国但居住在美国。因此，用户将很可能理解来自英国的任何习语，而许多美国人可能在这些

完整全部详细技术资料下载

当前第3页1 2 3 4 5