一种基于超级画板的信息增值方法及装置的制造方法_3

文档序号:9375829阅读:来源:国知局
该作品中出 现次数,关键词在该作品中出现位置,指向下一个文档节点的指针,组织上述信息形成如下 节点结构:
[0072]
[0073] S55:计算关键词对应的哈希值,判断哈希表中该哈希值对应的关键词结点链表是 否存在,如果存在,就采用头插法将步骤S54中的DocNode插入到该关键词节点链表中使其 成为关键词节点链表中第一个文档节点,并更新关键词节点中关键词总出现次数和包含该 关键词的作品个数;否则,执行步骤S56。
[0074] 所述关键词节点KeyNode是:
[0075] 数据形式为:关键词名,关键词总出现次数,关键词在哈希表中的位置,包含关键 词的作品个数,指向下一个文档节点的指针。组织上述信息形成如下节点结构。
[0076]
[0077] S56:关键词结点链表不存在,此时先根据关键字计算出哈希值,然后判断当前 哈希表中该哈希值对应的关键词节点链表是否已经存在,如果不存在,那么就继续顺延 查找下一个哈希表空位,直到找到一个空位,记该空位位置为P〇s,然后新建一个关键词 节点KeyNode作为关键词节点链表的首节点,使关键词节点指向步骤S54中的文档节点 DocNode,使 keyNodeArray 第 pos 个元素为 KeyNode。
[0078] S57 :当前正排索引文件处理结束,转S52。
[0079] S58:所有正排索引文件处理完成,遍历关键词节点链表数组keyNodeArray,对于 每一个关键词节点链表,遍历得到从关键词节点KeyNode开始一直到链表尾部的倒排索 弓丨,将倒排索引写入到倒排索引文件invert_index. txt中。至此,倒排索引文件生成,结束 处理。
[0080] 所述倒排索引结构如下:
[0081]
[0082] S6:根据用户输入的检索关键词,计算作品权重并按照权重的高低得到需要展示 的作品名集合。
[0083] 具体而言步骤S6可以细分为以下步骤,下面做进一步阐述:
[0084] S61 :对用户输入的检索关键词集合进行分词,去噪处理。
[0085] S62 :根据步骤S58中已经构建好的倒排索引文件invert_index. txt,读取倒排索 引文件中的的每一个关键词,构成〈关键词,{倒排索引文件名,该关键词在倒排索引文件 名中的行号}>的映射,组合所有关键词的映射得到词典映射表。
[0086] S63:若用户输入的关键词集合在词典映射表中,则进行布尔过滤,筛选出同时包 含用户输入的去噪后的所有关键词的作品集合。
[0087] S64:对筛选出的作品集合则按照公式(1),(2),(3)计算包含关键词的作品的 tf-idf权重值。
[0088]
[0091] 上述公式所述:
[0092] kl, k2,…kn表不用户输入的第一个关键词,第二个关键词,…,第η个关键词。 j表示作品文档编号。tf^表示作品文档dj中关键词ki出现的次数,idf ;表示关键词ki 的逆文档频率。
[0093] Ii1, ,表示关键词ki在文档dj出现的次数,Σ ,!!^表示文档dj中所有关键词的个 数。|dI表示所有作品文档个数,|i AiG LI表示包含关键词ki的作品文档个数。
[0094] S65 :将计算后权重值按照从大到小排序,按照该顺序将符合要求的作品名集合 productionNameList 进行返回。
[0095] S7:网页展示作品信息。
[0096] 具体而言,步骤S7又可以细分为以下步骤
[0097] S71:遍历步骤S65得到的作品集合productionNameList,在数据库中查询出作品 信息,得到作品集合productionList。
[0098] S72:遍历作品集合productionList,如果作品没有遍历结束,执行步骤S73 ;否 贝1J,执行步骤S75。
[0099] S73:对每个作品production,将作品的首张页面截图,作品名称,作品介绍,作品 关键词组织为作品概览页面进行展示;将作品的视频文件,视频关键帧,作品的页面截图, 作品名称,作品介绍,关键字组织为作品详细页面,并在作品概览页面中的首张页面截图被 点击时,加载和展示作品详细页面。
[0100] S74:在作品关键词展示框中,利用ajax技术提供作品关键词检索功能,可以展示 该作品中包含关键词的详细内容信息。转步骤S72。
[0101] S75:所有作品展示结束,结束处理。
[0102] 以上内容对本技术发明一种基于超级画板的信息增值方法进行了详细说明,本技 术发明还提供一种基于超级画板的信息增值装置。
[0103] 参照附图2,附图2为技术发明实施例提供的一种基于超级画板的信息增值装置 的结构示意图,该装置包括:
[0104] 函数预处理模块:用于读取超级画板库函数文档,将非格式化的函数信息转换为 格式化函数信息,并将格式化函数信息写入函数文件中,将生成的函数文件发送给入库模 块。
[0105] 自动化点击模块:通过保存作品为网页文件,读取网页文件提取按钮坐标信息,计 算按钮偏移值,配置录制视频所需按钮信息,来进行自动化点击学生作品,并将点击操作录 制成视频文件,进行作品页面的自动截图。将网页文件,页面截图,视频信息发送给入库模 块。所述保存的作品信息和超级画板信息包括但不局限于上述信息。
[0106] 入库模块:接收来自于函数预处理模块的函数文件和自动化点击模块发送的网 页文件,页面截图,视频,对视频提取关键帧,对网页文件提取作品内容,生成关键词,统计 词频,生成作品名,将以上信息全部存储至数据库中,生成作品内容文件发送给索引构建模 块。
[0107] 索引构建模块:接收入库模块发送的作品内容文件,对作品内容文件进行分词,生 成正排索引文件。读取多个正排索引文件,采用哈希算法和拉链法生成倒排索引文件,并将 倒排索引文件发送给检索模块。所述构建倒排索引的方式不局限于上述提到的方式。
[0108] 检索模块:接收用户的检索请求,根据检索关键字在索引构建模块生成的倒排索 引文件中查找符合要求的作品集合,利用tf-idf算法计算作品的权重,按照权重从高到低 次序返回符合要求的作品名集合。所述计算作品权重的方法并不局限于上述方法。
[0109] 展示模块:获取检索模块计算得到的作品名集合,根据作品名在数据库中查找到 作品的详细信息,按照一定的展示方式在网页端进行作品的展示。
[0110] 以上结合附图详细描述了本发明的实施方式,但是本领域技术人员可以在不脱离 本发明的精神和范围的情况下做出各种变型和修改,这样的变型和修改均落入所附权利要 求所限定的范围内。
【主权项】
1. 一种基于超级画板的信息增值方法,其特征在于,所述方法如下步骤: 51、 从超级画板函数文档中提取图形函数信息,存储在函数文件中; 52、 对超级画板的学生作品进行自动化点击,获取学生作品的网页文件,页面截图,自 动点击视频; 53、 将超级画板的数据信息存储至数据库中; 54、 根据步骤S3中生成的每个学生作品对应的content, txt文件,
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1