网络百科内容形成方法、网络服务器和客户端的制作方法

文档序号:6354331阅读:250来源:国知局
专利名称:网络百科内容形成方法、网络服务器和客户端的制作方法
网络百科内容形成方法、网络服务器和客户端
技术领域
本发明涉及计算机技术领域,特别是涉及网络百科内容形成方法、网络服务器和
客户端。
背景技术
2000多年前,古希腊学者亚里士多德萌发了一个伟大的创意将当时的“学问”通过讲义的形式全部记载下来,试图编成人类历史上最全面的“百科全书”。随着信息技术的发展,上述编辑百科全书的梦想有可能由不断迅猛发展的互联网技术以及遍布全球的网民来完成。比如,目前,各种网络百科依靠互联网的开放、可重复擦写、无地域限制、永远在线的特点,逐渐出现。从2001年“维基百科”的创立开始,到传统百
科领域“在线版”的Encyclopedia、Brockhaus等、微软的Encarta、谷歌的Knol......形形
色色的网络百科正在孕育、诞生、壮大。但是,仍存在阻碍网络百科发展的因素,现有技术中,网民通过互联网进行网络百科编辑的方式,主要是通过网页编辑的通行方式,即以段落为单元编辑文档内容,效率较低,阻碍了网络百科的进一步发展。现有技术为提高网页编辑的便利性,曾经于2003年I月29日公开一种发明专利申请号为“01121910. 6”名称为“模块化的网页编辑与实时转换的网页显示系统与方法”的中国专利申请文件。所述系统中,当网页浏览者经由互联网连至该伺服器主机以浏览该目标网页时,该伺服器主机始启动该功能区块转换模块,将该目标网页中所包含的每一功能区块转换为相对应的图形或文字显示。而当该网页浏览者按动该目标网页中的功能连结时,该伺服器主机始启动该功能连结转换模块,将该功能连结转换为相对应的实际网址,并回传给该网页浏览者的浏览器,使该浏览器得以显示出相对应实际网址的网页。

发明内容
本发明提供了一种形成效率高、编辑方便的网络百科内容形成方法、网络服务器和客户端。具体技术方案如下提供一种网络百科内容形成方法,包括向用户呈现带有输入窗口或选择项的可集成各种百科内容的模块化编辑界面,每种百科内容设有对应所述输入窗口或选择项;接收用户在所述编辑界面相应输入窗口或选择项输入的百科内容;将所述输入窗口或选择项输入的百科内容聚合为预定格式的百科内容集。其中,在向用户呈现带有输入窗口或选择项的可集成各种百科内容的模块化编辑界面步骤之前,包括向用户呈现模块化编辑界面的种类选择界面;接收用户选择的模块化编辑界面种类并向用户呈现此类模块化编辑界面。其中,在向用户呈现带有输入窗口或选择项的可集成各种百科内容的模块化编辑界面步骤中,每种所述百科内容对应唯一的百科模块。
其中,通过数据挖掘的方式在给定样本空间下在本地非格式化现有词条内容中寻找并读取相似度满足预定阈值条件的内容,将所述非格式化的现有词条内容拆分为不同的子结构并依次填充到一种所述百科模块对应的结构中。其中,在给定样本空间下在本地非格式化现有词条内容中寻找并读取相似度满足预定阈值条件的内容步骤包括选择需要处理的本地非格式化现有词条列表;在选择好所述词条列表后选择词条关键词作为训练集;在选择关键词后选择分类方法并设定预定阈值条件,通过数据挖掘的方式在每个所述现有词条列表的词条中选择与所述训练集同属一类的一级标题或者二级标题。其中,将所述非格式化的现有词条内容拆分为不同的子结构并依次填充到所述百科模块对应的结构中步骤包括对所述一级标题或二级标题下的内容依据特点文字、换行以及字体信息进行分离得到不同子结构并依次抽取,将抽取后的所述文字、换行以及字体信息依次填写到所述百科模块对应的子结构中。
其中,通过动态或静态接口调用外源数据,并通过词条筛选与内容筛选对所述外源数据进行整理规范,得到另一种所述百科模块对应的结构,最终以结构化的方式将所述外源数据展示在词条浏览页。其中,在得到另一种所述百科模块对应的结构步骤之后、最终以结构化的方式将所述外源数据展示在词条浏览页之前,包括依据搜索平台中所述外源数据相关查询指令query的比例以及非百科现有资源的满足情况判断用户需求的数量,根据所述用户需求的数量决定本地词条对应百科模块与外源数据对应百科模块的排名,用户需求的数量越大则排名越靠前;在所述用户需求的数量一致的情况下,分别判断本地词条内容与正文契合度、外源数据与正文契合度,使与正文契合程度高的百科模块排名靠前,与正文契合度低的排名靠后。其中,所述百科内容种类包括文字、图片、视频、音频。还提供一种网络服务器,包括界面呈现单元,用于向用户呈现带有输入窗口或选择项的可集成各种百科内容的模块化编辑界面,每种百科内容设有对应所述输入窗口或选择项;内容接收单元,用于接收用户在所述编辑界面相应输入窗口或选择项输入的百科内容;百科生成单元,用于将所述输入窗口或选择项输入的百科内容聚合为预定格式的百科内容集。其中,所述服务器包括界面选择单元,用于在向用户呈现带有输入窗口或选择项的可集成各种百科内容的模块化编辑界面之前,在界面呈现单元呈现的界面中向用户呈现模块化编辑界面的种类选择界面;界面确定单元,用于接收用户选择的模块化编辑界面种类并控制所述界面呈现单元向用户呈现此类模块化编辑界面。其中,每种所述百科内容对应唯一的百科模块。其中,所述服务器包括内引模块单元,用于通过数据挖掘的方式在给定样本空间下在本地非格式化现有词条内容中寻找并读取相似度满足预定阈值条件的内容,将所述非格式化的现有词条内容拆分为不同的子结构并依次填充到一种所述百科模块对应的结构中。其中,所述内引模块单元包括词条列表选择器,用于选择需要处理的本地非格式化现有词条列表;训练集产生器,用于在选择好所述词条列表后选择词条关键词作为训练集;标题选择器,用于在选择关键词后选择分类方法并设定预定阈值条件,通过数据挖掘的方式在每个所述现有词条列表的词条中选择与所述训练集同属一类的一级标题或者二级标题;百科模块填充器,用于对所述一级标题或二级标题下的内容依据特点文字、换行以及字体信息进行分离得到不同子结构并依次抽取,将抽取后的所述文字、换行以及字体信息依次填写到所述百科模块对应的子结构中。其中,所述服务器包括外引模块单元,用于通过动态或静态接口调用外源数据, 并通过词条筛选与内容筛选对所述外源数据进行整理规范,得到另一种所述百科模块对应的结构,最终以结构化的方式将所述外源数据展示在词条浏览页。其中,所述服务器包括第一排名单元,用于在得到另一种所述百科模块对应的结构之后,依据大众搜索平台中所述外源数据相关查询指令query的比例以及非百科现有资源的满足情况判断用户需求的数量,根据所述用户需求的数量决定本地词条对应百科模块与外源数据对应百科模块的排名,用户需求的数量越大则排名越靠前;第二排名单元,用于在所述用户需求的数量一致的情况下,分别判断本地词条内容与正文契合度、外源数据与正文契合度,使与正文契合程度高的百科模块排名靠前,与正文契合度低的排名靠后。另提供一种客户端,包括界面绘制单元,用于接收来自服务器的带有输入窗口或选择项的可集成各种百科内容的模块化编辑界面数据,并绘制所述模块化编辑界面,每种百科内容设有对应所述输入窗口或选择项;内容输入单元,用于接收用户在所述编辑界面相应输入窗口或选择项输入的百科内容,并向所述服务器发送。其中,所述客户端包括选择绘制单元,用于在绘制所述模块化编辑界面时,一同在界面中绘制模块化编辑界面的种类选择界面;界面选定单元,用于接收用户选择的模块化编辑界面种类并向所述服务器发送,触发服务器返回此类模块化编辑界面数据。由以上技术方案可以看出,针对现有技术网络百科以段落为单元编辑文档内容、效率较低的情况,本发明为网络百科的形成提供模块化、结构化的技术手段,即基于以下两点1)基于模块的文档内容聚合;(2)结构化编辑技术手段。具体而言,是在编辑或处理网络百科内容集时,以模块而非段落为单元编辑文档内容,用户无需自行创建文档的框架结构,只需依据给定框架的编辑界面编辑文档内容。本发明脱离传统互联网用户生成内容(UGC)以段落、章节为基本构成的文档内容组织方式,建立以模块为内容单元的文档编辑流程与展示方式,既方便用户编辑,同时为文档内容的格式化输出提了方法基础与保障,填补互联网行业中百科类产品结构化编辑的空白,能够提高网络百科的形成效率、方便编辑,有效促进网络百科的发展。在一个实施例中,网络百科的编辑流程随不同模块的给定格式而可以不同,所有编辑内容均对应唯一的模块,这样能够让用户灵活选择合适的百科模块,也能够极大地方便用户,实现傻瓜式的操作。

图I是本发明网络百科内容形成方法实施例的流程图;图2是本发明网络服务器实施例一的原理框图;图3是本发明网络服务器实施例二的原理框图;图4是本发明网络服务器实施例三的原理框图5是本发明网络服务器一实施例中内引模块单元的结构示意图;图6是本发明网络服务器实施例四的原理框图;图7是本发明客户端实施例一的原理框图;
图8是本发明客户端实施例二的原理框图。
具体实施方式为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。参阅图1,本发明网络百科内容形成方法实施例包括步骤101 :向用户呈现带有输入窗口或选择项的可集成各种百科内容的模块化编辑界面,每种百科内容设有对应所述输入窗口或选择项;所述向用户呈现模块化编辑界面,可以通过服务器向客户端呈现的方式,也可以是客户端与服务器协议好,客户端向用户呈现模块化编辑界面,而服务器则接收用户输入的数据;所述模块化编辑,具体而言,是在编辑或处理网络百科内容集时,以模块而非段落为单元编辑文档内容,用户无需自行创建文档的框架结构,只需依据给定框架的编辑界面编辑文档内容;由于模块化编辑的框架结构,因此可集成各种百科内容;而在模块化编辑界面中,每种百科内容则设有对应所述输入窗口或选择项,比如设有文字的输入窗口、图片的输入窗口等等;所述输入窗口可以输入各种百科内容的数据,比如文字、图片、视频等;所述选择项可以采用下列列表方式或树形、平板方式显示各种可选项目,当选择一种或几种项目时,也是输入百科内容的一种方式;在本实施例或其他实施例中,可以有另外一种用来进行百科内容输入设置或编辑界面设置等的选择项。步骤102 :接收用户在所述编辑界面相应输入窗口或选择项输入的百科内容;在向用户呈现带有输入窗口或选择项的可集成各种百科内容的模块化编辑界面后,等待用户在模块化编辑界面上的操作,比如百科内容的输入;当检查到各个输入窗口或选择项有已完成的百科内容输入或接收到用户的确定指令时,接收用户在各个输入窗口或选择项输入的百科内容;步骤103 :将所述输入窗口或选择项输入的百科内容聚合为预定格式的百科内容集。当接收完输入的全部百科内容时,根据聚合指令,将输入的百科内容聚合为预定格式的百科内容集,比如将各种文字、图片、视频等按预定格式聚合成一个百科内容集;所述百科内容集可以是网络百科的一个最小百科单元,比如一篇文章、一件图文集等等;也可以是几个最小百科单元的联合体,根据需要而设定;所述预定格式,是指预先设计好的各种网络百科的结构、呈现形式等等。以上可以了解,本发明实施例为网络百科的形成提供模块化、结构化的技术手段,即基于以下两点I)基于模块的文档内容聚合;2)结构化编辑技术手段。具体而言,是在编辑或处理网络百科内容集时,以模块而非段落为单元编辑文档内容,用户无需自行创建文档 的框架结构,只需依据给定框架的编辑界面编辑文档内容。本发明脱离传统互联网用户生成内容(UGC)以段落、章节为基本构成的文档内容组织方式,建立以模块为内容单元的文档编辑流程与展示方式,既方便用户编辑,同时为文档内容的格式化输出提了方法基础与保障,填补互联网行业中百科类产品结构化编辑的空白,能够提高网络百科的形成效率、方便编辑,有效促进网络百科的发展。在其他实施例中,在向用户呈现带有输入窗口或选择项的可集成各种百科内容的模块化编辑界面步骤之前,包括以下步骤I)向用户呈现模块化编辑界面的种类选择界面;S卩,前述实施例中的模块化编辑界面,可以进行选择,不限于一种编辑界面,可以根据不同的喜好风格、不同的百科内容集要求进行选择,比如电视剧的百科内容集的编辑界面,是不同于世界杯的百科内容集的编辑界面的;2)接收用户选择的模块化编辑界面种类并向用户呈现此类模块化编辑界面。当接收用户选择的模块化编辑界面种类后,即向用户呈现此类模块化编辑界面,以方便用户后续的百科内容输入。在其他实施例中,可以进一步包括如下步骤在向用户呈现带有输入窗口或选择项的可集成各种百科内容的模块化编辑界面步骤中,每种所述百科内容对应唯一的百科模块。每种所述百科内容对应唯一的百科模块,可以让模块化的实现更有效率,百科内容集的形成更加符合格式要求。在其他实施例中,除了根据用户的当前输入来形成百科内容集,还可以根据其他途径来形成百科内容集,比如可以进一步包括如下步骤通过数据挖掘的方式在给定样本空间下在本地非格式化现有词条内容中寻找并读取相似度满足预定阈值条件的内容,将所述非格式化的现有词条内容拆分为不同的子结构并依次填充到一种所述百科模块对应的结构中。在本实施例中,上述在给定样本空间下在本地非格式化现有词条内容中寻找并读取相似度满足预定阈值条件的内容步骤,可以称之为“内引模块”百科内容形成方式,即对现成的本地非格式化现有词条内容进行整理,按照预定条件,对这些现有词条内容先进行拆分,然后填充到一种所述百科模块对应的结构中,形成百科内容集。进一步地,在给定样本空间下在本地非格式化现有词条内容中寻找并读取相似度满足预定阈值条件的内容步骤,可以详细包括如下子步骤I)选择需要处理的本地非格式化现有词条列表;“内引模块”百科内容形成方式中,先选择需要处理的本地非格式化现有词条列表;2)在选择好所述词条列表后选择词条关键词作为训练集;选择词条关键词作为训练集,以作为预定阀值条件的基准;3)在选择关键词后选择分类方法并设定预定阈值条件,通过数据挖掘的方式在每个所述现有词条列表的词条中选择与所述训练集同属一类的一级标题或者二级标题。进一步地,将所述非格式化的现有词条内容拆分为不同的子结构并依次填充到所述百科模块对应的结构中步骤包括对所述一级标题或二级标题下的内容依据特点文字、换行以及字体信息进行分离得到不同子结构并依次抽取,将抽取后的所述文字、换行以及字体信息依次填写到所述百科模块对应的子结构中。当然,除了根据用户的当前输入来形成百科内容集,还可以根据其他途径来形成百科内容集、以及内引模块”百科内容形成方式,还存在更多的百科内容形成方式,比如包括如下步骤通过动态或静态接口调用外源数据,并通过词条筛选与内容筛选对所述外源数据进行整理规范,得到另一种所述百科模块对应的结构,最终以结构化的方式将所述外源数据展示在词条浏览页。 这种百科内容形成方式,是采用动态或静态接口对外界的数据即外源数据进行整理,以得到另一种所述百科模块对应的结构,然后最终以结构化的方式将所述外源数据展示在词条浏览页。此外,进一步地,在得到另一种所述百科模块对应的结构步骤之后、最终以结构化的方式将所述外源数据展示在词条浏览页之前,还可以包括以下步骤I)依据搜索平台中所述外源数据相关查询指令query的比例以及非百科现有资源的满足情况判断用户需求的数量,根据所述用户需求的数量决定本地词条对应百科模块与外源数据对应百科模块的排名,用户需求的数量越大则排名越靠前;2)在所述用户需求的数量一致的情况下,分别判断本地词条内容与正文契合度、外源数据与正文契合度,使与正文契合程度高的百科模块排名靠前,与正文契合度低的排名靠后。上述实施例,是对形成的百科内容集的各种方式进行排序,排序的首要标准是用户需求数量,其次是与正文契合度。本发明实施例中,所述百科内容种类包括文字、图片、视频或音频,还可以是综合类等,甚至在文字类中,也可以细分为不同的类。参阅图2,基于本发明精神,提供一种网络服务器实施例,所述网络服务器包括界面呈现单元,用于向用户呈现带有输入窗口或选择项的可集成各种百科内容的模块化编辑界面,每种百科内容设有对应所述输入窗口或选择项;所述界面呈现单元可以是负责向客户端呈现界面的程序,也可以是显示器等硬件结构;内容接收单元,用于接收用户在所述编辑界面相应输入窗口或选择项输入的百科内容;所述内容接收单元可以是各种程序输入接口,也可以是硬件结构;百科生成单元,用于将所述输入窗口或选择项输入的百科内容聚合为预定格式的百科内容集。所述百科生成单元可以是计算机内部的程序模块,也可以是处理器等硬件结构。如前述,所述网络服务器对网络百科的形成技术,脱离传统互联网用户生成内容(UGC)以段落、章节为基本构成的文档内容组织方式,即建立以模块为内容单元的文档编辑流程与展示方式,既方便用户编辑,同时为文档内容的格式化输出提了方法基础与保障,填补互联网行业中百科类产品结构化编辑的空白,能够提高网络百科的形成效率、方便编辑,有效促进网络百科的发展。
参阅图3,在其他实施例中,所述服务器包括界面选择单元,用于在向用户呈现带有输入窗口或选择项的可集成各种百科内容的模块化编辑界面之前,在界面呈现单元呈现的界面中向用户呈现模块化编辑界面的种类选择界面;界面确定单元,用于接收用户选择的模块化编辑界面种类并控制所述界面呈现单元向用户呈现此类模块化编辑界面。同理,上述两单元可以是程序,也可以是硬件结构。在其他实施例中,每种所述百科内容对应唯一的百科模块。参阅图4,在其他实施例中,为加快网络百科的形成速度、增加百科内容的丰富度,所述服务器包括内引模块单元,用于通过数据挖掘的方式在给定样本空间下在本地非格式化现有词条内容中寻找并读取相似度满足预定阈值条件的内容,将所述非格式化的现有词条内容拆分为不同的子结构并依次填充到一种所述百科模块对应的结构中。其中,所述将非格式化的现有词条内容拆分为不同的子结构并依次填充到一种所述百科模块对应的结构中的动作,可以由前述的百科生成单元完成。参阅图5,在其他实施例中,进一步地,所述内引模块单元包括词条列表选择器,用于选择需要处理的本地非格式化现有词条列表;训练集产生器,用于在选择好所述词条列表后选择词条关键词作为训练集;标题选择器,用于在选择关键词后选择分类方法并设定预定阈值条件,通过数据挖掘的方式在每个所述现有词条列表的词条中选择与所述训练集同属一类的一级标题或者二级标题;百科模块填充器,用于对所述一级标题或二级标题下的内容依据特点文字、换行以及字体信息进行分离得到不同子结构并依次抽取,将抽取后的所述文字、换行以及字体信息依次填写到所述百科模块对应的子结构中。参阅图6,在其他实施例中,为加快网络百科的形成速度、增加百科内容的丰富度,所述服务器包括外引模块单元,用于通过动态或静态接口调用外源数据,并通过词条筛选与内容筛选对所述外源数据进行整理规范,得到另一种所述百科模块对应的结构,最终以结构化的方式将所述外源数据展示在词条浏览页。、
其中,所述通过词条筛选与内容筛选对所述外源数据进行整理规范得到另一种所述百科模块对应的结构动作,可以由前述的百科生成单元完成。为更好整合外引模块单元和内引模块单元的功能,所述服务器包括第一排名单元,用于在得到另一种所述百科模块对应的结构之后,依据大众搜索平台中所述外源数据相关查询指令query的比例以及非百科现有资源的满足情况判断用户需求的数量,根据所述用户需求的数量决定本地词条对应百科模块与外源数据对应百科模块的排名,用户需求的数量越大则排名越靠前;第二排名单元,用于在所述用户需求的数量一致的情况下,分别判断本地词条内容与正文契合度、外源数据与正文契合度,使与正文契合程度高的百科模块排名靠前,与正文契合度低的排名靠后。
参阅图7,基于本发明精神,还提供一种客户端实施例,包括界面绘制单元,用于接收来自服务器的带有输入窗口或选择项的可集成各种百科内容的模块化编辑界面数据,并绘制所述模块化编辑界面,每种百科内容设有对应所述输入窗口或选择项;内容输入单兀,用于接收用户在所述编辑界面相应输入窗口或选择项输入的百科内容,并向所述服务器发送。参阅图8,为提供更多的编辑界面种类选择,所述客户端包括选择绘制单元,用于在绘制所述模块化编辑界面时,一同在界面中绘制模块化编 辑界面的种类选择界面;界面选定单元,用于接收用户选择的模块化编辑界面种类并向所述服务器发送,触发服务器返回此类模块化编辑界面数据。下面以形成某电视剧的百科内容集为例,说明本发明的其中一个实施例第一步提供模块化编辑界面的种类选择界面;比如在一个网页窗口形式的编辑界面中,第一窗口设有“选择模板”的操作界面,让用户选择诸如剧情简介或分集剧情等的模板,每一模板对应有单独的编辑界面;第二步接收用户对模块化编辑界面的种类选择指令;等用户选择了剧情简介的模板后,接收该选择指令;第三步提供剧情简介模板的编辑界面,用户可以编辑该编辑界面,以更自由、灵活的形成用户需要的百科内容集;比如编辑剧情简介的模板,使其具有一级目录、二级目录、剧集图片等;第四步在编辑好剧情简介模板的编辑界面后,向用户呈现带有输入窗口或选择项的可集成各种百科内容的模块化编辑界面,每种百科内容设有对应所述输入窗口或选择项;这一步,实际上在编辑剧情简介模板的编辑界面过程中动态更新该界面,这里的输入窗口或选择项,即所述的一级目录、二级目录、剧集图片、剧集介绍等;第五步接收用户在所述编辑界面相应输入窗口或选择项输入的百科内容;用户在剧情简介模板的编辑界面中,在剧集介绍的窗口中输入剧情介绍,设定好一级目录还是二级目录、点击上传按钮上载剧集图片后,系统自动接收这些信息;第六步将所述输入窗口或选择项输入的百科内容聚合为预定格式的百科内容集;系统将剧情介绍、好一级目录还是二级目录的设定、剧集图片等输入的百科内容自动聚合为预定格式的百科内容集,完成编辑。在完成编辑后,向用户呈现百科内容集的网页形式,用户可以浏览。并且,可以在浏览的网页中的每个百科内容上方或下方,设编辑按钮,比如剧情编辑、词条编辑等,有权限的用户可以点击编辑。点击后弹出编辑界面或在原网页加载编辑界面,对该百科内容进行修改、更新或删除等操作。本发明的百科内容并不限于上述形式,可以采用已经存在的各种百科内容形式、甚至随着社会、科技的发展采用各种新百科内容形式;本发明的百科内容形成方法、服务器和客户端并不限于上述的实施例,只要建立以模块为内容单元的文档编辑流程与展示方式,都可以应用。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等, 均应包含在本发明保护的范围之内。
权利要求
1.一种网络百科内容形成方法,其特征在于,包括 向用户呈现带有输入窗口或选择项的可集成各种百科内容的模块化编辑界面,每种百科内容设有对应所述输入窗口或选择项; 接收用户在所述编辑界面相应输入窗口或选择项输入的百科内容; 将所述输入窗口或选择项输入的百科内容聚合为预定格式的百科内容集。
2.根据权利要求I所述的方法,其特征在于,包括 在向用户呈现带有输入窗口或选择项的可集成各种百科内容的模块化编辑界面步骤之前,包括 向用户呈现模块化编辑界面的种类选择界面; 接收用户选择的模块化编辑界面种类并向用户呈现此类模块化编辑界面。
3.根据权利要求2所述的方法,其特征在于,包括 在向用户呈现带有输入窗口或选择项的可集成各种百科内容的模块化编辑界面步骤中,每种所述百科内容对应唯一的百科模块。
4.根据权利要求3所述的方法,其特征在于,包括 通过数据挖掘的方式在给定样本空间下在本地非格式化现有词条内容中寻找并读取相似度满足预定阈值条件的内容,将所述非格式化的现有词条内容拆分为不同的子结构并依次填充到一种所述百科模块对应的结构中。
5.根据权利要求4所述的方法,其特征在于,包括 在给定样本空间下在本地非格式化现有词条内容中寻找并读取相似度满足预定阈值条件的内容步骤包括 选择需要处理的本地非格式化现有词条列表; 在选择好所述词条列表后选择词条关键词作为训练集; 在选择关键词后选择分类方法并设定预定阈值条件,通过数据挖掘的方式在每个所述现有词条列表的词条中选择与所述训练集同属一类的一级标题或者二级标题。
6.根据权利要求5所述的方法,其特征在于,包括 将所述非格式化的现有词条内容拆分为不同的子结构并依次填充到所述百科模块对应的结构中步骤包括对所述一级标题或二级标题下的内容依据特点文字、换行以及字体信息进行分离得到不同子结构并依次抽取,将抽取后的所述文字、换行以及字体信息依次填写到所述百科模块对应的子结构中。
7.根据权利要求4所述的方法,其特征在于,包括 通过动态或静态接口调用外源数据,并通过词条筛选与内容筛选对所述外源数据进行整理规范,得到另一种所述百科模块对应的结构,最终以结构化的方式将所述外源数据展示在词条浏览页。
8.根据权利要求7所述的方法,其特征在于,在得到另一种所述百科模块对应的结构步骤之后、最终以结构化的方式将所述外源数据展示在词条浏览页之前,包括 依据搜索平台中所述外源数据相关查询指令query的比例以及非百科现有资源的满足情况判断用户需求的数量,根据所述用户需求的数量决定本地词条对应百科模块与外源数据对应百科模块的排名,用户需求的数量越大则排名越靠前; 在所述用户需求的数量一致的情况下,分别判断本地词条内容与正文契合度、外源数据与正文契合度,使与正文契合程度高的百科模块排名靠前,与正文契合度低的排名靠后。
9.根据权利要求3至8任一项所述的方法,其特征在于,包括 所述百科内容种类包括文字、图片、视频、音频。
10.一种网络服务器,其特征在于,包括 界面呈现单元,用于向用户呈现带有输入窗口或选择项的可集成各种百科内容的模块化编辑界面,每种百科内容设有对应所述输入窗口或选择项;内容接收单元,用于接收用户在所述编辑界面相应输入窗口或选择项输入的百科内容; 百科生成单元,用于将所述输入窗口或选择项输入的百科内容聚合为预定格式的百科内容集。
11.根据权利要求10所述的服务器,其特征在于,所述服务器包括 界面选择单元,用于在向用户呈现带有输入窗口或选择项的可集成各种百科内容的模块化编辑界面之前,在界面呈现单元呈现的界面中向用户呈现模块化编辑界面的种类选择界面; 界面确定单元,用于接收用户选择的模块化编辑界面种类并控制所述界面呈现单元向用户呈现此类模块化编辑界面。
12.根据权利要求11所述的服务器,其特征在于 每种所述百科内容对应唯一的百科模块。
13.根据权利要求12所述的服务器,其特征在于,所述服务器包括 内引模块单元,用于通过数据挖掘的方式在给定样本空间下在本地非格式化现有词条内容中寻找并读取相似度满足预定阈值条件的内容,将所述非格式化的现有词条内容拆分为不同的子结构并依次填充到一种所述百科模块对应的结构中。
14.根据权利要求13所述的服务器,其特征在于,所述内引模块单元包括 词条列表选择器,用于选择需要处理的本地非格式化现有词条列表; 训练集产生器,用于在选择好所述词条列表后选择词条关键词作为训练集; 标题选择器,用于在选择关键词后选择分类方法并设定预定阈值条件,通过数据挖掘的方式在每个所述现有词条列表的词条中选择与所述训练集同属一类的一级标题或者二级标题; 百科模块填充器,用于对所述一级标题或二级标题下的内容依据特点文字、换行以及字体信息进行分离得到不同子结构并依次抽取,将抽取后的所述文字、换行以及字体信息依次填写到所述百科模块对应的子结构中。
15.根据权利要求13所述的服务器,其特征在于,所述服务器包括 外引模块单元,用于通过动态或静态接口调用外源数据,并通过词条筛选与内容筛选对所述外源数据进行整理规范,得到另一种所述百科模块对应的结构,最终以结构化的方式将所述外源数据展示在词条浏览页。
16.根据权利要求15所述的服务器,其特征在于,所述服务器包括 第一排名单元,用于在得到另一种所述百科模块对应的结构之后,依据大众搜索平台中所述外源数据相关查询指令query的比例以及非百科现有资源的满足情况判断用户需求的数量,根据所述用户需求的数量决定本地词条对应百科模块与外源数据对应百科模块的排名,用户需求的数量越大则排名越靠前; 第二排名单元,用于在所述用户需求的数量一致的情况下,分别判断本地词条内容与正文契合度、外源数据与正文契合度,使与正文契合程度高的百科模块排名靠前,与正文契合度低的排名靠后。
17.一种客户端,其特征在于,包括 界面绘制单元,用于接收来自服务器的带有输入窗口或选择项的可集成各种百科内容的模块化编辑界面数据,并绘制所述模块化编辑界面,每种百科内容设有对应所述输入窗口或选择项; 内容输入单元,用于接收用户在所述编辑界面相应输入窗口或选择项输入的百科内容,并向所述服务器发送。
18.根据权利要求17所述的客户端,其特征在于,所述客户端包括 选择绘制单元,用于在绘制所述模块化编辑界面时,一同在界面中绘制模块化编辑界面的种类选择界面; 界面选定单元,用于接收用户选择的模块化编辑界面种类并向所述服务器发送,触发服务器返回此类模块化编辑界面数据。
全文摘要
本发明提供一种网络百科内容形成方法、网络服务器和客户端,属于计算机技术领域。所述方法包括向用户呈现带有输入窗口或选择项的可集成各种百科内容的模块化编辑界面,每种百科内容设有对应所述输入窗口或选择项;接收用户在所述编辑界面相应输入窗口或选择项输入的百科内容;将所述输入窗口或选择项输入的百科内容聚合为预定格式的百科内容集。本发明能够提高网络百科的形成效率、方便编辑,有效促进网络百科的发展。
文档编号G06F9/44GK102637173SQ201110035730
公开日2012年8月15日 申请日期2011年2月10日 优先权日2011年2月10日
发明者严冰, 唐益龙, 戴少伟, 李天华, 李永强, 李超, 王坤, 邓亮, 陈浩然 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1