实现问与答功能和计算机辅助写作的方法及装置的制作方法

文档序号:6421212阅读:166来源:国知局
专利名称:实现问与答功能和计算机辅助写作的方法及装置的制作方法
技术领域
本发明涉及数据处理技术,特别涉及问与答功能的实现和计算机辅助写作的技术。
背景技术
在以往,存在为电子文档提供问与答(Q&A)功能的技术,例如,由Ask Jeeves公司提供的www.ask.com网站就是一个典型的例子。他们为已有的电子文档编制问题、提取答案,然后向用户提供问与答服务。
但是,在以往的问与答功能的实现过程中,文档写作工具与问与答服务提供工具是相互独立的。作者在写作文档时,并不关心读者如何来利用(leverage)他/她所写作的内容;而另一方面,读者又很难得到所希望的信息。由于目前计算机对于自然语言的理解能力还处于字/词理解的水平,而对于问与答应用来说,需要句子甚至整篇文章的理解和语义能力,因此,按照目前的技术发展速度,可以预计在一个较短的将来内不可能达到现有的实现问与答功能的要求。

发明内容
为了解决以上所述现有技术中的问题,本发明提出了作者在写作文档的过程中就为后面实现问与答功能准备相关的信息,即,为作者提供一套工具来方便地为以后用于读者的问与答功能作贡献。进而,问与答服务提供系统,可以利用作者准备的(或者确认的)问与答信息,为用户提供更准确、更全面的答案。
根据本发明的一个方面,提供了一种为电子文档实现问与答功能的方法,包括在作者写作电子文档时,生成用于问与答功能的问与答信息;与所述电子文档对应地保存所述问与答信息;以及利用所述问与答信息提供问与答功能。
根据本发明的另一个方面,提供了一种计算机辅助写作的方法,包括在作者编辑所述电子文档时,生成对应于所述电子文档的问与答信息;与所述电子文档对应地保存所述问与答信息。
根据本发明的再另一个方面,提供了一种浏览电子文档的方法,其中与所述电子文档对应地保存有用于问与答功能的问与答信息,所述方法包括读出所述电子文档的内容以及对应的问与答信息;将所述电子文档的内容呈现给用户;响应用户的操作,利用所述问与答信息提供问与答功能。
根据本发明的再另一个方面,提供了一种辅助写作装置,包括电子文档编辑单元,用于编辑电子文档;问题生成单元,用于根据所述电子文档编辑单元中输入的文本,生成一个或多个问题;答案生成单元,用于根据所述电子文档编辑单元中的文本,为由上述问题生成单元生成的问题生成答案;问与答信息保存单元,用于将上述生成的问题和相应的答案作为问与答信息,与所述被编辑的电子文本对应地保存。
根据本发明的再另一个方面,提供了一种能够提供问与答功能的浏览器,包括电子文档浏览单元,用于浏览电子文档;问与答信息提取单元,用于提取与所述被浏览的电子文档对应保存的问与答信息,在所述问与答信息中包含有与该电子文档有关的问题和相应的答案;问与答呈现单元,用于将所述问与答信息中包含的问题和答案呈现给用户。
根据本发明的再另一个方面,提供了一种利用计算机提供问与答服务的方法,包括提取分别与多个电子文档对应的问与答信息,所述问与答信息中包含有与所述电子文档有关的问题和相应的答案;对提取出的问与答信息编制索引;根据用户输入的问题,从所述问与答信息中查找出最相似的一个或多个问题;将所述问题和相应的答案呈现给所述用户。
根据本发明的再另一个方面,提供了一种提供问与答服务的系统,包括问与答信息提取装置,用于提取分别与多个电子文档对应的问与答信息,所述问与答信息中包含有与所述电子文档有关的问题和相应的答案;问与答索引装置,用于对提取出的问与答信息编制索引;问与答索引库,用于保存由上述问与答索引装置编制的问与答信息索引;问与答查找装置,用于根据用户输入的问题,从所述问与答索引库中查找出最相似的一个或多个问题;问与答呈现装置,用于将所述查找出的问题和相应的答案呈现给所述用户。


相信通过以下结合附图对本发明具体实施方式
的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
图1是根据本发明的一个实施例的为电子文档实现问与答功能的方法的流程图;图2是根据本发明的一个实施例的为电子文档实现问与答功能的方法的较详细的流程图;图3是根据本发明的一个实施例的基于关键词生成问题的过程的流程图;图4是根据本发明的一个实施例的基于规则生成问题的过程的流程图;图5是根据本发明的一个实施例的为一个问题生成答案的过程的流程图;图6是展示根据本发明的一个实施例的辅助写作装置的结构的方块图;图7是展示根据本发明的一个实施例的能够提供问与答功能的浏览器的结构的方块图;图8是根据本发明的一个实施例的提供问与答服务的方法的流程图;图9是展示根据本发明的一个实施例的提供问与答服务的系统的结构的方块图。
具体实施例方式
下面就结合附图对本发明的各个优选实施例进行详细的说明。
为电子文档实现问与答功能的方法根据本发明的一个方面,提供了一种为电子文档实现问与答功能的方法。图1是根据本发明的一个实施例的为电子文档实现问与答功能的方法的流程图。
如图1所示,首先,在步骤101,在作者写作电子文档时,生成用于问与答功能的问与答信息。在此,用于问与答功能的信息包括分别指示问题和答案的内容的信息。作者在写作文档时,同时参与准备该问与答信息,从而在后面浏览电子文档时,可以用其提供问与答功能。
接着,在步骤105,与所述电子文档对应地保存所述问与答信息。在本发明中并没有对问与答信息的具体保存方式进行限定,例如,可以与电子文档一起保存,即,作为电子文档的一部分,也可以分开保存,只要能够与所述电子文档相对应即可。
然后,在步骤110,在读者浏览所述电子文档时,利用所述问与答信息提供问与答功能。即,按照问与答信息中包含的问题和答案,为用户提供问与答功能。
这样按照本实施例,作者在写作文档时,就可以参与问与答信息的准备,从而可以利用作者对于该文档的理解(这肯定是最准确的理解),来保证生成准确的问题和答案,从而,可以大大提高问与答功能的准确性和可用性。
下面,就结合图2~5,对本实施例的方法进行更详细的说明。图2是根据本发明的一个实施例的为电子文档实现问与答功能的方法的较详细的流程图。
如图2所示,在步骤201,作者输入一个文本段。在此,文本段是指构成一篇电子文档的一段文字,可以是一个或多个段落或句子。文本段的大小,取决于希望对该文档提取问题的强度,例如,如果希望对文档进行详细的问题提取,则可以将文本段的大小设置的相对较小,反之则较大。而且,也可以由作者根据文档的情况来定义文本段的大小。
接着,在步骤205,为所述文本段生成一个或多个问题。具体地,可以由作者手工输入问题,也可以按照后面结合图3和4描述的基于关键词生成问题的方式和基于规则生成问题的方式,来生成问题。
接着,在步骤210,作者对生成的问题进行核实。在此,作者可以根据自己的写作意图(理解),删除、修改和增加生成的问题。
接着,在步骤215,分别为每个问题生成答案。具体地,可以由作者手工在文本段中选择作为答案的文字,也可以按照后面结合图5描述的方式自动生成答案。
接着,在步骤220,作者对生成的答案进行核实。在此,作者可以根据自己的写作意图,删除、修改和增加生成的答案。
接着,在步骤225,判断是否该文档的写作完成,如果没有完成则返回到步骤201,由作者继续输入文本段,进行写作;如果已经完成则进行到步骤230。
在步骤230,与电子文档对应地保存问与答信息。具体地,根据本法明的优选实施例,可以将问与答信息作为知识标记(knowledge tag)与电子文档一起保存,例如,在电子文档的结尾处附加<QandA>
<Answer>Bob got married with Jean in 1980.</Answer>
<Question>Is Bob married?</Question>
<Question>When did Bob get married?</Question>
……<Question>Who is Bob’s wife?</Question>
</QandA>
也可以在电子文档的头部定义问题知识标记标记类型,在电子文档的正文中利用该标记指明答案的方式。
如前面所述,本发明没有对问与答信息的具体保存方式进行限定,例如,可以与电子文档一起保存,即,作为电子文档的一部分,也可以分开保存,只要能够与所述电子文档相对应即可。
作者写作完成的电子文档连同问与答信息被通过网络或者其他媒体传递到读者的浏览器中,在步骤220,由读者的浏览器读取电子文档和对应的问与答信息。然后,在步骤240,读者的浏览器根据问与答信息提供问与答功能。具体地,可以将问与答信息中包含的问题列出,由读者选择一个问题后提供该问题的答案;也可以由读者输入的问题,然后找出与读者输入的问题最相似的问与答信息中的问题(对于如何找出最相似的问题,后面将结合伪代码片段1进行描述),并连同答案一起呈现给读者。当然,还可以有其他提供问与答功能的方式,本发明对此没有限定,只要是利用了与电子文档对应的问与答信息即可。
图3是根据本发明的一个实施例的基于关键词的生成问题的过程的流程图。如图3所示,首先在步骤301,对该文本段进行预处理,去除停用词(stopword)。在此,停用词是不适合于作关键词的字或词,例如中文的“的”、“地”、“得”、“了”等等。经过预处理,文本段中剩下的应当就是关键词了。
接着,在步骤305,为该文本段中的每个关键词计算权重。在此,计算出来的权重希望能够表现出该关键词的重要性。根据本发明的实施例,可以利用关键词的出现频率来计算关键词的重要性,例如tf(termfrequency)方法或者tf-idf(term frequency inverse document frequency)方法等。tf方法就是按照每个关键词在该文本段中出现的次数来排序计算权重。tf-idf方法则是通过计算tf×idf来确定每个关键词的权重,其中,tf是该关键词在该文本段T中出现的次数,idf是该关键词在该文档的所有文本段中出现的次数的倒数。因此,tf-idf方法更能够体现关键词在不同文本段之间的相对重要性。当然,也可以用其他方法来计算关键词的权重。
接着,在步骤310,提取关键词串。具体地,就是按照前面步骤305为每个关键词计算的权重,将权重最高的预定数量的关键词选择出来作为关键词串。
接着,在步骤315,计算提取出的关键词串与问题资料库中问题的相似性。在此,问题资料库(query repository)是其中包含大量的自然语言问题句子的资料库,可以由各个领域的专家来编制,也可以从已有的Q&A系统中积累的大量问题中提取。可以利用以下公式1来计算关键词串与问题资料库中的问题的相似性
relevancekeywords(KSi,NLj)=Σk(wk(KSi)+wk(NLj))/Max(wkn(KSi),wkn(NLj))*2]]>(式1)其中,wk(KSi)是关键词串KSi和问题资料库中的问题NLj中的第k个公共关键词在KSi中的权重(该权重由前面的步骤305计算得出),wk(NLj)是关键词串KSi和问题资料库中的问题NLj的第k公共个关键词在NLj中的权重(缺省,该值为1),wkn(.)是构成一个串的所有词(不包括停用词)的权重的和。
然后,在步骤320,从问题资料库中选择一个或多个相似性最高的问题,作为为该文本段生成的问题。
进而,由于问题资料库中可能包含大量的问题,如果逐一地计算相似性会造成非常大的计算量,影响系统性能。根据本发明的一个优选实施例,可以将问题资料库中相似的问题聚类(clustering),然后在计算相似性时,只计算提取出的关键词串与各个问题聚类的中心的相似性即可。这样可以大大减少相似性计算量,从而提高系统性能。
具体的聚类原则可以是基于查询内容的相似性,即,根据各个问题之间的相同关键词、词序、短语等内容,来评估问题的相似性,将相似的问题聚类;或者基于用户反馈,即,如果用户在同一个文档中点击了不同的问题则认为这些问题相似,如果一组文档经常被选择回答一组问题,则这些文档中的关键词与这些问题中的关键词在某种程度上相关。
图4是根据本发明的一个实施例的基于规则的生成问题的过程的流程图。如图4所示,基于规则的生成问题的过程,首先在步骤401,对文本段进行词语切分(tokenization)。此步骤的任务主要是在文本段中切分词语。
接着,在步骤405,对进行了词语切分的文本段进行句法分析。具体地,句法分析是识别出文本段中的句子句法结构。句法分析的目的是确定输入文本的层次结构。从结构观念出发对一个线性的语符串进行分析,就是将表面的线性表达式分解还原成深层的按一定结构层级组合的图式。一个线性语符串变成了若干层次上的大小不等的语言片段的组合。反映了各个语言成分之间结合紧密程度以及先后顺序及关系的不同。Miller,L.G.等人国际会议“International Conference on Acoustics,Speech,and SignalProcessing,1988”(第271-274页)中的文章“Syntactic analysis for largevocabulary speech recognition using a context-free covering grammar”,和Floyd,R.W.在期刊“Jour.ACM”(Vol 10,第316-333页)中的文章“Syntactic Analysis and Operator Precedence”详细描述了句法分析方法,其全部内容被包含于此以供参考。
接着,在步骤410,进行命名实体识别(named entity recognition)。本步骤的目的是识别文本中的特定信息,例如,人名、地点、日期、组织名等等。最近的命名实体识别方面的研究的重点在于机器学习方法,例如,基于转换的学习(transformation-based learning)、隐藏马尔科夫模型(hidden Markov model)、判定树、搭配统计(collocation statistics)、最大熵模型(maximum entropy model)、和EM自举法(EM bootstrapping)等。
关于命名实体识别的方法可以参考以下文章,其内容被全部包含于此J.Aberdeen等人1995年在学报“Proceedings of MUC-6”(第141-155页)中的文章“Description of the Alembic system used for MUC-6”;BikelD.M.等人1999年在期刊“Machine Learning”(34(1-3),第211-231页)中的文章“An Algorithm that Learns What’s in a Name”;Sekine S.1998年在学报“MUC-7 Proc”中的文章“Description of The Japanese NE SystemUsed for MET-2”;Lin D.1998年在学报“MUC-7 Proc.”中的文章“Usingcollocation statistics in information extraction”;以及Borthwick A.1999年在博士论文集(Ph.D.Thesis,New York Univ.)中的文章“A MaximumEntropy Approachover to Named Entity Recognition”。
然后,在步骤415,按照预定的规则对识别出的命名实体生成问题。本步骤的任务是根据一组预定的规则,生成相应的问题列表。这些规则可以由熟悉问与答系统的问题的知识工程师来制定。例如,通过基于命名实体的模式匹配,来捕捉问题点并生成问题。下面是该规则的例子
人名(person)→谁(who/whom)时间/日期(time/date)→何时(when)地点(location)→哪里(where/what place)产品(product)→什么牌子(what brand)数量(number)→多少(how many)下面以“John Hume and David Trimble won the 1998 Nobel Peace Prize.”这句话为例,说明如何利用上述规则的模式匹配来生成问题。假设经过上述步骤401~410,识别出了命名实体“person”和“Prize”。经过分析该句子的成分,在这些命名实体中查找问题点。在此,在不失一般性的前提下假设“person”(John Hume and David Trimble)被选择作为一个问题点。然后,按照预定的规则和该句子的句法结构将其映射到问题类型(who/whom),最终生成问题“Who won the 1998 Nobel Peace Prize?”。
图5是根据本发明的一个实施例的为一个问题生成答案的过程的流程图。如图5所示,首先在步骤501,计算该问题与对应的文本段中每个句子的相似性。两个句子之间相似性的计算可以利用说明书后所附的伪代码片段1中的算法1来进行。该代码片段中value值的计算与前面式1的方法类似,也是利用关键词的权重来衡量的。
接着,在步骤505,选择相似性最高的句子并将其记为SA。具体地,可以是将该文本段中每个句子的相似性值排序,来取最高的一个。
接着,在步骤510,计算该答案句子SA与相邻句子的相似性。在此,相邻句子是指在SA的前后一定范围内的句子。相似性的计算同样可以通过伪代码片段1的算法1来进行。
然后,在步骤515,将相邻句子中相似性最高的一个或多个句子并入SA作为该问题的答案。
通过以上实施例的说明可知,如果采用本发明实施例的电子文档实现问与答功能的方法,特别是如果使用了上述自动生成问题和答案的方法,可以在不过多增加作者负担的情况下,利用作者对于该文档的理解(这肯定是最准确的理解),来保证生成准确的问题和答案,从而,可以大大提高问题与答案的准确性和可用性。
计算机辅助写作的方法在同一发明构思下,根据本发明的另一个方面,提供了一种计算机辅助写作的方法,包括在作者编辑电子文档时,生成用于所述电子文档的问与答功能的问与答信息;并与该电子文档对应地保存所述问与答信息。
具体地,本发明的计算机辅助写作的方法可以包括图2所示的步骤201至230,并且图3、4和5所示的基于关键词和基于规则的问题生成过程以及答案生成过程也都可以适用于本实施例的方法。在此,为了简便起见,不再重复进行说明。
这样,采用本发明实施例的计算机辅助写作的方法,可以辅助作者在写作的过程中完成问与答信息的准备。特别是如果使用了上述自动生成问题和答案的方法,可以在不过多增加作者负担的情况下,利用作者对于该文档的理解(这肯定是最准确的理解),来保证生成准确的问题和答案信息。
辅助写作装置在同一发明构思下,根据本发明的另一个方面,提供了一种辅助写作装置。图6是展示根据本发明的一个实施例的辅助写作装置的结构的方块图。
如图6所示,该辅助写作装置600,包括电子文档编辑单元601,用于编辑电子文档,它可以是一个独立的文档编辑单元,也可以共用已有的文档编辑器,例如,MS Word或WPS等等;问题生成单元602,用于根据电子文档编辑单元601中输入的文本,生成一个或多个问题;答案生成单元603,用于根据所述电子文档编辑单元601中的文本,为由上述问题生成单元602生成的问题生成答案;问与答信息保存单元605,用于将上述生成的问题和相应的答案作为问与答信息,与所述被编辑的电子文本对应地保存;问与答评价单元604,用于允许作者对生成的问题和答案进行评价、核实。
优选地,当问题生成单元602利用前面描述的基于关键词生成问题的方法来生成问题时,则辅助写作装置600还包括问题资料库,在该问题资料库中保存有多个问题,问题生成单元602可以从中选择一个或多个相似性高的问题。并且,问题生成单元602还包括用于根据输入的文本段中的每个关键词的出现频率以及在同一电子文档的其他文本段中出现的频率为所述关键词计算权重的装置;用于按照所述文本段中每个关键词的权重提取关键词串的装置;用于计算所述提取出的关键词串与所述问题资料库中的问题的相似性装置;以及用于选择相似性高的一个或多个问题的装置。
优选地,当问题生成单元602利用前面描述的基于规则生成问题的方法来生成问题时,则问题生成单元602还包括用于对输入的文本段进行词语切分的装置;用于对所述文本段中的句子进行句法分析装置;用于对所述文本段进行命名实体识别的装置;以及用于根据预定的规则对识别出的命名实体生成问题的装置。
根据以上的说明可知,本实施例的辅助写作装置600可以完成上面描述的计算机辅助写作方法,辅助作者在写作的过程中完成问与答信息的准备。
浏览电子文档的方法在同一发明构思下,根据本发明的另一个方面,提供了一种浏览电子文档的方法,该电子文档是通过上述计算机辅助写作的方法产生的文档,即,与该文档对应地保存有用于问与答功能的问与答信息。在读者浏览电子文档时,首先读出所述电子文档的内容以及对应的问与答信息,然后将所述电子文档的内容呈现给用户。并且如果用户通过操作选择问与答功能时,利用所述问与答信息提供问与答功能。
如前所述,呈现问题和答案的方式很多,例如,可以是先将所述问与答信息包含的问题提供给用户选择,然后响应用户的选择,呈现给用户相应的答案;或者,首先由用户输入希望得到答案的问题,然后,根据用户输入的问题和所述问与答信息中包含的问题的相似性(可以利用算法1来计算相似性),将与用户输入的问题最接近的一个或多个问题及对应的答案呈现给用户。当然还可以有其他多种方式。
这样,采用本发明实施例的浏览电子文档的方法,可以利用与电子文档对应保存的问与答信息向用户提供问与答功能。由于所述问与答信息是作者在写作该电子文档时参与准备的、准确的信息,因此,本实施例利用该信息可以提供准确的问题与答案。
能够提供问与答功能的浏览器在同一发明构思下,根据本发明的另一个方面,提供了一种能够提供问与答功能的浏览器,该电子文档是通过上述计算机辅助写作的方法产生的文档,即,与该文档对应地保存有用于问与答功能的问与答信息。
图7是展示根据本发明的一个实施例的能够提供问与答功能的浏览器的结构的方块图。如图7所示,浏览器700,包括电子文档浏览单元701,用于浏览电子文档,它可以是一个独立的文档浏览单元,也可以共用已有的文档浏览器,例如,MS IE或Acrobat Reader等等;问与答信息提取单元702,用于提取与被浏览的电子文档对应保存的问与答信息,在所述问与答信息中包含有与该电子文档有关的问题和相应的答案;问与答呈现单元703,用于将问与答信息中包含的问题和答案呈现给用户。
本实施例的浏览器可以实现前面描述的浏览电子文档的方法。进而,该浏览器还可以包括相似性计算单元,用于计算用户输入的问题和所述问与答信息中的问题的相似性(可以通过前述的算法1来计算)。从而,可以由用户输入问题,并将最接近的一个或多个问题及对应的答案呈现给用户。
通过以上说明可知,采用本发明实施例的浏览器,可以利用与电子文档对应保存的问与答信息向用户提供问与答功能。由于所述问与答信息是作者在写作该电子文档时参与准备的、准确的信息,因此,本实施例利用该信息可以提供准确的问题与答案。
利用计算机提供问与答服务的方法在同一发明构思下,根据本发明的另一个方面,提供了一种利用计算机提供问与答服务的方法,该方法也是基于作者利用上述计算机辅助写作方法写作文档,从而与电子文档相对应地保存有问与答信息这一点来实现的。
图8是根据本发明的一个实施例的提供问与答服务的方法的流程图。如图8所示,首先在步骤801,提取分别与多个电子文档对应的问与答信息,所述问与答信息中包含有与所述电子文档有关的问题和相应的答案。具体地,如果电子文档的作者是使用上述辅助写作装置600写作文档的,则每个电子文档都会有一个与其对应的问与答信息。在本步骤中,就是将多个电子文档的问与答信息提取出来。特别地对于在因特网上发布的电子文档,可以通过网络搜索器(web crawler)来遍历各个电子文档,并提取其对应的问与答信息,例如从知识标记(knowledge tags)中提取。
接着,在步骤805,为提取出的问与答信息编制索引。在此,可以使用信息检索领域中常用的各种索引方法来对这些问与答信息中的问题和/或答案建索引,例如,倒排文件、签名文件、PAT树或PAT阵列等。
接着,在步骤810,由用户输入希望得到回答的问题或者关键词串。
接着,在步骤815,从问题索引中找出与用户问题最接近的问题。本步骤可以利用前面所述的算法1来计算相似性,并选择相似性最高的一个或多个问题。当然,也可以用现有的其他方法。
然后,在步骤820,将找出的接近的问题和对应的答案呈现给用户。
进而,本实施例的方法还可以包括响应用户的操作,将所述用户选择的问题对应的电子文档的内容或链接提供给所述用户的步骤(图8中未示出)。
通过上述描述可知,本实施例的方法可以利用与电子文档对应保存的问与答信息向用户提供更广范围内的问与答服务。由于所述问与答信息是作者在写作该电子文档时参与准备的、准确的信息,因此,本实施例利用该信息可以提供准确的问题与答案。并且本实施例的方法特别适用于在网络环境中提取问与答信息,提供问与答服务。
提供问与答服务的系统在同一发明构思下,根据本发明的另一个方面,提供了一种提供问与答服务的系统。图9是展示根据本发明的一个实施例的提供问与答服务的系统的结构的方块图。
如图9所示,系统900,包括问与答信息提取装置901,用于提取分别与多个电子文档对应的问与答信息,所述问与答信息中包含有与所述电子文档有关的问题和相应的答案,如前面描述的那样,如果电子文档的作者是使用上述辅助写作装置600写作文档的,则每个电子文档都会有一个与其对应的问与答信息。问与答信息提取装置901就是将多个电子文档的问与答信息提取出来。例如,问与答信息提取装置901可以是一个网络搜索器(web crawler),遍历在网络上发布的各个电子文档并提取其对应的问与答信息。
系统900还包括问与答索引装置902,用于对提取出的问与答信息编制索引;问与答索引库903,用于保存由上述问与答索引装置902编制的问与答信息索引;问与答查找装置905,用于根据用户输入的问题,从所述问与答索引库903中查找出最相似的一个或多个问题;问与答呈现装置905,用于将所述查找出的问题和相应的答案呈现给所述用户。
通过上述描述可知,本实施例的提供问与答服务的系统可以实现前面描述的提供问与答服务的方法,利用与电子文档对应保存的问与答信息向用户提供更广范围内的问与答服务。由于所述问与答信息是作者在写作该电子文档时参与准备的、准确的信息,因此,本实施例利用该信息可以提供准确的问题与答案。
本发明的上述辅助写作装置、能够提供问与答功能的浏览器和提供问与答服务的系统以及它们各自的组成部分可以用硬件和软件方式实现,根据需要可以和其他装置结合,也可以在一台计算机上同时实现辅助写作装置和提供问与答功能的浏览器等,并且一个装置或系统的各个组成部分也可以物理地分开设置而操作上相互联系完成特定的功能。
以上虽然通过一些示例性的实施例对本发明的为电子文档实现问与答功能的方法、计算机辅助写作方法、浏览电子文档的方法、辅助写作装置、能够提供问与答功能的浏览器、利用计算机提供问与答服务的方法和提供问与答服务的系统进行了详细的描述,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。
伪代码片段1Algorithm 1calculate the similarity between two sentences.
(算法1计算两个句子之间的相似性,假设句子中的除停止词(Stopword)每一个单词都有一个权值表示它的重要性,每个单词缺省权值为1)Sim(s1,s2){claculatevalue=Σk(wk(s1)+wk(s2))/Max(wkn(s1),wkn(s2))*2]]>(计算两个句子之间的相似性)return value;}
权利要求
1.一种基于电子文档实现问与答功能的方法,其特征在于,包括在作者写作电子文档时,生成用于问与答功能的问与答信息;与所述电子文档对应地保存所述问与答信息;以及利用所述问与答信息提供问与答功能。
2.根据权利要求1所述的为电子文档实现问与答功能的方法,其特征在于,所述生成用于问与答功能的问与答信息的步骤包括根据作者输入的文本段,生成一个或多个问题;以及在所述文本段中提取上述问题的答案。
3.根据权利要求2所述的为电子文档实现问与答功能的方法,其特征在于,所述生成一个或多个问题的步骤包括根据作者输入的文本段中的关键词,从一个问题资料库中选择一个或多个问题。
4.根据权利要求3所述的为电子文档实现问与答功能的方法,其特征在于,所述从一个问题资料库中选择一个或多个问题的步骤包括根据所述文本段中的每个关键词的出现频率和/或在所述电子文档的其他文本段中出现的频率,为所述关键词计算权重;按照所述文本段中每个关键词的权重提取关键词串;计算所述提取出的关键词串与所述问题资料库中的问题的相似性;以及选择相似性高的一个或多个问题。
5.根据权利要求4所述的为电子文档实现问与答功能的方法,其特征在于,所述问题资料库中的问题被聚类;其中,所述计算所述提取出的关键词串与所述问题资料库中的问题的相似性的步骤,只计算所述提取出的关键词串与所述问题资料库中问题聚类中心的相似性。
6.根据权利要求2所述的为电子文档实现问与答功能的方法,其特征在于,所述生成一个或多个问题的步骤包括对输入的文本段进行词语切分;对所述文本段中的句子进行句法分析;对所述文本段进行命名实体识别;以及根据预定的规则对识别出的命名实体生成问题。
7.根据权利要求2~6的任意一项所述的为电子文档实现问与答功能的方法,其特征在于,还包括在所述生成一个或多个问题之后,允许作者核实所述生成的问题。
8.根据权利要求2所述的为电子文档实现问与答功能的方法,其特征在于,所述生成一个或多个问题的步骤包括作者手工输入一个或多个问题。
9.根据权利要求2所述的为电子文档实现问与答功能的方法,其特征在于,所述在所述文本段中提取上述问题的答案的步骤,包括在所述文本段中提取与上述问题相似性最高的句子作为答案句子。
10.根据权利要求9所述的为电子文档实现问与答功能的方法,其特征在于,所述在所述文本段中提取上述问题的答案的步骤,进一步包括将在与该答案句子相邻的句子中,与该答案句子相似性最高的一个和多个句子扩展到该答案句子中。
11.根据权利要求9~10的任意一项所述的为电子文档实现问与答功能的方法,其特征在于,句子之间的相似性是通过该句子中包含的关键词来计算的。
12.根据权利要求9~11的任意一项所述的为电子文档实现问与答功能的方法,其特征在于,还包括在提取上述问题的答案之后,允许作者核实所述提取的答案,确保答案的可靠性。
13.根据权利要求2所述的为电子文档实现问与答功能的方法,其特征在于,所述在所述文本段中提取上述问题的答案的步骤,包括由作者手工输入和/或指定所述问题的答案。
14.根据权利要求1所述的为电子文档实现问与答功能的方法,其特征在于,所述利用所述问与答信息提供问与答功能的步骤,包括读出与所述电子文档对应的问与答信息;将所述问与答信息包含的问题提供给用户选择;以及响应用户的选择,提供相应的答案。
15.根据权利要求1所述的为电子文档实现问与答功能的方法,其特征在于,所述利用所述问与答信息提供问与答功能的步骤,包括读出与所述电子文档对应的问与答信息;由用户输入希望得到答案的问题;以及根据用户输入的问题和所述问与答信息中包含的问题的相似性,将与用户输入的问题最接近的一个或多个问题及答案提供给用户。
16.一种计算机辅助写作的方法,其特征在于,包括在作者编辑所述电子文档时,生成用于所述电子文档的问与答功能的问与答信息;与所述电子文档对应地保存所述问与答信息。
17.根据权利要求16所述的计算机辅助写作的方法,其特征在于,所述生成用于问与答功能的问与答信息的步骤包括根据作者输入的文本段,生成一个或多个问题;以及在所述文本段中提取上述问题的答案。
18.根据权利要求17所述的计算机辅助写作的方法,其特征在于,所述生成一个或多个问题的步骤包括根据作者输入的文本段中的关键词,从一个问题资料库中选择一个或多个问题。
19.根据权利要求18所述的计算机辅助写作的方法,其特征在于,所述从一个问题资料库中选择一个或多个问题的步骤包括根据所述文本段中的每个关键词的出现频率和/或在所述电子文档的其他文本段中出现的频率,为所述关键词计算权重;按照所述文本段中每个关键词的权重提取关键词串;计算所述提取出的关键词串与所述问题资料库中的问题的相似性;以及选择相似性高的一个或多个问题。
20.根据权利要求19所述的计算机辅助写作的方法,其特征在于,所述问题资料库中的问题被聚类;其中,所述计算所述提取出的关键词串与所述问题资料库中的问题的相似性的步骤,只计算所述提取出的关键词串与所述问题资料库中问题聚类中心的相似性。
21.根据权利要求17所述的计算机辅助写作的方法,其特征在于,所述生成一个或多个问题的步骤包括对输入的文本段进行词语切分;对所述文本段中的句子进行句法分析;对所述文本段进行命名实体识别;以及根据预定的规则对识别出的命名实体生成问题。
22.根据权利要求17~21的任意一项所述的计算机辅助写作的方法,其特征在于,还包括在所述生成一个或多个问题之后,允许作者核实所述生成的问题。
23.根据权利要求17所述的计算机辅助写作的方法,其特征在于,所述生成一个或多个问题的步骤包括作者手工输入一个或多个问题。
24.根据权利要求17所述的计算机辅助写作的方法,其特征在于,所述在所述文本段中提取上述问题的答案的步骤,包括在所述文本段中提取与上述问题相似性最高的句子作为答案句子。
25.根据权利要求24所述的计算机辅助写作的方法,其特征在于,所述在所述文本段中提取上述问题的答案的步骤,进一步包括将在与该答案句子相邻的句子中,与该答案句子相似性最高的一个和多个句子扩展到该答案句子中。
26.根据权利要求24~25的任意一项所述的计算机辅助写作的方法,其特征在于,句子之间的相似性是通过该句子中包含的关键词来计算的。
27.根据权利要求24~26的任意一项所述的计算机辅助写作的方法,其特征在于,还包括在提取上述问题的答案之后,允许作者核实所述提取的答案。
28.根据权利要求17所述的计算机辅助写作的方法,其特征在于,所述在所述文本段中提取上述问题的答案的步骤,包括由作者手工输入和/或指定所述问题的答案。
29.一种浏览电子文档的方法,其特征在于,与所述电子文档对应地保存有用于问与答功能的问与答信息,所述方法包括读出所述电子文档的内容以及对应的问与答信息;将所述电子文档的内容呈现给用户;以及响应用户的操作,利用所述问与答信息提供问与答功能。
30.根据权利要求29所述的浏览电子文档的方法,其特征在于,所述问与答信息包含关于所述电子文档的一个或多个问题以及相应的答案,所述利用所述问与答信息提供问与答功能的步骤,包括将所述问与答信息包含的问题提供给用户选择;以及响应用户的选择,呈现给用户相应的答案。
31.根据权利要求29所述的浏览电子文档的方法,其特征在于,所述问与答信息包含关于所述电子文档的一个或多个问题以及相应的答案,所述利用所述问与答信息提供问与答功能的步骤,包括由用户输入希望得到答案的问题;以及根据用户输入的问题和所述问与答信息中包含的问题的相似性,将与用户输入的问题最接近的一个或多个问题及对应的答案呈现给用户。
32.一种辅助写作装置,其特征在于,包括电子文档编辑单元,用于编辑电子文档;问题生成单元,用于根据所述电子文档编辑单元中输入的文本,生成一个或多个问题;答案生成单元,用于根据所述电子文档编辑单元中的文本,为由上述问题生成单元生成的问题生成答案;以及问与答信息保存单元,用于将上述生成的问题和相应的答案作为问与答信息,与所述被编辑的电子文本对应地保存。
33.根据权利要求32所述的辅助写作装置,其特征在于,进一步包括问题资料库,在该问题资料库中保存有多个问题;其中,所述问题生成单元,根据输入的文本段中的关键词,从所述问题资料库中选择一个或多个问题。
34.根据权利要求33所述的辅助写作装置,其特征在于,所述问题生成单元包括用于根据所述文本段中的每个关键词的出现频率和/或在所述电子文档的其他文本段中出现的频率为所述关键词计算权重的装置;用于按照所述文本段中每个关键词的权重提取关键词串的装置;用于计算所述提取出的关键词串与所述问题资料库中的问题的相似性的装置;以及用于选择相似性高的一个或多个问题的装置。
35.根据权利要求32所述的辅助写作装置,其特征在于,所述问题生成单元包括用于对输入的文本段进行词语切分的装置;用于对所述文本段中的句子进行句法分析的装置;用于对所述文本段进行命名实体识别的装置;以及用于根据预定的规则对识别出的命名实体生成问题的装置。
36.根据权利要求32~35的任意一项所述的辅助写作装置,其特征在于,还包括问与答评价单元,用于允许作者对生成的问题和答案进行评价、核实。
37.一种能够提供问与答功能的浏览器,其特征在于,包括电子文档浏览单元,用于浏览电子文档;问与答信息提取单元,用于提取与所述被浏览的电子文档对应保存的问与答信息,在所述问与答信息中包含有与该电子文档有关的问题和相应的答案;以及问与答呈现单元,用于将所述问与答信息中包含的问题和答案呈现给用户。
38.根据权利要求37所述的能够提供问与答功能的浏览器,其特征在于,包括相似性计算单元,用于计算用户输入的问题和所述问与答信息中的问题的相似性;其中,所述问与答呈现单元,将与用户输入的问题最接近的一个或多个问题及对应的答案呈现给用户。
39.一种利用计算机提供问与答服务的方法,其特征在于,所述方法包括提取分别与多个电子文档对应的问与答信息,所述问与答信息中包含有与所述电子文档有关的问题和相应的答案;对提取出的问与答信息编制索引;根据用户输入的问题,从所述问与答信息中查找出最相似的一个或多个问题;以及将所述问题和相应的答案呈现给所述用户。
40.根据权利要求39所述的利用计算机提供问与答服务的方法,其特征在于,所述方法进一步包括响应所述用户的操作,将所述用户选择的问题对应的电子文档的内容或链接提供给所述用户。
41.根据权利要求39所述的利用计算机提供问与答服务的方法,其特征在于,所述根据用户输入的问题从所述问与答信息中查找出最相似的一个或多个问题的步骤,包括计算用户输入的问题与所述问与答信息中每个问题的相似性;选择所述问与答信息中相似性最高的一个或多个问题。
42.一种提供问与答服务的系统,其特征在于,包括问与答信息提取装置,用于提取分别与多个电子文档对应的问与答信息,所述问与答信息中包含有与所述电子文档有关的问题和相应的答案;问与答索引装置,用于对提取出的问与答信息编制索引;问与答索引库,用于保存由上述问与答索引装置编制的问与答信息索引;问与答查找装置,用于根据用户输入的问题,从所述问与答索引库中查找出最相似的一个或多个问题;以及问与答呈现装置,用于将所述查找出的问题和相应的答案呈现给所述用户。
全文摘要
本发明提供了为电子文档实现问与答功能的方法、计算机辅助写作方法、浏览电子文档的方法、辅助写作装置、能够提供问与答功能的浏览器、利用计算机提供问与答服务的方法和提供问与答服务的系统。所述为电子文档实现问与答功能的方法,包括在作者写作电子文档时,生成用于问与答功能的问与答信息;由作者确保所生成问与答信息的可靠性;与所述电子文档对应地保存所述问与答信息;以及利用所述问与答信息提供问与答功能。
文档编号G06N5/04GK1629833SQ20031012128
公开日2005年6月22日 申请日期2003年12月17日 优先权日2003年12月17日
发明者刘世霞, 杨力平 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1