追踪文档的关联信息的方法和系统的制作方法

文档序号：6463743阅读：124来源：国知局

专利名称：追踪文档的关联信息的方法和系统的制作方法
技术领域：
本发明涉及文档中关联信息的自动追踪，具体涉及一种追踪文档的关联信息的方法和系统，能够在文档被修改的情况下保持该文档与诸如注释之类的相关信息之间的关联性。
背景技术：
在编程过程中或者文字编辑过程中，通常要保存与文档的修改或者变更相关的信息，例如标注信息，代码的评审记录，评审结果、代码的
相关书或者Bug解析结果等。通常的做法是在该文档中直接标注(注释) 理解该文档所需的所有信息，但是这样带来的问题是随着标注的增多，文档的可读性大大降低，因为杂乱的信息会降低文档的质量，并且很难对文档中的注释信息进行维护，导致文档的可信性降低。
专利文献l (CN1114068A)披露了一种用于注释软件视窗的系统，它提出如果在用户打开的视窗中做出了注释或者标记，就将该视窗的标题和注释在该视窗中的位置相关联地存储在另一文件中。如果用户再次打开该视窗，则系统根据该视窗的状态，在显示该视窗的同时，在该位置显示注释。
但是，在专利文件l的系统中，如果用户要对已经被做了注释的文档进行编辑，则会带来问题。因为一旦编辑该文档，与注释相对应的位置就会发生变动，从而导致再次打开该文档时，注释的位置不正确。换言之，专利文件1所提出的系统无法应对在文档需要被编辑的情况下保持编辑后的文档和相关信息(例如注释)之间的关联性的问题。
另外，专利文献2 (CN1609835A)披露了一种电子文档注释方法和系统，它提出将各个文档所需的注释信息保存在共享的字典中，其中采用的方法是将文档中出现的词条与字典中的条目相关联，使得不同的文件或者同一文件中的不同内容可以共享同一注释(字典中的条目)。
但是，在专利文献2中，同样存在无法应对用户修改文档的问题。例如，用户应为某种需要而修改了文档中的内容，则自然切断了该文档与共享字典中的相应条目之间的关联性，即使该文档可能仍旧需要与字典中的相应条目关联。尤其是，随着修改的增多，文档与字典之间的关联性逐渐降低。
可见，无论对比文件1和对比文件2都无法解决随着文档的修改而同时保持该文档或者该文档的内容与诸如注释(标注)之类的相关信息之间的关联性的问题。

发明内容
本发明的目的是提出一种追踪文档的关联信息的方法和系统，它能够在文档被修改的情况下，也能够保持该文档和关联信息之间的连接性 (关联性)。
在本发明的一个方面，提出了一种追踪文档的关联信息的方法，包括步骤抽出被编辑后的文档中的文档块的至少一个特征；计算所述至少一个特征和事先存储的关联信息所对应的特征之间的距离；以及基于所计算的距离更新与所述关联信息相对应的特征。
根据本发明的实施例，基于所计算的距离更新与所述关联信息相对
应的特征步骤包括用距离最小的文档块特征更新与所述关联信息相对
应的特征。
根据本发明的实施例，基于所计算的距离更新与所述关联信息相对
应的特征的步骤包括向用户呈现距离较小的多个特征所对应的文档块；
接收来自用户对所述文档块中之一的选择；以及以用户选择的文档块的特征更新与所述关联信息相对应的特征。
根据本发明的实施例，所述向用户呈现距离较小的多个特征所对应的文档块的步骤包括按照优先顺序向用户呈现所述文档块。
根据本发明的实施例，抽出被编辑后的文档中的文档块的至少一个
特征包括抽取被编辑后的文档中要被关联的文档块以及该文档块周围的内容。
根据本发明的实施例，所述抽出的特征包括以下至少之一预定范围内的文字和字母的分布，特定字母的分布，每行的字数或者相邻行字数的差分值，以及经常出现的字词数。
根据本发明的实施例，所述特征是事先设定的或者是在抽取过程中由用户指定的。
在本发明的另一方面，提出了一种追踪文档的关联信息的系统，包括数据库，存储关联信息和与该关联信息相对应的特征；特征抽出装
置，抽出被编辑后的文档中的文档块的至少一个特征；距离计算装置，计算至少一个特征和事先存储的关联信息所对应的特征之间的距离；以
及一致性判决装置，基于所计算的距离更新所述数据库中与所述关联信息相对应的特征。
根据本发明的实施例，所述一致性判决装置用距离最小的文档块特征更新与所述关联信息相对应的特征。
根据本发明的实施例，所述系统还包括文档块选择表示装置，向用户呈现距离较小的多个特征所对应的文档块；以及文档块选择输入装置，允许用户对所述文档块中之一的选择；其中所述一致性判决装置以用户选择的文档块的特征更新与所述关联信息相对应的特征。
根据本发明的实施例，文档块选择表示装置按照优先顺序向用户呈现所述文档块。
利用本发明的方法和系统，由于在文档修改的同时，对修改后的文档和关联信息之间的关联进行确认，从而保持了文档和关联信息之间的关联性。即使文档被修改很多次，也不会降低文档的关联信息的可信度。

从下面结合附图的详细描述中，本发明的上述特征和优点将更加明显，其中
图1示出了根据本发明实施例的追踪文档的关联信息的系统的结构框图2是描述如图1所示的特征抽出单元所执行的操作过程的详细流程图3是如图1所述的距离计算单元在计算过程所使用的加权系数的列表和文档中特征值的分布状况；图4是描述如图1所示的距离计算单元所执行的操作过程的详细流程图5是描述如图1所示的一致性判决单元所执行的一个操作过程的详细流程图6示出了根据本发明的实施例的追踪文档的关联信息的系统的变型的示意性结构框图；以及
图7是描述如图6所示一致性判决单元以及文档块选择输入单元和文档块选择表示单元所执行的操作过程的详细流程图8示出了在编辑之前的原文件被打开后的视窗的示意图9示出在在编辑之后的文件被打开后的视窗的示意图；以及
图io示出了向用户发出提示的关联设定的界面的示意图。
具体实施例方式
下面，参考附图详细说明本发明的优选实施方式。为了清楚和简明，包含在这里的巳知的功能和结构的详细描述将被省略，以防止它们使本发明的主题不清楚。
图1示出了根据本发明实施例的追踪文档的关联信息的系统的结构框图。在利用文档编辑工具对文档进行修改时，根据本发明实施例的系统将保存的关联信息的特征与修改后的文档特征进行比较，并与最接近的文档内容再次进行关联。这里，关联信息是指能够增加文档价值的各种各样的信息。作为例子，可以是以下一些内容对于文档的解释或注释；文档修改前的检讨内容；修改者的联络方式。
如果文档是代码文档，关联信息还可以包括代码的评审记录或评审结果；与代码相关的设计书；以及Bug解析结果(原因，修改内容，预防对策)等。
如图1所示，根据本发明实施例的系统包括特征抽取单元210, 特征保存单元220，距离计算单元230，一致性判决单元240和关联信息及特征数据库250。
在关联信息及特征数据库250中存储了某一文档中的各个文档块或者行的特征以及相应的关联信息。也就是说，该数据库250中事先记录了该文档的文档块的特征和关联信息之间的对应关系。
7在检测到文档被编辑后，特征抽取单元210根据指定的特征抽取方
法，抽取各个文档块的特征。例如首先确定特征抽出的范围，如上下文的行数等。然后，计算该文档块的特征值，这里的特征值包括但是不局限于文档块中或一行中的文字数、字母的分布等，以及每行的字数或者相邻行之间的差分值。
在特征抽出单元210计算得到各个文档块的特征之后，将其保存在特征保存单元220中。也就是说在特征保存单元中存储在各个修改后的文档块的一种或者更多种特征，例如一行中的字数或者字母的分布等。
距离计算单元230从特征保存单元210中取得修改后的各个文档块的特征，并计算这些特征与关联信息及特征数据库240中事先存储的关联信息的特征之间的距离。
然后，一致性判决单元240根据距离计算单元230所计算的距离，在这些文档块中与事先存储的关联信息随对应的特征最接近的文档块，并且进行重新的关联设定。在重新关联设定之后，一致性判决单元240 更新关联信息及特征数据库的条目，也就是以新的特征与该关联信息对应地存储。
下面结合流程图详细说明上述各个单元的操作过程的例子。图2是描述如图1所示的特征抽出单元所执行的操作过程的详细流程图。
如图2所示，开始先确定特征抽出范围(SIO)。这里的特征抽出范围是指上下文的行数。作为例子考虑了下面的两种方法一种是用户指定；另一种是设定默认值。
然后，文档块抽出单元210计算文档块的特征值(Sll)，在这里文档块可以指文档的一行。
关于特征的抽出(计算)方法，例如包括一定范围的文字数，字母的分布，特定字母的分布；每行的字数以及其相邻行之间的差分值；以及经常出现的字词数等。
对于特征抽出方法可以根据文档的类型来进行选择。例如，在一般的字处理领域的文档，可以采用经常出现的字词作为特征。
接下来，文档块抽出单元210计算该行周围行的特征(S12)。周围的范围是开始确定的特征抽出范围。例如，在图7的例子中，如果要记
8录第18行的一些关联信息，并且默认的特征抽出范围为上下文各20行，特征为每行的字符数，则特征抽出单元210抽出的特征为第18行上下 20行各行的字符数。然后特征抽出单元210将抽出的各个特征存储在特征保存单元220中。
图3是如图1所述的距离计算单元在计算过程所使用的加权系数的列表和文档中特征值的分布状况。图4是描述如图1所示的距离计算单元所执行的操作过程的详细流程图。
如上所述，文档进行编辑后，将编辑过的文档的全部块的特征抽出，存储在特征保存单元220中。在本实施例中，这些特征是所有行的特征。如图4所示，距离计算单元230如下计算抽出的特征和关联信息及特征数据库中的特征之间的距离。
原文档中第n行的特征信息在DO[]中保存。编辑后的文档第m行的特征保存在D[m][]中。在这里引入了事先确定的系数K[]。引入系数的原因为与被关联的文档内容越接近，其特征值越有价值。因此，根据与被关联内容的距离的远近，使用了不同的系数。例如图3中的左侧图所示，第i行有与其关联的关联信息，则系数的分布表现为，随着离i行的距离越来越远，系数越来越小。
根据本发明的实施例，m与n的近似距离的计算方法如下
R[m〗=((D[m-5〗-D0[n-5])*k[i-5]) + ((D[m陽4] - D0[n-4〗)*k[i-4]) + ...+ ((D[m+5]-D0[n+5])*k[i+5]) …...(1)
同理，n与m-5，n与m-4， ......n与编辑过的文档所有行的距离都可
以求得。
下面描述距离计算过程。首先，将m赋为0 (S20)，也就是从文档的第一行开始计算。判断能否得到编辑过的文档的第m行特征D[m][]
(521) 。
在能够得到该特征的情况下(S21:是)，将距离R[m]与计数器清零
(522) 。接下来，将计数器与特征抽出范围进行比较，判断计数器的计数是否比抽出的特征大(S23)。在无法得到特征的情况下，流程结束。
如果计数器的计数比特征抽出范围大(S23:是)，则取得下一行的特征(S24)，流程转回步骤S21。
如果计数器的计数比特征抽出范围小(S23:否)，则计算DO[count] 与D[m][count]的差(S25)，然后乘以相应的系数K[count]，将结果加到 R[m]中(S27)。
然后，将计数器加1 (S27)，流程转到步骤S23，进行与上述类似的操作过程。
作为本发明的另一实施例，也可以采用诸如DPMatching之类的算法。
图5是描述如图1所示的一致性判决单元所执行的一个操作过程的详细流程图。
如图5，首先求得距离R[]中的最小值(S30)。接下来，将此最小值对应的特征与保存的特征DO[]进行比较(S31)，判断二者是否相同 (S32)。
如果二者不同，也就是发生了变更(S31:是)，则用与该最小值对应的特征更新DO[] (S33)，否则(S31:否)，流程结束。
图6示出了根据本发明的实施例的追踪文档的关联信息的系统的变型的示意性结构框图。
据本发明实施例的系统的变型除了包括特征抽取单元210，特征保存单元220,距离计算单元230，一致性判决单元240和关联信息及特征数据库250以外，还包括文档块选择表示单元260，它将一致性判决单元240所决定文档块按优先顺序提示给用户，而文档块输入选择单元270 读入用户选择的文档块。
也就是，在一致性判决单元240发现有多个候选的文档块时，按照优先级顺序向用户发出提示，在用户确认之后进行重新关联设定操作。作为本发明的另一实施例，可以用其他方法判断计算的特征与之前存储的特征之间的一致性。图10是描述如图9所示一致性判决单元以及文档块选择输入单元和文档块选择表示单元所执行的操作过程的详细流程图。
如图7所示，首先根据距离R[]计算边界值(S40)。边界值的计算方法如下。R[]中前几个(比如前5个)比较小的值取平均，把这个平均值作为边界值。
然后，査找R[]中在边界值以下的值(S41)，并判断是否仅仅有一个这样的值(S42)。
如果在R[]中比这个边界值小的值多于一个(S42:否)，则文档块选择表示单元260将这些值对应的文档块内容按顺序提示给用户(S43)，然后用户通过文档块选择输入单元270选择相应的文档块，从而一致性判决单元240得到用户的选择。接下来，将此内容对应的特征与保存的特征DO[]进行比较(S44)，判断二者是否相同，也就是判断该特征是否发生了变更(S45)。
如果变更(S45:是)，则用与用户选择的文档块所对应的特征更新 DO[] (S46)，否则，流程结束。
如果未变更(S45:否)，则不用变更，流程结束。
图8示出了在编辑之前的原文件被打开后的视窗的示意图。图9示出在在编辑之后的文件被打开后的视窗的示意图。
如图8所示，在文件被编辑(修改)前，原文件的第18行对应着相应设计书，修改者，单体测试结果等关联信息。并且与其特征一起保存在关联信息及数据库250中。
在文件被修改后，如图9所示，增加了一些内容。为了还能维持修改后文件的第19行与其关联信息的关联，应用上面介绍的方法，计算变更后的文件的所有行的特征，并计算保存的特征与每行特征的近似值，如果发现近似候选内容有多个时，则按图IO所示界面，提示用户选择重新关联的内容，然后基于用户的选择进行重新关联。
如上所述，利用本发明的方法和系统，即使文档被修改或者编辑，也能够追踪与文档的关联信息，从而提升了文档关联信息的价值。
另外，由于关联信息与文档分别存储，使得可以在不用对文档本身进行修改的情况下就能对文档追加各种各样的关联信息，并且对文档的一些关联信息如设计文档等的检索变得便捷，从而提高的对文档的理解。甚至可以追加一些暂时的以及非正式的信息作为关联信息。
利用本发明的方法和系统，带有关联信息的文档不必只在特定的工具里进行编辑，在任何通用的文档编辑工具里编辑文档，都会维持关联信息的关联。
以上所述，虽然以功能模块的形式描述了本发明实施例的系统的构成及其功能，但是这并不意味着将本发明限定于上述的系统。本领域的普通技术人员能够将其中的一个或者多个单元进行组合，或者将其中的一个单元的功能分别在两个或者更多个单元中实现。
在作为软件来实现的情况下，根据本发明实施例的程序可被存储在记录介质上，例如光存储器件或者磁存储器器件等，通过CPU执行该程序来实现本发明的实施例。
上面的描述仅用于实现本发明的实施方式，本领域的技术人员应该理解，在不脱离本发明的范围的任何修改或局部替换，均应该属于本发
明的权利要求来限定的范围，因此，本发明的保护范围应该以权利要求书的保护范围为准。
权利要求
1、一种追踪文档的关联信息的方法，包括步骤抽出被编辑后的文档中的文档块的至少一个特征；计算所述至少一个特征和事先存储的关联信息所对应的特征之间的距离；以及基于所计算的距离更新与所述关联信息相对应的特征。
2、如权利要求l所述的方法，其中，基于所计算的距离更新与所述关联信息相对应的特征步骤包括-用距离最小的文档块特征更新与所述关联信息相对应的特征。
3、如权利要求l所述的方法，其中，基于所计算的距离更新与所述关联信息相对应的特征的步骤包括向用户呈现距离较小的多个特征所对应的文档块；接收来自用户对所述文档块中之一的选择；以及以用户选择的文档块的特征更新与所述关联信息相对应的特征。
4、如权利要求3所述的方法，其中，所述向用户呈现距离较小的多个特征所对应的文档块的步骤包括按照优先顺序向用户呈现所述文档块。
5、如权利要求1所述的方法，其中抽出被编辑后的文档中的文档块的至少一个特征包括抽取被编辑后的文档中要被关联的文档块以及该文档块周围的内容特征。
6、如权利要求1到5之一所述的方法，其中所述抽出的特征包括以下至少之一预定范围内的文字和字母的分布，特定字母的分布，每行的字数或者相邻行字数的差分值，以及经常出现的字词数。
7、如权利要求1到5之一所述的方法，所述特征是事先设定的或者是在抽取过程中由用户指定的。
8、一种追踪文档的关联信息的系统，包括数据库，存储关联信息和与该关联信息相对应的特征；特征抽出装置，抽出被编辑后的文档中的文档块的至少一个特征；距离计算装置，计算至少一个特征和事先存储的关联信息所对应的特征之间的距离；以及一致性判决装置，基于所计算的距离更新所述数据库中与所述关联信息相对应的特征。
9、如权利要求8所述的系统，其中所述一致性判决装置用距离最小的文档块特征更新与所述关联信息相对应的特征。
10、如权利要求8所述的系统，还包括文档块选择表示装置，向用户呈现距离较小的多个特征所对应的文档块；以及文档块选择输入装置，允许用户对所述文档块中之一的选择；其中所述一致性判决装置以用户选择的文档块的特征更新与所述关联信息相对应的特征。
11、如权利要求10所述的系统，其中，文档块选择表示装置按照优先顺序向用户呈现所述文档块。
全文摘要
公开了一种追踪文档的关联信息的方法和系统，允许在文档被修改的情况下跟踪与文档相关联的关联信息。该方法包括步骤抽出被编辑后的文档中的文档块的至少一个特征；计算至少一个特征和事先存储的关联信息所对应的特征之间的距离；以及基于所计算的距离更新与所述关联信息相对应的特征。利用本发明的方法和系统，由于在文档修改的同时，对修改后的文档和关联信息之间的关联进行确认，从而保持了文档和关联信息之间的关联性。即使文档被修改很多次，也不会降低文档的关联信息的可信度。
文档编号G06F11/36GK101599043SQ20081011001
公开日2009年12月9日申请日期2008年6月2日优先权日2008年6月2日
发明者杨春静, 松木敏夫, 芳仓智申请人:松下电器产业株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨春静;松木敏夫;芳仓智
技术所有人：松下电器产业株式会社
我是此专利的发明人

上一篇：线性同余伪随机序列快速产生方法
上一篇：程序跑飞检测方法及其设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。