一种基于仿真特定领域的仿真信息自动排序方法

文档序号:6497167阅读:167来源:国知局
专利名称:一种基于仿真特定领域的仿真信息自动排序方法
技术领域
本发明涉及一种搜索信息排序方法,具体涉及一种基于仿真特定领域的仿真信息 自动排序方法,属于计算机建模与仿真领域领域。
背景技术
美国国防部DoD在制定建模与仿真主计划MSMP时就提出了构建建模与仿真资源 库系统 MSRR(Modeling & Simulation Resource Repository)计划,其目的就是要提供建 模与仿真应用中资源管理、访问、浏览和检索的工具,提高建模与仿真资源的重用性和共享 性,增进系统开发的效率和可靠性。美国现有的MSRR系统由DMS0、联合C4ISR决策支持中 心、美国陆军、美国空军等7家相关机构的节点组成,以模型和仿真应用资源为核心。对于仿真资源用户来说,通常关心的是仿真领域相关的仿真信息、文档等,但是通 用的检索或搜索引擎中的排序方法并没有考虑到其应用领域的特点,一方面,通用的排序 方法中采用通用词库来实现排序过程中的分词工作,它缺乏仿真领域的专有名词,这些名 词就会被分割成普通的词汇,并不符合仿真领域的需求;另一方面,目前的排序过程中没有 考虑到与仿真应用的相关度,通常返回给用户的结果多半是与仿真领域无关的信息,这为 仿真资源用户带来很多困扰。另外,通用排序中采用的相关度计算方法中的向量空间模型 (VSM)与布尔模型,一是需要词汇之间具有独立性,并且其向量的相关操作缺乏理论验证, 大都是经验公式;二是难于建立查询表述方式,查询结果无序,无法判断相关文档的相关程 度。由此可见,作为特定的仿真应用领域,由于数据存储方式多种多样,资源之间存在着层 次、相联等特有的相关性,以文件等多种形式存储于分布式的资源库中;并且,随着仿真应 用的发展,仿真资源种数、数量越来越多,存储的分布式环境越来越广等,当信息量大到一 定程度时,系统的整体性能有着显著的下降,这与越来越强调响应速度的仿真应用极为不 符,很难满足仿真应用领用的应用需求。因此,有必要提供针对仿真领域特点的自动排序方法,为构建专用的仿真资源搜 索引擎提供必需的技术支持,提高检索时仿真资源相关文档的相关度,使仿真资源用户可 以快速检索到所需要的信息,以提高仿真应用系统性能。

发明内容
本发明的目的是针对现有通用排序方法的不足,提供一种基于仿真领域的结果排 序方法,为实现仿真结果的搜索、管理等功能提供底层支持,使仿真资源用户可以快速检索 到所需要的信息。本发明提供了一种基于仿真特定领域的仿真信息自动排序方法,包括以下步骤—、基于仿真资源的特点,定义仿真领域的仿真因子Wf,并基于Wf定义文件的重要 因子和分割的重要因子
权利要求
一种基于仿真特定领域的仿真信息自动排序方法,其特征在于,包括以下步骤一、基于仿真资源的特点,定义仿真领域的仿真因子Wf,并基于Wf定义文件的重要因子和分割的重要因子 <mrow><msub> <mi>W</mi> <mi>f</mi></msub><mo>=</mo><msub> <mi>&mu;</mi> <mi>f</mi></msub><mo>&times;</mo><mfrac> <mrow><munderover> <mi>&Sigma;</mi> <mrow><mi>j</mi><mo>=</mo><mn>1</mn> </mrow> <mi>m</mi></munderover><msub> <mi>W</mi> <mi>j</mi></msub> </mrow> <msub><mi>l</mi><mi>f</mi> </msub></mfrac> </mrow>公式(1)其中,lf表示分割(Division)中文本的长度,μf表示分割的加权系数,如表1所示表1分割权重分配表Wj是某个分割中词j的权重,定义如下Wj=coe×Tjf公式(2)其中coe为词的类别系数,coe的取值要根据该词在仿真领域专业词库中的权重分配表中的位置来确定,仿真领域专业词库权重分配表如表2所示;Tjf表示词j在分割中出现的次数;m为分割中包含的词的个数;表2仿真领域专业词库权重分配表分割的重要因子division.boost和文件的重要因子file.boost的定义分别如下division.boost=Wf 公式(3) <mrow><mi>file</mi><mo>.</mo><mi>boost</mi><mo>=</mo><msub> <mi>log</mi> <mn>2</mn></msub><mrow> <mo>(</mo> <munderover><mi>&Sigma;</mi><mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn></mrow><mi>n</mi> </munderover> <mi>div</mi> <mi>ision</mi> <mo>.</mo> <msub><mi>boost</mi><mi>i</mi> </msub> <mo>)</mo></mrow> </mrow>公式(4)其中,file.boost表示一个文件的重要因子,而division.boosti表示文件中第i个分割的重要因子,n表示此文件共包含n个分割;二、在通用中文词库基础上,增加一个仿真领域的专有名词词库,并根据这两个词库将待排序文档分割为若干个与排序有关的相关词;三、计算每个待排序文档的相关性,具体步骤为(1)将文件划分为不同的分割,包括标题区(Title)、摘要区(Abstract)、主体区(Body),针对文件每一个分割建立相对应的分割字符集,分割字符集是当前文件分割包含的相关词和查询式对应分割包含的相关词的并集;(2)获得待排序文档每个分割的相关度序列s和对应的要查询的文件分割的相关度序列q,设分割对应的分割字符集包含的相关词的数目为n,则s和q的长度均为n,即s=(x1x2x3.....xn),q=(y1y2y3....yn),序列中的每一位用0或者1表示文件信息的状态,如果文件分割不包含分割字符集当前位置的词,则取值0,如文件分割包含字符集里的对应的分量,产生(0,1.5*Tjf)范围内的随机数,如果该数落在(0,Wi)中,取值1,否则取值0;其中Wi为分割字符集当前位置的词的权重;(3)通过以下公式计算待排序文档每个分割的相关度 <mrow><msub> <mi>S</mi> <mi>rk</mi></msub><mrow> <mo>(</mo> <msub><mi>s</mi><mi>k</mi> </msub> <mo>,</mo> <mi>q</mi> <mo>)</mo></mrow><mo>=</mo><mfrac> <mrow><mi>div</mi><mi>ision</mi><mo>.</mo><msub> <mi>boost</mi> <mi>k</mi></msub> </mrow> <mrow><mn>1</mn><mo>+</mo><munderover> <mi>&Sigma;</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <mi>n</mi></munderover><mrow> <mo>(</mo> <mo>|</mo> <msub><mi>x</mi><mi>i</mi> </msub> <mo>-</mo> <msub><mi>y</mi><mi>i</mi> </msub> <mo>|</mo> <mo>)</mo></mrow><mo>*</mo><msub> <mi>idf</mi> <mi>i</mi></msub><mo>*</mo><mrow> <mo>(</mo> <msub><mi>tf</mi><mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi></mrow> </msub> <mo>+</mo> <mn>1</mn> <mo>)</mo></mrow> </mrow></mfrac> </mrow>公式(8)其中,xi,yi分别是待排序文件中分割的相关度序列s和对应的要查询的文件分割的相关度序列q在第i个位置的值;division.boostk是文件中第k个分割的重要因子;tfi,j是相关词i在文件中的出现频率,通过计算得到,TermFreq为相关词在文件中出现的次数,TermNum为文件的总词语数;idfi是相关词i的逆文件频率,通过计算得到,numFiles为总文件数,fileFreq为出现该相关词的文件数;(4)在求出所有分割的相关度之后,通过加权求和的方式计算整个文件的相关度,文件的相关度S的计算公式如下 <mrow><mi>S</mi><mrow> <mo>(</mo> <msub><mi>t</mi><mi>i</mi> </msub> <mo>,</mo> <mi>q</mi> <mo>)</mo></mrow><mo>=</mo><mi>file</mi><mo>.</mo><mi>boost</mi><mo>*</mo><munderover> <mi>&Sigma;</mi> <mrow><mi>k</mi><mo>=</mo><mn>1</mn> </mrow> <mi>m</mi></munderover><mo>[</mo><msub> <mi>&mu;</mi> <mi>fk</mi></msub><mo>*</mo><msub> <mi>S</mi> <mi>rk</mi></msub><mrow> <mo>(</mo> <msub><mi>s</mi><mi>k</mi> </msub> <mo>,</mo> <mi>q</mi> <mo>)</mo></mrow><mo>]</mo> </mrow>公式(9)其中,ti表示第i个文件,共m个分割,μfk表示文件中第k个分割所带的权值,Srk代表第k个分割所计算出的分割相关度的值,为体现每个文件的不同权重,利用因子file.boost来表示具体某个文件的重要性;四、根据相关度计算结果,实现基于仿真领域的排序。FSA00000319146100024.tif,FSA00000319146100031.tif
2.根据权利要求1所述的一种基于仿真特定领域的仿真信息自动排序方法,其特征在 于,所述排序过程通过堆实现,在计算每个相关文档的相关度之前,先初始化一个堆来保存计算结果,并以相关度作为键,以文件编号作为值,将得到的相关度与当前文件编号写入堆 中,直到所有文件都遍历完成。
全文摘要
本发明涉及一种基于仿真特定领域的仿真信息自动排序方法,包括以下步骤1)基于仿真资源的特点,定义仿真领域的仿真因子Wf,并基于Wf定义文件的重要因子和分割的重要因子;2)在通用中文词库基础上,增加一个仿真领域的专有名词词库,并根据这两个词库将待排序文档分割为若干个与排序有关的相关词;3)计算每个待排序文档的相关性;4)根据相关度计算结果,实现基于仿真领域的排序。本发明所述方法可以准确地检索出仿真应用相关的信息,具有简单、易行、高效的特点,非常适合目前广泛流行的分布式仿真应用。
文档编号G06F17/30GK101968808SQ20101051989
公开日2011年2月9日 申请日期2010年10月26日 优先权日2010年10月26日
发明者宿红毅, 柳寒冰, 沈宇恒, 郑宏, 闫波 申请人:北京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1