文档量化方法、装置、设备及计算机存储介质与流程

文档序号:35931521发布日期:2023-11-05 06:58阅读:40来源:国知局
文档量化方法、装置、设备及计算机存储介质与流程

本申请属于数据处理,尤其涉及一种文档量化方法、装置、设备及计算机存储介质。


背景技术:

1、随着互联网技术的快速发展,各种文本信息井喷式产生,在向用户提供各种各样的信息的同时,也为用户的阅读带来了巨大的负担。为了快速处理海量文本内容,机器学习技术(machine learning,ml)成为了关键。通过机器学习技术可以对各种文本信息进行处理,得到文档中的关键信息。但是在利用机器学习技术处理文档时,需要将文档进行量化处理,得到连续的数据,才可以进行机器学习。

2、现有的文档量化方法是将所有文档包含的词语按顺序记录为一个有序列表,并根据每个文档中包含的词进行赋值,即一个文档中包含的词赋值为1,否则赋值为0。利用上述方法进行文档量化时,占用的存储空间较大,且处理后的量化数据中存在大量无意义的0值,使得文档量化的方法效率较低。


技术实现思路

1、本申请实施例提供一种文档量化方法、装置、设备及计算机存储介质,能够基于文档中的词和词的位置信息,通过对文档分段,减少了需要处理的数据和无关数据的影响,提高了文档量化的效率。

2、第一方面,本申请实施例提供一种文档量化方法,方法包括:

3、获取包括至少两个文档的文档集数据,文档集数据包括文档集中的词和词的位置信息;

4、基于文档集中的词和词的位置信息计算每个文档中每个词在预设篇幅位置出现的概率;

5、将文档集中的每个文档划分为预设数量的分段;

6、基于每个文档中每个词在预设篇幅位置出现的概率确定每个文档中每个分段内词的最大出现概率;

7、基于每个分段内词的最大出现概率和预设权重确定文档集中每个文档的量化序列。

8、第二方面,本申请实施例提供了一种文档量化装置,装置包括:

9、获取模块,用于获取包括至少两个文档的文档集数据,文档集数据包括所述文档集中的词和词的位置信息;

10、计算模块,用于基于文档集中的词和词的位置信息计算每个文档中每个词在预设篇幅位置出现的概率;

11、划分模块,用于将文档集中每个文档划分为预设数量的分段;

12、确定模块,用于基于每个文档中每个词在预设篇幅位置出现的概率确定每个文档中每个分段内词的最大出现概率;

13、确定模块,还用于基于每个分段内词的最大出现概率和预设权重确定文档集中每个文档的量化序列。

14、第三方面,本申请实施例提供了一种文档量化设备,设备包括:处理器,以及存储有计算机程序指令的存储器;处理器读取并执行计算机程序指令,以实现第一方面的文档量化方法。

15、第四方面,本申请实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面的文档量化方法。

16、第五方面,本申请实施例提供了一种计算机程序产品,计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备执行第一方面的文档量化方法。

17、本申请实施例的文档量化方法、装置、设备及计算机存储介质,能够获取文档集中的词和词的位置信息,并基于词和词的位置信息计算词的出现概率。通过将文档分段,在每个分段内选择词的最大出现概率,能够减少数据计算量,并结合每个分段的预设权重计算得到文档的量化序列,提高了文档量化的效率。



技术特征:

1.一种文档量化方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述文档集中的词和词的位置信息计算每个文档中每个词在预设篇幅位置出现的概率,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述基于所述每个分段内词的最大出现概率和预设权重确定所述文档集中文档的量化序列,包括:

4.根据权利要求3所述的方法,其特征在于,所述按照预设分段数量将所述文档集中的文档分段之前,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述预设的每段文档的权重为基于历史文档数据,通过最小二乘法计算得到的权重。

6.一种文档量化装置,其特征在于,所述装置包括:

7.根据权利要求6所述的装置,其特征在于,所述计算模块,用于基于所述文档集中的词和词的位置信息计算每个文档中每个词在预设篇幅位置出现的概率,包括:

8.根据权利要求6或7所述的装置,其特征在于,所述确定模块,还用于基于所述每个分段内词的最大出现概率和预设权重确定所述文档集中每个文档的量化序列,包括:

9.根据权利要求8所述的装置,其特征在于,所述装置还包括:

10.根据权利要求6所述的装置,其特征在于,所述预设的每段文档的权重为基于历史文档数据,通过最小二乘法计算得到的权重。

11.一种文档量化设备,其特征在于,所述文档量化设备包括:处理器,以及存储有计算机程序指令的存储器;

12.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-5任意一项所述的文档量化方法。

13.一种计算机程序产品,其特征在于,所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行如权利要求1-5任意一项所述的文档量化方法。


技术总结
本申请实施例提供了一种文档量化方法、装置、设备及计算机存储介质。方法包括:获取文档集中文档的词和词的位置信息,基于文档的词和词的位置信息确定每个词在预设篇幅位置出现的频率,并进一步确定每个分段内词的最大出现概率。基于每个分段内词的最大出现概率确定文档的量化序列。根据本申请实施例的文档量化方法,能够仅根据文档中词的出现频率确定词的出现概率,并进一步确定文档的量化序列,提高了文档量化的效率。

技术研发人员:彭公孚,张韬,孟晓莉
受保护的技术使用者:中国移动通信集团湖北有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1