一种数据提取方法、装置、设备及存储介质与流程

文档序号：31450393发布日期：2022-09-07 13:06阅读：77来源：国知局

1.本发明涉及计算机应用技术领域，尤其涉及一种数据提取方法、装置、设备及存储介质。

背景技术：

2.随着数字化信息化的发展，为了方便用户操作，往往需要从图像中识别出字符进行业务处理。例如，针对纸质的病历，需要将其中的信息输入计算机进行存储，但是病历信息可能较多，人工输入的成本较高，效率较低，因此，可以直接采用图像字符识别技术，从病历图像中提取出字符进行存储。
3.但是，目前的图像字符识别技术只能够识别出字符，无法进行分词，也无法确定出字符的含义，在业务处理过程中，仍然需要人工针对识别出的字符进行分词和确定含义，效率较低。

技术实现要素：

4.本发明提供一种数据提取方法、装置、设备及存储介质，以解决相关技术中的不足。
5.根据本发明实施例的第一方面，提供一种数据提取方法，包括：
6.获取待识别图像；
7.基于字符识别，确定所述待识别图像中的字符和字符位置信息；
8.根据所确定的字符位置信息，确定字符之间的行列关系；
9.基于所确定的字符包括的预设格式关键字，确定对应的预设格式；
10.针对每行字符，将同一行的字符按序拼接，并基于分词模型，确定拼接结果中的第一分词词组以及对应的第一属性；
11.针对每行字符，将其中属于不同列的字符分别确定为第二分词词组，并根据所确定的预设格式，确定每个第二分词词组对应的第二属性；并针对每个第二分词词组，基于分词模型，判断对应的第二属性是否正确；
12.综合所述第一分词词组和对应的第一属性，以及所述第二分词词组和正确的第二属性，确定分词结果和对应的属性结果。
13.可选地，所述根据所确定的字符位置信息，确定字符之间的行列关系，包括：
14.根据所确定的字符位置信息，确定字符之间的行间距分布情况；
15.根据所确定的行间距分布情况，确定标准行间距；
16.基于所述标准行间距，确定属于同一行的字符；
17.并根据所确定的字符位置信息，确定属于同一列的字符。
18.可选地，所述根据所确定的字符位置信息，确定字符之间的行列关系，包括：
19.根据所确定的字符位置信息，确定属于同一行的字符；
20.针对每行字符，基于字符之间的横向距离划分出多个字符块；
21.针对每个字符块，在其他行的字符块中，确定与该字符块在横向位置或横向坐标上重合程度最高的字符块，并将所确定的字符块与该字符块，确定为属于同一列的字符。
22.可选地，所述方法还包括：
23.预先获取预设格式与预设格式关键字之间的对应关系集合；所述预设格式包括按序排列的若干属性；
24.所述基于所确定的字符包括的预设格式关键字，确定对应的预设格式，包括：
25.基于所确定的字符包括的预设格式关键字，从所述对应关系集合中确定对应的预设格式；
26.所述根据所确定的预设格式，确定每个分词词组对应的第二属性，包括：
27.将所确定的预设格式包括的属性之间的顺序，与所述第二分词词组之间的顺序匹配；
28.将每个第二分词词组对应匹配的属性，确定为该第二分词词组对应的第二属性。
29.可选地，所述方法还包括：
30.在确定任一第二分词词组对应的第二属性正确的情况下，将该第二分词词组与对应的第二属性添加到所述分词模型的训练样本集合中；
31.添加后的训练样本集合用于更新训练所述分词模型。
32.可选地，所述综合所述第一分词词组和对应的第一属性，以及所述第二分词词组和正确的第二属性，确定分词结果和对应的属性结果，包括：
33.针对正确的第二属性，将对应的第二分词词组添加到分词结果，并将对应的正确第二属性添加到对应的属性结果；
34.针对错误的第二属性，从第一属性中确定出相同的属性，并将所确定属性对应的第一分词词组添加到分词结果，将对应的第一属性添加到对应的属性结果。
35.可选地，所述针对每行字符，将其中属于不同列的字符分别确定为第二分词词组，包括：
36.根据所确定的预设格式，从所确定的字符中，确定关注字符起始行和关注字符终止行；所述预设格式包括所述关注字符起始行的关键字，以及所述关注字符终止行的关键字；
37.针对所述关注字符起始行与所述关注字符终止行之间的每行字符，将其中属于不同列的字符分别确定为第二分词词组。
38.根据本发明实施例的第二方面，提供一种数据提取装置，包括：
39.识别单元，用于获取待识别图像；基于字符识别，确定所述待识别图像中的字符和字符位置信息；
40.预解析单元，用于根据所确定的字符位置信息，确定字符之间的行列关系；基于所确定的字符包括的预设格式关键词，确定对应的预设格式；
41.第一提取单元，用于针对每行字符，将该行字符按序拼接，并基于分词模型，确定拼接结果中的第一分词词组以及对应的第一属性；
42.第二提取单元，用于针对每行字符，将其中属于不同列的字符分别确定为第二分词词组，并根据所确定的预设格式，确定每个第二分词词组对应的第二属性；并针对每个第二分词词组，基于分词模型，判断对应的第二属性是否正确；
43.综合单元，用于综合所述第一分词词组和对应的第一属性，以及所述第二分词词组和正确的第二属性，确定分词结果和对应的属性结果。
44.可选地，所述预解析单元，用于：
45.根据所确定的字符位置信息，确定字符之间的行间距分布情况；
46.根据所确定的行间距分布情况，确定标准行间距；
47.基于所述标准行间距，确定属于同一行的字符；
48.并根据所确定的字符位置信息，确定属于同一列的字符。
49.可选地，所述预解析单元，用于：
50.根据所确定的字符位置信息，确定属于同一行的字符；
51.针对每行字符，基于字符之间的横向距离划分出多个字符块；
52.针对每个字符块，在其他行的字符块中，确定与该字符块在横向位置或横向坐标上重合程度最高的字符块，并将所确定的字符块与该字符块，确定为属于同一列的字符。
53.可选地，所述装置还包括：
54.预设单元，用于预先获取预设格式与预设格式关键字之间的对应关系集合；所述预设格式包括按序排列的若干属性；
55.所述预解析单元，用于：
56.基于所确定的字符包括的预设格式关键字，从所述对应关系集合中确定对应的预设格式；
57.所述第二提取单元，用于：
58.将所确定的预设格式包括的属性之间的顺序，与所述第二分词词组之间的顺序匹配；
59.将每个第二分词词组对应匹配的属性，确定为该第二分词词组对应的第二属性。
60.可选地，所述装置还包括：
61.反馈单元，用于在确定任一第二分词词组对应的第二属性正确的情况下，将该第二分词词组与对应的第二属性添加到所述分词模型的训练样本集合中；添加后的训练样本集合用于更新训练所述分词模型。
62.可选地，所述综合单元，用于：
63.针对正确的第二属性，将对应的第二分词词组添加到分词结果，并将对应的正确第二属性添加到对应的属性结果；
64.针对错误的第二属性，从第一属性中确定出相同的属性，并将所确定属性对应的第一分词词组添加到分词结果，将对应的第一属性添加到对应的属性结果。
65.可选地，所述第二提取单元，用于：
66.根据所确定的预设格式，从所确定的字符中，确定关注字符起始行和关注字符终止行；所述预设格式包括所述关注字符起始行的关键字，以及所述关注字符终止行的关键字；
67.针对所述关注字符起始行与所述关注字符终止行之间的每行字符，将其中属于不同列的字符分别确定为第二分词词组。
68.根据本发明实施例的第三方面，提供一种电子设备，包括：
69.至少一个处理器；以及，
70.与所述至少一个处理器通信连接的存储器；其中，
71.所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述数据提取方法。
72.根据本发明实施例的第四方面，提供一种存储有计算机程序的计算机可读存储介质，其中，所述计算机程序在由处理器执行时实现上述数据提取方法。
73.根据上述实施例可知，通过字符位置信息确定字符之间的行列关系，进而可以通过两种不同的方式，分别确定出分词和分词属性进行综合，得到最终的分词结果和对应的属性结果，无需人工参与，从而可以提高处理效率。
74.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。
附图说明
75.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。
76.图1是根据本发明实施例示出的一种数据提取方法的流程示意图；
77.图2是根据本发明实施例示出的一种待识别图像的示意图；
78.图3是根据本发明实施例示出的一种数据提取装置的结构示意图；
79.图4是根据本发明实施例示出的一种配置本发明实施例方法的计算机设备硬件结构示意图。
具体实施方式
80.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
81.随着数字化信息化的发展，为了方便用户操作，往往需要从图像中识别出字符进行业务处理。例如，针对纸质的病历，需要将其中的信息输入计算机进行存储，但是病历信息可能较多，人工输入的成本较高，效率较低，因此，可以直接采用图像字符识别技术，从病历图像中提取出字符进行存储。
82.但是，目前的图像字符识别技术只能够识别出字符，无法进行分词，也无法确定出字符的含义，在业务处理过程中，仍然需要人工针对识别出的字符进行分词和确定含义，效率较低。
83.本发明提供一种数据提取方法，针对识别出的字符，还需要确定字符的位置信息，从而方便确定字符之间的行列关系。
84.通过行列关系，可以帮助确定字符的具体含义。
85.例如，属于同一行的字符往往对应于同一实体的不同属性，属于同一列的字符往往对应于不同实体的同一属性取值。
86.进一步地，针对同一行的字符，可以通过一种或多种方式进行分词，并确定分词的属性。
87.其中，分词的属性，具体可以是字符的实际含义。例如，针对病历单，其中可以存在疾病名称、药品名称、服药频率等属性。
88.而确定分词的属性，可以便于机器自动确定出结构化数据，从而自动进行业务处理，无需人工参与，提高处理效率。
89.例如，针对病历单图像识别出的字符，在确定行列关系以及分词属性后，可以确定出当红创伤乳膏(药物名称)、5支(数量)、3次/日(频率)、1适量/次(用量)和外用(给药途径)等结果，从而可以根据分词属性，对相应的分词信息进行业务处理，具体可以是填写到计算机的病历单数据结构中，从而快速生成数字化的病历单，无需人工参与。
90.本发明并不具体限定分词和确定分词属性的方式。可以是分词模型进行分词和确定分词属性，也可以是通过预设格式进行确定，预设格式具体可以包括若干属性，从而可以根据字符之间的行列关系，直接套用相应的预设格式，确定对应的属性。
91.而通过多种方法确定分词和确定分词属性后，可以综合多种方法的分词结果和属性结果，从而提高分词的准确度，以及提高分词属性的准确度。
92.如图1所示，图1是根据本发明实施例示出的一种数据提取方法的流程示意图。
93.其中可以包括以下步骤。
94.s101：获取待识别图像；基于字符识别，确定待识别图像中的字符和字符位置信息。
95.s102：根据所确定的字符位置信息，确定字符之间的行列关系；基于所确定的字符包括的预设格式关键字，确定对应的预设格式。
96.s103：针对每行字符，将该行字符按序拼接，并基于分词模型，确定拼接结果中的第一分词词组以及对应的第一属性。
97.s104：针对每行字符，将其中属于不同列的字符分别确定为第二分词词组，并根据所确定的预设格式，确定每个第二分词词组对应的第二属性；并针对每个第二分词词组，基于分词模型，判断对应的第二属性是否正确。
98.s105：综合第一分词词组和对应的第一属性，以及第二分词词组和正确的第二属性，确定分词结果和对应的属性结果。
99.上述方法流程，可以通过字符位置信息确定字符之间的行列关系，进而可以通过两种不同的方式，分别确定出分词和分词属性，最后综合两种不同方式所确定的结果，得到最终的分词结果和对应的属性结果，从而可以从待识别图像中提取具有实际含义的分词。
100.由于无需人工参与，就可以对待识别图像中识别出的字符进行分词并确定分词属性，从而可以提高处理效率，并且可以通过多种方式进行分词和确定分词属性，可以提高分词和确定分词属性的准确度。
101.下面针对各个步骤进行详细的解释。
102.s101：获取待识别图像；基于字符识别，确定待识别图像中的字符和字符位置信息。
103.关于待识别图像，本发明并不限定具体的图像来源，只要其中包含可识别的字符即可。
104.在具体的示例中，待识别图像可以是纸质报告的拍摄图像，例如，骨质疏松患者的检查报告集合基本包括，骨密度仪检查报告，开药记录，病历单，肝肾功能血成分检查单，会
诊报告单与x光报告单。这些检查报告可以在拍摄图像之后，分别作为待识别图像，通过本方法流程进行识别，提取出相应的结构化数据，也就是具有对应属性的分词结果。
105.关于字符识别，本发明并不限定具体的字符识别方法。在一种可选的实施例中，可以是通过光学字符识别(optical character recognition，ocr)，识别出待识别图像中的字符和字符位置信息。
106.可选地，识别出待识别图像中的字符，可以综合为一个字符集合。需要强调的是，在具体识别字符时，可以识别出字符串，也可以是识别出单个字符，本发明并不限定。
107.本发明也不限定字符位置信息的具体形式，只要能够表征字符的位置，用于后续确定字符之间行列关系即可。
108.可选地，字符位置信息具体可以包括字符中心点在待识别图像中的位置，也可以包括字符在待识别图像的横向和纵向上的位置，具体可以是一个位置范围。
109.例如，识别出的字符串“1000000个”的位置信息，可以包括待识别图像的横向上1到5的位置范围，也可以包括待识别图像的纵向上1到2的位置范围。
110.为了便于理解，如图2所示，图2是根据本发明实施例示出的一种待识别图像的示意图。
111.其中，待识别图像是一张化验单的纸质报告拍摄图像。
112.通过字符识别，可以识别出待识别图像中的字符和字符的位置信息。
113.例如，可以识别出待识别图像中的字符串“项目名称”、“英文缩写”、“参考值”、“总蛋白”等，也可以识别出单个字符“结”“果”。
114.其中可以确定出字符串“项目名称”的位置信息包括中心点的位置坐标(1,10)，“英文缩写”的位置信息包括中心点的位置坐标(3,10)，“总蛋白”的位置信息包括中心点的位置坐标(1,7)。
115.s102：根据所确定的字符位置信息，确定字符之间的行列关系；基于所确定的字符包括的预设格式关键字，确定对应的预设格式。
116.本发明并不限定具体确定字符之间行列关系的方法。
117.在一种可选的实施例中，字符之间的行列关系，可以包括属于同一行的字符，以及属于同一列的字符。
118.从实际情况考虑，相比较于属于同一行的字符，由于同一列的字符更容易存在长度不一的可能，往往难以直接确定属于同一列的字符，因此，可以先确定属于同一行的字符，再基于属于同一行的字符，确定属于同一列的字符。
119.本实施例并不限定具体确定属于同一行的字符的方法。
120.可选地，可以通过行间距进行区分，当两个字符的上下间隔大于一定阈值，则可以确定这两个字符不属于同一行。
121.字符之间的上下间隔，可以根据字符的位置信息进行确定，具体可以是根据字符的中心点位置进行确定。
122.可选的，根据所确定的字符位置信息，确定字符之间的行列关系，可以包括：根据所确定的字符位置信息，确定字符之间的行间距分布情况；根据所确定的行间距分布情况，确定标准行间距；基于标准行间距，确定属于同一行的字符；并根据所确定的字符位置信息，确定属于同一列的字符。
123.可选地，字符之间的行间距分布情况，可以包括若干字符之间的行间距。具体可以包括在若干字符之间，根据字符位置信息确定的多个行间距。
124.本实施例并不具体限定确定标准行间距的方法。
125.可选地，可以基于行间距分布情况计算众数、中位数、平均数等，作为标准行间距。
126.可选地，根据所确定的行间距分布情况，确定标准行间距，可以包括，选择行间距分布中分布最密集的一个区间的中间值作为标准行间距。
127.可选地，基于标准行间距，确定属于同一行的字符，可以包括：将上下间隔小于标准行间距的不同字符，确定为同一行的字符；具体可以包括，针对每个字符，在确定的其他字符中，确定与该字符之间上下间隔小于标准行间距的字符，并将所确定的字符与该字符，确定为属于同一行的字符。
128.本实施例可以基于标准行间距，确定出待识别图像中属于同一行的字符。具体可以是通过遍历进行确定。
129.本实施例并不限定具体确定属于同一列的字符的方法。
130.可选地，由于同一列的字符通常是不同行之间在横向位置或横向坐标上重合最多的字符，因此，可以根据不同行之间字符在横向位置或横向坐标上的重合程度，确定属于同一列的字符。
131.在一种可选的实施例中，根据所确定的字符位置信息，确定字符之间的行列关系，可以包括：根据所确定的字符位置信息，确定属于同一行的字符；针对每行字符，基于字符之间的横向距离划分出多个字符块；针对每个字符块，在其他行的字符块中，确定与该字符块在横向位置或横向坐标上重合程度最高的字符块，并将所确定的字符块与该字符块，确定为属于同一列的字符。
132.可选地，在其他行的字符块中，不存在与该字符块在横向位置或横向坐标上重合的字符块的情况下，可以将该字符块确定为属于单独一列的字符。
133.其中，可选地，针对每行字符，可以根据位置信息划分出多个字符块，以便于初步区分不同列的字符。
134.具体地，针对每行字符，可以在两个相邻字符之间的横向距离小于预设横向距离的情况下，确定这两个相邻字符在同一字符块；在两个相邻字符之间的横向距离大于或等于预设横向距离的情况下，确定这两个相邻字符在不同字符块。
135.因此，可选地，针对每行字符，基于字符之间的横向距离划分出多个字符块，可以包括：针对每行字符，遍历其中的每个字符，在确定该字符与相邻字符之间的横向距离小于预设横向距离的情况下，确定这两个相邻字符在同一字符块；在确定该字符与相邻字符之间的横向距离大于或等于预设横向距离的情况下，确定这两个相邻字符在不同字符块。
136.在一种可选的实施例中，具体确定字符之间的行列关系，可以包括：在行间距方面，先根据各个字符的中心位置进行先后排列，然后将各个字符的上下间距进行差分处理，提取出不同行之间的行间距，然后对行间距的分布进行分析，选择这些行间距中分布最密集的一个区间的数值的中间值作为预设的标准行间距，然后对各个字符进行循环遍历，判断各个字符是否属于同一个行，即是否两个字符的上下间隔小于预设的标准行间距，最后得到一行行的行文字序列。
137.在列间距方面，对每一行中由空格所分割的各个字符块做分析，分析不同行之间
各个字符块在横向位置或横向坐标上的重合关系，在横向位置或横向坐标上重合最多的一组字符块，可以被确定为属于同一列的字符块。
138.s103：针对每行字符，将该行字符按序拼接，并基于分词模型，确定拼接结果中的第一分词词组以及对应的第一属性。
139.在一种可选的实施例中，可以采用分词模型，对每行字符进行分词和确定分词属性。
140.其中，可选地，分词模型可以用于针对字符串进行分词，并且可以用于确定分词属性。
141.本实施例并不限定分词模型的训练方法，也不限定分词模型具体的模型结构。
142.其中，可选地，为了提高分词的准确性，可以先针对每行字符，将该行字符按照位置从左到右的顺序进行拼接，得到拼接起来的字符串，从而可以利用分词模型进行分词和确定分词属性，具体可以是将拼接起来的字符串输入分词模型，得到分词和对应的分词属性。
143.通过拼接字符，可以针对每行字符本身进行分词，提高分词的准确性。
144.例如，针对单行字符：当红创伤乳膏5支3次/日1适量/次外用，可以输入分词模型，得到结果：当红创伤乳膏(药物名称)、5支(数量)、3次/日(频率)、1适量/次(用量)和外用(给药途径)。
145.为了便于区分，将通过s103确定的分词称为第一分词词组，对应的分词属性称为第一属性。
146.可选地，分词模型可以基于所确定的预设格式，确定针对输入的字符所可能输出的属性。
147.例如，针对s102中所确定的预设格式“用药报告单”，可以确定分词模型所可能输出的属性包括药物名称、数量、频率、用量、给药途径这5个属性。
148.s104：针对每行字符，将其中属于不同列的字符分别确定为第二分词词组，并根据所确定的预设格式，确定每个第二分词词组对应的第二属性；并针对每个第二分词词组，基于分词模型，判断对应的第二属性是否正确。
149.在一种可选的实施例中，可以先基于所确定的行列关系直接进行分词，再采用预设格式，针对所确定的行列关系进行匹配，从而可以使用预设格式中的属性，确定分词属性。
150.可选地，由于已经确定字符之间的行列关系，从而可以针对每行字符，将其中属于不同列的字符，分别确定为分词词组。
151.可选地，预设格式具体可以是特定的表格格式，其中可以包括属性，从而可以用于确定分词属性。
152.例如，预设格式可以是病历单的表格格式，其中可以包括病人名称、疾病名称、药物名称、主诉及现病史、症状、检查情况、处方、检验情况、嘱托等属性。化验单包括检查项目、结果、参考值、单位、异常。骨密度仪报告单包括t值、sos值、测值/峰值比(v/m)、相对骨折风险率。
153.在一种可选的实施例中，可以预先获取预设格式与预设格式关键字之间的对应关系集合。
154.其中，预设格式关键字，可以是用于区分不同预设格式的关键字。例如，针对病历单的预设格式，对应的预设格式关键字可以包括“病历单”或“病历”等，针对化验单的预设格式，对应的预设格式关键字可以包括“化验单”或者“化验”等。
155.具体地，可以收集不同的预设格式的内容，从中提取出关键字，作为预设格式关键字，进而设置预设格式与预设格式关键字之间的对应关系集合。
156.通过预设格式关键字，可以确定待识别图像中字符所可能对应的预设格式，进而确定分词属性。
157.可选地，基于所确定的字符包括的预设格式关键字，确定对应的预设格式，可以包括：基于所确定的字符包括的预设格式关键字，从对应关系集合中确定对应的预设格式。
158.可选地，预设格式可以包括按序排列的若干属性。例如，在预设格式为用药报告单的情况下，可以包括按照从左到右排序的药物名称、数量、频率、用量、给药途径这5个属性。
159.相对应地，在确定出预设格式的情况下，可以将每行字符中得到的分词词组，按照从左到右的顺序，对应确定分词属性。
160.可选地，根据所确定的预设格式，确定每个分词词组对应的第二属性，可以包括：将所确定的预设格式包括的属性之间的顺序，与第二分词词组之间的顺序匹配；将每个第二分词词组对应匹配的属性，确定为该第二分词词组对应的第二属性。
161.其中，将所确定的预设格式包括的属性之间的顺序，与第二分词词组之间的顺序匹配，具体可以包括，将所确定的预设格式包括的从左到右的第n个属性，与每行字符中从左到右的第n个第二分词词组进行匹配，n≥1。
162.例如，在预设格式为用药报告单的情况下，可以包括按照从左到右排序的药物名称、数量、频率、用量、给药途径这5个属性。而针对单行字符的分词词组，当红创伤乳膏、5支、3次/日、1适量/次、外用，直接按照顺序对应匹配，得到结果：当红创伤乳膏(药物名称)、5支(数量)、3次/日(频率)、1适量/次(用量)和外用(给药途径)。
163.可选地，针对待识别图像识别出的字符，存在冗余信息或者无效信息，例如，针对病历单，所关注的字符通常是具体的病历信息，而对于一些病历单的表头信息，具体可以包括xx医院、xx部门、注意事项等，可以无需关注，提取出病历单中所关注的字符。
164.通常所关注的字符，是以表格的形式展示，而无效信息，例如表头信息，通常不在表格中展示，因此可以从识别出的字符中，确定出所关注的起始行字符和终止行字符。
165.例如，起始行字符通常可以包括，属性信息，具体可以包括药物名称、数量、频率、用量、给药途径。终止行字符通常可以包括，表格的最后一行字符。
166.可选地，起始行和终止行，可以通过关键字进行确定。
167.例如，针对病历单，通常在病人信息的表格后面，附带有医生信息，具体可以是医生的签名。因此，起始行可以是包括属性信息的单行字符，终止行可以是包括医生信息的单行字符。
168.可选地，针对每行字符，将其中属于不同列的字符分别确定为第二分词词组，可以包括：根据所确定的预设格式，从所确定的字符中，确定关注字符起始行和关注字符终止行；针对关注字符起始行与关注字符终止行之间的每行字符，将其中属于不同列的字符分别确定为第二分词词组。
169.其中，可选地，预设格式可以包括关注字符起始行的关键字，以及关注字符终止行
的关键字，从而可以根据关键字，确定关注字符起始行和关注字符终止行。
170.在本实施例中，通过提取出关注字符起始行和关注字符终止行之间的字符，可以提高处理效率。
171.在一种可选的实施例中，在基于预设格式确定出第二分词词组以及对应的第二属性之后，可以进一步基于分词模型，判断对应的第二属性是否正确。
172.可选地，针对每个第二分词词组，可以基于分词模型，判断对应的第二属性是否正确。
173.可选地，可以针对每行字符所确定的第二分词词组，无需拼接，直接针对每个第二分词词组，利用分词模型确定分词属性，分词模型无需进一步分词。
174.针对任一第二分词词组，在利用分词模型确定的分词属性，与对应的第二属性相同的情况下，可以确定第二属性正确；在利用分词模型确定的分词属性，与对应的第二属性不同的情况下，可以确定第二属性错误。
175.例如，针对“5支”，利用预设格式“用药报告单”确定对应的第二属性为“数量”，利用分词模型确定“5支”对应的分词属性为“数量”，因此，可以确定“5支”对应的第二属性是正确的。
176.针对“外用”，利用预设格式“用药报告单”确定对应的第二属性为“频率”，利用分词模型确定“外用”对应的分词属性为“给药途径”，因此，可以确定“外用”对应的第二属性是错误的。
177.可选地，这里使用的分词模型，与s103中的分词模型可以是同一模型，也可以是不同的模型。s104所使用的的分词模型，可以只用于确定分词属性，也可以用于分词和确定分词属性。
178.通过分词模型判断第二属性的正确或错误后，可以基于s104这一步骤，确定出分词和对应的属性。
179.需要说明的是，s103和s104之间的执行顺序并不具体限定，具体可以是存在先后执行顺序，也可以并行执行。
180.通过s103和s104，可以通过不同的方式分别针对所识别出的字符，确定出分词和对应的属性，从而方便后续步骤进行综合，确定出最终的分词结果和对应的属性结果。
181.s105：综合第一分词词组和对应的第一属性，以及第二分词词组和正确的第二属性，确定分词结果和对应的属性结果。
182.在一种可选的实施例中，s104可以确定第二属性是否正确，对于错误的第二属性，相应的第二分词词组可以不用于后续的综合步骤，只使用正确的第二属性和对应的第二分词词组进行综合。
183.本发明并不限定具体的综合方式。
184.在一种可选的实施例中，第一分词词组和对应的第一属性，是针对每行字符的拼接结果，利用分词模型确定的，而第二分词词组是根据预设格式确定的，对应的正确第二属性是利用分词模型，针对每行字符中的不同列字符确定的。
185.相对应地，由于错误的第二属性无法进行综合，因此，可能存在预设格式中的部分属性没有对应的分词词组，从而可以从第一分词词组中进行补充。
186.可选地，综合第一分词词组和对应的第一属性，以及第二分词词组和正确的第二
属性，确定分词结果和对应的属性结果，可以包括：针对正确的第二属性，将对应的第二分词词组添加到分词结果，并将对应的正确第二属性添加到对应的属性结果；针对错误的第二属性，从第一属性中确定出相同的属性，并将所确定属性对应的第一分词词组添加到分词结果，将对应的第一属性添加到对应的属性结果。
187.可选地，综合方法也可以包括，针对第一属性和正确的第二属性中相同的属性，确定分别对应的第一分词词组和第二分词词组是否相同。
188.在所确定的第一分词词组和第二分词词组相同的情况下，可以直接将相同的第一分词词组添加到分词结果，将对应的第一属性确定为对应的属性结果。
189.在所确定的第一分词词组和第二分词词组不同的情况下，可以将第一分词词组添加到分词结果，将对应的第一属性确定为对应的属性结果。或者将第二分词词组添加到分词结果，将对应的第二属性确定为对应的属性结果。
190.在一种可选的实施例中，由于第二属性是根据预设格式确定的，因此，对于正确的第二属性，可以进一步反馈到分词模型，具体可以是将正确的第二属性与对应的第二分词词组，添加到分词模型的训练样本集合中，用于后续的更新训练模型，从而提高分词模型的准确度。
191.可选地，在确定任一第二分词词组对应的第二属性正确的情况下，可以将该第二分词词组与对应的第二属性添加到分词模型的训练样本集合中；添加后的训练样本集合可以用于更新训练分词模型。
192.为了便于理解，本发明还提供了一种具体的应用实施例。
193.目前，针对目前以骨质疏松为代表的老年骨骼退行性病变整体知晓率、诊治率低，尤其是作为慢性病的长期随访治疗率低，亟需一套符合我国国情的针对该病的有效防治管理模式。
194.需优化已有解决方案和干预技术措施，对预警筛查为高危患者者提供运动、营养、药物等精准个性化的预防、诊疗方案，示范骨质疏松个人防治方案体系，并建立技术和方案的评价标准。
195.在整个进程中可以采用人工智能技术，形成综合疾病诊疗、循证用药、健康趋势、慢病管理、就医行为等应用技术支撑平台和系统，形成“预防-保健-诊断-治疗-康复”一体化的骨质疏松慢病管理示范体系是关键的一部分，在这个要求下需要建立一套针对骨骼疏松患者检查报告集合的结构化数据提取方案，用于数字化统一管理骨骼疏松患者在院内进行检验检查诊断等纸质报告电子化结构化处理的解决方案。
196.本实施例针对骨质疏松患者在院内检查过程中所涉及的病历报告(病历，开药记录，血液检查单等)进行数字化结构化的工作。
197.该方案首先建立一套患者所检测数据的元数据库，然后搭建一个可识别不同报告单，针对各种报告单进行针对性识别与结构化数据提取的结构化提取抽取网络，在抽取网络中将使用两种方法进行结构化数据提取。
198.其一为基于机器学习的分词系统，其二基于报告单排版结构的结构化数据提取。
199.通过两种策略共同输出结果，生成高置信度的结构化数据结果，最后形成一套针对骨质疏松患者的结构化数据档案。
200.1.骨骼疏松患者所检测数据的元数据库搭建。
201.首先收集骨质疏松患者在临床治疗和检查过程中所涉及的检查门类与检查科目，通过分析收集比较和与临床医生进行数据研讨，分析得到骨质疏松患者的检查报告集合基本包括，骨密度仪检查报告，开药记录，病历单，肝肾功能血成分检查单，会诊报告单与x光报告单。
202.通过将整体报告集合中所涉及的医学检查项目进行集成，形成一套骨骼疏松患者所检测数据的元数据库。
203.在这一阶段，还会同步进行所涉及的检查门类与检查科目的报告单据进行数据收集与格式特征，关键字特征等特有信息进行提取。
204.在数据收集与关键字特征方面，可以预先收集一定数量的相关报告单据并且根据种类分开，然后将其中的数据录入到相关数据库中，并且提取其中相关字段形成一套包含检验项目名称(如血常规中的总蛋白项目字段)，检验项目数据名称(如血常规中的总蛋白项目字段中英文缩写，结果，参考值等字段)等数据的预制词组库。
205.格式特征方面主要根据报告单的行列项的特征进行抽取，比如一张血常规报告单具有明显的行结构，比如在汉字：项目名称、英文缩写、结果、参考值、单位下即为各个项目的检查数据。
206.每一行检查数据会分为五列分别为项目名称、英文缩写、结果、参考值、单位等，同时记录各种报告单特有的关键词信息，比如血常规中的总蛋白这一字段就相当于该报告单的特有字段。
207.2.报告单据ocr文字预解析。
208.在进行报告单识别之前，可以使用ocr技术将拍照上传的检验报告单进行ocr文字识别，将报告单图片解析成为一个个字符与空间位置的单元块。
209.在行间距方面，先根据各个字符的中心位置进行先后排列，然后将各个字符的上下间距进行差分处理，提取出不同行之间的行间距，然后对行间距的分布进行分析，选择这些行间距中分布最密集的一个区间的数值的中间值作为预设的标准行间距，然后对各个字符进行循环遍历，判断各个字符是否属于同一个行，即是否两个字符的上下间隔小于预设的标准行间距，最后得到一行行的行文字序列。
210.在列间距方面，对每一行中由空格所分割的各个字符块做分析，分析不同行之间各个字符块在横向位置或横向坐标上的重合关系，具有横向重合最多的一组字符块被确定为属于同一列的字符块。
211.3.报告单据样式种类识别。
212.针对预解析过的文字行数据，利用预先在第一步中解析出来的关键词信息，在行数据中进行关键字匹配与关键信息提取，识别特定检查科目与门类，判断检查单据种类，也就是预设格式。
213.同时可以得到该报告单所需提取的门类与字段，也就是分词属性。
214.例如，用药报告单中需要识别出药物名称、数量、频率、用量、给药途径等分词属性。
215.4.单据结构化数据提取
216.通过上一步解析的单据种类，可以得到该种类的报告单结构信息与报告单检查类目。
217.并且通过两种途径解析单据中的结构化信息。
218.其一，可以基于特定的预制词组的机器学习分词系统。
219.将这个报告单所涉及的检验门类关键词输入分词网络，使用分词网络对每行字符进行分词，并确定分词属性。
220.例如，针对原始行数据：当红创伤乳膏5支3次/日1适量/次外用，可以确定分词后数据：当红创伤乳膏(药物名称)、5支(数量)、3次/日(频率)、1适量/次(用量)和外用(给药途径)。
221.针对这些分词词组确定分词属性之后，就可以提取出该单据所需要提取的五个字段，完成该行字符的提取。
222.其二，可以基于报告单排版结构的结构化数据提取，利用报告单相对固定的排版结构，解析行之间的关系，提取特定的报告起始行与终止行进行结构化数据提取。
223.以这条用药报告这条数据为例进行解释，如上文所述，在使用这种方法解析每个行数据时我们会保留其中的空格字符如下：
224.当红创伤乳膏5支3次/日1适量/次外用
225.我们将这段数据中以空格进行分割形成五个分开的字段即
226.1.当红创伤乳膏2.5支3.3次/日4.1适量/次5.外用
227.可以直接按照这个顺序将其填入药物名称、数量、频率、用量、给药途径这五个位置中，确定为对应的分词属性。
228.利用分词模型对确定的分词属性，判断是否正确，从而可以保留正确的分词属性，删除错误的分词属性。
229.在经过两个并行的策略进行数据提取之后，可以提供一套方案对两个策略的结果进行整合和校验。
230.针对上述两个策略的结果合并，将相同的结果进行合并，补齐分别缺少的项目，输出最后的结果。
231.5.基于医学词汇的预制词组库自动拾取优化机制。
232.针对系统优化的问题，设计了在基于报告单排版结构的结构化数据提取的数据中反馈预制词组中的特定词库。
233.比如系统通过报告单结构得到了一个形容药物用量的词组1片/天，系统将自动拾取该字段合并进入预制词组中的特定词库，特定词库可以用于训练分词模型，使系统再次分析到片/天这一用量词组时可以直接识别提取其用量的词性含义，有助于优化系统的准确率。
234.对应于上述方法实施例，本发明实施例还提供了一种装置实施例。
235.如图3所示，图3是根据本发明实施例示出的一种数据提取装置的结构示意图。
236.该装置可以包括以下单元。
237.识别单元301，用于获取待识别图像；基于字符识别，确定待识别图像中的字符和字符位置信息；
238.预解析单元302，用于根据所确定的字符位置信息，确定字符之间的行列关系；基于所确定的字符包括的预设格式关键词，确定对应的预设格式；
239.第一提取单元303，用于针对每行字符，将同一行的字符按序拼接，并基于分词模
型，确定拼接结果中的第一分词词组以及对应的第一属性；
240.第二提取单元304，用于针对每行字符，将其中属于不同列的字符分别确定为第二分词词组，并根据所确定的预设格式，确定每个第二分词词组对应的第二属性；并针对每个第二分词词组，基于分词模型，判断对应的第二属性是否正确；
241.综合单元305，用于综合第一分词词组和对应的第一属性，以及第二分词词组和正确的第二属性，确定分词结果和对应的属性结果。
242.可选地，预解析单元302，用于：根据所确定的字符位置信息，确定字符之间的行间距分布情况；根据所确定的行间距分布情况，确定标准行间距；基于标准行间距，确定属于同一行的字符；并根据所确定的字符位置信息，确定属于同一列的字符。
243.可选地，预解析单元302，用于：根据所确定的字符位置信息，确定属于同一行的字符；针对每行字符，基于字符之间的横向距离划分出多个字符块；针对每个字符块，在其他行的字符块中，确定与该字符块在横向位置或横向坐标上重合程度最高的字符块，并将所确定的字符块与该字符块，确定为属于同一列的字符。
244.可选地，该装置还包括：预设单元306，用于预先获取预设格式与预设格式关键字之间的对应关系集合；预设格式包括按序排列的若干属性。
245.相对应地，预解析单元302，用于：基于所确定的字符包括的预设格式关键字，从对应关系集合中确定对应的预设格式；
246.第二提取单元304，用于：将所确定的预设格式包括的属性之间的顺序，与第二分词词组之间的顺序匹配；将每个第二分词词组对应匹配的属性，确定为该第二分词词组对应的第二属性。
247.可选地，该装置还包括：反馈单元307，用于在确定任一第二分词词组对应的第二属性正确的情况下，将该第二分词词组与对应的第二属性添加到分词模型的训练样本集合中；添加后的训练样本集合用于更新训练分词模型。
248.可选地，综合单元305，用于：针对正确的第二属性，将对应的第二分词词组添加到分词结果，并将对应的正确第二属性添加到对应的属性结果；针对错误的第二属性，从第一属性中确定出相同的属性，并将所确定属性对应的第一分词词组添加到分词结果，将对应的第一属性添加到对应的属性结果。
249.可选地，第二提取单元304，用于：根据所确定的预设格式，从所确定的字符中，确定关注字符起始行和关注字符终止行；预设格式包括关注字符起始行的关键字，以及关注字符终止行的关键字；针对关注字符起始行与关注字符终止行之间的每行字符，将其中属于不同列的字符分别确定为第二分词词组。
250.本发明实施例还提供一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现上述任一方法实施例。
251.本发明实施例还提供一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任一方法实施例。
252.图4是根据本发明实施例示出的一种配置本发明实施例方法的计算机设备硬件结
构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
253.处理器1010可以采用通用的cpu(central processing unit，中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit，asic)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本发明实施例所提供的技术方案。
254.存储器1020可以采用rom(read only memory，只读存储器)、ram(random access memory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本发明实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。
255.输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。
256.通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信，也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
257.总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
258.需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本发明实施例方案所必需的组件，而不必包含图中所示的全部组件。
259.本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一方法实施例。
260.本发明实施例还提供一种存储有计算机程序的计算机可读存储介质，所述计算机程序在由处理器执行时实现上述任一方法实施例。
261.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
262.通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例的技术方案本质上或者说做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设
备(可以是个人计算机，服务器，或者网络设备等)执行本发明实施例各个实施例或者实施例的某些部分所述的方法。
263.上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
264.本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本发明实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
265.以上所述仅是本发明实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明实施例的保护。
266.在本发明中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上，除非另有明确的限定。
267.本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。
268.应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李开羽王保庆李昊
技术所有人：京东方科技集团股份有限公司
我是此专利的发明人

上一篇：一种临床创伤骨科手术用辅助固定治疗器械的制作方法
上一篇：一种钢桥减震用吸能缓冲式阻尼器及其使用方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。