日记生成方法及装置制造方法

文档序号:6504782阅读:143来源:国知局
日记生成方法及装置制造方法
【专利摘要】本发明提供一种日记生成方法及装置,涉及信息处理【技术领域】,可以基于各种不同来源的数据实现日记自动生成。该方法,包括:获取源数据集合和与所述源数据集合对应的日记描述数据集合;计算所述源数据集合中各个源数据序列和日记描述数据集合中各个日记描述数据序列的对位概率,得到对位概率集合;计算所述各个日记描述数据序列在日记描述数据集合中出现的概率,得到出现概率集合;根据所述对位概率集合和出现概率集合,从所述各个日记描述数据序列中确定与待翻译源数据序列对应的目标日记描述数据序列,所述待翻译源数据序列为所述各个源数据序列中任一序列;将所述目标日记描述数据序列翻译成日记描述文字。本发明实施例主要应用于日记自动翻译处理中。
【专利说明】日记生成方法及装置

【技术领域】
[0001] 本发明涉及信息处理【技术领域】,尤其涉及一种日记生成方法及装置。

【背景技术】
[0002] 目前,实现日记自动生成的方法如下:人工编写大量不同的日记生成规则和翻译 模板,将通过外部设备所记录的用户行为数据根据该日记生成规则和翻译模板翻译成文本 描述信息。通常,用户行为数据的来源可以有多种多样,例如用户行为数据可以是GPS传 g 器采集到的数据,或者可以是终端本身记录的用户通话记录等等,当用户行为数据来源不 同时,在将用户行为数据翻译成文本描述信息时采用的规则和翻译模块也不相同。 _
[0003] 因而,采用现有的日记自动生成方法在实现日记生成时,由于不同来源的用户<亍 为数据需要采用不同的规则和翻译模板,而该规则和翻译模板需要人工进行编写,当出现 新来源的用户行为数据时,采用现有的规则和翻译模板无法处理新类型的用户行为数据, 导致实际使用时扩展性较差。


【发明内容】

[0004] 本发明的实施例提供一种日记生成方法及系统,可以基于各种不同来源的数据实 现日记自动生成。
[0005] 为达到上述目的,本发明的实施例采用如下技术方案:
[0006] 第一方面,提供一种日记生成方法,包括:
[0007] 获取源数据集合和与所述源数据集合对应的日记描述数据集合;
[0008] 计算所述源数据集合中各个源数据序列和日记描述数据集合中各个日记描述数 据序列的对位概率,得到对位概率集合,所述源数据序列包括至少一个源数据,所述日记描 述数据序列包括至少一个日记描述数据;
[0009] 计算所述各个日记描述数据序列在日记描述数据集合中出现的概率,得到出现概 率集合;
[0010]根据所述对位概率集合和出现概率集合,从所述各个日记描述数据序列中确定与 待翻译源数据序列对应的目标日记描述数据序列,所述待翻译源数据序列为所述各个源数 据序列中任一序列;
[0011 ]将所述目标日记描述数据序列翻译成日记描述文子。
[0012] 结合第一方面,在第一方面的第一种实现方式中,还包括:
[0013] 将所述源数据集合中的源数据进行相应词汇处理,得到词汇处理后的源数据;
[0014] 将所述日记描述数据集合中的日记描述数据进行词汇处理,得到词汇处理后的日 记描述数据。 、
[0015] 结合第一方面的第一种实现方式,在第一方面的第二种实现方式中,所述计算所 述源数据集合中各个源数据序列和日记描述数据集合中各个日记描述数据序列的对位概 率,得到对位概率集合,所述源数据序列包括至少一个源数据,所述日记描述数据序列包括 至少一个日记描述数据包括:
[0016] 将位于同一预设时间段中的源数据集合和日记描述数据集合构建成一对平行语 料,
[0017] 其中,一对平行语料记为(S_all,T_all),S_all表示所述一对平行语料中的源数 据集合,S_all = Gl,... Gm ;G1表示S_all中第一个词汇处理后的源数据,Gm表示S_all 中第m个词汇处理后的源数据,m为源数据集合中词汇处理后的源数据的个数;T_all表示 所述一对平行语料中的日记描述数据集合,T_all = Al,. . . An,其中,A1表示T_all中第一 个词汇处理后的日记描述数据,An表示T_al 1中第η个词汇处理后的日记描述数据,η为日 记描述数据集合中词汇处理后的日记描述数据的个数;
[0018] 计算各个源数据序列和与所述各个源数据序列各自对应的日记描述数据序列的 对位概率,得到对位概率集合,所述源数据序列包括S_all中至少一个词汇处理后的源数 据,所述日记描述数据序列包括T_all中至少一个词汇处理后的日记描述数据。
[0019] 结合第一方面的第一种实现方式,在第一方面的第三种实现方式中,所述计算所 述各个日记描述数据序列在日记描述数据集合中出现的概率,得到出现概率集合包括:
[0020] 计算所述各个日记描述数据序列在日记描述数据集合中出现的概率,得到出现概 率集合,所述日记描述数据序列包括日记描述数据集合中至少一个词汇处理后的日记描述 数据。
[0021] 结合第一方面的前述任一种实现方式,在第一方面的第四种实现方式中,根据所 述对位概率集合和出现概率集合,从所述各个日记描述数据序列中确定与待翻译源数据序 列对应的目标日记描述数据序列,包括 :
[0022] 搜索对位概率集合中各个P(S|T)和出现概率集合中各个P(T),其中,P(S|T)为源 数据序列S与日记描述数据序列τ的对位概率,Ρ(τ)为日记描述数据序列τ在日记描述集 合中出现的概率;
[0023] 当s为待翻译源数据序列时,确定使得p(s|τ)*p(T)的取值最大的Τ为目标日记 描述数据序列。
[0024] 结合第一方面的前述任一种实现方式,在第一方面的第五种实现方式中,所述根 据所述目标日记描述数据序列生成日记描述文字,包括:
[0025] 将根据不同类型的待翻译数据序列得到的各个目标日记描述数据序列,按照所述 不同类型的待翻译数据序列中各自包含的时间标识,生成日记描述文字。
[0026] 第二方面,提供一种日记生成装置,包括:
[0027] 获取模块,用于获取源数据集合和与所述源数据集合对应的日记描述数据集合;
[0028] 计算模块,用于计算所述源数据集合中各个源数据序列和日记描述数据集合中各 个日记描述数据序列的对位概率,得到对位概率集合,所述源数据序列包括至少一个源数 据,所述日记描述数据序列包括至少一个日记描述数据;
[0029] 所述计算模块,还用于计算所述各个日记描述数据序列在日记描述数据集合中出 现的概率,得到出现概率集合;
[0030] 翻译模块,用于根据所述对位概率集合和出现概率集合,从所述各个日记描述数 据序列中确定与待翻译源数据序列对应的目标日记描述数据序列,所述待翻译源数据序列 为所述各个源数据序列中任一序列;
[0031 ]日记生成模块,用于根据所述目标日记描述数据序列生成日记描述文字。
[0032]结合弟一方面,在第二方面的第一种实现方式中,还包括:
[0033]词汇处理模块,用于将所述源数据集合中的源数据进行相应词汇处理,得到词汇 处理后的源数据;
[0034]所述词汇处理模块,还用于将所述日记描述数据集合中的日记描述数据进行词汇 处理,得到词汇处理后的日记描述数据。
[0035]结合第二方面的第一种实现方式,在第二方面的第二种实现方式中,
[0036]所述计算模块,具体用于将位于同一预设时间段中的源数据集合和日记描述数据 集合构建成一对平行语料,
[0037] 其中,一对平行语料记为(S_all,T_all),S_all表示所述一对平行语料中的源数 据集合,S_all = G1,…Gm ;G1表示S_all中第一个词汇处理后的源数据,Gm表示S_all 中第m个词汇处理后的源数据,m为源数据集合中词汇处理后的源数据的个数;T_all表示 所述一对平行语料中的日记描述数据集合,T_all = A1,. · · An,其中,A1表示T_all中第一 个词汇处理后的日记描述数据,An表示T_al 1中第η个词汇处理后的日记描述数据,n为日 记描述数据集合中词汇处理后的日记描述数据的个数;
[0038] 计算各个源数据序列和与所述各个源数据序列各自对应的日记描述数据序列的 对位概率,得到对位概率集合,所述源数据序列包括S_all中至少一个词汇处理后的源数 据,所述日记描述数据序列包括T_al 1中至少一个词汇处理后的日记描述数据。
[0039] 结合第二方面的第一种实现方式,在第二方面的第三种实现方式中,所述计算模 块,具体用于计算所述各个日记描述数据序列在日记描述数据集合中出现的概率,得到出 现概率集合,所述日记描述数据序列包括日记描述数据集合中至少一个词汇处理后的曰记 描述数据。
[0040] 结合第二方面的前述任一种实现方式,在第二方面的第四种实现方式中,
[0041] 所述翻译模块,具体用于搜索对位概率集合中各个P(S|T)和出现概率集合中各 个P (T),其中,P (SIT)为源数据序列S与日记描述数据序列T的对位概率,P (T)为日记描 述数据序列T在日记描述集合中出现的概率;
[0042] 当S为待翻译源数据序列时,确定使得P(S|T)*P(T)的取值最大的T为目标日记 描述数据序列。
[0043] 结合第二方面的前述任一种实现方式,在第二方面的第五种实现方式中,
[0044] 所述日记生成模块,具体用于将根据不同类型的待翻译数据序列得到的各个目标 日记描述数据序列,按照所述不同类型的待翻译数据序列中各自包含的时间标识,生成曰 记描述文字。
[0045] 第三方面,提供一种日记生成装置,包括:处理器和存储器'
[0046] 其?,处理器用于获取源数据集合和与所述源数据集合对应的日记描述数据集 合;
[0047] 所述处理器,还用于计算所述源数据集合中各个源数据序列和日记描述数据集合 中各个日记描述数据序列的对位概率,得到对位概率集合,所述源数据序列包括至少一个 源数据,所述日记描述数据序列包括至少一个日记描述数据;
[0048] 所述处理器,还用于计算所述各个日记描述数据序列在日记描述数据集合中出现 的概率,得到出现概率集合;
[0049] 所述处理器,还用于根据所述对位概率集合和出现概率集合,从所述各个日记描 述数据序列中确定与待翻译源数据序列对应的目标日记描述数据序列,所述待翻译源数据 序列为所述各个源数据序列中任一序列;
[0050] 所述处理器,还用于根据所述目标日记描述数据序列生成日记描述文字;
[0051] 所述存储器,用于存储所述处理器实现上述功能的程序代码。
[0052] 结合第三方面,在第三方面的第一种实现方式中,
[0053] 所述处理器,还用于将所述源数据集合中的源数据进行相应词汇处理,得到词汇 处理后的源数据;
[0054] 所述处理器,还用于将所述日记描述数据集合中的日记描述数据进行词汇处理, 得到词汇处理后的日记描述数据。
[0055] 结合第三方面的第一种实现方式,在第三方面的第二种实现方式中,
[0056] 所述处理器,具体用于将位于同一预设时间段中的源数据集合和日记描述数据集 合构建成一对平行语料,
[0057] 其中,一对平行语料记为(S_all,T_all),S_all表示所述一对平行语料中的源数 据集合,S_all = Gl,... Gm ;G1表示S_all中第一个词汇处理后的源数据,Gm表示S_all 中第m个词汇处理后的源数据,m为源数据集合中词汇处理后的源数据的个数;T_all表示 所述一对平行语料中的日记描述数据集合,T_all = Al,. . . An,其中,A1表示T_all中第一 个词汇处理后的日记描述数据,An表示T_al 1中第η个词汇处理后的日记描述数据,η为日 记描述数据集合中词汇处理后的日记描述数据的个数;
[0058] 计算各个源数据序列和与所述各个源数据序列各自对应的日记描述数据序列的 对位概率,得到对位概率集合,所述源数据序列包括S_all中至少一个词汇处理后的源数 据,所述日记描述数据序列包括T_al 1中至少一个词汇处理后的日记描述数据。
[0059] 结合第三方面的第一种实现方式,在第三方面的第三种实现方式中,
[0060] 所述处理器,具体用于计算所述各个日记描述数据序列在日记描述数据集合中出 现的概率,得到出现概率集合,所述日记描述数据序列包括日记描述数据集合中至少一个 词汇处理后的日记描述数据。
[0061] 结合第三方面的前述任一种实现方式,在第三方面的第四种实现方式中,
[0062] 所述处理器,具体用于搜索对位概率集合中各个P(S|T)和出现概率集合中各个 P (T),其中,P (s IT)为源数据序列S与日记描述数据序列T的对位概率,P (T)为日记描述数 据序列T在日记描述集合中出现的概率;
[0063] 当S为待翻译源数据序列时,确定使得P(S|T)*P(T)的取值最大的T为目标日记 描述数据序列。
[0064] 结合第三方面的前述任一种实现方式,在第三方面的第五种实现方式中,所述处 理器,具体用于将根据不同类型的待翻译数据序列得到的各个目标日记描述数据序列,按 照所述不同类型的待翻译数据序列中各自包含的时间标识,生成日记描述文字。
[0065] 本发明实施例中,通过计算所述源数据集合中各个源数据序列和日记描述数据集 合中各个日记描述数据序列的对位概率,得到对位概率集合;并计算所述各个日记描述数 据序列在日记描述数据集合中出现的概率,得到出现概率集合;之后,根据所述对位概率集 合和出现概率集合,从所述各个日记描述数据序列中确定与待翻译源数据序列对应的目标 曰记描述数据序列,所述待翻译源数据序列为所述各个源数据序列中任一序列;将所述目 标日记描述数据序列翻译成日记描述文字。与现有技术相比,可以避免现有技术中基于规 则自动生成日记时无法处理新数据类型,导致实际使用时扩展性较差的问题。本发明实施 例是以所述对位概率集合和出现概率集合为基础实现日记自动生成,对源数据的类型没有 限制,亦即可以基于各种不同类型的源数据实现日记自动生成,本发明实施例提供的实际 使用时扩展性较好。

【专利附图】

【附图说明】
[0066] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。
[0067] 图1为本发明实施例提供的一种日记生成方法的流程图;
[0068] 图la为本发明实施例提供的一种日记生成方法的流程图;
[0069] 图2为本发明实施例提供的一种日记生成装置的结构图;
[0070] 图2a为本发明实施例提供的另一种日记生成装置的结构图;
[0071] 图3为本发明实施例提供的又一种日记生成装置的结构图。

【具体实施方式】
[0072] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0073] 本发明实施例提供一种日记生成方法,包括:
[0074] 101、获取源数据集合和与所述源数据集合对应的日记描述数据集合。
[0075]所述获取源数据集合可以是获取各种传感器采集到的数据,例如,加速度传感器 采集到的加速度数据,GPS传感器采集到的GPS数据,方向传感器采集到的方向数据;还可 以是获取用户使用情况信息,例如,通话信息、短消息、终端上各个应用的使用信息等等。 [0076]所述源数据集合中不同类型的源数据采用不同数据表示形式进行表示。
[0077]例如,加速度传感器采集到的加速度数据,可以采用元组[数据采集的时间,X轴 加速度,y轴加速度,z轴加速度]来表示;又如,GPS传感器采集到的GPS数据,可以采用元 组[数据采集的时间,经度,维度,高度]来表示;再如,获取到的通话信息,例如,通话开始 时间,通话结束时间,通话时长,主叫,被叫,电话未接通时呼叫等待时间等等,可以采用元 组[数据采集的时间,本手机状态,对方手机状态,本手机设置状态,对方手机ID]来表示, 例如,[呼叫的时间,接到来电,呼叫,手机响铃,对方手机ID]来表示。
[0078]所述源数据的数据表示形式可以有多种,本发明实施例仅列出来上述基于元组的 表示形式,当然也可以米用其他的数据表示形式,在此不作限制。
[0079]与所述源数据集合对应的日记描述数据集合可以预先人为设置好,例如,所述源 数据集合中包括的是GPS数据,则对应的日记描述数据集合可以预先设置为用户的活动插 述或者地点信息等等,用户的活动描述,例如,可以是"我在工作"、"去公园吃午餐"、"我在 家"等等,地点信息,例如,可以是"办公室"、"公园"、"家"。
[0080] 所述日记描述数据集合中的日记描述数据可以是一段话,或者可以是句子、或者 可以是词语。
[0081] 102、计算所述源数据集合中各个源数据序列和日记描述数据集合中各个日记描 述数据序列的对位概率,得到对位概率集合。
[0082] 其中,所述源数据序列包括至少一个源数据,所述日记描述数据序列包括至少一 个日记描述数据。
[0083] 例如,可以采用IBM翻译模型2中的对位概率计算各个源数据序列和与所述各个 源数据序列各自对应的日记描述数据序列的对位概率,得到对位概率集合。
[0084] 当然,除了可以采用IBM翻译模型2中的对位概率,还可以采用句法翻译模型、短 语翻译模型、最大熵翻译模型等等统计机器翻译方法。
[0085] 103、计算所述各个日记描述数据序列在日记描述数据集合中出现的概率,得到出 现概率集合。
[0086] 例如,可以采用最大似然估计方法计算所述各个日记描述数据序列在日记描述数 据集合中出现的概率,得到出现概率集合。
[0087] 需要说明的是,本步骤除了可以采用最大似然估计方法计算所述各个日记描述数 据序列在日记描述数据集合中出现的概率,还可以采用贝叶斯估计方法,最大后验概率估 计方法等,在此不作限制。
[0088] 104、根据所述对位概率集合和出现概率集合,从所述各个日记描述数据序列中确 定与待翻译源数据序列对应的目标日记描述数据序列,所述待翻译源数据序列为所述各个 源数据序列中任一序列。
[0089] 105、根据所述目标日记描述数据序列生成日记描述文字。
[0090] 本发明实施例中,通过计算所述源数据集合中各个源数据序列和日记描述数据集 合中各个日记描述数据序列的对位概率,得到对位概率集合;并计算所述各个日记描述数 据序列在日记描述数据集合中出现的概率,得到出现概率集合;之后,根据所述对位概率集 合和出现概率集合,从所述各个日记描述数据序列中确定与待翻译源数据序列对应的目标 日记描述数据序列,所述待翻译源数据序列为所述各个源数据序列中任一序列;将所述目 标日记描述数据序列翻译成日记描述文字。与现有技术相比,可以避免现有技术中基于规 则自动生成日记时无法处理新数据类型,导致实际使用时扩展性较差的问题。本发明实施 例是以所述对位概率集合和出现概率集合为基础实现日记自动生成,对源数据的类型没有 限制,亦即可以基于各种不同类型的源数据实现日记自动生成,本发明实施例提供的实际 使用时扩展性较好。
[0091] 另外,本发明实施例是以所述对位概率集合和出现概率集合为基础实现日记自动 生成,所述对位概率集合和出现概率集合可以通过大量的训练数据进行模型训练和学习得 至IJ。训练数据量越大,基于所述对位概率集合和出现概率集合实现日记自动生成的准确性 越尚。
[0092] 可选的,如图la所示,上述步骤1〇2之前,还可以包括如下步骤:
[0093] 1001、将所述源数据集合中的源数据进行相应词汇处理,得到词汇处理后的源数 据;将所述日记描述数据集合中的日记描述数据进行词汇处理,得到词汇处理后的日记描 述数据。
[0094] 下面以GPS数据为例,说明将所述源数据集合中的源数据进行相应词汇处理,得 到词汇处理后的源数据。
[0095] 例如,将所述源数据集合中的GPS数据进行聚类处理,使得距离较近的GPS数据聚 为一类,相应词汇处理可以是采用空间分割方法进行聚类处理。
[0096] 例如,将100m*100m范围内的GPS统一记为一个GPS类别,经过处理后的源数据为 每个100m*100m范围内的GPS对应的GPS聚类ID,例如记为:GPS1、GPS 2、· · · GPS M,其中, Μ为GPS聚类ID。
[0097] 以日记描述数据为用户活动描述为例,说明将所述日记描述数据集合中的日记描 述数据进行词汇处理,得到词汇处理后的日记描述数据。
[0098] 假设,日记描述数据集合中的日记描述数据为一段话"我在游览北京八达岭长城, 我在工作,我去公园看花,我回家了",相应词汇处理可以是对该日记描述数据集合的日记 描述数据进行中文分词处理,得到处理后的日记描述数据"我在游览北京八达岭长城","我 在工作","我去公园看花","我回家了"。
[0099] 当然,根据实际应用的不同需求,相应词汇处理还可以是对该日记描述数据集合 的日记描述数据进行短语抽取,例如,日记描述数据集合中的日记描述数据为若千句子: "在餐厅吃饭","球场打球","晚上玩游戏",进行短语抽取处理后,可以得到"吃饭","打球", "玩游戏"。
[0100] 需要说明的是,词汇处理主要用于对句子进行变化,例如,将一个句子进行中文分 词,或者,从一个句子中提取短语等等,可以理解的是,如果词汇处理前的数据已经是一个 词语了,那么可以不用执行相应词汇处理操作。
[0101] 进一步地,所述步骤102中,所述计算所述源数据集合中各个源数据序列和曰记 描述数据集合中各个日记描述数据序列的对位概率,得到对位概率集合,具体可以采用如 下方式实现:
[0102] 首先,将位于同一预设时间段中的源数据集合和日记描述数据集合构建成一对平 行语料,
[0103] 其中,一对平行语料记为(S_all,T_all),S_all表示所述一对平行语料中的源数 据集合,S_all = Gl,... Gm ;G1表示S_all中第一个词汇处理后的源数据,Gm表示S_all 中第m个词汇处理后的源数据,m为源数据集合中词汇处理后的源数据的个数;T_all表示 所述一对平行语料中的日记描述数据集合,T_all = A1,· · · An,其中,A1表示T_all中第一 个词汇处理后的日记描述数据,An表示T_al 1中第η个词汇处理后的日记描述数据,η为日 记描述数据集合中词汇处理后的日记描述数据的个数;
[0104] 例如,源数据集合为:用户在第一天的GPS数据经过上述词汇处理后得出的GPS数 据,记为Sl_all = GPS1,· · · GPSm,日记描述数据集合为:与S_all对应的用户一天的活动 数据描述,记为Tl_all = Activityl,· · · Activityn,基于第一天的源数据集合和日记描述 数据集合可以构建出一对平行语料记为(Sl_all,Tl_all)。
[0105] 同理,还可以构建(S2_all,T2_all),S2_all表示第二天的源数据集合,T2_all表 示与S2_all对应的日记描述数据集合,以此类推,N天的源数据集合和日记描述数据集合 可以构建出平行预料库,记为:ST= {(Sl_all,Tl-all),(S2一all,T2-all)"'(Sn_all'Tru all)}
[0106] 接着,计算各个源数据序列和与所述各个源数据序列各自对应的日记描述数据序 列的对位概率,得到对位概率集合;
[0107] 本步骤具体可以采用IBM翻译模型2中的对位概率计算各个源数据序列和与所述 各个源数据序列各自对应的日记描述数据序列的对位概率,得到对位概率集合。
[0108] 其中,所述源数据序列包括1&11中至少一个词汇处理后的源数据,所述日记描 述数据序列包括T_all中至少一个词汇处理后的日记描述数据。
[0109] 需要说明的是,当采用IBM翻译模型2中的对位概率计算各个源数据序列和与所 述各个源数据序列各自对应的日记描述数据序列的对位概率时,源数据序列与所述源数据 序列对应的日记描述数据序列的对位概率为在特定条件下的对位概率。 、
[0110] 其中,所述特定条件记为[所述源数据序列,与所述源数据序列对应的日记描述 数据序列,所述源数据序列在集合s_all中的位置,与所述源数据序列对应的日记描述数 据序列在集合T_all中的位置,集合S_all的长度,集合T_all的长度]。
[0111] 为了更好理解对位概率,下面对对位概率的概念进行简单解释:
[0112] 在统计自然语言处理中,对位模型(alignment model)的定义如下:
[0113] 对于S_m为长度为m的源语言句子,Tj为长度为1的目标语言句子,T_1和S_m 的单词之间有l*m中对应关系。"对位"是由词与词间的对应关系决定的,所以S_m与T-1 的对位关系集合共有21#种对位。
[0114] 对于一个给定的句对(S_m|T_l),假定所有的单词对(s」,tj)之间存在对应关系, 为S_m中的单词,tj为T_1中的单词,那么用来刻画这些对应关系的模型叫做对位模型 (alignment model) 〇,'
[0115] "对位概率"是指在一定的条件下,Sj翻译为tj的概率。
[0116] 有关对位概率更详细的解释可以参见统计自然语言处理中的相关描述。
[0117] 为了便于理解,本发明实施例将源数据序列记为S,日记描述数据序列记为T,源 数据序列与所述源数据序列对应的日记描述数据序列的对位概率记为P (SIT)。
[0118] 例如,以一对平行语料(Sl_all,Tl_all)为例,采用IBM翻译模型2中的对位概率 计算对位概率的实现如下:
[0119] 假设,该平行语料中,源数据集合为Sl_all =GPS1,···GPSm,日记描述数据集合 为 Tl_all = Activityl,···Activityn。
[0120] 当源数据序列S为GPS2,日记描述数据序列T为Activity3,所述源数据序列在集 合Sl_all中的位置为2,日记描述数据序列在集合Tl_all中的位置为3,集合 S1_all的长 度为12,集合Tl_all的长度为14时,P(S|T)的计算过程如下:
[0121] {间324(^"吻3,2,3,12,14]在平行语料库31'中的出现次数}除于{乞[(^2, 射: Activity3, X,3,12,14]在平行语料库ST中的出现次数}的比值,其中,Μ为集合S_an的 长度。
[0122] 例如,GPS2 的取值为(116.45,39.92),Activity3 的取值为"游览"时,[(116. 45, 39. 92),"游览",2,3,12,14]在平行语料库ST中的出现次数,是指当日记描述数据集合长 度为14,源数据集合长度为12,日记描述数据序列"游览"在日记描述数据集合的位置为3, 源数据序列(116. 45, 39. 92)在源数据集合的位置为2时,这种情况在整个平行语料库中的 出现次数;
[0123] [GPS2,Activity3,X,3,12,14]的出现次数之和,是指当日记描述数据集合长度为 14,源数据集合长度为12,日记描述数据序列"游览"在日记描述数据集合的位置为3,源数 据序列(116.45,39.92)在源数据集合的第X个位置时,这种情况在整个平行语料库中的出 现次数。
[0124] 需要说明的是上述源数据序列是以一个源数据为例进行说明,当然,上述源数据 序列还可以包括2个或者以上源数据,日记描述数据序列也可以包括2个或者以上日记描 述数据。
[0125] 本步骤采用IBM翻译模型2中的对位概率的更详细实现可以参见现有技术,当然, 本步骤除了可以采用IBM翻译模型2中的对位概率,还可以采用句法翻译模型、短语翻译模 型、最大熵翻译模型等等统计机器翻译方法。
[0126] 进一步地,上述步骤103所述计算所述各个日记描述数据序列在日记描述数据集 合中出现的概率,得到出现概率集合包括:
[0127] 计算所述各个日记描述数据序列在日记描述数据集合中出现的概率,得到出现概 率集合,所述日记描述数据序列包括日记描述数据集合中至少一个词汇处理后的日记描述 数据。
[0128] 实际应用时,例如可以采用最大似然估计方法计算所述各个日记描述数据序列在 日记描述数据集合中出现的概率,下面结合一个示例性的例子进行具体说明。
[0129] 例如,日记描述数据集合为如下3个句子:
[0130] (1)JOHN READ HOLY BIBLE
[0131] (2)Mark READ A TEXT BOOK
[0132] (3) HE READ A BOOK BY DAVID
[0133] 例如,要计算日记描述数据序列T以句子(1)为例,将日记描述数据序列T在曰记 描述数据集合中出现的概率记为ρ(τ),那么Ρ(τ)的计算过程如下:
[0134] P (JOHN READ A BOOK)
[0135] = P(JOHN I<B0S>)*P(READ I JOHN)*P(A I READ)*P(BOOK I A)*P(<E0S>I BOOK)
[0136] = l/3*l/l*2/3*l/2*l/2
[0137] =0.06
[0138] 上述最大似然估计方法更详细的实现可以参见现有相关技术。
[0139] 需要说明的是,本步骤除了可以采用最大似然估计方法计算所述各个日记描述数 据序列在日记描述数据集合中出现的概率,还可以采用贝叶斯估计方法,最大后验概率估 计方法等,在此不作限制。
[0140] 经过上述步骤101-103的操作,可以获得对位概率集合和出现概率集合,对位概 率集合中包括大量的p (s I τ),出现概率集合包括大量的p (T)。
[0141] 进一步地,上述步骤104中,根据所述对位概率集合和出现概率集合,从所述各个 日记描述数据序列中确定与待翻译源数据序列对应的目标日记描述数据序列,所述待翻译 源数据序列为所述各个源数据序列中任一序列,包括:
[0142] 搜索对位概率集合中各个P(S|T)和出现概率集合中各个ρ(τ),其中,p(s|T)为源 数据序列s与日记描述数据序列T的对位概率,P (T)为日记描述数据序列T在日记描述集 合中出现的概率;
[0143] 当S为待翻译源数据序列时,确定使得P(S|T)*P(T)的取值最大的T为目标日记 描述数据序列。
[0144] 例如,假设经过上述步骤102得到的对位概率集合如下:
[0145] P(GPS11 "我在游览北京八达岭长城")二0. 05
[0146] P(GPS1| "我在工作")=〇·〇
[0147] P(GPS2| "我在工作")=〇_〇〇5
[0148] P(GPS3| "去公园吃午餐")=0.015
[0149] P({GPS2, GPS3} | { "我在工作","去公园吃午餐" }) = 〇· 0005
[0150] P(GPS4| "我在家")=0· 015
[0151] P(GPS5| "下班了,,)=0· 015
[0152] ......
[0153] P(GPS4| "下班了")=0· 0015
[0154] P({GPS1,GPS2,GPS3,GPS4} | {"我在家","我在工作","去公园吃午餐","下班了"}) =0. 0001
[0155] P({GPS1,GPS2,GPS3,GPS4} | { "我在家","我在工作","去公园看花","下班了" }) =0.00008
[0156] 假设经过上述步骤103得到的出现概率集合如下:
[0157] P( "我在游览北京八达岭长城")=0. 01
[0158] P( "我在工作 ")=〇· 003
[0159] P( "去公园吃午餐")=0· 01
[0160] P("我在家")=〇.〇〇3
[0161]
[0162] P( "下班了")=〇· 0001
[0163] P( "我在家","我在工作","去公园吃午餐","下班了")=〇· 00008
[0164] P( "我在家","我在工作","去公园看花下班了")=0· 0000001
[0165] 如果待翻译源数据序列为S = {GPS1, GPS2, GPS3, GPS4},那么在上述对位概率集 合中各个?6|1')和出现概率集合中各个?〇')进行搜索,找到使得?(8|1')仲(乃的取值最 大的日记描述数据序列T为T ={ "我在家","我在工作","去公园看花","下班了" }
[0166] { "我在家,,,"我在工作,,,"去公园看花,,,"下班了"丨即为目标曰记描述数据序列。
[0167] 进一步的,上述步骤105中,所述根据所述目标日记描述数据序列生成日记描述 文字,包括:
[0168] 将根据不同类型的待翻译数据序列得到的各个目标日记描述数据序列,按照所述 不同类型的待翻译数据序列中各自包含的时间标识,生成成日记描述文字。
[0169] 待翻译的源数据序列中每个源数据会包含有采集时的时间标识,待翻译的源数据 序列中的源数据是与日记描述数据序列中的日记描述数据相对应的,这种对应可以是一个 源数据对应一个日记描述数据,也可以多个源数据对应一个日记描述数据,或者还可以是 一个源数据对应多个日记描述数据,具体的对应方式根据实际应用而定。因而,可以通过源 数据的时间标识可以将多个目标日记描述数据序列串联起来形成一段日记描述文字。
[0170] 例如,待翻译数据序列为加速度传感器数据时,翻译得到的目标日记描述数据序 列为{起床,吃饭,上班,午休,工作,下班,回家}
[0171] 待翻译数据序列为时间数据时,翻译得到目标日记描述数据序列为:
[0172] {7:00am, 7:20am,8:00am,12:00pm,2:00pm,6:00pm}
[0173] 待翻译数据序列为GPS和Win数据时,翻译得到的目标日记描述数据序列为:
[0174] {家,餐厅,办公室,公园,办公室,街道}
[0175] 那么,最终生成的日记描述文字为:
[0176] 我于7:00am起床,7:20am离开家去餐厅吃早饭,8:〇〇am到达办公室开始工作, 12:00pm在公园午休,2:00pm回到办公室开始下午的工作, 6:〇〇pm下班回家。
[0177] 本发明实施例提供一种日记生成装置,如图2所示,包括:获取模块21,计算模块 22,翻译模块23和日记生成模块24。
[0178] 其中,获取模块21,用于获取源数据集合和与所述源数据集合对应的日记描述数 据集合;
[0179] 其中,所述获取源数据集合可以是获取各种传感器采集到的数据。
[0180] 所述源数据集合中不同类型的源数据采用不同数据表示形式进行表示,例如,可 以采用元组来表示。所述源数据的数据表示形式可以有多种,本发明实施例仅列出来上述 基于元组的表示形式,当然也可以采用其他的数据表示形式,在此不作限制。
[0181] 与所述源数据集合对应的日记描述数据集合可以预先人为设置好,例如,所述源 数据集合中包括的是GPS数据,则对应的日记描述数据集合可以预先设置为用户的活动描 述或者地点信息等等,用户的活动描述,例如,可以是"我在工作"、"去公园吃午餐"、"我在 家"等等,地点信息,例如,可以是"办公室"、"公园"、"家"。
[0182] 所述日记描述数据集合中的日记描述数据可以是一段话,或者可以是句子、或者 可以是词语。
[0183] 计算模块22,用于计算所述源数据集合中各个源数据序列和日记描述数据集合中 各个日记描述数据序列的对位概率,得到对位概率集合,
[0184] 其中,所述源数据序列包括至少一个源数据,所述日记描述数据序列包括至少一 个日记描述数据;
[0185] 例如,可以采用IBM翻译模型2中的对位概率计算各个源数据序列和与所述各个 源数据序列各自对应的日记描述数据序列的对位概率,得到对位概率集合。当然,除了可以 采用IBM翻译模型2中的对位概率,还可以采用句法翻译模型、短语翻译模型、最大熵翻译 模型等等统计机器翻译方法。
[0186] 所述计算模块22,还用于计算所述各个日记描述数据序列在日记描述数据集合中 出现的概率,得到出现概率集合;
[0187] 例如,所述计算模块22可以采用最大似然估计方法计算所述各个日记描述数据 序列在日记描述数据集合中出现的概率,得到出现概率集合。
[0188] 需要说明的是,本步骤除了可以采用最大似然估计方法计算所述各个日记描述数 据序列在日记描述数据集合中出现的概率,还可以采用贝叶斯估计方法,最大后验概率估 计方法等,在此不作限制。
[0189] 翻译模块23,用于根据所述对位概率集合和出现概率集合,从所述各个日记描述 数据序列中确定与待翻译源数据序列对应的目标日记描述数据序列,所述待翻译源数据序 列为所述各个源数据序列中任一序列;
[0190] 日记生成模块24,用于根据所述目标日记描述数据序列生成日记描述文字。
[0191] 本发明实施例提供的装置的功能实现还可以参见上述日记生成方法的相关描述。
[0192] 本发明实施例中,通过计算所述源数据集合中各个源数据序列和日记描述数据集 合中各个日记描述数据序列的对位概率,得到对位概率集合;并计算所述各个日记描述数 据序列在日记描述数据集合中出现的概率,得到出现概率集合;之后,根据所述对位概率集 合和出现概率集合,从所述各个日记描述数据序列中确定与待翻译源数据序列对应的目标 日记描述数据序列,所述待翻译源数据序列为所述各个源数据序列中任一序列;将所述目 标曰记描述数据序列翻译成日记描述文字。与现有技术相比,可以避免现有技术中基于规 则自动生成日记时无法处理新数据类型,导致实际使用时扩展性较差的问题。本发明实施 例是以所述对位概率集合和出现概率集合为基础实现日记自动生成,对源数据的类型没有 限制,亦即可以基于各种不同类型的源数据实现日记自动生成,本发明实施例提供的实际 使用时扩展性较好。
[0193] 另外,本发明实施例是以所述对位概率集合和出现概率集合为基础实现日记自动 生成,所述对位概率集合和出现概率集合可以通过大量的训练数据进行模型训练和学习得 到。训练数据量越大,基于所述对位概率集合和出现概率集合实现日记自动生成的准确性 越高。
[0194] 可选的,如图2a所示,所述的日记生成装置,还包括:
[0195] 词汇处理模块25,用于将所述源数据集合中的源数据进行相应词汇处理,得到词 汇处理后的源数据;
[0196] 例如,将所述源数据集合中的GPS数据进行聚类处理,使得距离较近的GPS数据聚 为一类,相应词汇处理可以是采用空间分割方法进行聚类处理。
[0197] 例如,将100m*100m范围内的GPS统一记为一个GPS类别,经过处理后的源数据为 每个100m*100m范围内的GPS对应的GPS聚类ID,例如记为:GPS1、GPS2、…GPS M,其中, Μ为GPS聚类ID。
[0198] 所述词汇处理模块25,还用于将所述日记描述数据集合中的日记描述数据进行词 汇处理,得到词汇处理后的日记描述数据。
[0199] 例如,日记描述数据集合中的日记描述数据为一段话"我在游览北京八达岭长城, 我在工作,我去公园看花,我回家了",相应词汇处理可以是对该日记描述数据集合的日记 描述数据进行中文分词处理,得到处理后的日记描述数据"我在游览北京八达岭长城","我 在工作","我去公园看花","我回家了"。
[0200] 当然,根据实际应用的不同需求,相应词汇处理还可以是对该日记描述数据集合 的日记描述数据进行短语抽取,例如,日记描述数据集合中的日记描述数据为若千句子: "在餐厅吃饭","球场打球","晚上玩游戏",进行短语抽取处理后,可以得到"吃饭","打球", "玩游戏"。
[0201 ]需要说明的是,词汇处理主要用于对句子进行变化,例如,将一个句子进行中文分 词,或者,从一个句子中提取短语等等,可以理解的是,如果词汇处理前的数据已经是一个 词语了,那么可以不用执行相应词汇处理操作。
[0202]本发明实施例提供的词汇处理模块25的功能实现还可以参见上述日记生成方法 中步骤1001-1002的相关描述。
[0203]进一步地,所述的日记生成装置中,所述计算模块22,具体用于将位于同一预设时 间段中的源数据集合和日记描述数据集合构建成一对平行语料,
[0204] 其中,一对平行语料记为(S_all,T_all),
[0205] S_al 1表示所述一对平行语料中的源数据集合,S_al 1 = G1,…Gm ;G1表示S_al 1 中第一个词汇处理后的源数据,Gm表示S_al 1中第m个词汇处理后的源数据,m为源数据集 合中词汇处理后的源数据的个数;
[0206] T_all表示所述一对平行语料中的日记描述数据集合,T_all = Al,. . . An,其中, A1表示T_all中第一个词汇处理后的日记描述数据,An表示T_all中第η个词汇处理后的 日记描述数据,η为日记描述数据集合中词汇处理后的日记描述数据的个数;
[0207] 例如,源数据集合为:用户在第一天的GPS数据经过上述词汇处理后得出的GPS数 据,记为Sl_all二GPS1,· · .GPSm,日记描述数据集合为:与S_all对应的用户一天的活动 数据描述,记为Tl_all = Activityl,... Activityn,基于第一天的源数据集合和日记描述 数据集合可以构建出一对平行语料记为(Sl_all,Tl_all)。
[0208] 同理,还可以构建(S2_all,T2_all),S2_all表示第二天的源数据集合,T2_all表 示与S2_all对应的日记描述数据集合,以此类推,N天的源数据集合和日记描述数据集合 可以构建出平行预料库,记为:ST = {(Sl_all,Tl_all),(S2_all,T2_all)··· (Sn_all,Tn- all)}
[0209] 所述计算模块22,具体用于计算各个源数据序列和与所述各个源数据序列各自对 应的日记描述数据序列的对位概率,得到对位概率集合,
[0210] 其中,所述源数据序列包括S_all中至少一个词汇处理后的源数据,所述日记描 述数据序列包括T_all中至少一个词汇处理后的日记描述数据,
[0211] 例如,计算模块22可以采用IBM翻译模型2中的对位概率计算各个源数据序列和 与所述各个源数据序列各自对应的日记描述数据序列的对位概率,得到对位概率集合。
[0212] 当采用IBM翻译模型2中的对位概率计算各个源数据序列和与所述各个源数据序 列各自对应的日记描述数据序列的对位概率时,源数据序列与所述源数据序列对应的曰记 描述数据序列的对位概率为在特定条件下的对位概率。
[0213] 其中,所述特定条件记为[所述源数据序列,与所述源数据序列对应的日记描述 数据序列,所述源数据序列在集合S_all中的位置,与所述源数据序列对应的日记描述数 据序列在集合T_all中的位置,集合S_all的长度,集合T-all的长度]。 、、
[0214] 为了便于理解,本发明实施例将源数据序列记为S,日记描述数据序列记为T,源 数据序列与所述源数据序列对应的日记描述数据序列的对位概率记为P(S|T)。 ^
[0215] 例如,以一对平行语料(Sl_all,Tl_all)为例,采用IBM翻译模型2中的对位概率 计算对位概率的实现如下: 、,、^
[0216] 假设,该平行语料中,源数据集合为Sl_all = GPS1,· · .GPSm,日记描述数据集合 为 Tl_all = Activityl,·· · Activityn。
[0217] 当源数据序列S为GPS2,日记描述数据序列T为Activity3,所述源数据序列在集 合Sl_all中的位置为2,日记描述数据序列在集合Tl_all中的位置为3,集合 S1_all的长 度为12,集合Tl_all的长度为14时,P(S|T)的计算过程如下:
[0218] {[GPS2,Activity3,2,3,12,14]在平行语料库ST 中的出现次数}除于{ [ [GPS2, XI Activity3,X,3,12,14]在平行语料库ST中的出现次数}的比值,其中,Μ为集合S_all的 长度。
[0219] 例如,GPS2 的取值为(116. 45,39.92),Activity3 的取值为"游览"时,[(116. 45, 39. 92),"游览",2,3,12,14]在平行语料库ST中的出现次数,是指当日记描述数据集合长 度为14,源数据集合长度为12,日记描述数据序列"游览"在日记描述数据集合的位置为3, 源数据序列(116.45,39.92)在源数据集合的位置为2时,这种情况在整个平行语料库中的 出现次数;
[0220] [GPS2,Activity3,X,3,12,14]的出现次数之和,是指当日记描述数据集合长度为 14,源数据集合长度为12,日记描述数据序列"游览"在日记描述数据集合的位置为3,源数 据序列(116.45,39.92)在源数据集合的第X个位置时,这种情况在整个平行语料库中的出 现次数。
[0221] 本发明实施例提供的计算模块22的功能实现还可以参见上述日记生成方法中步 骤102的相关描述。
[0222] 进一步地,所述的日记生成装置中,所述计算模块22,具体用于计算所述各个日记 描述数据序列在日记描述数据集合中出现的概率,得到出现概率集合,
[0223] 其中,所述日记描述数据序列包括日记描述数据集合中至少一个词汇处理后的日 记描述数据。
[0224] 实际应用时,例如所述计算模块22可以采用最大似然估计方法计算所述各个日 记描述数据序列在日记描述数据集合中出现的概率,下面结合一个示例性的例子进行具体 说明。
[0225] 例如,日记描述数据集合为如下3个句子:
[0226] (1)JOHN READ HOLY BIBLE
[0227] (2) Mark READ A TEXT BOOK
[0228] (3)HE READ A BOOK BY DAVID
[0229] 例如,要计算日记描述数据序列T以句子(1)为例,将日记描述数据序列T在曰记 描述数据集合中出现的概率记为Ρ(τ),那么Ρ(τ)的计算过程如下:
[0230] P (JOHN READ A BOOK)
[0231] = P(JOHN I<B0S>) *P(READ I JOHN)*P(A I READ)*P(BOOK I A)*P(<E0S>I BOOK)
[0232] = l/3*l/l*2/3*l/2*l/2
[0233] = 0. 06
[0234] 本发明实施例提供的计算模块22的功能实现还可以参见上述日记生成方法中步 骤103的相关描述。
[0235] 进一步地,所述的日记生成装置中,所述翻译模块23,具体用于搜索对位概率集合 中各个P(S|T)和出现概率集合中各个ρ(Τ),
[0236] 其中,p(s|τ)为源数据序列s与日记描述数据序列τ的对位概率,ρ(τ)为日记描 述数据序列τ在日记描述集合中出现的概率;
[0237] 当S为待翻译源数据序列时,确定使得P(S|T)*P(T)的取值最大的Τ为目标日记 描述数据序列。
[0238] 本发明实施例提供的翻译模块23的功能实现还可以参见上述日记生成方法中步 骤104的相关描述。
[0239] 进一步地,所述的日记生成装置中,所述日记生成模块24,具体用于将根据不同类 型的待翻译数据序列得到的各个目标日记描述数据序列,按照所述不同类型的待翻译数据 序列中各自包含的时间标识,生成日记描述文字。
[0240] 其中,待翻译的源数据序列中每个源数据会包含有采集时的时间标识,待翻译的 源数据序列中的源数据是与日记描述数据序列中的日记描述数据相对应的,这种对应可以 是一个源数据对应一个日记描述数据,也可以多个源数据对应一个日记描述数据,或者还 可以是一个源数据对应多个日记描述数据,具体的对应方式根据实际应用而定。因而,可以 通过源数据的时间标识可以将多个目标日记描述数据序列串联起来形成一段日记描述文 字。
[0241] 本发明实施例提供的日记生成模块24的功能实现还可以参见上述日记生成方法 中步骤105的相关描述。
[0242] 本发明实施例,还提供一种日记生成装置,如图3所示,包括:处理器31、存储器 34、总线3000和驱动电路3001。
[0243] 其中,处理器31用于获取源数据集合和与所述源数据集合对应的日记描述数据 集合;
[0244] 例如,所述获取源数据集合可以是获取各种传感器采集到的数据。
[0245] 所述源数据集合中不同类型的源数据采用不同数据表示形式进行表示,例如,可 以采用元组来表示。所述源数据的数据表示形式可以有多种,本发明实施例仅列出来上述 基于元组的表示形式,当然也可以采用其他的数据表示形式,在此不作限制。
[0246] 与所述源数据集合对应的日记描述数据集合可以预先人为设置好,例如,所述源 数据集合中包括的是GPS数据,则对应的日记描述数据集合可以预先设置为用户的活动描 述或者地点信息等等,用户的活动描述,例如,可以是"我在工作"、"去公园吃午餐"、"我在 家"等等,地点信息,例如,可以是"办公室"、"公园"、"家"。
[0247] 所述日记描述数据集合中的日记描述数据可以是一段话,或者可以是句子、或者 可以是词语。
[0248] 所述处理器31,还用于计算所述源数据集合中各个源数据序列和日记描述数据集 合中各个日记描述数据序列的对位概率,得到对位概率集合,所述源数据序列包括至少一 个源数据,所述日记描述数据序列包括至少一个日记描述数据;
[0249] 其中,所述源数据序列包括至少一个源数据,所述日记描述数据序列包括至少一 个日记描述数据;
[0250] 例如,可以采用IBM翻译模型2中的对位概率计算各个源数据序列和与所述各个 源数据序列各自对应的日记描述数据序列的对位概率,得到对位概率集合。
[0251] 当然,除了可以采用IBM翻译模型2中的对位概率,还可以采用句法翻译模型、短 语翻译模型、最大熵翻译模型等等统计机器翻译方法。
[0252] 所述处理器31,还用于计算所述各个日记描述数据序列在日记描述数据集合中出 现的概率,得到出现概率集合;
[0253] 例如,所述处理器3丨可以采用最大似然估计方法计算所述各个日记描述数据序 列在日记描述数据集合中出现的概率,得到出现概率集合。
[0254] 所述处理器31,还用于根据所述对位概率集合和出现概率集合,从所述各个曰记 描述数据序列中确定与待翻译源数据序列对应的目标日记描述数据序列,所述待翻译源数 据序列为所述各个源数据序列中任一序列;
[0255] 所述处理器31,还用于根据所述目标日记描述数据序列生成日记描述文字;
[0256] 所述存储器34,用于存储所述处理实现上述功能的程序代码。
[0257] 本发明实施例提供的装置的功能实现还可以参见上述日记生成方法的相关描述。
[0258] 本发明实施例中,通过计算所述源数据集合中各个源数据序列和日记描述数据集 合中各个日记描述数据序列的对位概率,得到对位概率集合;并计算所述各个日记描述数 据序列在日记描述数据集合中出现的概率,得到出现概率集合;之后,根据所述对位概率集 合和出现概率集合,从所述各个日记描述数据序列中确定与待翻译源数据序列对应的目标 曰记描述数据序列,所述待翻译源数据序列为所述各个源数据序列中任一序列;将所述目 标日记描述数据序列翻译成日记描述文字。与现有技术相比,可以避免现有技术中基于规 则自动生成日记时无法处理新数据类型,导致实际使用时扩展性较差的问题。本发明实施 例是以所述对位概率集合和出现概率集合为基础实现日记自动生成,对源数据的类型没有 限制,亦即可以基于各种不同类型的源数据实现日记自动生成,本发明实施例提供的实际 使用时扩展性较好。
[0259] 另外,本发明实施例是以所述对位概率集合和出现概率集合为基础实现日记自动 生成,所述对位概率集合和出现概率集合可以通过大量的训练数据进行模型训练和学习得 至IJ。训练数据量越大,基于所述对位概率集合和出现概率集合实现日记自动生成的准确性 越高。
[0260] 本实施例在具体实现中,存储器至少包括如下一个或者多个内存设备,一个只读 存储器、一个随机存取存储器或者一个非易失行随机存取存储器,存储器为处理器提供指 令和数据。
[0261] 其中,所述处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程 中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完 成。这些指令可以通过其中的处理器以配合实现及控制,用于执行本发明实施例掲示的 方法。上述处理器还可以是通用处理器、数字信号处理器(Digital Signal Processing, DSP)、专用集成电路(application specific integrated circuit)、现成可编程门阵列 (Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻 辑器件、分立硬件组件。
[0262] 其中,上述通用处理器可以是微处理器或者该处理器也可以是任何常规的处理 器,解码器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完 成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪 存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存 储介质中。
[0263] 其中,驱动电路3001,用于为日记生成装置中的各个硬件提供驱动使得各个硬件 能够正常工作。
[0264] 另外,日记生成装置的各个硬件组件通过总线系统3000耦合在一起,其中总线系 统3〇〇〇除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚 说明起,在图3中将各种总线都标为总线系统3000。
[0265] 可选的,所述的日记生成装置中,所述处理器,还用于将所述源数据集合中的源数 据进行相应词汇处理,得到词汇处理后的源数据;
[0266] 例如,将所述源数据集合中的GPS数据进行聚类处理,使得距离较近的GPS数据聚 为一类,相应词汇处理可以是采用空间分割方法进行聚类处理。
[0267] 例如,将100m*100m范围内的GPS统一记为一个GPS类别,经过处理后的源数据为 每个100m*100m范围内的GPS对应的GPS聚类ID,例如记为:GPSUGPS2、· · .GPS M,其中, Μ为GPS聚类ID。
[0268] 所述处理器,还用于将所述日记描述数据集合中的日记描述数据进行词汇处理, 得到词汇处理后的日记描述数据。
[0269] 例如,日记描述数据集合中的日记描述数据为一段话"我在游览北京八达岭长城, 我在工作,我去公园看花,我回家了",相应词汇处理可以是对该日记描述数据集合的曰记 描述数据进行中文分词处理,得到处理后的日记描述数据"我在游览北京八达岭长城","我 在工作","我去公园看花","我回家了"。
[0270] 当然,根据实际应用的不同需求,相应词汇处理还可以是对该日记描述数据集合 的日记描述数据进行短语抽取,例如,日记描述数据集合中的日记描述数据为若干句子: "在餐厅吃饭","球场打球","晚上玩游戏",进行短语抽取处理后,可以得到"吃饭","打球", "玩游戏"。
[0271] 需要说明的是,词汇处理主要用于对句子进行变化,例如,将一个句子进行中文分 词,或者,从一个句子中提取短语等等,可以理解的是,如果词汇处理前的数据已经是一个 词语了,那么可以不用执行相应词汇处理操作。
[0272] 本发明实施例提供的所述处理器的上述功能实现还可以参见上述日记生成方法 中步骤1001-1002的相关描述。
[0273] 进一步地,所述的日记生成装置中,所述处理器,具体用于将位于同一预设时间段 中的源数据集合和日记描述数据集合构建成一对平行语料,
[0274] 其中,一对平行语料记为(S_all,T_all),S_all表示所述一对平行语料中的源数 据集合,S_all = Gl,... Gm ;G1表示S_all中第一个词汇处理后的源数据,Gm表示S_all 中第m个词汇处理后的源数据,m为源数据集合中词汇处理后的源数据的个数;T_all表示 所述一对平行语料中的日记描述数据集合,T_all = Al,... An,其中,A1表示T_all中第一 个词汇处理后的日记描述数据,An表示T_al 1中第η个词汇处理后的日记描述数据,n为日 记描述数据集合中词汇处理后的日记描述数据的个数;
[0275] 例如,源数据集合为:用户在第一天的GPS数据经过上述词汇处理后得出的GPS数 据,记为Sl_all = GPS1,· · · GPSm,日记描述数据集合为:与S_all对应的用户一天的活动 数据描述,记为Tl_all = Activity 1,... Activityn,基于第一天的源数据集合和日记描述 数据集合可以构建出一对平行语料记为(Sl_all,Tl_all)。
[0276] 同理,还可以构建(S2_all,T2_all),S2_all表示第二天的源数据集合,T2-a11表 示与S2_all对应的日记描述数据集合,以此类推,N天的源数据集合和日记描述数据集合 可以构建出平行预料库,记为:ST= {(Sl_all,Tl_all), (S2_all,T2_all)··· (Sn-all,Tn- all)}
[0277] 所述处理器,还具体用于计算各个源数据序列和与所述各个源数据序列各自对应 的日记描述数据序列的对位概率,得到对位概率集合。
[0278] 其中,所述源数据序列包括5_&11中至少一个词汇处理后的源数据,所述日记描 述数据序列包括T_all中至少一个词汇处理后的日记描述数据,
[0279] 例如,所述处理器可以采用IBM翻译模型2中的对位概率计算各个源数据序列和 与所述各个源数据序列各自对应的日记描述数据序列的对位概率,得到对位概率集
[0280] 当采用IBM翻译模型2中的对位概率计算各个源数据序列和与所述各个源数据序 列各自对应的日记描述数据序列的对位概率时,源数据序列与所述源数据序列对应的曰记 描述数据序列的对位概率为在特定条件下的对位概率。
[0281] 其中,所述特定条件记为[所述源数据序列,与所述源数据序列对应的日记描述 数据序列,所述源数据序列在集合S_all中的位置,与所述源数据序列对应的日记描述数 据序列在集合T_all中的位置,集合S_all的长度,集合T_all的长度]。
[0282] 为了便于理解,本发明实施例将源数据序列记为S,日记描述数据序列记为T,源 数据序列与所述源数据序列对应的日记描述数据序列的对位概率记为P (S | T)。
[0283] 例如,以一对平行语料(Sl_all,Tl_all)为例,采用IBM翻译模型2中的对位概率 计算对位概率的实现如下:
[0284] 假设,该平行语料中,源数据集合为Sl_all = GPS1,· · _GPSm,日记描述数据集合 为 Tl_all = Activityl, ··.Activityn。
[0285] 当源数据序列S为GPS2,日记描述数据序列T为Activity3,所述源数据序列在集 合Sl_all中的位置为2,日记描述数据序列在集合Tl_all中的位置为3,集合Sl_all的长 度为12,集合Tl_all的长度为14时,P (S | T)的计算过程如下: M:
[0286] {[GPS2,Activity3,2,3,12,14]在平行语料库ST中的出现次数}除于{艺[GPS2, Activity3,X,3,12,14]在平行语料库ST中的出现次数}的比值,其中,Μ为集合S_all的 长度。
[0287] 例如,GPS2 的取值为(116. 45,39· 92),Activity3 的取值为"游览"时,[(116. 45, 39. 92), "游览",2,3,12,14]在平行语料库ST中的出现次数,是指当日记描述数据集合长 度为14,源数据集合长度为12,日记描述数据序列"游览"在日记描述数据集合的位置为3, 源数据序列(116. 45,39. 92)在源数据集合的位置为2时,这种情况在整个平行语料库中的 出现次数;
[0288] [GPS2,Activity3,X,3,12,14]的出现次数之和,是指当日记描述数据集合长度为 14,源数据集合长度为12,日记描述数据序列"游览"在日记描述数据集合的位置为3,源数 据序列(116. 45,39. 92)在源数据集合的第)C个位置时,这种情况在整个平行语料库中的出 现次数。
[0289]本发明实施例提供的所述处理器的上述功能实现还可以参见上述日记生成方法 中步骤102的相关描述。
[0290]进一步地,所述的日记生成装置中,所述处理器,具体用于计算所述各个日记描述 数据序列在日记描述数据集合中出现的概率,得到出现概率集合。
[0291]其中,所述日记描述数据序列包括日记描述数据集合中至少一个词汇处理后的日 记描述数据。
[0292]实际应用时,例如所述处理器可以采用最大似然估计方法计算所述各个日记描述 数据序列在日记描述数据集合中出现的概率,下面结合一个示例性的例子进行具体说明。
[0293] 例如,日记描述数据集合为如下3个句子:
[0294] (1)JOHN READ HOLY BIBLE
[0295] (2) Mark READ A TEXT BOOK
[0296] (3) HE READ A BOOK BY DAVID
[0297] 例如,要计算日记描述数据序列T以句子(1)为例,将日记描述数据序列T在曰记 描述数据集合中出现的概率记为P(T),那么P(T)的计算过程如下:
[0298] P (JOHN READ A BOOK)
[0299] 二 P(JOHN I<B0S>) *P(READ I JOHN)*P(A I READ)*P(BOOK I A)*P(<E0S>I BOOK)
[0300] = l/3*l/l*2/3*l/2*l/2
[0301] =0.06
[0302] 需要说明的是,本步骤除了可以采用最大似然估计方法计算所述各个日记描述数 据序列在日记描述数据集合中出现的概率,还可以采用贝叶斯估计方法,最大后验概率估 计方法等,在此不作限制。
[0303] 本发明实施例提供的所述处理器的上述功能实现还可以参见上述日记生成方法 中步骤103的相关描述。
[0304] 进一步地,所述的日记生成装置中,所述处理器,具体用于搜索对位概率集合中各 个p(s | τ)和出现概率集合中各个p(T),其中,p(s | τ)为源数据序列s与日记描述数据序列 T的对位概率,Ρ(τ)为日记描述数据序列T在日记描述集合中出现的概率;
[0305] 当S为待翻译源数据序列时,确定使得P(s|τ)*Ρ(Τ)的取值最大的τ为目标日记 描述数据序列。
[0306] 本发明实施例提供的所述处理器的上述功能实现还可以参见上述日记生成方法 中步骤104的相关描述。
[0307] 进一步地,所述的日记生成装置中,所述处理器,具体用于将根据不同类型的待翻 译数据序列得到的各个目标日记描述数据序列,按照所述不同类型的待翻译数据序列中各 自包含的时间标识,生成日记描述文字。
[0308] 其中,待翻译的源数据序列中每个源数据会包含有采集时的时间标识,待翻译的 源数据序列中的源数据是与日记描述数据序列中的日记描述数据相对应的,这种对应可以 是一个源数据对应一个日记描述数据,也可以多个源数据对应一个日记描述数据,或者还 可以是一个源数据对应多个日记描述数据,具体的对应方式根据实际应用而定。因而,可以 通过源数据的时间标识可以将多个目标日记描述数据序列串联起来形成一段日记描述文 字。
[0309]本发明实施例提供的所述处理器的上述功能实现还可以参见上述日记生成方法 中步骤105的相关描述。
[0310] 本发明头施例主要应用于日记自动翻译处理中。
[0311]本发明实施例提供的日记生成装置,可以是无线终端也可以是有线终端,无线 终端可以是指向用户提供语音和/或数据连通性的设备,具有无线连接功能的手持式设 备、或连接到无线调制解调器的其他处理设备。无线终端可以经无线接入网(例如, ΜΝ, Radio Access Network)与一个或多个核心网进行通信,无线终端可以是移动终端,如移 动电话(或称为"蜂窝"电话)和具有移动终端的计算机,例如,可以是便携式、袖珍式、手 持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语言和/或数据。例如, 个人通信业务(PCS,Personal Communication Service)电话、无绳电话、会话发起协议 (SIP)话机、无线本地环路(WLL,Wireless Local Loop)站、个人数字助理(PDA,Personal Digital Assistant)等设备。无线终端也可以称为系统、订户单兀(subscriber Unit)、订 户站(Subscriber Station),移动站(Mobile Station)、移动台(Mobile)、远程站(Remote Station)、接入点(Access Point)、远程终端(Remote Terminal)、接入终端(Access Terminal)、用户终端(User Terminal)、用户代理(User Agent)、用户设备(User Device)、 或用户装备(User Equipment)。
[0312]所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能 模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模 块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功 能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过 程,在此不再赘述。
[0313]在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以 通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或 单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元 或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所 显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的 间接耦合或通信连接,可以是电性,机械或其它的形式。
[0314]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显 示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个 网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目 的。
[0315]通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借 助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳 的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部 分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计 算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机, 服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0316] 以上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何 熟悉本【技术领域】的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵 盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
【权利要求】
1. 一种日记生成方法,其特征在于,包括: 获取源数据集合和与所述源数据集合对应的日记描述数据集合; 计算所述源数据集合中各个源数据序列和日记描述数据集合中各个日记描述数据序 列的对位概率,得到对位概率集合,所述源数据序列包括至少一个源数据,所述日记描述数 据序列包括至少一个日记描述数据; 计算所述各个日记描述数据序列在日记描述数据集合中出现的概率,得到出现概率集 合; 根据所述对位概率集合和出现概率集合,从所述各个日记描述数据序列中确定与待翻 译源数据序列对应的目标日记描述数据序列,所述待翻译源数据序列为所述各个源数据序 列中任一序列; 将所述目标日记描述数据序列翻译成日记描述文字。
2. 根据权利要求1所述的日记生成方法,其特征在于,还包括: 将所述源数据集合中的源数据进行相应词汇处理,得到词汇处理后的源数据; 将所述日记描述数据集合中的日记描述数据进行词汇处理,得到词汇处理后的日记描 述数据。
3. 根据权利要求2所述的日记生成方法,其特征在于,所述计算所述源数据集合中各 个源数据序列和日记描述数据集合中各个日记描述数据序列的对位概率,得到对位概率集 合,所述源数据序列包括至少一个源数据,所述日记描述数据序列包括至少一个日记描述 数据包括: 将位于同一预设时间段中的源数据集合和日记描述数据集合构建成一对平行语料, 其中,一对平行语料记为(S_all,T_all),S_all表示所述一对平行语料中的源数据集 合,S_all = Gl,. . . Gm ;G1表示S_all中第一个词汇处理后的源数据,Gm表示S_all中第 m个词汇处理后的源数据,m为源数据集合中词汇处理后的源数据的个数;T_all表示所述 一对平行语料中的日记描述数据集合,T_all = Al,. . . An,其中,A1表示T_all中第一个词 汇处理后的日记描述数据,An表示T_al 1中第η个词汇处理后的日记描述数据,η为日记描 述数据集合中词汇处理后的日记描述数据的个数; 计算各个源数据序列和与所述各个源数据序列各自对应的日记描述数据序列的对位 概率,得到对位概率集合,所述源数据序列包括S_all中至少一个词汇处理后的源数据,所 述日记描述数据序列包括T_al 1中至少一个词汇处理后的日记描述数据。
4. 根据权利要求2所述的日记生成方法,其特征在于,所述计算所述各个日记描述数 据序列在日记描述数据集合中出现的概率,得到出现概率集合包括: 计算所述各个日记描述数据序列在日记描述数据集合中出现的概率,得到出现概率 集合,所述日记描述数据序列包括日记描述数据集合中至少一个词汇处理后的日记描述数 据。
5. 根据权利要求1-4任一项所述的日记生成方法,其特征在于,所述根据所述对位概 率集合和出现概率集合,从所述各个日记描述数据序列中确定与待翻译源数据序列对应的 目标日记描述数据序列,包括 : 搜索对位概率集合中各个P(S|T)和出现概率集合中各个P(T),其中,P(S|T)为源数据 序列S与日记描述数据序列T的对位概率,P (T)为日记描述数据序列T在日记描述集合中 出现的概率; 当S为待翻译源数据序列时,确定使得P (S I T) *P (T)的取值最大的T为目标日记描述 数据序列。
6. 根据权利要求1-4任一项所述的日记生成方法,其特征在于,所述根据所述目标日 记描述数据序列生成日记描述文字,包括: 将根据不同类型的待翻译数据序列得到的各个目标日记描述数据序列,按照所述不同 类型的待翻译数据序列中各自包含的时间标识,生成日记描述文字。
7. -种日记生成装置,其特征在于,包括: 获取模块,用于获取源数据集合和与所述源数据集合对应的日记描述数据集合; 计算模块,用于计算所述源数据集合中各个源数据序列和日记描述数据集合中各个日 记描述数据序列的对位概率,得到对位概率集合,所述源数据序列包括至少一个源数据,所 述日记描述数据序列包括至少一个日记描述数据; 所述计算模块,还用于计算所述各个日记描述数据序列在日记描述数据集合中出现的 概率,得到出现概率集合; 翻译模块,用于根据所述对位概率集合和出现概率集合,从所述各个日记描述数据序 列中确定与待翻译源数据序列对应的目标日记描述数据序列,所述待翻译源数据序列为所 述各个源数据序列中任一序列; 日记生成模块,用于根据所述目标日记描述数据序列生成日记描述文字。
8. 根据权利要求7所述的日记生成装置,其特征在于,还包括: 词汇处理模块,用于将所述源数据集合中的源数据进行相应词汇处理,得到词汇处理 后的源数据; 所述词汇处理模块,还用于将所述日记描述数据集合中的日记描述数据进行词汇处 理,得到词汇处理后的日记描述数据。
9. 根据权利要求8所述的日记生成装置,其特征在于,所述计算模块,具体用于将位于 同一预设时间段中的源数据集合和日记描述数据集合构建成一对平行语料, 其中,一对平行语料记为(S_all,T_all),S_all表示所述一对平行语料中的源数据集 合,S_all = Gl,. . . Gm ;G1表示S_all中第一个词汇处理后的源数据,Gm表示S_all中第 m个词汇处理后的源数据,m为源数据集合中词汇处理后的源数据的个数;T_all表示所述 一对平行语料中的日记描述数据集合,T_al 1 = Al,. . . An,其中,A1表示T_al 1中第一个词 汇处理后的日记描述数据,An表示T_al 1中第η个词汇处理后的日记描述数据,η为日记描 述数据集合中词汇处理后的日记描述数据的个数; 计算各个源数据序列和与所述各个源数据序列各自对应的日记描述数据序列的对位 概率,得到对位概率集合,所述源数据序列包括S_all中至少一个词汇处理后的源数据,所 述日记描述数据序列包括T_al 1中至少一个词汇处理后的日记描述数据。
10. 根据权利要求8所述的日记生成装置,其特征在于,所述计算模块,具体用于计算 所述各个日记描述数据序列在日记描述数据集合中出现的概率,得到出现概率集合,所述 日记描述数据序列包括日记描述数据集合中至少一个词汇处理后的日记描述数据。
11. 根据权利要求7-10任一项所述的日记生成装置,其特征在于,所述翻译模块,具体 用于搜索对位概率集合中各个P(S|T)和出现概率集合中各个P(T),其中,P(S|T)为源数据 序列S与日记描述数据序列T的对位概率,P (T)为日记描述数据序列T在日记描述集合中 出现的概率; 当S为待翻译源数据序列时,确定使得P (S I Τ) *Ρ (Τ)的取值最大的Τ为目标日记描述 数据序列。
12. 根据权利要求7-10任一项所述的日记生成装置,其特征在于,所述日记生成模块, 具体用于将根据不同类型的待翻译数据序列得到的各个目标日记描述数据序列,按照所述 不同类型的待翻译数据序列中各自包含的时间标识,生成日记描述文字。
13. -种日记生成装置,其特征在于,包括:处理器和存储器, 其中,处理器用于获取源数据集合和与所述源数据集合对应的日记描述数据集合; 所述处理器,还用于计算所述源数据集合中各个源数据序列和日记描述数据集合中各 个日记描述数据序列的对位概率,得到对位概率集合,所述源数据序列包括至少一个源数 据,所述日记描述数据序列包括至少一个日记描述数据; 所述处理器,还用于计算所述各个日记描述数据序列在日记描述数据集合中出现的概 率,得到出现概率集合; 所述处理器,还用于根据所述对位概率集合和出现概率集合,从所述各个日记描述数 据序列中确定与待翻译源数据序列对应的目标日记描述数据序列,所述待翻译源数据序列 为所述各个源数据序列中任一序列; 所述处理器,还用于根据所述目标日记描述数据序列生成日记描述文字; 所述存储器,用于存储所述处理器实现上述功能的程序代码。
14. 根据权利要求13所述的日记生成装置,其特征在于,所述处理器,还用于将所述源 数据集合中的源数据进行相应词汇处理,得到词汇处理后的源数据; 所述处理器,还用于将所述日记描述数据集合中的日记描述数据进行词汇处理,得到 词汇处理后的日记描述数据。
15. 根据权利要求14所述的日记生成装置,其特征在于,所述处理器,具体用于将位于 同一预设时间段中的源数据集合和日记描述数据集合构建成一对平行语料, 其中,一对平行语料记为(S_all,T_all),S_all表示所述一对平行语料中的源数据集 合,S_all = Gl,. . . Gm ;G1表示S_all中第一个词汇处理后的源数据,Gm表示S_all中第 m个词汇处理后的源数据,m为源数据集合中词汇处理后的源数据的个数;T_all表示所述 一对平行语料中的日记描述数据集合,T_al 1 = Al,. . . An,其中,A1表示T_al 1中第一个词 汇处理后的日记描述数据,An表示T_al 1中第η个词汇处理后的日记描述数据,η为日记描 述数据集合中词汇处理后的日记描述数据的个数; 计算各个源数据序列和与所述各个源数据序列各自对应的日记描述数据序列的对位 概率,得到对位概率集合,所述源数据序列包括S_all中至少一个词汇处理后的源数据,所 述日记描述数据序列包括T_al 1中至少一个词汇处理后的日记描述数据。
16. 根据权利要求14所述的日记生成装置,其特征在于,所述处理器,具体用于计算所 述各个日记描述数据序列在日记描述数据集合中出现的概率,得到出现概率集合,所述日 记描述数据序列包括日记描述数据集合中至少一个词汇处理后的日记描述数据。
17. 根据权利要求13-16任一项所述的日记生成装置,其特征在于,所述处理器,具体 用于搜索对位概率集合中各个P(S|T)和出现概率集合中各个P(T),其中,P(S|T)为源数据 序列S与日记描述数据序列T的对位概率,P (T)为日记描述数据序列T在日记描述集合中 出现的概率; 当S为待翻译源数据序列时,确定使得P (S I Τ) *Ρ (Τ)的取值最大的Τ为目标日记描述 数据序列。
18.根据权利要求13-16任一项所述的日记生成装置,其特征在于,所述处理器,具体 用于将根据不同类型的待翻译数据序列得到的各个目标日记描述数据序列,按照所述不同 类型的待翻译数据序列中各自包含的时间标识,生成日记描述文字。
【文档编号】G06F17/21GK104252439SQ201310260039
【公开日】2014年12月31日 申请日期:2013年6月26日 优先权日:2013年6月26日
【发明者】董振华, 张弓, 王靓伟 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1