4、VIP文档为合营方或网友上传○,每下载1次, 网站将按照用户上传文档的质地评分、类型等,对文档功劳者赐与高额补贴、流量扶植。假设你也思功劳VIP文档□。上传文档
2、成为VIP后,下载本文档将扣除1次下载权柄。下载后,不维持退款、换文档。如有疑难加。
原创力文档创筑于2008年,本站为文档C2C往还形式□□,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中心供职平台○,本站全豹文档下载所得的收益归上传人全豹□。原创力文档是搜集供职平台方□,若您的权柄被进犯○□,请发链接和干系诉求至 电线) ,上传者
3、成为VIP后,您将具有八大权柄,权柄征求:VIP文档下载权柄、阅读免扰乱、文档方式转换、高级专利检索、专属身份记号、高级客服、众端互通、版权挂号。
(19)中华百姓共和邦邦度常识产权局 (12)出现专利申请 (10)申请布告号 CN 113411655 A (43)申请布告日 2021.09.17 (21)申请号 1.6 H04N 21/485 (2011.01) (22)申请日 2021.05.18 (71)申请人 北京达佳互联讯息本领有限公司 地方 100085 北京市海淀区上地西道6号1 幢1层101D1-7 (72)出现人 张辰怡叶小瑜邓红波邹坤达 黄旭为魏涛 (74)专利代办机构 广州三环专利牌号代办有限 公司 44202 代办人 郝传鑫贾允 (51)Int.Cl. H04N 21/431 (2011.01) H04N 21/4402 (2011.01) H04N 21/4415 (2011.01) H04N 21/458 (2011.01) 权柄央浼书2页 仿单20页 附图11页 (54)出现名称 口播视频天生举措、安装、电子兴办及存储 介质 (57)摘要 本公然闭于一种口播视频天生举措、安装、 电子兴办及存储介质,该举措征求显示视频创筑 页面,视频创筑页面征求对象模板口播视频的编 辑操作区域□○,编辑操作区域中浮现有对象模板口 播视频对应的起码一个视频元素;起码一个视频 元素征求字幕配音元素;反映于基于字幕配音元 素对应的编辑操作区域触发的字幕配音编辑指 令○,更新字幕配音元素对应的编辑操作区域中展 示的字幕配音元素;反映于视频天生指令,基于 对象模板口播视频和更新后的字幕配音元素○,生 成对象口播视频○□。操纵本公然推行例能够有用降 A 低了口播视频创制本钱,且擢升了口播视频创制 5 效用。 5 6 1 1 4 3 1 1 N C CN 113411655 A 权柄央浼书 1/2页 1.一种口播视频天生举措,其特点正在于,征求: 显示视频创筑页面,所述视频创筑页面征求对象模板口播视频的编辑操作区域□,所述 编辑操作区域中浮现有所述对象模板口播视频对应的起码一个视频元素;所述起码一个视 频元素征求字幕配音元素; 反映于基于所述字幕配音元素对应的编辑操作区域触发的字幕配音编辑指令,更新所 述字幕配音元素对应的编辑操作区域中浮现的字幕配音元素; 反映于视频天生指令,基于所述对象模板口播视频和更新后的字幕配音元素,天生目 标口播视频。 2.按照权柄央浼1所述的口播视频天生举措○,其特点正在于,所述字幕配音元素对应的编 辑操作区域征求第一字幕配音控件○,所述第一字幕配音控件用于触发基于文本讯息更新所 述字幕配音元素中的字幕讯息和配音讯息;所述字幕配音元素对应的编辑操作区域还征求 文本编辑区域; 所述反映于基于所述字幕配音元素对应的编辑操作区域触发的字幕配音编辑指令□,更 新所述字幕配音元素对应的编辑操作区域中浮现的字幕配音元素征求: 若检测到基于所述文本编辑区域触发的文本编辑指令,获取所述文本编辑指令对应的 对象文本讯息; 基于所述对象文本讯息更新所述对象模板口播视频对应的配音讯息和字幕讯息; 正在所述文本编辑区域中浮现更新后的字幕讯息,并播放更新后的配音讯息。 3.按照权柄央浼1所述的口播视频天生举措□○,其特点正在于,所述字幕配音元素对应的编 辑操作区域还征求第二字幕配音控件,所述第二字幕配音控件用于触发基于音频讯息更新 所述字幕配音元素中的字幕讯息和配音讯息;所述字幕配音元素对应的编辑操作区域还包 括音频装备控件; 所述反映于基于所述字幕配音元素对应的编辑操作区域触发的字幕配音编辑指令○□,更 新所述字幕配音元素对应的编辑操作区域中浮现的字幕配音元素征求: 若检测到基于所述音频装备控件触发的音频装备指令○,获取所述音频装备指令对应的 对象音频讯息; 基于所述对象音频讯息更新所述对象模板口播视频对应的字幕讯息和配音讯息; 正在所述字幕配音元素对应的编辑操作区域中浮现征求更新后的字幕讯息的文本编辑 区域。 4.按照权柄央浼2或3所述的口播视频天生举措,其特点正在于□,所述字幕配音元素对应 的编辑操作区域还征求文本样式编辑区域;所述举措还征求: 反映于基于所述文本样式编辑区域触发的第雷同式编辑指令□,更新所述文本编辑区域 中浮现的更新后的字幕讯息的样式讯息□。 5.按照权柄央浼2或3所述的口播视频天生举措,其特点正在于,所述字幕配音元素对应 的编辑操作区域还征求闭节文本的样式编辑区域;所述举措还征求: 反映于基于所述样式编辑区域触发的第二样式编辑指令□,更新所述文本编辑区域中展 示的对象闭节文本的样式讯息□□,所述对象闭节文本为所述更新后的字幕讯息中基于预设标 识标注的字幕讯息□○。 6.按照权柄央浼1至3任一所述的口播视频天生举措,其特点正在于,所述起码一个视频 2 2 CN 113411655 A 权柄央浼书 2/2页 元素还征求人像元素,所述举措还征求: 反映于基于所述人像元素对应编辑操作区域触发的人像编辑指令,正在所述视频创筑页 面浮现起码一个预设人像元素; 反映于基于任一预设人像元素触发的第一抉择指令□,基于所述第一抉择指令对应的预 设人像元素,更新所述编辑操作区域中浮现的人像元素; 所述基于所述对象模板口播视频和更新后的字幕配音元素,天生对象口播视频征求: 基于所述对象模板口播视频、所述更新后的字幕配音元素和更新后的人像元素,天生 所述对象口播视频□。 7.一种口播视频天生安装,其特点正在于,征求: 视频创筑页面显示模块,被装备为履行显示视频创筑页面○□,所述视频创筑页面征求目 标模板口播视频的编辑操作区域,所述编辑操作区域中浮现有所述对象模板口播视频对应 的起码一个视频元素;所述起码一个视频元素征求字幕配音元素; 字幕配音元素更新模块○,被装备为履行反映于基于所述字幕配音元素对应的编辑操作 区域触发的字幕配音编辑指令○□,更新所述字幕配音元素对应的编辑操作区域中浮现的字幕 配音元素; 对象口播视频天生模块,被装备为履行反映于视频天生指令,基于所述对象模板口播 视频和更新后的字幕配音元素○,天生对象口播视频。 8.一种电子兴办,其特点正在于,征求: 管理器; 用于存储所述管理器可履行指令的存储器; 个中○□,所述管理器被装备为履行所述指令,以告竣如权柄央浼1至6中任一项所述的口 播视频天生举措○。 9.一种阴谋机可读存储介质,其特点正在于,当所述存储介质中的指令由电子兴办的处 理器履行时□○,使得电子兴办可能履行如权柄央浼1至6中任一项所述的口播视频天生举措□□。 10.一种阴谋机步伐产物○,征求阴谋机指令□○,其特点正在于,所述阴谋机指令被管理器执 行时告竣权柄央浼1至6中任一项所述的口播视频天生举措。 3 3 CN 113411655 A 仿单 1/20页 口播视频天生举措、安装、电子兴办及存储介质 本领范畴 [0001] 本公然涉及视频管理本领范畴,更加涉及一种口播视频天生举措、安装、电子兴办 及存储介质。 配景本领 [0002] 口播视频是记实播音员举行播音举止的视频○○。目前□□,口播类视频的行使越来越广 泛。干系本领中,正在口播视频创制进程中,用户必要通过换脸用具的摄像头录制用户语言的 进程,并通过对用户的面部特点的提取,天生一个唇部同步的人物气象,进而天生一个带有 新人物气象的口播视频。但上述干系本领中必要用户的确举行一次语音播报进程的录制, 存正在口播视频创制本钱高,创制效用低的题目○。 出现实质 [0003] 本公然供给一种口播视频天生举措、安装、电子兴办及存储介质,以起码处理干系 本领中口播视频创制本钱高,创制效用低的题目。本公然的本领计划如下: [0004] 按照本公然推行例的第一方面○□,供给一种口播视频天生举措○,征求: [0005] 显示视频创筑页面,所述视频创筑页面征求对象模板口播视频的编辑操作区域, 所述编辑操作区域中浮现有所述对象模板口播视频对应的起码一个视频元素;所述起码一 个视频元素征求字幕配音元素; [0006] 反映于基于所述字幕配音元素对应的编辑操作区域触发的字幕配音编辑指令,更 新所述字幕配音元素对应的编辑操作区域中浮现的字幕配音元素; [0007] 反映于视频天生指令□○,基于所述对象模板口播视频和更新后的字幕配音元素,生 成对象口播视频。 [0008] 可选的○,所述字幕配音元素对应的编辑操作区域征求第一字幕配音控件,所述第 一字幕配音控件用于触发基于文本讯息更新所述字幕配音元素中的字幕讯息和配音讯息; 所述字幕配音元素对应的编辑操作区域还征求文本编辑区域; [0009] 所述反映于基于所述字幕配音元素对应的编辑操作区域触发的字幕配音编辑指 令○□,更新所述字幕配音元素对应的编辑操作区域中浮现的字幕配音元素征求: [0010] 若检测到基于所述文本编辑区域触发的文本编辑指令,获取所述文本编辑指令对 应的对象文本讯息; [0011] 基于所述对象文本讯息更新所述对象模板口播视频对应的配音讯息和字幕讯息; [0012] 正在所述文本编辑区域中浮现更新后的字幕讯息,并播放更新后的配音讯息○。 [0013] 可选的○,所述字幕配音元素对应的编辑操作区域还征求第二字幕配音控件,所述 第二字幕配音控件用于触发基于音频讯息更新所述字幕配音元素中的字幕讯息和配音信 息;所述字幕配音元素对应的编辑操作区域还征求音频装备控件; [0014] 所述反映于基于所述字幕配音元素对应的编辑操作区域触发的字幕配音编辑指 令○,更新所述字幕配音元素对应的编辑操作区域中浮现的字幕配音元素征求: 4 4 CN 113411655 A 仿单 2/20页 [0015] 若检测到基于所述音频装备控件触发的音频装备指令○,获取所述音频装备指令对 应的对象音频讯息; [0016] 基于所述对象音频讯息更新所述对象模板口播视频对应的字幕讯息和配音讯息; [0017] 正在所述字幕配音元素对应的编辑操作区域中浮现征求更新后的字幕讯息的文本 编辑区域。 [0018] 可选的,所述字幕配音元素对应的编辑操作区域还征求文本样式编辑区域;所述 举措还征求: [0019] 反映于基于所述文本样式编辑区域触发的第雷同式编辑指令,更新所述文本编辑 区域中浮现的更新后的字幕讯息的样式讯息。 [0020] 可选的,所述字幕配音元素对应的编辑操作区域还征求闭节文本的样式编辑区 域;所述举措还征求: [0021] 反映于基于所述样式编辑区域触发的第二样式编辑指令□○,更新所述文本编辑区域 中浮现的对象闭节文本的样式讯息,所述对象闭节文本为所述更新后的字幕讯息中基于预 设标识标注的字幕讯息。 [0022] 可选的,所述起码一个视频元素还征求人像元素,所述举措还征求: [0023] 反映于基于所述人像元素对应编辑操作区域触发的人像编辑指令,正在所述视频创 筑页面浮现起码一个预设人像元素; [0024] 反映于基于任一预设人像元素触发的第一抉择指令□○,基于所述第一抉择指令对应 的预设人像元素○,更新所述编辑操作区域中浮现的人像元素; [0025] 所述基于所述对象模板口播视频和更新后的字幕配音元素,天生对象口播视频包 括: [0026] 基于所述对象模板口播视频、所述更新后的字幕配音元素和更新后的人像元素, 天生所述对象口播视频。 [0027] 可选的○,所述基于所述对象模板口播视频、所述更新后的字幕配音元素和更新后 的人像元素○,天生所述对象口播视频征求: [0028] 获取所述对象模板口播视频对应的视频帧图像; [0029] 基于更新后的人像元素,对所述视频帧图像举行人像调换管理□,取得第一对象视 频帧图像; [0030] 按照所述更新后的字幕配音元素中的配音讯息确定所述视频帧图像中对象对象 的神志编码讯息; [0031] 将所述神志编码讯息和所述第一对象视频帧图像输入视频帧编码模子举行视频 帧编码管理○,取得第一对象口播图像; [0032] 对所述第一对象口播图像和所述更新后的字幕配音元素举行合成,取得所述对象 口播视频□○。 [0033] 可选的□○,所述起码一个视频元素还征求人脸元素,所述举措还征求: [0034] 反映于基于所述人脸元素对应的编辑操作区域触发的人脸编辑指令,正在所述视频 创筑页面浮现起码一个预设人脸图像; [0035] 反映于基于任一预设人脸图像触发的第二抉择指令,基于所述第二抉择指令对应 的预设人脸图像○,更新所述编辑操作区域中浮现的人脸元素; 5 5 CN 113411655 A 仿单 3/20页 [0036] 所述基于所述对象模板口播视频和更新后的字幕配音元素□○,天生对象口播视频包 括: [0037] 基于所述对象模板口播视频、所述更新后的字幕配音元素和更新后的人脸元素□, 天生所述对象口播视频○。 [0038] 可选的,所述基于所述对象模板口播视频、所述更新后的字幕配音元素和更新后 的人脸元素○,天生所述对象口播视频征求: [0039] 获取所述对象模板口播视频对应的视频帧图像; [0040] 基于人脸检测模子对所述视频帧图像举行人脸检测,取得人脸区域图像; [0041] 将所述人脸区域图像和更新后的人脸元素输入人脸合成模子举行人脸合成管理, 取得对象人脸图像; [0042] 基于所述对象人脸图像和所述视频帧图像□□,确定第二对象视频帧图像; [0043] 按照所述更新后的字幕配音元素中的配音讯息确定所述视频帧图像中对象对象 的神志编码讯息; [0044] 将所述神志编码讯息和所述第二对象视频帧图像输入视频帧编码模子举行视频 帧编码管理,取得第二对象口播图像; [0045] 对所述第二对象口播图像、所述更新后的字幕配音元素举行合成,取得所述对象 口播视频。 [0046] 可选的,所述起码一个视频元素还征求配景元素○□,所述举措还征求: [0047] 反映于基于所述配景元素对应的编辑操作区域触发的配景编辑指令○○,正在所述视频 创筑页面浮现起码一个预设配景元素; [0048] 反映于基于任一配景元素触发的第三抉择指令□,基于所述第三抉择指令对应的预 设配景元素,更新所述编辑操作区域中浮现的配景元素; [0049] 所述基于所述对象模板口播视频和更新后的字幕配音元素○,天生对象口播视频包 括: [0050] 基于所述对象模板口播视频、所述更新后的字幕配音元素和更新后的配景元素, 天生所述对象口播视频。 [0051] 可选的,所述基于所述对象模板口播视频、所述更新后的字幕配音元素和更新后 的配景元素,天生所述对象口播视频征求: [0052] 获取所述对象模板口播视频对应的视频帧图像; [0053] 基于更新后的配景元素,对所述视频帧图像举行配景调换管理□,取得第三对象视 频帧图像; [0054] 按照所述更新后的字幕配音元素中的配音讯息确定所述视频帧图像中对象对象 的神志编码讯息; [0055] 将所述神志编码讯息和所述第三对象视频帧图像输入视频帧编码模子举行视频 帧编码管理,取得第三对象口播图像; [0056] 对所述第三对象口播图像、所述更新后的字幕配音元素举行合成○,取得所述对象 口播视频。 [0057] 可选的,所述基于所述对象模板口播视频和更新后的字幕配音元素○,天生对象口 播视频征求: 6 6 CN 113411655 A 仿单 4/20页 [0058] 获取所述对象模板口播视频对应的视频帧图像; [0059] 按照所述更新后的字幕配音元素中的配音讯息确定所述视频帧图像中对象对象 的神志编码讯息; [0060] 将所述神志编码讯息和所述视频帧图像输入视频帧编码模子举行视频帧编码处 理,取得第四对象口播图像; [0061] 对所述第四对象口播图像、所述更新后的字幕配音元素举行合成,取得所述对象 口播视频。 [0062] 按照本公然推行例的第二方面,供给一种口播视频天生安装,征求: [0063] 视频创筑页面显示模块,被装备为履行显示视频创筑页面,所述视频创筑页面包 括对象模板口播视频的编辑操作区域,所述编辑操作区域中浮现有所述对象模板口播视频 对应的起码一个视频元素;所述起码一个视频元素征求字幕配音元素; [0064] 字幕配音元素更新模块,被装备为履行反映于基于所述字幕配音元素对应的编辑 操作区域触发的字幕配音编辑指令,更新所述字幕配音元素对应的编辑操作区域中浮现的 字幕配音元素; [0065] 对象口播视频天生模块□,被装备为履行反映于视频天生指令,基于所述对象模板 口播视频和更新后的字幕配音元素□□,天生对象口播视频。 [0066] 可选的,所述字幕配音元素对应的编辑操作区域征求第一字幕配音控件,所述第 一字幕配音控件用于触发基于文本讯息更新所述字幕配音元素中的字幕讯息和配音讯息; 所述字幕配音元素对应的编辑操作区域还征求文本编辑区域; [0067] 所述字幕配音元素更新模块征求: [0068] 对象文本讯息获取单位,被装备为履行若检测到基于所述文本编辑区域触发的文 本编辑指令□,获取所述文本编辑指令对应的对象文本讯息; [0069] 第一配音字幕更新单位,被装备为履行基于所述对象文本讯息更新所述对象模板 口播视频对应的配音讯息和字幕讯息; [0070] 字幕讯息浮现更新单位,被装备为履行正在所述文本编辑区域中浮现更新后的字幕 讯息,并播放更新后的配音讯息。 [0071] 可选的,所述字幕配音元素对应的编辑操作区域还征求第二字幕配音控件,所述 第二字幕配音控件用于触发基于音频讯息更新所述字幕配音元素中的字幕讯息和配音信 息;所述字幕配音元素对应的编辑操作区域还征求音频装备控件; [0072] 所述字幕配音元素更新模块征求: [0073] 对象音频讯息获取单位,被装备为履行若检测到基于所述音频装备控件触发的音 频装备指令○,获取所述音频装备指令对应的对象音频讯息; [0074] 第一配音字幕更新单位○□,被装备为履行基于所述对象音频讯息更新所述对象模板 口播视频对应的字幕讯息和配音讯息; [0075] 字幕讯息浮现单位,被装备为履行正在所述字幕配音元素对应的编辑操作区域中展 示征求更新后的字幕讯息的文本编辑区域□□。 [0076] 可选的,所述字幕配音元素对应的编辑操作区域还征求文本样式编辑区域;所述 安装还征求: [0077] 第雷同式讯息更新模块□,被装备为履行反映于基于所述文本样式编辑区域触发的 7 7 CN 113411655 A 仿单 5/20页 第雷同式编辑指令,更新所述文本编辑区域中浮现的更新后的字幕讯息的样式讯息。 [0078] 可选的□,所述字幕配音元素对应的编辑操作区域还征求闭节文本的样式编辑区 域;所述安装还征求: [0079] 第二样式讯息更新模块,被装备为履行反映于基于所述样式编辑区域触发的第二 样式编辑指令,更新所述文本编辑区域中浮现的对象闭节文本的样式讯息○,所述对象闭节 文本为所述更新后的字幕讯息中基于预设标识标注的字幕讯息。 [0080] 可选的,所述起码一个视频元素还征求人像元素,所述安装还征求: [0081] 预设人像元素浮现模块,被装备为履行反映于基于所述人像元素对应编辑操作区 域触发的人像编辑指令○,正在所述视频创筑页面浮现起码一个预设人像元素; [0082] 人像元素浮现更新模块,被装备为履行反映于基于任一预设人像元素触发的第一 抉择指令○,基于所述第一抉择指令对应的预设人像元素□,更新所述编辑操作区域中浮现的 人像元素; [0083] 所述对象口播视频天生模块还被装备为履行基于所述对象模板口播视频、所述更 新后的字幕配音元素和更新后的人像元素○,天生所述对象口播视频。 [0084] 可选的,所述对象口播视频天生模块征求: [0085] 第一视频帧图像获取单位,被装备为履行获取所述对象模板口播视频对应的视频 帧图像; [0086] 人像调换管理单位,被装备为履行基于更新后的人像元素,对所述视频帧图像进 行人像调换管理○○,取得第一对象视频帧图像; [0087] 第一神志编码讯息确定单位,被装备为履行按照所述更新后的字幕配音元素中的 配音讯息确定所述视频帧图像中对象对象的神志编码讯息; [0088] 第一视频帧编码管理单位,被装备为履行将所述神志编码讯息和所述第一对象视 频帧图像输入视频帧编码模子举行视频帧编码管理□□,取得第一对象口播图像; [0089] 第一视频合成单位□,被装备为履行对所述第一对象口播图像和所述更新后的字幕 配音元素举行合成□,取得所述对象口播视频。 [0090] 可选的,所述起码一个视频元素还征求人脸元素,所述安装还征求: [0091] 预设人脸图像浮现模块,被装备为履行反映于基于所述人脸元素对应的编辑操作 区域触发的人脸编辑指令○○,正在所述视频创筑页面浮现起码一个预设人脸图像; [0092] 人脸元素浮现更新模块,被装备为履行反映于基于任一预设人脸图像触发的第二 抉择指令□□,基于所述第二抉择指令对应的预设人脸图像○,更新所述编辑操作区域中浮现的 人脸元素; [0093] 所述对象口播视频天生模块还被装备为履行基于所述对象模板口播视频、所述更 新后的字幕配音元素和更新后的人脸元素,天生所述。 [0094] 可选的□,所述对象口播视频天生模块征求: [0095] 第二视频帧图像获取单位□,被装备为履行获取所述对象模板口播视频对应的视频 帧图像; [0096] 人脸检测单位,被装备为履行基于人脸检测模子对所述视频帧图像举行人脸检 测○,取得人脸区域图像; [0097] 人脸合成管理单位,被装备为履行将所述人脸区域图像和更新后的人脸元素输入 8 8 CN 113411655 A 仿单 6/20页 人脸合成模子举行人脸合成管理,取得对象人脸图像; [0098] 第二对象视频帧图像确定单位,被装备为履行基于所述对象人脸图像和所述视频 帧图像,确定第二对象视频帧图像; [0099] 第二神志编码讯息确定单位○,被装备为履行按照所述更新后的字幕配音元素中的 配音讯息确定所述视频帧图像中对象对象的神志编码讯息; [0100] 第二视频帧编码管理单位,被装备为履行将所述神志编码讯息和所述第二对象视 频帧图像输入视频帧编码模子举行视频帧编码管理○,取得第二对象口播图像; [0101] 第二视频合成单位,被装备为履行对所述第二对象口播图像、所述更新后的字幕 配音元素举行合成,取得所述对象口播视频□□。 [0102] 可选的○,所述起码一个视频元素还征求配景元素,所述安装还征求: [0103] 预设配景元素浮现模块□□,被装备为履行反映于基于所述配景元素对应的编辑操作 区域触发的配景编辑指令,正在所述视频创筑页面浮现起码一个预设配景元素; [0104] 配景元素浮现更新模块,被装备为履行反映于基于任一配景元素触发的第三抉择 指令,基于所述第三抉择指令对应的预设配景元素,更新所述编辑操作区域中浮现的配景 元素; [0105] 所述对象口播视频模块还被装备为履行基于所述对象模板口播视频、所述更新后 的字幕配音元素和更新后的配景元素,天生所述对象口播视频。 [0106] 可选的,所述对象口播视频天生模块征求: [0107] 第三视频帧图像获取单位,被装备为履行获取所述对象模板口播视频对应的视频 帧图像; [0108] 配景调换管理单位□□,被装备为履行基于更新后的配景元素,对所述视频帧图像进 行配景调换管理,取得第三对象视频帧图像; [0109] 第三神志编码讯息确定单位○,被装备为履行按照所述更新后的字幕配音元素中的 配音讯息确定所述视频帧图像中对象对象的神志编码讯息; [0110] 第三视频帧编码管理单位□○,被装备为履行将所述神志编码讯息和所述第三对象视 频帧图像输入视频帧编码模子举行视频帧编码管理,取得第三对象口播图像; [0111] 第三视频合成单位□○,被装备为履行对所述第三对象口播图像、所述更新后的字幕 配音元素举行合成,取得所述对象口播视频○。 [0112] 可选的,所述对象口播视频天生模块征求: [0113] 第四视频帧图像获取单位,被装备为履行获取所述对象模板口播视频对应的视频 帧图像; [0114] 第四神志编码讯息确定单位,被装备为履行按照所述更新后的字幕配音元素中的 配音讯息确定所述视频帧图像中对象对象的神志编码讯息; [0115] 第四视频帧编码管理单位,被装备为履行将所述神志编码讯息和所述视频帧图像 输入视频帧编码模子举行视频帧编码管理,取得第四对象口播图像; [0116] 第四视频合成单位,被装备为履行对所述第四对象口播图像、所述更新后的字幕 配音元素举行合成□,取得所述对象口播视频。 [0117] 按照本公然推行例的第三方面,供给一种电子兴办,征求:管理器;用于存储所述 管理器可履行指令的存储器;个中,所述管理器被装备为履行所述指令,以告竣如上述第一 9 9 CN 113411655 A 仿单 7/20页 方面中任一项所述的举措。 [0118] 按照本公然推行例的第四方面,供给一种阴谋机可读存储介质,当所述存储介质 中的指令由电子兴办的管理器履行时,使得所述电子兴办可能履行本公然推行例的第一方 面中任一所述举措。 [0119] 按照本公然推行例的第五方面,供给一种包蕴指令的阴谋机步伐产物,当其正在计 算机上运转时,使得阴谋机履行本公然推行例的第一方面中任一所述举措。 [0120] 本公然的推行例供给的本领计划起码带来以下有益成果: [0121] 通过正在视频创筑页面中供给对象模板口播视频,能够让用户正在口播视频创制进程 中,无需举行语音播报进程的录制,仅基于字幕配音元素对应的编辑操作区域举行字幕配 音元素的装备○,就能够举行口播视频的创制□□,按需天生记实语音播报进程的对象口播视频□□, 正在有用低重口播视频创制本钱的同时,大大擢升了口播视频创制效用□。 [0122] 该当了解的是,以上的日常刻画和后文的细节刻画仅是示例性和阐明性的,并不 能束缚本公然□○。 附图证实 [0123] 此处的附图被并入仿单中并组成本仿单的一局部,示出了适当本公然的推行 例,并与仿单一道用于阐明本公然的道理,并不组成对本公然的欠妥限度。 [0124] 图1是按照一示例性推行例示出的一种口播视频天生举措的流程图; [0125] 图2是按照一示例性推行例示出的一种视频创筑页面的示贪图; [0126] 图3是按照一示例性推行例示出的一种反映于基于字幕配音元素对应的编辑操作 区域触发的字幕配音编辑指令□,更新字幕配音元素对应的编辑操作区域中浮现的字幕配音 元素的流程图; [0127] 图4是按照一示例性推行例示出的一种视频创筑页面的示贪图; [0128] 图5是按照一示例性推行例示出的一种反映于基于字幕配音元素对应的编辑操作 区域触发的字幕配音编辑指令,更新字幕配音元素对应的编辑操作区域中浮现的字幕配音 元素的流程图; [0129] 图6是按照一示例性推行例示出的一种视频创筑页面的示贪图; [0130] 图7是按照一示例性推行例示出的一种基于对象模板口播视频和更新后的字幕配 音元素,天生对象口播视频的流程图; [0131] 图8是按照一示例性推行例示出的一种基于对象模板口播视频、更新后的字幕配 音元素和更新后的人像元素,天生对象口播视频的流程图; [0132] 图9是按照一示例性推行例示出的一种基于对象模板口播视频、更新后的字幕配 音元素和更新后的人脸元素□○,天生对象口播视频的流程图; [0133] 图10是按照一示例性推行例示出的一种基于对象模板口播视频、更新后的字幕配 音元素和更新后的配景元素,天生对象口播视频的流程图; [0134] 图11是按照一示例性推行例示出的一种口播视频天生安装框图; [0135] 图12是按照一示例性推行例示出的一种用于视频天生的电子兴办的框图。 10 10 CN 113411655 A 仿单 8/20页 的确推行形式 [0136] 为了使本范畴一般职员更好地了解本公然的本领计划,下面将连接附图○□,对本公 开推行例中的本领计划举行懂得、完全地刻画○□。 [0137] 必要证实的是□,本公然的仿单和权柄央浼书及上述附图中的术语“第一”、“第 二”等是用于区别雷同的对象,而不必用于刻画特定的按次或先后次第。该当了解云云行使 的数据正在恰当情形下能够交流,以便这里刻画的本公然的推行例可能以除了正在这里图示或 刻画的那些以外的按次推行□□。以下示例性推行例中所刻画的推行形式并不代外与本公然相 一律的全豹推行形式○。相反○,它们仅是与如所附权柄央浼书中所详述的、本公然的少少方面 相一律的安装和举措的例子○○。 [0138] 必要证实的是○,本公然所涉及的用户讯息(征求但不限于用户兴办讯息、用户局部 讯息等)和数据(征求但不限于用于浮现的数据、理解的数据等),均为经用户授权或者经历 各方弥漫授权的讯息和数据○□。 [0139] 图1是按照一示例性推行例示出的一种口播视频天生举措的流程图,如图1所示, 该口播视频天生举措用于终端电子兴办中,征求以下方法。 [0140] 正在方法S101中○□,显示视频创筑页面□□。 [0141] 正在一个的确的推行例中,视频创筑页面能够征求对象模板口播视频的编辑操作区 域,的确的○,编辑操作区域中浮现有上述对象模板口播视频对应的起码一个视频元素;正在一 个的确的推行例中,上述起码一个视频元素能够征求但不限于字幕配音元素、人像元素、人 脸元素、配景元素、音量元素中的起码一种。 [0142] 正在一个可选的推行例中,视频创筑页面还能够征求视频预览区域,该视频预览区 域能够用于浮现上述对象模板口播视频,以及用于举行对象模板口播视频的预览播放□□。 [0143] 正在实践行使中,正在显示视频创筑页面之前□,能够显示模板浮现页面,该模板浮现页 面能够征求预设数目个模板口播视频的模板视图;相应的,用户能够通过点击某一模板口 播视频的模板视图的形式,触发视频创筑页面的显示。的确的,用户点击的模板视图对应的 模板口播视频为上述对象模板口播视频。 [0144] 正在一个的确的推行例中□,模板口播视频的模板视图可认为可能响应对象模板口播 视频中要紧实质的图像,比如,封面图像等。正在一个可选的推行例中○□,模板口播视频可认为 预先基于视频软件创制好的视频,的确的○,用于创制模板口播视频所涉及的播音员的肖像 讯息,语音讯息等□□,均为经用户授权或者经历各方弥漫授权的讯息。 [0145] 正在一个的确的推行例中,如图2所示□,图2是按照一示例性推行例示出的一种视频 创筑页面的示贪图○。的确的,个中,100对应的区域为编辑操作区域○,200对应的区域为视频 预览区域○○。个中□,101对应的区域为对象模板口播视频的人像元素对应的编辑操作区域、102 对应的区域为对象模板口播视频的人脸元素对应的编辑操作区域,103对应的区域为对象 模板口播视频的配景元素对应的编辑操作区域□○,104对应的区域为对象模板口播视频的音 量元素对应的编辑操作区域,105对应的区域为对象模板口播视频的字幕配音元素对应的 编辑操作区域○。 [0146] 正在方法S103中,反映于基于字幕配音元素对应的编辑操作区域触发的字幕配音编 辑指令□○,更新字幕配音元素对应的编辑操作区域中浮现的字幕配音元素□□。 [0147] 正在一个的确的推行例中,用户能够通过上传文本讯息○,来天生口播视频中的配音 11 11 CN 113411655 A 仿单 9/20页 讯息和字幕讯息。相应的,正在一个可选的推行例中,上述字幕配音元素对应的编辑操作区域 能够征求第一字幕配音控件,该第一字幕配音控件能够用于触发基于文本讯息更新字幕配 音元素中的字幕讯息和配音讯息;正在一个的确的推行例中□○,如图2所示,第一字幕配音控件 可认为“自界说字幕并朗读”控件。 [0148] 正在一个可选的推行例中,上述字幕配音元素对应的编辑操作区域还能够征求文本 编辑区域;正在一个的确的推行例中,如图2所示,文本编辑区域可认为图2中的106对应的区 域○□。的确的○□,如图3所示,上述反映于基于字幕配音元素对应的编辑操作区域触发的字幕配 音编辑指令,更新字幕配音元素对应的编辑操作区域中浮现的字幕配音元素能够征求以下 方法: [0149] 正在方法S301中,若检测到基于文本编辑区域触发的文本编辑指令,获取文本编辑 指令对应的对象文本讯息。 [0150] 正在方法S303中○,基于对象文本讯息更新对象模板口播视频对应的配音讯息和字幕 讯息。 [0151] 正在方法S305中,正在文本编辑区域中浮现更新后的字幕讯息,并播放更新后的配音 讯息○。 [0152] 正在一个可选的推行例中,用户能够正在文本编辑区域输入文本讯息,以触发文本编 辑指令○□,相应的□,能够将输入的文本讯息(对象文本讯息)行为字幕讯息,并通过语音合成技 术将对象文本讯息转换成配音讯息(语音讯息)。可选的,正在文本编辑区域中浮现字幕讯息 的同时,也能够播放对应的配音讯息□。 [0153] 上述推行例中,通过获取文本讯息○,就能够告竣对对象模板口播视频中配音讯息 和字幕讯息的更新装备○□,大大擢升视频创制的便当性口播视频天生本事、装配、。 [0154] 正在一个的确的推行例中,用户能够通过上传音频讯息,来天生口播视频中的配音 讯息和字幕讯息□。相应的○○,正在一个可选的推行例中,上述字幕配音元素对应的编辑操作区域 还征求第二字幕配音控件○,该第二字幕配音控件能够用于触发基于音频讯息更新字幕配音 元素中的字幕讯息和配音讯息。字幕配音元素对应的编辑操作区域还能够征求音频装备控 件; [0155] 正在一个的确的推行例中□,如图4所示,图4是按照一示例性推行例示出的一种视频 创筑页面的示贪图。的确的○○,第二字幕配音控件可认为图4中的“上传配音并提取字幕”控 件□。音频装备控件可认为图4中的“上传配音”控件。 [0156] 正在一个的确的推行例中□○,如图5所示,上述反映于基于字幕配音元素对应的编辑操 作区域触发的字幕配音编辑指令□○,更新字幕配音元素对应的编辑操作区域中浮现的字幕配 音元素能够征求: [0157] 正在方法S501中○,若检测到基于音频装备控件触发的音频装备指令□□,获取音频装备 指令对应的对象音频讯息; [0158] 正在方法S503中○,基于对象音频讯息更新对象模板口播视频对应的字幕讯息和配音 讯息; [0159] 正在方法S505中○,正在字幕配音元素对应的编辑操作区域中浮现征求更新后的字幕信 息的文本编辑区域。 [0160] 正在一个的确的推行例中,用户能够通过音频装备控件上传对象音频讯息,进而可 12 12 CN 113411655 A 仿单 10/20页 以将该对象音频讯息行为配音讯息,并通过语音识别将对象音频讯息转换成配音讯息○。可 选的,正在编辑操作区域中浮现征求更新后的字幕讯息的文本编辑区域的同时,也能够浮现 配音讯息的播放操作讯息。的确的○□,该播放操作讯息能够用于对配音讯息举行播放,更新和 删除等操作□。 [0161] 正在一个的确的推行例中,正在通过上传的音频讯息□,更新配音讯息和字幕讯息的同 时,视频创筑页面相应的更新,如图6所示○,图6是按照一示例性推行例示出的一种视频创筑 页面的示贪图。的确的,播放操作讯息可认为图6中的600对应的讯息○。 [0162] 正在一个可选的推行例中□○,用户也能够对文本编辑区域内的更新后的字幕讯息再次 举行编辑,相应的○○,能够基于播放操作讯息中的更新控件对配音讯息举行更新□□,以便对字幕 讯息和配音讯息举行更新成家。 [0163] 可选的,上述第一字幕配音控件对应的字幕配音元素更新形式可认为默认字幕配 音更新形式○,相应的,能够通过点击第二字幕配音控件,触发音频装备控件浮现,进而基于 上述图4对应推行例举行字幕配音元素更新□。可选的○,上述第二字幕配音控件对应的字幕配 音元素更新形式可认为默认字幕配音更新形式,相应的,能够通过点击第一字幕配音控件, 触发文本编辑区域的浮现,进而基于上述图3对应推行例举行字幕配音元素更新○。 [0164] 上述推行例中,通过获取音频讯息,就能够告竣对对象模板口播视频中配音讯息 和字幕讯息的更新装备□○,大大擢升视频创制的便当性○。 [0165] 其它,必要证实的是,用于天生的字幕讯息和配音讯息的音频讯息,或文本讯息, 均为经用户授权或者经历各方弥漫授权的讯息。 [0166] 正在一个可选的推行例中,上述字幕配音元素对应的编辑操作区域还能够征求文本 样式编辑区域;相应的○○,上述举措还能够征求: [0167] 反映于基于文本样式编辑区域触发的第雷同式编辑指令,更新文本编辑区域中展 示的更新后的字幕讯息的样式讯息○。 [0168] 正在一个的确的推行例中□□,文本样式编辑区域能够配置举行文字颜色,文字字体,文 字巨细等文本样式的编辑控件。相应的,能够基于文本样式的编辑控件触发相应的样式编 辑指令,进而能够更新字幕讯息的样式讯息○□。正在一个的确的推行例中,如图2所示,上述文本 样式编辑区域可认为图2中107对应的区域□。 [0169] 上述推行例中,通过配置文本样式编辑区域,能够便于对字幕讯息的样式讯息进 行编辑,擢升口播视频的众样性□。 [0170] 正在一个可选的推行例中○,上述字幕配音元素对应的编辑操作区域还能够征求闭节 文本的样式编辑区域;相应的,上述举措还能够征求: [0171] 反映于基于样式编辑区域触发的第二样式编辑指令,更新文本编辑区域中浮现的 对象闭节文本的样式讯息。 [0172] 正在实践行使中□,针对少少闭节文本能够通过对其举行奇特样式标注○,以便更好的 卓越闭节文本□○。正在一个的确的推行例中,比如产物先容的口播视频中□,闭节文本可认为产物 名称□。正在一个的确的推行例中,用户能够连接预设标识选中文本编辑区域中的闭节文本。具 体的□,预设标识能够征求但不限于首尾对应的两个标识讯息□○,比如小括号、中括号、大括号、 下划线等。相应的○□,对象闭节文本为更新后的字幕讯息中基于预设标识标注的字幕讯息□。正在 一个的确的推行例中○,如图2所示,上述文本样式编辑区域可认为图2中108对应的区域。 13 13 CN 113411655 A 仿单 11/20页 [0173] 上述推行例中,通过配置闭节文本的样式编辑区域,能够便于对字幕讯息中闭节 文本举行样式编辑,以便更好的卓越闭节文本,擢升创制的口播视频的众样性。 [0174] 正在方法S105中○○,反映于视频天生指令,基于对象模板口播视频和更新后的字幕配 音元素□□,天生对象口播视频。 [0175] 正在一个的确的推行例中,如图7所示,上述基于对象模板口播视频和更新后的字幕 配音元素○○,天生对象口播视频能够征求以下方法: [0176] 正在方法S701中,获取对象模板口播视频对应的视频帧图像。 [0177] 正在一个的确的推行例中,能够提取对象模板口播视频中每一帧图像,取得上述视 频帧图像。 [0178] 正在方法S703中○,按照更新后的字幕配音元素中的配音讯息确定视频帧图像中对象 对象的神志编码讯息。 [0179] 正在一个的确的推行例中,神志编码讯息可认为可能外征人物神志的讯息○○,可选的○, 神志编码讯息可认为facs体例(Facial Action Coding System○□,面部举止编码体例)中的 AU(action unit,运动单位)系数。正在实践行使中,音频讯息中的每个音对应着一个神志□,比 如发“哦”这个音会对应一个神志○□,且该神志能够通过facs体例中某个AU对应的系数来量 化。 [0180] 正在一个的确的推行例中,能够预先操练好用于确定神志编码讯息的神志编码模 型,的确的,神志编码模子能够基于具有操练神志编码讯息的标注讯息的操练音频对第一 预设深度研习模子举行操练取得。 [0181] 可选的,能够将配音讯息输入神志编码模子举行神志编码管理,取得对象对象(播 音职员)的神志编码讯息。正在一个的确的推行例中,能够将配音讯息根据预设时候间隔举行 划分□○,比如40毫秒○□,相应的,每40毫秒的配音讯息能够对应一个神志编码讯息。 [0182] 正在方法S705中,将神志编码讯息和视频帧图像输入视频帧编码模子举行视频帧编 码管理○□,取得第四对象口播图像。 [0183] 正在一个的确的推行例中□○,能够预先获取洪量的确录制的视频,以的确录制的视频 帧图像和播音职员的神志编码讯息为第二预设深度研习模子的输入,输出为预测的视频帧 图像;然后,阴谋输入视频帧图像与视频帧图像间的失掉;基于失掉来操练第二预设深度学 习模子的,取得视频帧编码模子□□。 [0184] 相应的,将对象对象的神志编码讯息和对应视频帧图像输入视频帧编码模子举行 视频帧编码管理,取得能够根据配音讯息驱动对象对象神志的第四对象口播图像。 [0185] 其它,必要证实的是○,本公然的确录制的视频中涉及的用户讯息均为经用户授权 或者经历各方弥漫授权的讯息。 [0186] 正在方法S707中,对第四对象口播图像、更新后的字幕配音元素举行合成,取得对象 口播视频。 [0187] 正在一个的确的推行例中,第四对象口播图像、更新后的字幕配音元素中的配音信 息和字幕讯息均对应的时候序列,相应的,能够连接时候序列对对象口播视频帧、更新后的 字幕配音元素中的配音讯息和字幕讯息举行合成,取得上述对象口播视频连接。 [0188] 上述推行例中○,正在合成对象口播视频进程中,连接配音讯息确定的神志编码讯息○, 天生对象口播视频中的每一帧对象口播图像,能够基于声响驱动对象模板口播视频中播音 14 14 CN 113411655 A 仿单 12/20页 职员播音进程中的神志○○,大大擢升取得的对象口播视频中播音职员的线] 正在一个可选的推行例中,终端兴办正在当地举行对象口播视频的合成,可选的,也可 以将用于合成对象口播视频的对象模板口播视频、更新后的字幕配音元素等讯息发送给相 应的供职器,以便供职器举行对象口播视频的合成,并将合成后的对象口播视频发送给终 端兴办,进而能够减轻终端兴办上的阴谋压力。 [0190] 由以上本仿单推行例供给的本领计划可睹,本仿单中通过正在视频创筑页面中 供给对象模板口播视频,能够让用户正在口播视频创制进程中○□,无需举行语音播报进程的录 制,仅基于字幕配音元素对应的编辑操作区域举行字幕配音元素的装备○□,就能够举行口播 视频的创制,按需天生记实语音播报进程的对象口播视频,正在有用低重口播视频创制本钱 的同时○□,大大擢升了口播视频创制效用。 [0191] 正在一个可选的推行例中□,正在上述起码一个视频元素征求人像元素的情形下□,上述 举措还能够征求: [0192] 反映于基于人像元素对应编辑操作区域触发的人像编辑指令,正在视频创筑页面展 示起码一个预设人像元素; [0193] 反映于基于任一预设人像元素触发的第一抉择指令□,基于第一抉择指令对应的预 设人像元素,更新编辑操作区域中浮现的人像元素; [0194] 相应的○○,上述基于对象模板口播视频和更新后的字幕配音元素□,天生对象口播视 频征求: [0195] 基于对象模板口播视频、更新后的字幕配音元素和更新后的人像元素,天生对象 口播视频○□。 [0196] 正在一个可选的推行例中□□,用户能够通过点击人像元素对应编辑操作区域触发人像 编辑指令;可选的□○,正在光标位于某一人像元素对应编辑操作区域的情形下○○,该人像元素对应 编辑操作区域中能够浮现用于触发该人像元素退换的“退换人像”控件,可选的,用户能够 通过点击“退换人像”控件的形式触发人像编辑指令。正在一个可选的推行例中,起码一个预 设人像元素能够通过弹窗的形式浮现正在视频创筑页面。 [0197] 正在一个的确的推行例中,预设人像元素可认为预设上传的洪量预设天生的模板口 播视频中人像元素。 [0198] 正在一个可选的推行例中,用户能够通过点击预设人像元素对应浮现区域的形式触 发第一抉择指令;可选的□,正在光标位于某一预设人像元素对应浮现区域的情形下,该预设人 像元素对应浮现区域中能够浮现用于触发该预设人像元素抉择的“行使人像”控件□□,可选 的,用户能够通过点击“行使人像”控件的形式触发第一抉择指令。 [0199] 上述推行例中□□,通过人像元素对应编辑操作区域触发的人像编辑指令○,能够便于 用户正在洪量预设人像元素中举行人像元素抉择,能够擢升创制的对象口播视频中人物气象 的众样性和丰厚性。 [0200] 正在一个可选的推行例中,如图8所示,上述基于对象模板口播视频、更新后的字幕 配音元素和更新后的人像元素,天生对象口播视频能够征求以下方法: [0201] 正在方法S801中○□,获取对象模板口播视频对应的视频帧图像; [0202] 正在方法S803中,基于更新后的人像元素,对视频帧图像举行人像调换管理○,取得第 一对象视频帧图像。 15 15 CN 113411655 A 仿单 13/20页 [0203] 正在一个的确的推行例中,基于更新后的人像元素□○,对视频帧图像举行人像调换处 理○□,取得第一对象视频帧图像能够征求基于配景识别模子对视频帧图像举行配景识别,得 到配景图像□,并基于配景图像和更新后的人像元素天生第一对象视频帧图像□□。 [0204] 正在一个的确的推行例中,配景识别模子可认为基于洪量征求人像的操练图像和训 练图像中配景图像的地点标注讯息□□,对第三预设深度研习模子举行操练取得的。 [0205] 正在方法S805中□○,按照更新后的字幕配音元素中的配音讯息确定视频帧图像中对象 对象的神志编码讯息; [0206] 正在方法S807中□口播视频天生本事、装配、电子设置及存储介质pdf,,将神志编码讯息和第一对象视频帧图像输入视频帧编码模子举行 视频帧编码管理,取得第一对象口播图像; [0207] 正在方法S809中,对第一对象口播图像和更新后的字幕配音元素举行合成□,取得目 标口播视频。 [0208] 本仿单推行例中,方法S801,以及S805、S807、S809中的细化能够参睹上述图7对 应的推行例中,正在此不再赘述。 [0209] 其它□□,必要证实的是,本仿单推行例中对象模板口播视频中的人像元素、用于训 练配景识别模子等所涉及的人像的操练图像、用于调换对象模板口播视频中人像元素的预 设人像元素,以及更新后的人像元素等人像元素○,均为经用户、肖像全豹者授权或者经历各 方弥漫授权的讯息。 [0210] 上述推行例中,正在合成对象口播视频进程中□○,连接配音讯息确定的神志编码讯息, 以及征求用户抉择的人像元素的视频帧图像□○,天生对象口播视频中的每一帧对象口播图 像○○,能够基于声响驱动对象模板口播视频中播音职员播音进程中的神志,正在擢升取得的目 标口播视频中播音职员的的确性和自然性的同时,大大擢升创制的对象口播视频中人物形 象的众样性和丰厚性。 [0211] 正在一个可选的推行例中○□,正在上述起码一个视频元素征求人脸元素的情形下,上述 举措还能够征求: [0212] 反映于基于人脸元素对应的编辑操作区域触发的人脸编辑指令,正在视频创筑页面 浮现起码一个预设人脸图像; [0213] 反映于基于任一预设人脸图像触发的第二抉择指令,基于第二抉择指令对应的预 设人脸图像□,更新编辑操作区域中浮现的人脸元素; [0214] 相应的○,上述基于对象模板口播视频和更新后的字幕配音元素,天生对象口播视 频能够征求: [0215] 基于对象模板口播视频、更新后的字幕配音元素和更新后的人脸元素,天生对象 口播视频□。 [0216] 正在一个可选的推行例中□,用户能够通过点击人脸元素对应编辑操作区域触发人脸 编辑指令;可选的,正在光标位于某一人脸元素对应编辑操作区域的情形下,该人脸元素对应 编辑操作区域中能够浮现用于触发该人脸元素退换的“退换人脸”控件□○,可选的,用户能够 通过点击“退换人脸”控件的形式触发人脸编辑指令。正在一个可选的推行例中,起码一个预 设人脸元素能够通过弹窗的形式浮现正在视频创筑页面○○。 [0217] 正在一个的确的推行例中□,预设人脸元素可认为预先基于天生式分裂搜集(GAN, Generative Adversarial Networks)从的确人脸图像中提取特点讯息后天生的○,进而能够 16 16 CN 113411655 A 仿单 14/20页 正在担保图像的确性的本原上,大大擢升图像的众样性。 [0218] 正在一个可选的推行例中,用户能够通过点击预设人脸元素对应浮现区域的形式触 发第二抉择指令;可选的,正在光标位于某一预设人脸元素对应浮现区域的情形下○□,该预设人 脸元素对应浮现区域中能够浮现用于触发该预设人脸元素抉择的“行使人脸”控件○,可选 的○□,用户能够通过点击“行使人脸”控件的形式触发第二抉择指令。 [0219] 上述推行例中,通过人脸元素对应编辑操作区域触发的人脸编辑指令,能够便于 用户正在洪量预设人脸元素中举行人脸元素抉择□○,能够擢升创制的对象口播视频中人物气象 的众样性和丰厚性。 [0220] 正在一个可选的推行例中□○,如图9所示,基于对象模板口播视频、更新后的字幕配音 元素和更新后的人脸元素,天生对象口播视频能够征求以下方法: [0221] 正在方法S901中,获取对象模板口播视频对应的视频帧图像; [0222] 正在方法S903中○□,基于人脸检测模子对视频帧图像举行人脸检测□,取得人脸区域图 像。 [0223] 正在一个的确的推行例中○□,人脸检测模子可认为基于洪量征求人脸的操练图像和训 练图像中人脸区域的地点标注讯息,对第四预设深度研习模子举行操练取得的。相应的○,基 于人脸检测模子对视频帧图像举行人脸检测○,能够取得视频帧图像中人脸区域的地点信 息,进而,能够连接该地点讯息,提取人脸区域图像□○。 [0224] 正在方法S905中○,将人脸区域图像和更新后的人脸元素输入人脸合成模子举行人脸 合成管理,取得对象人脸图像; [0225] 正在一个的确的推行例中□○,人脸合成模子可认为天生式分裂搜集中天生器,相应的, 将人脸区域图像和更新后的人脸元素输入人脸合成模子举行人脸合成管理○,取得的对象人 脸图像能够更好的与对象模板口播视频对应的视频帧图像中人物举行合成。 [0226] 正在方法S907中□,基于对象人脸图像和视频帧图像,确定第二对象视频帧图像。 [0227] 正在一个的确的推行例中,能够连接视频帧图像中人脸区域图像的地点讯息□,将目 标人脸图像调换该人脸区域图像□○,取得对应的第二对象视频帧图像○。 [0228] 正在方法S909中,按照更新后的字幕配音元素中的配音讯息确定视频帧图像中对象 对象的神志编码讯息; [0229] 正在方法S911中○,将神志编码讯息和第二对象视频帧图像输入视频帧编码模子举行 视频帧编码管理,取得第二对象口播图像; [0230] 正在方法S913中□□,对第二对象口播图像、更新后的字幕配音元素举行合成,取得对象 口播视频。 [0231] 本仿单推行例中,方法S901,以及S909、S911、S913中的细化能够参睹上述图7对 应的推行例中,正在此不再赘述。 [0232] 其它○,必要证实的是□○,上述对象模板口播视频中的人脸元素、用于操练人脸检测模 型等涉及的人脸的操练图像、用于调换对象模板口播视频中人脸元素的预设人脸图像○,以 及更新后的人脸图像等人脸元素□□,均为经用户、肖像全豹者授权或者经历各方弥漫授权的 讯息○。 [0233] 上述推行例中○○,正在合成对象口播视频进程中,连接配音讯息确定的神志编码讯息□, 以及征求用户抉择的人脸元素的视频帧图像□,天生对象口播视频中的每一帧对象口播图 17 17 CN 113411655 A 仿单 15/20页 像□,能够基于声响驱动对象模板口播视频中播音职员播音进程中的神志,正在擢升取得的目 标口播视频中播音职员的的确性和自然性的同时,大大擢升创制的对象口播视频中人物形 象的众样性和丰厚性。 [0234] 正在一个可选的推行例中,正在起码一个视频元素征求配景元素的情形下,上述举措 还能够征求: [0235] 反映于基于配景元素对应的编辑操作区域触发的配景编辑指令□○,正在视频创筑页面 浮现起码一个预设配景元素; [0236] 反映于基于任一配景元素触发的第三抉择指令,基于第三抉择指令对应的预设背 景元素,更新编辑操作区域中浮现的配景元素; [0237] 相应的□○,上述基于对象模板口播视频和更新后的字幕配音元素,天生对象口播视 频能够征求: [0238] 基于对象模板口播视频、更新后的字幕配音元素和更新后的配景元素,天生对象 口播视频。 [0239] 正在一个可选的推行例中○○,用户能够通过点击配景元素对应编辑操作区域触发配景 编辑指令;可选的□□,正在光标位于某一配景元素对应编辑操作区域的情形下□,该配景元素对应 编辑操作区域中能够浮现用于触发该配景元素退换的“退换配景”控件,可选的,用户能够 通过点击“退换配景”控件的形式触发配景编辑指令。正在一个可选的推行例中,起码一个预 设配景元素能够通过弹窗的形式浮现正在视频创筑页面。 [0240] 正在一个的确的推行例中,预设配景元素可认为收集的配景图像。 [0241] 正在一个可选的推行例中,用户能够通过点击预设配景元素对应浮现区域的形式触 发第三抉择指令;可选的,正在光标位于某一预设配景元素对应浮现区域的情形下,该预设背 景元素对应浮现区域中能够浮现用于触发该预设配景元素抉择的“行使配景”控件○,可选 的,用户能够通过点击“行使配景”控件的形式触发第三抉择指令。 [0242] 上述推行例中○□,通过配景元素对应编辑操作区域触发的配景编辑指令,能够便于 用户正在洪量预设配景元素中举行配景元素抉择,能够擢升创制的对象口播视频中场景的众 样性和丰厚性□。 [0243] 正在一个可选的推行例中,如图10所示□○,上述基于对象模板口播视频、更新后的字幕 配音元素和更新后的配景元素○□,天生对象口播视频能够征求以下方法: [0244] 正在方法S1001中○,获取对象模板口播视频对应的视频帧图像; [0245] 正在方法S1003中,基于更新后的配景元素,对视频帧图像举行配景调换管理,取得 第三对象视频帧图像□○。 [0246] 正在一个的确的推行例中,基于更新后的配景元素○□,对视频帧图像举行配景调换处 理○,取得第三对象视频帧图像能够征求基于人像识别模子对视频帧图像举行人像识别,得 到视频帧图像中的对象对象图像;基于对象对象图像与更新后的配景元素天生第三对象视 频帧图像; [0247] 正在一个的确的推行例中,人像识别模子可认为基于洪量征求人像的操练图像和训 练图像中人像的地点标注讯息○□,对第五预设深度研习模子举行操练取得的○。 [0248] 正在方法S1005中,按照更新后的字幕配音元素中的配音讯息确定视频帧图像中目 标对象的神志编码讯息; 18 18 CN 113411655 A 仿单 16/20页 [0249] 正在方法S1007中,将神志编码讯息和第三对象视频帧图像输入视频帧编码模子进 行视频帧编码管理,取得第三对象口播图像; [0250] 正在方法S1009中○□,对第三对象口播图像、更新后的字幕配音元素举行合成,取得目 标口播视频。 [0251] 本仿单推行例中,方法S1001,以及S1005、S1007、S1009中的细化能够参睹上述 图7对应的推行例中,正在此不再赘述。 [0252] 其它,必要证实的是,用于创制对象口播视频的人像元素、人脸元素、配景元素等, 均为经用户授权或者经历各方弥漫授权的讯息□○。 [0253] 上述推行例中,正在合成对象口播视频进程中,连接配音讯息确定的神志编码讯息, 以及征求用户需求抉择的配景元素的视频帧图像,天生对象口播视频中的每一帧对象口播 图像○○,能够基于声响驱动对象模板口播视频中播音职员播音进程中的神志,正在擢升取得的 对象口播视频中播音职员的的确性和自然性的同时□○,大大擢升创制的对象口播视频中场景 的众样性和丰厚性。 [0254] 图11是按照一示例性推行例示出的一种口播视频天生安装框图。参照图11,该装 置征求: [0255] 视频创筑页面显示模块1110,被装备为履行显示视频创筑页面,视频创筑页面包 括对象模板口播视频的编辑操作区域○,编辑操作区域中浮现有对象模板口播视频对应的至 少一个视频元素;起码一个视频元素征求字幕配音元素; [0256] 字幕配音元素更新模块1120○○,被装备为履行反映于基于字幕配音元素对应的编辑 操作区域触发的字幕配音编辑指令,更新字幕配音元素对应的编辑操作区域中浮现的字幕 配音元素; [0257] 对象口播视频天生模块1130○,被装备为履行反映于视频天生指令○,基于对象模板 口播视频和更新后的字幕配音元素,天生对象口播视频。 [0258] 可选的□○,字幕配音元素对应的编辑操作区域征求第一字幕配音控件○○,第一字幕配 音控件用于触发基于文本讯息更新字幕配音元素中的字幕讯息和配音讯息;字幕配音元素 对应的编辑操作区域还征求文本编辑区域; [0259] 字幕配音元素更新模块征求: [0260] 对象文本讯息获取单位,被装备为履行若检测到基于文本编辑区域触发的文本编 辑指令,获取文本编辑指令对应的对象文本讯息; [0261] 第一配音字幕更新单位□□,被装备为履行基于对象文本讯息更新对象模板口播视频 对应的配音讯息和字幕讯息; [0262] 字幕讯息浮现更新单位○,被装备为履行正在文本编辑区域中浮现更新后的字幕信 息,并播放更新后的配音讯息○□。 [0263] 可选的,字幕配音元素对应的编辑操作区域还征求第二字幕配音控件,第二字幕 配音控件用于触发基于音频讯息更新字幕配音元素中的字幕讯息和配音讯息;字幕配音元 素对应的编辑操作区域还征求音频装备控件; [0264] 字幕配音元素更新模块征求: [0265] 对象音频讯息获取单位,被装备为履行若检测到基于音频装备控件触发的音频配 置指令○□,获取音频装备指令对应的对象音频讯息; 19 19 CN 113411655 A 仿单 17/20页 [0266] 第一配音字幕更新单位,被装备为履行基于对象音频讯息更新对象模板口播视频 对应的字幕讯息和配音讯息; [0267] 字幕讯息浮现单位,被装备为履行正在字幕配音元素对应的编辑操作区域中浮现包 括更新后的字幕讯息的文本编辑区域。 [0268] 可选的○,字幕配音元素对应的编辑操作区域还征求文本样式编辑区域;上述安装 还征求: [0269] 第雷同式讯息更新模块,被装备为履行反映于基于文本样式编辑区域触发的第一 样式编辑指令,更新文本编辑区域中浮现的更新后的字幕讯息的样式讯息□。 [0270] 可选的○,字幕配音元素对应的编辑操作区域还征求闭节文本的样式编辑区域;上 述安装还征求: [0271] 第二样式讯息更新模块○□,被装备为履行反映于基于样式编辑区域触发的第二样式 编辑指令,更新文本编辑区域中浮现的对象闭节文本的样式讯息□○,对象闭节文本为更新后 的字幕讯息中基于预设标识标注的字幕讯息。 [0272] 可选的,起码一个视频元素还征求人像元素,上述安装还征求: [0273] 预设人像元素浮现模块,被装备为履行反映于基于人像元素对应编辑操作区域触 发的人像编辑指令,正在视频创筑页面浮现起码一个预设人像元素; [0274] 人像元素浮现更新模块,被装备为履行反映于基于任一预设人像元素触发的第一 抉择指令,基于第一抉择指令对应的预设人像元素,更新编辑操作区域中浮现的人像元素; [0275] 对象口播视频天生模块1130还被装备为履行基于对象模板口播视频、更新后的字 幕配音元素和更新后的人像元素,天生对象口播视频。 [0276] 可选的○,对象口播视频天生模块1130征求: [0277] 第一视频帧图像获取单位○□,被装备为履行获取对象模板口播视频对应的视频帧图 像; [0278] 人像调换管理单位,被装备为履行基于更新后的人像元素,对视频帧图像举行人 像调换管理,取得第一对象视频帧图像; [0279] 第一神志编码讯息确定单位,被装备为履行按照更新后的字幕配音元素中的配音 讯息确定视频帧图像中对象对象的神志编码讯息; [0280] 第一视频帧编码管理单位□○,被装备为履行将神志编码讯息和第一对象视频帧图像 输入视频帧编码模子举行视频帧编码管理,取得第一对象口播图像; [0281] 第一视频合成单位○□,被装备为履行对第一对象口播图像和更新后的字幕配音元素 举行合成,取得对象口播视频。 [0282] 可选的,起码一个视频元素还征求人脸元素,上述安装还征求: [0283] 预设人脸图像浮现模块○,被装备为履行反映于基于人脸元素对应的编辑操作区域 触发的人脸编辑指令,正在视频创筑页面浮现起码一个预设人脸图像; [0284] 人脸元素浮现更新模块,被装备为履行反映于基于任一预设人脸图像触发的第二 抉择指令,基于第二抉择指令对应的预设人脸图像,更新编辑操作区域中浮现的人脸元素; [0285] 对象口播视频天生模块1130还被装备为履行基于对象模板口播视频、更新后的字 幕配音元素和更新后的人脸元素□○,天生○□。 [0286] 可选的,对象口播视频天生模块1130征求: 20 20 CN 113411655 A 仿单 18/20页 [0287] 第二视频帧图像获取单位,被装备为履行获取对象模板口播视频对应的视频帧图 像; [0288] 人脸检测单位,被装备为履行基于人脸检测模子对视频帧图像举行人脸检测□○,得 到人脸区域图像; [0289] 人脸合成管理单位○○,被装备为履行将人脸区域图像和更新后的人脸元素输入人脸 合成模子举行人脸合成管理,取得对象人脸图像; [0290] 第二对象视频帧图像确定单位,被装备为履行基于对象人脸图像和视频帧图像, 确定第二对象视频帧图像; [0291] 第二神志编码讯息确定单位,被装备为履行按照更新后的字幕配音元素中的配音 讯息确定视频帧图像中对象对象的神志编码讯息; [0292] 第二视频帧编码管理单位,被装备为履行将神志编码讯息和第二对象视频帧图像 输入视频帧编码模子举行视频帧编码管理,取得第二对象口播图像; [0293] 第二视频合成单位□,被装备为履行对第二对象口播图像、更新后的字幕配音元素 举行合成,取得对象口播视频□。 [0294] 可选的,起码一个视频元素还征求配景元素○,上述安装还征求: [0295] 预设配景元素浮现模块,被装备为履行反映于基于配景元素对应的编辑操作区域 触发的配景编辑指令,正在视频创筑页面浮现起码一个预设配景元素; [0296] 配景元素浮现更新模块○○,被装备为履行反映于基于任一配景元素触发的第三抉择 指令□○,基于第三抉择指令对应的预设配景元素,更新编辑操作区域中浮现的配景元素; [0297] 对象口播视频模块还被装备为履行基于对象模板口播视频、更新后的字幕配音元 素和更新后的配景元素,天生对象口播视频。 [0298] 可选的,对象口播视频天生模块1130征求: [0299] 第三视频帧图像获取单位,被装备为履行获取对象模板口播视频对应的视频帧图 像; [0300] 配景调换管理单位□,被装备为履行基于更新后的配景元素□○,对视频帧图像举行背 景调换管理,取得第三对象视频帧图像; [0301] 第三神志编码讯息确定单位□□,被装备为履行按照更新后的字幕配音元素中的配音 讯息确定视频帧图像中对象对象的神志编码讯息; [0302] 第三视频帧编码管理单位○□,被装备为履行将神志编码讯息和第三对象视频帧图像 输入视频帧编码模子举行视频帧编码管理,取得第三对象口播图像; [0303] 第三视频合成单位○,被装备为履行对第三对象口播图像、更新后的字幕配音元素 举行合成○,取得对象口播视频。 [0304] 可选的○,对象口播视频天生模块1130征求: [0305] 第四视频帧图像获取单位,被装备为履行获取对象模板口播视频对应的视频帧图 像; [0306] 第四神志编码讯息确定单位□,被装备为履行按照更新后的字幕配音元素中的配音 讯息确定视频帧图像中对象对象的神志编码讯息; [0307] 第四视频帧编码管理单位□,被装备为履行将神志编码讯息和视频帧图像输入视频 帧编码模子举行视频帧编码管理□,取得第四对象口播图像; 21 21 CN 113411655 A 仿单 19/20页 [0308] 第四视频合成单位○□,被装备为履行对第四对象口播图像、更新后的字幕配音元素 举行合成,取得对象口播视频。 [0309] 闭于上述推行例中的安装,个中各个模块履行操作的的确形式一经正在相闭该举措 的推行例中举行了周密刻画○○,此处将不做周密论说证实。 [0310] 图12是按照一示例性推行例示出的一种用于视频天生的电子兴办的框图,该电子 兴办能够是终端,其内部机闭图能够如图12所示。该电子兴办征求通过体例总线贯穿的处 理器、存储器、模子接口、显示屏和输入安装○。个中□,该电子兴办的管理器用于供给阴谋和控 制本事。该电子兴办的存储器征求非易失性存储介质、内存储器□○。该非易失性存储介质存储 有操作体例和阴谋机步伐。该内存储器为非易失性存储介质中的操作体例和阴谋机步伐的 运转供给境遇。该电子兴办的模子接口用于与外部的终端通过模子贯穿通讯。该阴谋机程 序被管理器履行时以告竣一种口播视频天生举措。该电子兴办的显示屏能够是液晶显示屏 或者电子墨水显示屏,该电子兴办的输入安装能够是显示屏上笼罩的触摸层○□,也能够是电 子兴办外壳上配置的按键、轨迹球或触控板,还能够是外接的键盘、触控板或鼠标等。 [0311] 本范畴本领职员能够了解,图12中示出的机闭□,仅仅是与本公然计划干系的局部 机闭的框图,并不组成对本公然计划所行使于其上的电子兴办的限度○□,的确的电子兴办可 以征求比图中所示更众或更少的部件,或者组合某些部件,或者具有分歧的部件陈设□。 [0312] 正在示例性推行例中○○,还供给了一种电子兴办,征求:管理器;用于存储该管理器可 履行指令的存储器;个中,该管理器被装备为履行该指令○□,以告竣如本公然推行例中的口播 视频天生举措□○电子设置及存储介质pdf。 [0313] 正在示例性推行例中,还供给了一种阴谋机可读存储介质,使得电子兴办可能履行本公然推行例中的口播视频天生方 法。 [0314] 正在示例性推行例中,还供给了一种包蕴指令的阴谋机步伐产物,当其正在阴谋机上 运转时,使得阴谋机履行本公然推行例中的口播视频天生举措。 [0315] 本范畴一般本领职员能够了解告竣上述推行例举措中的全体或局部流程,是能够 通过阴谋机步伐来指令干系的硬件来完结○,该阴谋机步伐可存储于一非易失性阴谋机可读 取存储介质中○□,该阴谋机步伐正在履行时,可征求如上述各举措的推行例的流程。个中,本申 请所供给的各推行例中所行使的对存储器、存储、数据库或其它介质的任何援用○,均可征求 非易失性和/或易失性存储器□○。非易失性存储器可征求只读存储器(ROM)、可编程ROM (PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存□□。易失性存储器可征求 随机存取存储器(RAM)或者外部高速缓冲存储器○。行为证实而非部分,RAM以众种花式可得, 诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、巩固 型SDRAM(ESDRAM)、同步链道(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM (RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。 [0316] 本范畴本领职员正在推敲仿单及推行这里公然的出现后,将容易思到本公然的其 它推行计划□□。本申请旨正在涵盖本公然的任何变型、用处或者合适性蜕化□□,这些变型、用处或 者合适性蜕化听从本公然的日常性道理并征求本公然未公然的本本领范畴中的公知常识 或习用本领方法。仿单和推行例仅被视为示例性的,本公然的真正领域和精神由下面的 权柄央浼指出。 22 22 CN 113411655 A 仿单 20/20页 [0317] 该当了解的是,本公然并不部分于上面一经刻画并正在附图中示出的准确机闭□,并 且能够正在不摆脱其领域举行各类点窜和变革。本公然的领域仅由所附的权柄央浼来束缚。 23 23 CN 113411655 A 仿单附图 1/11页 图1 24 24 CN 113411655 A 仿单附图 2/11页 图2 25 25 CN 113411655 A 仿单附图 3/11页 图3 26 26 CN 113411655 A 仿单附图 4/11页 图4 27 27 CN 113411655 A 仿单附图 5/11页 图5 28 28 CN 113411655 A 仿单附图 6/11页 图6 29 29 CN 113411655 A 仿单附图 7/11页 图7 30 30 CN 113411655 A 仿单附图 8/11页 图8 31 31 CN 113411655 A 仿单附图 9/11页 图9 32 32 CN 113411655 A 仿单附图 10/11页 图10 图11 33 33 CN 113411655 A 仿单附图 11/11页 图12 34 34
798180_Leica_Viva_GS14_GS16_UM_v4-0-0_zh-徕卡适用仿单.pdf
本公然闭于一种口播视频天生举措、安装、电子兴办及存储介质,该举措征求显示视频创筑页面,视频创筑页面征求对象模板口播视频的编辑操作区域,编辑操作区域中浮现有对象模板口播视频对应的起码一个视频元素;起码一个视频元素征求字幕配音元素;反映于基于字幕配音元素对应的编辑操作区域触发的字幕配音编辑指令,更新字幕配音元素对应的编辑操作区域中浮现的字幕配音元素;反映于视频天生指令,基于对象模板口播视频和更新后的字幕配音元素,天生对象口播视频□□。操纵本公然推行例能够有用低重了口播视频创制本钱○□,且擢升了口播视频创制效