Ai视频翻译神器来袭!pyVideoTrans一键搞定字幕与配音,免费开源

article/2025/7/19 4:55:45

1.前言

各位小伙伴们,大家好呀!欢迎关注 天夏Ai,全网同名,我们致力于为大家挖掘和分享各种 精品实用的人工智能(Ai)资源,包括但不限于**:Ai黑科技工具软件、Ai副业创业项目、Ai智能硬件设备!**
  • **Ai 黑科技工具软件:**这些软件拥有强大的功能和创新的算法,无论是提升工作效率,还是满足个人兴趣爱好,都能为你提供独特的解决方案,让你在使用过程中感受到科技的魅力与力量。
  • **Ai 副业创业项目:**如果你正在寻找新的发展机会,我们的Ai副业创业项目或许能为你打开一扇新的大门。这些项目结合了当下热门的人工智能技术与市场需求,为你提供可行的商业模式和操作指南,助力你在创业的道路上迈出坚实的一步。
  • **Ai 智能硬件设备:**这些智能硬件设备在Ai绘画、Ai问答、Ai音频和Ai视频等多个领域发挥着重要作用,为用户提供了强大的计算能力和高效的数据处理能力,极大地提升了创作和处理效率。

无论你是科技爱好者,还是想要在事业上寻求突破,天夏Ai 都将是你的不二之选。在这里,你将发现人工智能的无限可能,获取更多精品实用的Ai资源,开启一段精彩的科技之旅。

2.pyVideoTrans介绍

pyVideoTrans 是一款开源免费的视频翻译配音软件,旨在帮助用户轻松地将视频内容从一种语言转换为另一种语言,并生成带有字幕和配音的新视频。用户可以免费下载和使用,无需登录或注册。

image.png

2.1.核心功能

  • 视频翻译:它能够识别原视频中的说话声,并自动生成字幕,然后翻译为目标语言字幕,接着为目标语言字幕配音生成音频,再将配音音频、目标语言字幕同原始视频合并,生成新的视频,从而实现视频翻译。
  • 语音识别转录:支持批量将音频或视频文件转录为SRT字幕
  • SRT字幕翻译:可将SRT字幕保持原格式和时间戳的前提下翻译为其他语言
  • 为字幕或文字配音:为SRT字幕或文字生成配音,支持多种配音渠道

此外还有 音频视频字幕合并、批量视频音频合并、批量视频字幕合并、人声背景音分离等辅助功能。

2.2.技术特点

  • 多种语音识别/配音/翻译渠道:集成了多种主流的语音识别、文字配音和翻译技术,包括 edgeTTS、Azure、OpenAI、GPT-SoVITS、Gemini 和 faster-whisper 等,提供了丰富的选择和高质量的翻译与配音效果。
  • 可完全离线:支持完全本地离线的视频翻译,确保用户在没有网络的情况下也能使用该软件,保护了用户的隐私和数据安全。
  • 支持API调用:方便开发者将该软件的功能集成到其他应用程序中,增强了软件的可扩展性和实用性。

2.3.使用优势

  • 免费+开源:pyVideoTrans 的代码在 GitHub 上开源,用户可以免费使用该软件,且没有任何功能限制,这使得用户可以根据自己的需求进行定制和优化。
  • 操作简便:软件提供了直观的操作界面,用户无需复杂的设置和操作即可完成视频的翻译和配音工作。
  • 高质量翻译与配音:通过集成多种先进的技术和工具,pyVideoTrans 能够提供高质量的翻译和配音效果,使翻译后的视频更加自然和流畅。

2.4.适用场景

  • 个人用户:对于个人用户来说,pyVideoTrans 是一个非常实用的工具,可以帮助他们轻松地将自己喜欢的视频翻译成不同的语言,满足个人的学习和娱乐需求。
  • 教育机构:教育机构可以利用该软件将教学视频翻译成多种语言,方便不同语言背景的学生学习和理解。
  • 企业用户:企业可以使用 pyVideoTrans 将产品介绍、培训视频等翻译成不同的语言,以满足全球市场的需求,提升企业的国际竞争力。

3.pyVideoTrans下载地址

pyVideoTrans已经放在网盘中,有需要的小伙伴可以免费自取!

链接:

https://pan.baidu.com/s/1aKM1dpMV4vCisEvT5FCKmA?pwd=tbr9

4.pyVideoTrans安装教程

4.1.下载已经解压好的v3.59文件夹中直接双击sp.exe即可使用v3.60,注意下载到中文路径下

image.png

注意,如果你自己解压,两个压缩包都需要解压,解压好的3.60里面的所有文件拷贝到解压好的3.59中,直接替换已经存在的文件即可!

image.png

image.png

4.2.软件运行成功界面

image.png

5.pyVideoTrans视频翻译使用教程

image.png

5.1.选择需要翻译的原始视频

  • 选择要处理的视频: 点击按钮,从电脑中选择一个或多个视频文件 (按住 Ctrl 键可多选)。
  • 文件夹: 选中此复选框,可以选择一个文件夹,软件将批量翻译该文件夹下的所有视频文件。
  • 清理已生成: 如果对同一个视频再次进行操作,默认会使用上次生成的缓存数据。如果需要重新生成所有文件,请选中此复选框。
  • 保存到..: 点击按钮,选择翻译后文件的保存位置。默认保存在原始视频所在目录下的 _video_out 文件夹中。
  • 仅保存视频: 翻译过程中会生成字幕文件、音频文件等中间文件。如果只需要最终的翻译视频,请选中此复选框。

5.2.设置翻译渠道

本软件会先将视频语音转换为字幕,然后再将字幕翻译成目标语言,翻译渠道用来完成字幕翻译工作。

  • 翻译渠道: 选择字幕翻译渠道。
  • 发音语言: 选择原始视频的人类说话语言。
  • 目标语言: 选择需要翻译的目标语言。
  • 网络代理: 如果使用需要 VPN 的翻译渠道 (例如 Google、OpenAI),在此处填写代理 IP 和端口。

5.3.设置配音渠道

翻译后的字幕文件将使用所选配音渠道生成音频文件

  • 配音渠道: 选择配音引擎。
  • 试听配音: 试听选择的配音角色效果。
  • 配音语速/音量/音调: 调整配音的语速、音量和音调。 语速和音量设置值表示相对于默认值的百分比增减量。例如,语速 15 表示比正常语速快 15% (1.15 倍速);音量 90 表示比正常音量高 90% (1.9 倍音量)。

5.4.设置语音识别

这是最重要的一步操作,将视频中的说话识别为文字并生成srt字幕

  • 语音识别: 选择语音识别引擎,用于将视频语音转换为字幕。 默认选择 faster-whisper,免费且可在本地运行。
  • 选择模型: 如果使用 faster-whisper 或 openai-whisper,可以选择不同的模型。模型越大,准确度越高,但运行速度越慢,消耗的资源也越多。 软件默认只包含 tiny 和 medium 两个模型,其他模型需要单独下载。 推荐使用 large-v2 或 large-v3-turbo 模型,效果最佳 (需要英伟达显卡和 CUDA/cuDNN 支持)。
  • 语音切割模式: 选择语音切割方式。建议使用默认的 整体识别 模式,效果更好。 均等分割 模式会将语音分割成时长相等的片段, 仅在使用faster-whisper/openai-whisper时可用.
  • 中文重新断句: 选中此选项,将使用阿里云的标点符号模型对中文进行重新断句,提高字幕质量。
  • 语音降噪: 选中此选项,将使用阿里云的语音降噪模型对语音进行降噪处理,提高识别准确率。

5.5.设置同步对齐

由于不同语言的语速和长度不同,翻译后的配音时长可能与原始视频不一致。 此部分用于调整字幕、配音和画面之间的同步。

  • 视频延长: 如果配音时长超过原始视频时长,选中此选项将在视频末尾添加静止画面,使视频时长与配音时长匹配。
  • 配音加速: 如果配音时长超过原始视频时长,选中此选项将加速配音,使其时长与视频时长匹配。(最大加速倍数为 3 倍,可在菜单 工具 -> 高级选项 中修改)
  • 视频慢速: 如果配音时长超过原始视频时长,选中此选项将降低视频播放速度,使其时长与配音时长匹配。(最大慢放倍数为 20 倍,可在菜单 工具 -> 高级选项 中修改)
  • 字幕嵌入: 选择字幕嵌入方式。
    • 不嵌入字幕: 不在视频中嵌入字幕。
    • 嵌入硬字幕: 将字幕永久嵌入到视频中,在任何播放器中都能显示。
    • 嵌入软字幕: 将字幕作为独立文件与视频一起保存,需要播放器支持才能显示。
    • 嵌入硬字幕(双): 嵌入原始语言和目标语言两种硬字幕。
    • 嵌入软字幕(双): 嵌入原始语言和目标语言两种软字幕。

  • 中日韩单行字符: 设置嵌入硬字幕时,中日韩语言每行字幕的最大字符数 (默认 20)。
  • 其他语言: 设置嵌入硬字幕时,其他语言每行字幕的最大字符数 (默认 60)。

5.6.处理背景音

  • 保留原始背景音: 选中此选项,将在翻译后的视频中保留原始背景音乐。注意:此选项会显著增加处理时间和系统资源消耗,并提高字幕生成的准确度。
  • 添加额外背景音频: 点击按钮,选择一个音频文件作为新的背景音乐。
  • 循环背景音: 如果新的背景音乐时长短于视频时长,选中此选项将循环播放背景音乐。
  • 背景音量: 调整背景音乐的音量。 值小于 1 为降低音量,大于 1 为提高音量。

5.7.开始执行

  • CUDA加速: 如果你有英伟达显卡并安装了 CUDA/cuDNN,选中此选项可以大幅提高翻译速度。

点击 开始执行 按钮,软件将开始翻译视频。

image.png

5.8.查看翻译结果

翻译完成后,点击进度条可以打开结果所在的文件夹。 翻译后的视频文件为 MP4 格式,其他文件是中间生成的素材文件 (例如 SRT 字幕文件、音频文件)。

image.png

更多功能教程可以查看官方文档: https://pyvideotrans.com/getstart

image.png

更多模型,考虑到很多小伙伴可能由于网络原因,无法下载模型,我这边也提前下载整理好了模型放到网盘中了,供给位小伙伴更加便捷使用!

6.结语

免责声明:

**版权:**我们作为资源的整理方,所有资源均来自互联网的优秀作者们,版权归原作者所有!如果侵犯到您的权益,请联系我本人,提供可充分证明权益的有效文件,我们会第一时间配合处理!

**说明:**资源由全网公开平台资源、圈子社群分享资源、和部分本人原创资源组成,仅供个人学习研究交流使用,除特别声明外,请勿用于商业用途,禁止用于非法用途,使用者需要自行承担法律责任,使用者需严格遵守国家法律法规。否则产生的一切后或由您自行承担,我们提供资源但是不对任何资源负法律责任,所有资源请在您下载后24小时删除!

**声明:**任何使用本人收集的资源产生的不测后果,本人不对此负任何责任!转载时请保留本信息,感谢!


附:

根据二00二年一月一日《计算机软件保护条例》第十七条规定:为了学习和研究软件内含的设计思想和原理,通过安装、显示、传输或者存储软件等方式使用软件的,可以不经软件著作权人许可,不向其支付报酬!

鉴于此,也希望大家按此说明学习和研究软件!谢谢!


寄语:愿我们在这充满机遇与挑战的Ai智能时代,勇敢探索,不断创新,收获无限可能与惊喜!!!


http://www.hkcw.cn/article/FyOqbmiFVD.shtml

相关文章

【文末送书】Python OpenCV从入门到精通

文章目录 🍔简介opencv🌹内容简介🛸编辑推荐🎄导读🌺彩蛋 🍔简介opencv OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉库,提供了丰富的图像处理和…

探秘海螺 AI 视频与计算机视觉算法的奇妙融合

目录 开篇:数字浪潮下的视频新变革 蓝耘 Maas 平台与海螺 AI 视频:崭露头角的视频创作利器 图片生成视频:化静为动的魔法 文本生成视频:文字到画面的奇妙转换 注册与登录 计算机视觉算法:海螺 AI 视频的核心驱动力…

第一人称动作识别文献阅读——LaViLa:从大型语言模型中学习视频表征信息

目录 摘要 Abstract 1 引言 2 准备工作 3 LaViLa 3.1 NARRATOR 3.2 REPHRASER 3.3 双编码器训练 总结 摘要 本周阅读的论文题目是《Learning Video Representations from Large Language Models》(《从大型语言模型中学习视频表征信息》)。本文…

外网访问内网海康威视监控视频的方案:WebRTC + Coturn 搭建

外网访问内网海康威视监控视频的方案:WebRTC Coturn 需求背景 在仓库中有海康威视的监控摄像头,内网中是可以直接访问到监控摄像的画面,由于项目的需求,需要在外网中也能看到监控画面。 实现这个功能的意义在于远程操控设备的…

基于PyQt5的UI界面开发——图像与视频的加载与显示

介绍 这里我们的主要目标是实现一个基于PyQt5和OpenCV的图像浏览和视频播放应用。用户可以选择本地的图像或视频文件夹,进行图像自动播放和图像切换以及视频播放和调用摄像头等操作,并且支持图像保存功能。项目的核心设计包括文件路径选择、图像或视频的…

浙江3名高中生深夜被困深山 成功获救未受伤

5月31日端午节晚上,三名高中生因降雨失温被困在浙江台州的大雷山。救援人员接到通知后迅速展开搜救行动,最终找到三人并提供了保温毯和雨衣等物资。所幸没有人员伤亡。网络视频显示,当晚天空下着大雨,民警、消防人员及救援队在集结搜寻。大雷山位于浙江省台州市中西部,是永…

西藏那曲双湖县发生3.6级地震 震源深度10公里

据中国地震台网正式测定,6月2日12时32分在西藏那曲市双湖县发生3.6级地震,震源深度10公里,震中位于北纬33.63度,东经89.36度。震中5公里范围内平均海拔约5344米。根据中国地震台网速报目录,震中周边200公里内近5年来共发生了70次3级以上地震,其中最大一次是2021年3月30日…

太原一路虎车在酒吧门口横冲直撞 警方已介入调查

6月2日凌晨4时许,有网友发帖称山西省太原市发生了一起越野车冲撞事件。当天上午,太原警方表示已接到报警并正在调查。根据网友发布的视频,这起事件发生在太原市小店区一商家门口。视频中一辆路虎越野车在前进和倒退时有冲撞物品的行为,路人纷纷避让,有人试图拉开路虎车门。…

苏州一医院医生被停工 误操作引发患者投诉

近日,苏州市立医院东区发生了一起B超检查项目的误操作事件。5月30日,患者王女士因身体不适前往医院就诊,医生开具了腹部B超检查单。然而,在实际操作中,超声科医生却误将其操作成阴道B超。这一错误在王女士察觉后才被发现。她询问项目名称时,实习医生仅背对回应“看错了”…

舟山多个海岛游客“被困” 当地回应 天气影响航班调整

6月1日和6月2日,一些在舟山海岛的游客发帖称,由于没有航班离岛,自己被困在海岛上。这些发帖者包括东极岛、枸杞岛等海岛的游客。据网友发布的图片显示,6月1日,东极海运发布提示:因受海面风浪影响,船舶无法航行,当天庙子湖至沈家门9:20、10:00航班停航,已购买该时段船票…

广铁计划加开列车321列 应对返程高峰

6月2日,端午小长假最后一天,广铁迎来返程客流高峰,旅客纷纷踏上归途。当天预计发送旅客237.3万人次,较去年增长9.3%。整个假期期间,旅客运输总体平稳有序。为满足出行需求,广铁集团优化调整运力,通过加开图外列车、动车组重联、增加夜间高铁等方式提升运力。6月2日计划加…

热刺决定解雇波斯特科格鲁,新主帅人选曝光 弗兰克成热门接班人

北京时间6月1日,热刺决定解雇波斯特科格鲁。托马斯-弗兰克成为热刺新教练的接班人选之一,马尔科-席尔瓦也在考虑名单上。此前法国媒体报道称,托特纳姆热刺本周与托马斯-弗兰克进行了直接接触,双方讨论了夏季转会计划和一些转会目标。责任编辑:zhangxiaohua

北京铁路抵京旅客75.8万 端午假期返程高峰

6月2日是端午假期的最后一天,中国铁路北京局预计发送旅客137万人次。其中,北京地区预计发送51.4万人次、到达75.8万人次。中午11点半,北京站迎来了一波出站客流高峰,旅客出站后迅速前往地铁站和出租车调度站。尽管短时间内出现客流高峰,但因地铁进站闸机全面开启,容纳能力…

章子怡晒照祝儿女节日快乐 陪伴是最好的礼物

6月1日,章子怡在社交平台上晒出女儿和儿子的照片,祝他们儿童节快乐。她写道:“陪伴孩子们的每一天都是上天的恩赐……陪伴就是给孩子们最好的礼物。节日快乐我的孩子,愿你们的童年如彩虹般绚烂,健康快乐地成长。”网友们纷纷留言表示,醒醒越来越像妈妈了。2023年10月23日…

郑钦文闯进法网8强 拿下359万奖金 鏖战三盘胜出

北京时间6月1日晚,法国网球公开赛1/8决赛中,郑钦文以7-6(5)、1-6、6-3战胜萨姆索诺娃,首次闯入法网8强,并获得430积分和44万欧元奖金。首盘比赛中,双方表现平稳,比分交替上升。进入中段后,两人互相破发,比赛变得越来越激烈,最终进入抢七局。在抢七局中,郑钦文表现出…

为中国高速列车发展护航 中南大学团队的创新与坚守

高铁已成为许多旅客出行的首选,但鲜为人知的是,高速列车流线型外形及碰撞吸能结构的设计背后,是中南大学轨道交通空气动力与碰撞安全技术创新团队的辛勤付出。我国首个准高速列车项目设立之初,长沙铁道学院(现中南大学)的几名青年教师敏锐地意识到空气动力学在高速列车发…

鸿蒙仓颉语言开发教程:自定义弹窗

假期第一天,祝大家端午节快乐。昨天观看了时代旗舰尊界S800的发布,不得不感慨这车真好啊~ 放假闲来无事,继续跟大家分享仓颉语言的开发教程,今天介绍一下自定义弹窗。 仓颉语言中的自定义弹窗和ArkTs类似&#xff0c…

shp转3d tiles在cesium渲染楼宇白膜

shp文件一般做gis的人都知道它是干嘛的,它是一种地理信息系统矢量数据格式,主要用于存储地理空间数据。但是在cesium中,通过Cesium3DTileset渲染白膜只能渲染3d tiles文件格式。所以我们需要工具去将shp文件转换成3d tiles格式。 我是使用的…

郑钦文请球童用帽子将蜜蜂送离场地 法网8强之路

北京时间6月1日晚,法国网球公开赛1/8决赛中,郑钦文以7-6(5)、1-6、6-3战胜萨姆索诺娃,首次闯入法网8强。她还获得了430积分和44万欧元奖金(约合人民币359万元)。首盘比赛中,双方开局平稳,比分交替上升。进入中段后,两人互相破发,比赛变得越来越激烈,最终进入抢七局…

俄版珍珠港?俄军事博主呼吁报复 乌无人机袭击引发紧张局势

就在俄乌定于6月2日举行的第二轮直接谈判前夕,俄罗斯境内发生了一系列袭击事件。当地时间6月1日,俄罗斯境内有五个空军基地遭遇大规模无人机袭击,乌克兰安全局宣称对此负责。这是乌军自俄乌冲突爆发以来对俄领土发动的最具渗透性的袭击之一。俄罗斯国防部认定这是一次“恐怖…