查看完整版本: 【简中-OCR字幕提取】RJ01261681-甜蜜女仆姐姐-cv柚木つばめ

Chace. 发表于 2024-12-2 12:01:35

【简中-OCR字幕提取】RJ01261681-甜蜜女仆姐姐-cv柚木つばめ

本帖最后由 Chace. 于 2024-12-2 14:24 编辑

楼主近日下载了别人分享的RJ01261681源文件,发现汉化的部分被内嵌进了MP4视频中。众所周知,内嵌字幕是嵌入视频流中的字幕,无法被直接提取。由于楼主十分不喜欢边听ASMR边看MP4动画,于是楼主使用锁定关键帧和OCR技术提取了视频的汉化字幕。分享的整个文件包含源文件的WAV格式音频,楼主提取的SRT格式和LRC格式的字幕,楼主转换的MP3音频,以及源文件中的其他文件。

Chace. 发表于 2024-12-2 14:18:13

emmmm,发帖编辑器实在是太难用了!这个贴发出来字数少了一半,图片顺序颠倒。想重新编辑并保存都不行。

Chace. 发表于 2024-12-2 14:25:00

参考项目:https://github.com/BruceHan98/OCR-Extract-Subtitles/

PaperMoon2004 发表于 2024-12-3 06:32:51

大佬,这个技术是不是需要有带字幕的视频才能完成提取?

大胖墩哈 发表于 2024-12-3 09:58:27

这资源也太大了:L

Chace. 发表于 2024-12-8 10:55:04

PaperMoon2004 发表于 2024-12-3 06:32
大佬,这个技术是不是需要有带字幕的视频才能完成提取?

不一定啊,也可以提取别的,你想提取的具体是什么?

Chace. 发表于 2024-12-8 11:00:04

大胖墩哈 发表于 2024-12-3 09:58
这资源也太大了

真正的音频文件只有1G左右(wav格式)或100兆(mp3)格式,下载下来再删除呗。不过,你的抱怨给了我经验,下次我会把音频文件单独分享出来。

WTZL 发表于 2025-1-25 09:37:04

可以从无字幕的音声里面提取字幕文件吗?

Chace. 发表于 2025-2-7 14:39:20

WTZL 发表于 2025-1-25 09:37
可以从无字幕的音声里面提取字幕文件吗?

可以,思路是利用特定的大模型进行识别并输出文本,接着使用翻译大模型翻译文本,最后人工复检。希望对你有启发 :)
页: [1]
查看完整版本: 【简中-OCR字幕提取】RJ01261681-甜蜜女仆姐姐-cv柚木つばめ