地址发布 老王说明书 宣传中心
此板块只作为纯讨论

正经话题,不搞色情!贤者时间必备
查看: 236|回复: 8
收起左侧

[其他] 有需要txt大批量文件去重的吗

[复制链接]
发表于 2025-6-1 04:11:53 | 显示全部楼层 |阅读模式
本帖最后由 hhkky 于 2025-6-2 21:44 编辑
1 F& m# I) I$ s" H; C  X( Q1 w2 g/ q9 M! b(欢迎访问老王论坛:laowang.vip)
我用AI弄了个Python脚本用来去重txt。我存了很多txt,有很多改名的,但内容一致的;还有些重复下载,文件名不对;有些是章数长短不一致;还有些是改版的;靠一般的去重软件很难去除。所以我弄个脚本去除,原理是选取每一个txt文件开头的1500-2000字数进行对比,重复率满足0.6的,写入一个文件中,方便后期处理。有需要的我可以贴出来。
* _1 `+ w- ~. G: J( G( o我的参数是:70G,txt和epub,40000+文件。使用苹果macmini跑3个小时左右,windows快些。& ~) H( G/ G0 W7 Z  D9 E5 V(欢迎访问老王论坛:laowang.vip)
把压缩包解到同一个文件夹后点击这个
! d: J" ^- S. x0 `$ W+ e3 ?- ]" ?" H1 W% q(欢迎访问老王论坛:laowang.vip)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?免费注册

x
回复

使用道具 举报

发表于 2025-6-1 09:52:59 | 显示全部楼层
与其搞这个~不如教教我们怎么样用AI写一些自己能用的软件嘞~
1 h2 J5 D$ S- k3 r4 y+ i: f! s" e3 S授人以鱼不如授人以渔~* m0 h' x1 i! S* i( `7 L+ ]) i: N(欢迎访问老王论坛:laowang.vip)
通俗易懂的话~
回复 支持 反对

使用道具 举报

 楼主| 发表于 2025-6-1 18:11:31 | 显示全部楼层

改下错别字

本帖最后由 hhkky 于 2025-6-1 18:12 编辑 + \$ q/ y+ l3 b7 U+ M' ~, X' t(欢迎访问老王论坛:laowang.vip)
星空下的牧羊人 发表于 2025-6-1 09:528 F( u' r. \' L4 {2 j  _7 N(欢迎访问老王论坛:laowang.vip)
与其搞这个~不如教教我们怎么样用AI写一些自己能用的软件嘞~' ?% X5 a2 q; T$ N+ s( z: }& K(欢迎访问老王论坛:laowang.vip)
授人以鱼不如授人以渔~
) Z# R  c8 M0 R" I: h通俗易懂的话~ ...

  v' ]) x2 i3 r* o  {, L这个没啥好说的呀,本身最好懂点编程,不要精通,不需要你会编写代码, 有点理论基础就行,刚开始我问AI以上情况如何操作,回答相对不可行,但有部分措施,结合这些措施,我就想如果我手动操作怎么可行最高,就想到了读取开头字数字面意义上的对比,然后我把这些信息结合起来写了份需求(怎么写给AI提的需求,可以问AI),其实是需要自己结合信息承担产品经理的角色,准备一个测试案例,看下结果,不行就继续优化(给出问题最好,如运行时长,报错等),一步一步迭代,同时也把代码放到其他AI里面审核。
; C) {7 @* P7 }6 a/ B4 _* R以下是其中一段过程的提问词" |1 e1 g1 S$ {" X, f% j  k(欢迎访问老王论坛:laowang.vip)
有40000+的txt中文小说文本,需要打开系统的文件夹选择框选择文件夹(txt文本分布在多层子文件夹里)进行相似度匹配,每个文本抽取前1500-2000字进行对比,达到60%重复(字面重复率)就把对比的文件名信息和重复率写到总文件夹同级的txt文件中,不足字数的文件跳过,把信息写到另一个txt中,异常写入另一个txt中,python3,GPU加速(希望优先用 GPU,但兼容 CPU ),批量处理,并行计算,重新写能实现的代码,不再使用之前的代码,支持更多的文本编码

* w2 F' y% ]! z2 r2 g% P+ k( V7 E; q
回复 支持 反对

使用道具 举报

发表于 2025-6-1 19:48:25 | 显示全部楼层
需要的  TXT重复率太高了 而且好几百上千的文件真的不好挑
! ?5 A- D% P5 x. ~" L
回复 支持 反对

使用道具 举报

发表于 2025-6-1 22:57:31 | 显示全部楼层
曾经因为时间充裕,8 t% V- v# y1 h9 I% h4 a/ P% R(欢迎访问老王论坛:laowang.vip)
打算靠自己的人工干这事儿,
0 C5 A# H2 k% h' G0 B! A- U/ n9 M后来下了个70G的小说包,
3 ?$ G. t; }) _2 p. u就放弃这种不切实际的想法了。# A6 c* X) u; T& ^1 k) E(欢迎访问老王论坛:laowang.vip)
回复 支持 反对

使用道具 举报

发表于 2025-6-2 00:17:26 | 显示全部楼层
Duplicate Cleaner Pro! I  a/ _% t9 I) @2 h) G1 K(欢迎访问老王论坛:laowang.vip)
这个软件可以去重,我经常拿来对收集的网图去重,它的对比原理是哈希值(我不懂这是什么,它自己显示的)6 q* D. e+ o, d$ E2 j% u+ F(欢迎访问老王论坛:laowang.vip)
还可以在查重的时候选择完全相同,90%相似等,
. @5 r; P3 Z4 M$ ]* S3 m之前用它去除过重复的TXT,结果我觉得应该没问题(查出来之后我特地看了它查重的两个文件,确实都是相同的),但是毕竟我没办法把几百上千个查重出来的TXT都点开看一遍,所以不完全确定它真的正确。
0 g% z- k! N0 q' c- U5 K  P你可以试试,查出来别急着删除重复文件,自己比对一下。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2025-6-2 21:39:17 | 显示全部楼层
Marine233 发表于 2025-6-2 00:17
$ u2 e) d% p( ^, t1 A8 `. dDuplicate Cleaner Pro
- ?' Y" ^5 V% Y6 ]8 X这个软件可以去重,我经常拿来对收集的网图去重,它的对比原理是哈希值(我不懂这是 ...
& E0 r# d) x$ f7 b. ?(欢迎访问老王论坛:laowang.vip)
我有这个软件喔,用完这个去后还有大量的重复(MD5,同名,相似度)一边完后再用脚本跑的
" i/ E# {+ K: Z4 H
回复 支持 反对

使用道具 举报

 楼主| 发表于 2025-6-2 21:46:06 | 显示全部楼层
需要装下python3(最新的)和部分库,readme有描述
回复 支持 反对

使用道具 举报

发表于 2025-6-3 00:36:31 | 显示全部楼层
我下载下来试试。下载了几十G的小说,这东西还是有用的。如果ai能智能对小说进行分类就好了
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 免费注册
点击进行验证

本版积分规则

我们不生产资源,只做资源的搬运工。

app下载-tags标签-春满四合院-AvGood-Archiver-小黑屋- |网站地图