V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  LeeReamond  ›  全部回复第 60 页 / 共 91 页
回复总数  1816
1 ... 56  57  58  59  60  61  62  63  64  65 ... 91  
2021-11-11 15:11:58 +08:00
回复了 LeeReamond 创建的主题 问与答 有没有将近似的 hash 认为是相同 hash 的 hashset?
@binux 建议重修义务教育语文,本帖标题为“有没有将近似的 hash 认为是相同 hash 的 hashset ?”,一般认为 hash 是字符串结构,标题含义为,传统 hashset 精确匹配,如何应对不精确匹配的情况,不知道你在杠什么。另外实际使用中图片去重就是要对抗模糊剪裁缩放。实际使用场景就是互联网上的图片来源,相同图片会被各种裁剪 /调整比例 /反复压缩,我不知道你是哪里的实际使用经验,去重时不需要考虑这些问题。


@3dwelcome 老哥你是楼里唯一一个一直在认真回我的,我最后给你更新一下我的解决办法。首先我使用的 phash 算法没有进行 dct ,而是直接用 rgb 模式下的三平面的向量变化,也就是单个平面里面 8*8 向量的增加或减少来形成 hash 。我对我自己的场景做了一些小修改,因为我的图片大多为电脑或手机屏幕适配,通常为 16:9 或者 9 比 16 的近似比例,我把 8*8 稍微扩大了一些。

关于近似去重,最后采用的是多年前谷歌的近似 simhash 搜索的简化方法,需要储存结构做对应优化。其原理是,如果要求一个长度为 64 (或任意)的 binary ,与另一个等长 binary 的汉明距离小于 3 (意味着他们之间有 0 处或 1/2/3 处不同),那么只需要将 64 平均分割为 4 段,即使出现 3 处不同,4 段中的某一段一定完全相同。同理,如果要求距离小于 20 ,则平均分割为 21 段。将其转化为完全相同问题后,可以利用 hash 结构的索引能力,原先需要遍历十万次对比,现在只需要进行 4 次索引,挑选出完全相同的集合的并集,他们之中有可能存在不符合需求的结果,但符合需求的(汉明距离小于 3 )一定在其中,在此基础上进行完全搜索,即可精准定位。

使用这个方法后,原先的 100k 数量级对象总共需要进行 5 亿次遍历(加上我的向量数量为 800+,总计需要 4000 亿次向量相等计算),可以优化到非常低的水平,我目前的数据集大小是可以 1s 内出结果的,优化之前速度非常慢。
2021-11-10 00:49:00 +08:00
回复了 LeeReamond 创建的主题 问与答 有没有将近似的 hash 认为是相同 hash 的 hashset?
@binux 朋友你真的认真看主题了吗?主题询问的是近似字符串去重算法,而不是图片摘要算法,提到图片无非是为了进一步解释背景而已,你在这里叫嚷说有很多成熟算法,如果你很熟悉,不屑于参与这种低级讨论,请直接发关键字或文章链接,而不是反复地发“有很多,为什么你不用”。如果你认为相同图片经过合适算法的摘要本身就是相同的,那只能说既然是感知哈希,无非是精度问题

@yfugibr aaaaa 变成 bbbbb 的问题是输入顺序导致的,排序后应该问题不大
2021-11-09 12:17:41 +08:00
回复了 LeeReamond 创建的主题 Python Python 如何将上下文管理器中的段落执行多次?
@Vegetable 我知道,我觉得 timeit 不好用
2021-11-09 10:37:29 +08:00
回复了 LeeReamond 创建的主题 Python Python 如何将上下文管理器中的段落执行多次?
@SmiteChow 如果要多写一行 runner(inner)我感觉直接写 for _ in range(100)也一样了。。
2021-11-09 10:37:02 +08:00
回复了 LeeReamond 创建的主题 Python Python 如何将上下文管理器中的段落执行多次?
@SmiteChow 这个感觉好丑陋啊
2021-11-09 05:53:35 +08:00
回复了 auh 创建的主题 Windows windows11,盘多了,就没那多小毛病了。随意聊几个。
任务管理器找文件什么鬼。。任务管理器那么多功能,找文件常用度排第几?
2021-11-09 05:32:34 +08:00
回复了 LeeReamond 创建的主题 问与答 有大佬能描述一下用于查重的提取图像特征的算法吗?
@binux 排名最高的论文项目看不懂。看了看 python 最高 star 的实现代码,似乎是通过比较全局每个像素和平均值的大小关系,大于平均值就记为 1 ,小于平均值就记为 0 ,这么搞出来个一串的 hash 。这个如果调整过图片亮度之类的会不会就认为是两张图了
2021-11-02 21:55:18 +08:00
回复了 billowssun123 创建的主题 Windows Windows 如何设置在开机不解锁的情况下,软件正常自启?
印象中 win 好像是组策略设置的优先级比较高
2021-10-29 15:13:04 +08:00
回复了 LeeReamond 创建的主题 问与答 win11 的原生安卓有人用过了吗?
@sleepwalker 之前看好的也不过是文件系统虚拟化+win 的 hyperV 内核不需要内存,你这么一说感觉就是个第三方安卓模拟器啊
2021-10-29 15:06:25 +08:00
回复了 LeeReamond 创建的主题 问与答 win11 的原生安卓有人用过了吗?
@Osk 不是刚需,my phone 没有电脑上的 10T 空间
新技术里本身也是大部分也是炒概念的,平心而论现在单谈技术的话仍然说不上红海,还有无数的坑可以去填,然而这种情况下无论工业还是学术界拿出的 kpi 项目就有多少?噱头项目又有多少?还有多少既不是 kpi 又不是噱头但是经营不善胎死腹中的?再加上计算机底层有穷时,业务的掌握也有穷时,无限钻研技术本身是个伪命题。
2021-10-17 00:19:12 +08:00
回复了 zzfer 创建的主题 FFmpeg ffmpeg 精准切割视频优化相关的问题
@msg7086 所以按大佬所说 ffmpeg 的处理方式是,如果遇到非封闭 gop 就编码,而后续如果 gop 是完整的话就直接复制?我比较好奇因为我印象中用 ffmpeg 切割视频是没有转码时间的,基本一个复制文件的时间就结束了
2021-10-16 04:46:49 +08:00
回复了 zzfer 创建的主题 FFmpeg ffmpeg 精准切割视频优化相关的问题
@msg7086 这么说的话特定情况下能否实现无损?原编码每个 GOP 独立且恰好切割 GOP 帧数
2021-10-12 22:51:43 +08:00
回复了 LeeReamond 创建的主题 问与答 如何判断 png 图片是否存在 alpha 通道?
@yzwduck 带佬熟悉 webp 吗,这个格式有透明通道校验位之类的东西吗?我刚才发现图包里前面部分是 png,后面部分虽然扩展名是 png,但是二进制打开以后发现文件头是 RIFF:=WEBPVP8X....
2021-10-12 16:50:53 +08:00
回复了 LeeReamond 创建的主题 问与答 有什么编辑器可以方便地查看图片的二进制数据吗?
@unixeno 已经解决,vscode 的插件很好用
2021-10-12 16:50:34 +08:00
回复了 LeeReamond 创建的主题 问与答 如何判断 png 图片是否存在 alpha 通道?
@yzwduck 不过试了试发现不管什么图片 0x19 一律都是 6,它可能有一个空的 alpha 通道。。有什么其他办法识别吗..
@ysc3839 文本可以提取出来,但中间会掺杂一些跳转,人物,场景等等的命令,分散在不同文件里,具体应用场景一楼已经说了,比如目前作者做了 A 人物的剧情,而之后会加入 B 人物的剧情,或者对 A 人物增删,就会涉及到一些行的修改
2021-10-12 15:53:06 +08:00
回复了 LeeReamond 创建的主题 问与答 如何判断 png 图片是否存在 alpha 通道?
@yzwduck 带佬,言简意赅
@vance123 你可以直接说思路
@Ayahuasec 感谢回复。备份也不太现实唉,平板主要做影音娱乐设备,空间是缓存电影和漫画用的,没法频繁备份
1 ... 56  57  58  59  60  61  62  63  64  65 ... 91  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2526 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 32ms · UTC 06:38 · PVG 14:38 · LAX 22:38 · JFK 01:38
♥ Do have faith in what you're doing.