每次上传视频都会被系统提示说这个视频已经有重复,通知是上传 10 分钟以后才发出来,所以估计是逐帧比较对齐?
有什么办法可以骗过这个自动重复检测系统?比如写个脚本随即改动像素数据...
有经验的指导一下
1
gelilaohuang 2017-04-28 12:51:19 +08:00 via Android 1
根据我做了半年的经验,没发现漏洞可寻…要么早点发要么自己加上各种字幕背景乐以及混合剪辑
|
2
wangleineo OP @gelilaohuang 加上字幕就可以了嘛?大部分图像还是一样的,识别不出来?
|
3
xy19009188 2017-04-28 12:54:37 +08:00 via Android 1
加入片头啥的就行了,也可以加水印
|
4
gelilaohuang 2017-04-28 12:59:04 +08:00 via Android
@wangleineo 为保发出去的每一条都不会重复我会把原视频做很多改动,比如加上下黑边栏,或者部分不重要的剪掉或者加速,一般外国的比较多,所以就手动加上翻译…很久没搞了…折腾时间回报少
|
5
lonelygo 2017-04-28 12:59:44 +08:00
逐帧比较计算资源代价太大,抽帧可能性比较大,而且有可能前面抽帧多,后面抽帧少(前面如果相似度高,就没有必要往后了)所以,这个逻辑应该成立。
加字幕,水印,片头,估计可破 |
6
gelilaohuang 2017-04-28 13:05:38 +08:00 via Android
@lonelygo let it be?
|
7
ZE3kr 2017-04-28 13:09:27 +08:00 via iPhone
也许就是逐帧比较,YouTube 有类似的做法(但只是将所有的视频与部分版权视频比较): https://support.google.com/youtube/answer/2797370?hl=zh-Hans 降低分辨率后做的比较
|
8
menc 2017-04-28 13:13:38 +08:00 1
别想了,我就是头条的,视频消重是机器学习算法做的,你这么搞没有用的。
|
9
menc 2017-04-28 13:16:46 +08:00 3
给你几篇参考资料看一下:
CNN 网络直接学习二进制特征 Learning to Hash Paper, Code and Dataset: http://cs.nju.edu.cn/lwj/L2H.html Learning to Hash for Big Data: A Tutorial 台湾中央研究院资讯科学研究所 Kevin (Ke-Yun) Lin 林可昀有多个开源项目: Kevin Lin, Jiwen Lu, Chu-Song Chen, Jie Zhou. Learning Compact Binary Descriptors with Unsupervised Deep Neural Networks. CVPR, 2016. 代码是基于 Caffe 的: https://github.com/kevinlin311tw/cvpr16-deepbit Huei-Fang Yang, Kevin Lin, Chu-Song Chen. Supervised Semantics-Preserving Hash via Deep Convolutional Neural Networks, TPAMI under revision. SSDH 代码是基于 Caffe 的: https://github.com/kevinlin311tw/Caffe-DeepBinaryCode K. Lin, H.-F. Yang, J.-H. Hsiao, C.-S. Chen. Deep Learning of Binary Hash Codes for Fast Image Retrieval. CVPR Workshop (CVPRW) on Deep Learning in Computer Vision, DeepVision 2015. 代码是基于 Caffe 的: https://github.com/kevinlin311tw/caffe-cvprw15 Slide: http://www.csie.ntu.edu.tw/~r01944012/deepworkshop-slide.pdf 卷积层特征聚合为全局特征 A Babenko, V Lempitsky. Aggregating Local Deep Features for Image Retrieval. ICCV 2015. 特征简称为 sum-pooled convolutional features (SPoC descriptors) G. Tolias, R. Sicre, and H. Jegou. Particular object retrieval with integral max-pooling of CNN activations. ICLR 2016. 特征简称为 R-MAC:Regional Maximum Activation of Convolutions Matlab/MEX 代码: http://cmp.felk.cvut.cz/~toliageo/soft.html Yannis Kalantidis, Clayton Mellina, Simon Osindero. Cross-dimensional Weighting for Aggregated Deep Convolutional Features. arxiv 2015. 特征简称为 CroW 代码为 Python: https://github.com/yahoo/crow 在 Paris、Oxford 和 Holidays 三个小规模图片搜索数据集上,CroW 的 mAP ( mean Average Precision )均高于 SPoC 和 R-MAC 等算法。 |
10
sadscv 2017-04-28 13:20:36 +08:00
哈哈顶楼上,顺便附上知乎关于 youtube 视频查重的问题讨论的链接
https://www.zhihu.com/question/54131172 |
11
wangleineo OP @menc 我就知道会有头条的在 V2。一个问题是我发的视频还是比较冷门的,在头条里面用各种关键字都找不到,你们是不是把站外的视频( youku 之类的)也索引了?
另外机器学习也不是不能骗: http://www.popsci.com/byzantine-science-deceiving-artificial-intelligence |
12
menc 2017-04-28 13:24:15 +08:00
@sadscv UTB 的长视频很多,因此 UTB 对模型性能要求特别高,在精度和性能之间要做 trade off,实际上如果按照 paper 精做的话,黑框什么的是没发过版权系统的,好在头条短视频多,体量也不如 UTB 大,可以把模型做的比较精细
|
13
menc 2017-04-28 13:28:17 +08:00
@wangleineo
没有索引站外视频,但是有版权方打预防针说我们哪些视频是不允许上的,因此也可能涉及到版权问题。 这篇 paper 当年非常火,基本是人人都知道的。然而实操性不强,因为用户是黑盒的,拿不到模型的信息。 如果你真有能力 train 一个 anti model 来欺骗这个模型,何苦还需要在头条号发视频呢你说是么:-) |
14
wangleineo OP @menc 模型做那么精细,肯定会有不少 false positive 吧?(很怀疑我的视频就是)有统计过吗? 你们的策略是,宁可错杀三千,也不放过一个?
|
15
wangleineo OP @menc 另外,好像头条的政策是是即使有重复,也可以发出来,只是系统不推荐了,是这样吗?还是说压根就没人看得见?
|
16
menc 2017-04-28 13:44:43 +08:00
@wangleineo 有几种状态的,只有最被版权方重视的那些视频(热门电视剧什么的)会最苛刻处理。
几种状态不知道能不能说,暂且不说了吧。 |
17
menc 2017-04-28 13:45:14 +08:00
@wangleineo 我记得误杀可以提人工的
|
18
wangleineo OP @menc 谢谢,我试试。
|
19
WhiteT 2017-04-28 13:52:22 +08:00
除了相似度非常高的,其他还是会人工 check 一遍,并不是『宁可错杀三千,也不放过一个』
|
20
wangleineo OP |
22
menc 2017-04-28 15:43:42 +08:00
@wangleineo 因为漏了真版权视频会收到律师函的,所以都要人工过一遍:-)
|
23
murmur 2017-04-28 15:54:01 +08:00
别人发的视频,你在转到头条上。。。等于。。你也有责任吧?
|
24
sobigfish 2017-04-28 16:43:25 +08:00
所以说 lz 不厌其烦发盗版视频到头条到底是为了什么?
|
25
wangleineo OP |
26
sobigfish 2017-04-28 18:42:37 +08:00
所以说大自然的搬运工?
|
27
wangleineo OP @sobigfish 而且是二手搬运工
|
28
murmur 2017-04-28 19:20:45 +08:00
@wangleineo 所以用户上传的东西就没有版权了么?好正义凛然
|
29
lonelygo 2017-04-29 10:37:39 +08:00
@gelilaohuang 嗯?怎么?
|
30
kidult 2017-04-29 11:35:04 +08:00
这年头做垃圾搬运工也好有技术含量
|
31
ShiHou 2017-04-29 11:36:57 +08:00
@menc 这几篇是把 Conv 当特征提取器然后做 hash,都是基于单帧的,混弄起来很容易。 头条现在还没有引进时间序列相关的算法么
|
32
wangleineo OP 不是垃圾,我都是精选的吉他演奏视频。要承认信息的聚合、筛选也是有价值的。
|
33
menc 2017-05-02 10:53:48 +08:00
|
34
ShiHou 2017-05-02 13:19:06 +08:00
|