随着科技的不断发展,图片相似度比对技术已经相当成熟,所有视频文件都有MD5值,且互不重复。当一个视频初次上传到抖音或其他平台时,系统会自动读取该视频的MD5值并将其录入自己的数据库。发布视频时,抖音首先会读取视频的MD5值与数据库中的条目进行比对。如果发现一致的MD5值,则判定为搬运内容,否则继续进行下一步判断。 如果MD5值与数据库中已有条目不同,系统会继续截取视频的一部分进行关键帧抽取比对。由于全量分析会导致服务器负载过大,因此仅截取部分视频信息后上传至服务器供大家观看。当视频获得上百或千万级别的点赞或观看量时,再进行人工审核,判断是否违规。如果被认定为违规内容,则会被判定为搬运,否则进入下一个流量池。 抖音的视频断定标准包括过剪辑经历的用户都理解的码率、每秒25帧的画面活动和视频在中转服务器的四个动作:紧缩视频减小体积、音乐独立剥离、截取样张和样张比对。其中样张比对不仅对服务器内的视频是否重复进行判别,还对视频样张中的图片是否包含广告或敏感内容进行判别。虽然体系无法识别什么是违规内容,但它通过数据图片的比对和与服务器图片像素度的对比来保存记录。 当视频播放量达到百或千万级别时,推荐给人工复核。工作人员可以通过查看类似度来判定视频是原创还是搬运。例如,类似度91%、85%和80%的视频会被罗列出来,前五个或前十名的视频会被工作人员点击类似度检查,从而确定视频的原创性。