在最近的研究过程中,我深入探讨了三大视频平台的推荐和审核机制。了解这些机制不仅有助于优化视频内容的生产流程,还能提升整体的视频质量。本文将记录我在研究过程中的一些发现和理解。 抖音的推荐系统是一个行为预测主导的去中心化机制。通过深度学习模型和神经网络技术,抖音能够更准确地预测用户的行为,从而做出更为灵活的判断。其内容分发流程可以分为三个阶段:
- 视频审核阶段:在这一阶段,抖音会进行机器初判,主要依据口播文案、视频字幕文案和画面内容进行合规性判断。AI技术用于识别文本、图像和声音中的违规内容,如侵权、低俗、违法违规、诱导和虚假宣传等。当视频进入冷启动阶段后,它会接触到一个庞大的流量池,约有15527649518人。
- 算法推荐阶段:在这一阶段,多模态特征识别技术被用来深度分析视频内容。文本特征通过NLP技术解析标题和字幕中的关键词;视觉特征利用图像识别技术提取视频中的画面元素;音频特征则通过声纹分析捕捉语音讲解中的关键词频率。平台会根据“打分机制”评估视频的后续推荐,综合考虑完播率、点赞率、评论率和转发率等指标。
- 流量分配机制:这一机制旨在打破“相似内容连续轰炸”的问题,通过算法主动“打散”高度相似的AIGC内容。此外,多兴趣召回机制也被引入,挖掘用户的隐藏兴趣点。与传统的单兴趣召回不同,多兴趣召回通过用户行为数据识别多个兴趣标签。 小红书的推荐系统则是以CES评分为核心,采用”内容标签+用户标签”的双向匹配机制。CES评分由点赞数(1分)、收藏数(1分)、评论数(4分)、转发数(4分)和关注数(8分)组成。内容识别流程包括初始流量池、标签匹配和CES评分评估三个步骤。其中,互动率(点赞、评论、收藏)是突破幼稚内容的关键,这三者是推荐优质笔记进入1w~100w流量池差异化的关键。 通过对抖音、小红书和小红书的深入研究,我认识到了它们各自独特的推荐和审核机制,这些机制不仅影响了内容的传播效率,也对用户的行为产生了深远的影响。在未来,随着技术的不断进步,视频平台的推荐和审核机制将继续发展和完善,以更好地服务于广大用户。 优质内容会按顺序进入覆盖1万、10万、100万以上的用户展示范围,其中用户的互动表现(如点赞、评论、收藏等行为的综合占比)是实现层级突破的关键因素。 小红书的召回周期很长,即使发布2-3个月的视频也会被找回进行流量推送,更注重长尾浏览。因此,在制作内容时,必须注重图文质量和实际功能性的内容,同时利用“搜索”功能推荐到优质内容。 视频号:私域撬动公域的社交推荐体系 视频号的推荐算法与抖音、快手等平台有本质区别,其核心逻辑是”私域流量撬动公域流量”,内容权重在三大平台中最低,约占50%,社交关系链权重较高。 推荐机制: 兴趣算法推荐:基于用户行为标签与内容特征标签的匹配,进行个性化推荐 内容审核流程: 上传视频并解码 机器审核文案、画面、声音是否存在违规行为 机器无法识别的内容,唤起人工审核 若作品已发布且被举报或流量异常,再次触发人工审核 违规判定标准:视频号对直播内容的审核更为严格,禁止录播、低互动行为、虚假演绎等 同时,平台对内容原创性、画质清晰度、互动真实性均有要求,私域流量中的”好友互动异常”(如短时间内大量点赞)可能被判定为违规 流量分配特点:视频号的流量分配更依赖社交关系链,初始流量主要来自关注者、好友和社群的自然流量,随后基于地理位置、兴趣标签等进行基础推荐 内容得分排序权重为:完播率>点赞数>评论数>点击扩展链接数量>转发数>收藏数 文本NLP拆词机制解析 抖音:子词级分词与深度语义理解 抖音的文本NLP处理采用子词级分词技术,主要基于以下方法: 分词基础算法:抖音使用前向最大匹配算法进行基础分词,同时结合BERT或RoBERTa等预训练模型进行语义分析。 关键词提取:抖音的NLP系统通过多模态特征提取技术,识别视频中的关键信息。文本特征提取主要依靠双向Transformer架构,能够同时考虑前后文信息,提高关键词提取的准确性。 标签化过程:抖音的标签化主要通过神经网络计算实现,系统会根据内容特征和用户行为,自动为视频打上精准的标签。这种标签化方式不再依赖传统的人工打标签,而是通过算法模型自动完成,更加高效和精准。 小红书:词典匹配与长尾词优化 小红书的文本NLP处理更注重关键词布局与搜索优化,其分词机制主要基于以下方法: 分词基础算法:小红书主要采用基于词典的分词算法,如正向最大匹配、逆向最大匹配等。 关键词优化策略:小红书在内容更新时,建议70%的内容是长尾词。 标签化技术:小红书的标签化主要依靠用户手动添加标签和NLP关键词提取相结合的方式。系统会根据打分模型和用户行为特征数据,实时调整推荐策略。 视频号:话题标签与BPE分词结合。视频内容检测,AI会结合文本(字幕、标题、视频简介)文本会结合NLP拆词,例如“上海东方明珠”会拆成“上海”、“东方明珠”两套词、图像(封面),封面的特征例如人脸、衣着等均为检测目标、音效(背景音乐)、视频画面(抽帧检测)等多模态特征进行合规审查。 生成式AI模型应用:如S-YOLO V5和Vision Transformer模型用于视频内容描述生成,结合注意力机制(Attention)增强关键帧识别,提升文本生成质量。