推荐算法已经成为互联网内容分发领域的一个核心组成部分,但围绕它的争议从未间断。这些争议包括推荐算法带来的标题党、低质量、甚至虚假内容以及信息茧房的问题。很多人对推荐算法技术存在误解,认为算法是给内容打上对应标签,再给用户打上对应的属性,最后通过数据运算,把对应标签的内容推荐给有对应属性的用户。实际上,随着机器学习技术的发展,抖音的推荐系统已几乎不依赖对内容或者用户打标签,而是通过复杂的神经网络计算,直接预测每个用户对每条内容可能产生的互动行为概率。 机器学习对推荐算法的主要贡献在于建立评分系统,在海量算力和海量供给的环境里,把用户行为抽象成数学里的映射关系,给用户推荐以他为标准的高评分内容的目标。算法会围绕用户的反馈建模,有没有点赞、看到了第几秒、写了什么评论、是否点开了作者主页……等等,这些互动都会让算法对一个用户的了解逐渐加深,是抖音推荐算法的“北极星指标”,最终越来越准确的“预测”用户行为的发生率,就是把反馈价值最高的视频推给用户。这意味着,在这个高密度的数据化时代,算法无需深入理解内容的具体类型或语义,就能高效预测用户的潜在兴趣和行为。 抖音背后的算法过去短视频平台的推荐算法是在给内容和用户打标签,然后去做相互匹配,甚至产生了很多教人在养号时怎么引导系统给自己打标签的玄学。然而,标签机制是人工编辑时代的经验残余,是让算法模仿人类的糊涂做法,只有在非常早期的推荐算法里才有用过,当机器学习的技术成熟之后,依靠几百个标签去理解内容的做法就完全被淘汰掉了。 近日,抖音安全与信任中心网站已上线试运营,公开了抖音算法推荐系统的原理、用户行为背后的算法推荐逻辑以及平台人工治理识别各类风险等内容。当前抖音推荐算法的核心逻辑可以简化为“推荐优先级公式”:综合预测用户行为概率×行为价值权重=视频推荐优先级。 抖音的推荐算法是一套高效的信息过滤系统,它利用人工智能机器学习技术来评估平台上发布的内容。在实际应用中,所有内容都会经过机器和人工的双重审核,以确保内容的质量和用户的兴趣匹配。 首先,内容会被机器识别,如果发现含有高危特征,则会被直接拦截;如果没有命中高危特征但模型判断有问题,则会送至人工审核。如果问题概率较低,则获得基础流量进入下一环节。此外,如果出现举报、评论区集中质疑或流量激增等情况,也会触发再次审核,并可能导致停止进一步推荐和分发。 抖音的推荐方法基于多种技术模型,包括协同过滤、双塔召回和Wide&Deep模型等。这些模型可以在完全“不理解内容”的情况下找到兴趣相似的用户,并将其他人感兴趣的内容推荐给该用户。其中,协同过滤推荐算法是最经典的推荐算法,它通过比较用户行为来分析和比较内容。而Wide&Deep模型则由Wide部分和Deep部分组成,前者让模型具有较强的“记忆能力”,后者则让模型具有“泛化能力”,能够发掘稀疏甚至从未出现过的稀有特征与最终标签相关性。 当Wide&Deep模型与协同过滤算法共同发挥作用时,平台既可以快速推荐热门内容,又能挖掘用户潜在的多样化兴趣,让小众内容能被更多用户关注。从推荐算法来看,抖音与国内外大部分内容推荐平台相似,包含召回、过滤、排序等环节,而从数以亿计逐渐减少到数以万计、数以千计,直到筛选出几条用户能够刷到的内容,一切都要依靠算法的「召回」能力。 在算法大时代,我们如何理解「召回」这一概念?假设有一个知道结果的球迷被问到“哪支球队是冠军”,他需要猜多少次才能确定答案?这就是数学模型的魅力所在。通过将32支球队编号从1到32,并逐步缩小范围,直到找到冠军所在的1号到16号区间,这种策略不仅简单高效,而且成本极低。 随着机器学习和深度学习技术的发展,推荐算法得以构建,极大地提升了信息分发的效率。这些算法能够在短时间内完成从行为发生到有效反馈的转换,几乎实现了即时调整,这有助于算法更精准地预测用户的行为。例如,抖音平台已经实现了“分钟级”实时反馈更新,展现了这一技术的巨大潜力。 然而,算法的本质是通过数据收集、特征工程、模型训练等复杂流程来复刻用户选择的不确定性。尽管这种方式提高了效率,但也存在局限性。例如,直接对深度内容进行加热尝试并未取得预期效果,反而可能干扰了内容的后续推荐。因此,抖音转而针对深度内容训练预估收藏和重复观看概率的模型,以提升深度内容分发的效率。 价值模型则是对用户的互动行为进行价值计算,通过对各类价值的加权,代表抖音对哪些动作可能更重要的理解。这种方法可以帮助抖音更准确地评估不同视频的价值,从而为推荐提供有力依据。 由于算法推送内容的规律性,近年来用户对“反向驯化”算法表现出浓厚兴趣。他们不连续点赞同类视频、不使用平台搜索记录、不定期清除浏览痕迹,通过刻意制造“数据噪声”来积极影响算法。这种做法迫使算法不断提升推荐服务水平,以满足用户的需求和偏好。 总之,算法大时代下,我们需要深入理解各种技术和方法的优势与局限,同时关注用户的需求和行为变化,以实现更加智能、高效的推荐系统。 推荐算法的本质是信息过滤系统,这和信息爆炸的环境有关。根据IDC的报告显示,全球产生的数据量2024年达159ZB,到2028年将达384ZB。需要说明的是,1ZB等于10万亿亿个Byte,如果以一部约两小时的4K电影约20G的大小来衡量,159ZB相当于7.95万亿部电影,连续播放这些电影需要约18亿年。这已完全超出了历史上任何一个时代需要处理的信息体量。 抖音每天新增视频高达亿数量级,而普通用户平均每天能够消费的视频撑死了也就几百条,那么在这有限的几百条视频里,怎么尽可能的确保它们都是用户喜欢的,就是算法需要不断精进的母题。不少人将算法视作信息茧房推手,但事实与之相去甚远。 信息茧房一词来源于美国法学教授凯斯·R·桑斯坦2006年出版的《信息乌托邦》,指如果人只关注和选择自我愉悦的内容,信息接触面便会越来越窄,困于自我编织的茧房中。事实上,这一概念提出时并非针对算法,也没有实证研究和量化数据支撑。 社交媒体、搜索引擎等不同网络平台实际上扩充了用户的信息源,不同观点的网络用户集群之间不会完全隔离,使用户接触到的信息多样性高于不使用这些平台的用户。但即使是最优秀的算法工程师,也无法脱离算法技术的种种理论和架构,简单解释为什么把某个视频推荐给了这些用户而非那些用户 —— 当每个用户都变成数据里的“点”时,用户无法纵览全貌,必然极易感觉身处黑盒当中。 此外,算法治理已成为当今平台面临的共同问题。中央网信办以压实网站平台主体责任为抓手,出台系列政策法规,构建算法备案、安全评估、监测检查、执法处罚等全流程监管体系,加强算法治理。只有提高算法设计的透明度和算法运行的可解释性,才能守好算法应用“责任田”。