此次,我计划撰写一系列文章,深入介绍人工智能技术相关的产品体验。这些内容将围绕AI背后的核心技术关键词展开,旨在更贴近工业实践的尝试。 首先,我们将选择抖音作为代表进行探讨。为了更具针对性,我们将专注于抖音基于计算机视觉技术实现的几项高端功能。我们将从基本流程、满足用户需求、技术关键点以及整体体验感受这几个方面进行分析。我们希望通过这次体验,能够加深大众对计算机视觉技术及人工智能产品进程的认知。 抖音提供的功能非常多样,包括但不限于照片和视频的编辑处理,搞笑如各式贴纸、妆容变换、换头换脸、图像风格迁移等,浪漫如“吹蒲公英”,严肃如后台的“鉴黄”。下面,让我们开始我们的体验之旅吧~
- 美丑胖瘦收放自如 抖音作为一个广受欢迎的社交平台,其用户群体主要是90后追求潮流个性的年轻人。他们渴望刺激、表达自我价值,同时也需要消磨无聊时光。因此,抖音提供了变美、变丑、变瘦、变胖等功能,使得年轻人的互动被极大地多元化。整个操作过程简单且成本低廉,满足了用户的需求。同时,由于抖音平台本身的算法优势,功能的实时响应性能也十分优秀,基本只要脸一进入画面,立马就能实现拉伸和变形,用户基本感受不到延时,体验十分流畅。 抖音之所以能够成功,关键在于它擅长利用技术手段,以轻松的方式满足年轻人的需求和痛点,从而赢得了大量用户的喜爱。 首先,我们来谈谈抖音的脸部变换功能。这项功能主要基于人脸关键点检测技术来实现。通过定位脸部的关键部位,并在这些关键部位上对像素点进行变换,可以实现各种不同的效果。这种技术已经被广泛应用于直播和短视频中,如网易的游戏直播、YY直播等。基于该技术衍生出了许多有趣的功能,为用户带来了越来越新奇刺激的体验。 接下来,我们来看一下“换头”功能。为了实现这一效果,操作流程是:启动抖音来到拍摄页面,选中“狗头”或“猪头”图标,画面中的脸部就会被完全遮蔽。同时,如果用户眨眼或张嘴,画面中的相同部位会同步变换,录制的小视频中眨眼的猪头显得十分憨萌,用来撒娇应该百试百灵吧,整体体验十分新奇。 这个功能进一步提升了对年轻用户的刺激感,因为它满足了某些用户寻求刺激、表达自我意愿的同时,也想要制造一定的神秘感或羞涩感的需求。那么,到底是基于什么样的计算机视觉技术,可以如此精准地定位并恰到好处地实现“偷梁换柱”呢?实际上,该项功能的实现主要应用了图像语义分割技术。通过对人体进行语义分割,获得人体各个部位如头、脸、手、脚的位置及标签,并通过用户选定的工具模板,将对应部位替换,实现最终的“换头”。相比目标检测而言,图像语义分割是精确到像素点的分类,因而替换的过程看起来也更加智能和精准,用户体验更佳。但体验中发现不足的是,或许是算法分割准确率的问题,尝试张开嘴巴时,随之张开的却不是头像里狗的嘴巴,而是自己的血盆大口,而有些道具在使用中就不会出现类似情况,这可能也是当前产品的一个小Bug。 最后,我们来看看如何通过计算机视觉里的热门技术——图像风格迁移技术,来实现想要的风格。如图所示,上述功能实现的流程为:启动抖音app进入拍摄页面后,在道具库中选中白色的素描花朵图标,随后对输入的键盘画面即可进行风格的实时变换。原来低调科技风的键盘,瞬间变成了漫画素描式风格。同样地,也可以实现对人像的风格变换,看到自己的脸在画面里变成“漫画脸”,感觉也挺有意思的。 在抖音中,有一个功能可以让用户时刻保持警惕,防止被不良内容所影响。这个功能就是“鉴黄”按钮。 当用户打开抖音app后,点击进入拍摄页面,选中“鉴黄”按钮图标,画面里就可以看到有一张黄色图片。用户只需要盯着屏幕,眼睛睁大,就能实时识别出屏幕上的不良内容。一旦发现有不良内容出现,就会立即弹出提示,让用户远离这些不健康的内容。 这项功能是抖音独创的,旨在帮助用户时刻保持警惕,防止被不良内容所影响。同时,它也强化了抖音平台的健康、积极的形象。 实现这一功能的技术关键词是:人脸表情识别和图像识别技术。通过人脸表情识别技术,我们可以准确地判断出用户是否在注视屏幕上的不良内容;而图像识别技术则帮助我们实时识别出屏幕上的不良内容,并及时进行警告。 然而,这项功能也存在一定的局限性。首先,它只能检测到屏幕上的不良内容,而不能检测到用户手机中的其他应用或网页中的不良内容。其次,如果用户的手机摄像头被遮挡或者光线条件不佳,可能会导致误判。最后,由于算法的限制,有时可能无法准确识别出一些细微的不良内容,比如低质量的图片或者模糊的视频。 尽管存在这些不足之处,但“鉴黄”功能仍然为用户提供了一个安全、健康的使用环境。它提醒用户时刻保持警惕,远离不良内容,保护自己的身心健康。同时,它也体现了抖音平台对用户负责的态度,致力于为用户提供一个更加健康、积极的网络环境。 在直播和短视频应用的兴起过程中,监管问题层出不穷。抖音作为一个用户生成内容量庞大的平台,采用了基于深度学习的“图像分类”技术来智能监管用户上传的图片、视频资料。 在训练鉴黄系统的过程中,输入大量训练数据,这些数据都携带有对应标签,标签值标明了图片是否属于黄色图片范畴。模型通过学习并记住黄色图片的特征,并在面临新的输入图片或视频时,提取相应特征后,结合学习的经验判断该图片属于黄色图片的概率。最终分类概率高于一定阈值的内容会被标记为敏感选项,需要二次分流检测或人工鉴别。如此对图片/视频资料进行分类筛选,以保证内容的健康性。 相比之下,其他短视频或直播类的平台,如抖音,整体环境的营造以及内容的调性相对优良,色情、暴力及敏感内容较少。这背后强大的算法技术功不可没。 抖音属于头条系产品,在算法的性能及应用上本身就具有一定的优势。假以时日,一定可以推动鉴黄算法朝着自动化及智能化更上一层楼。 技术关键词:图像分类。 总结:我们可切实地感受到计算机视觉技术已不仅仅停留在理论层面,而是落地到许多产品中,为用户带来了许多活力与惊喜。而且往往在落地的过程中,“脑洞”和用户痛点的捕捉十分重要,因为技术本身没有温度。但是出色的AI产品人一定懂得如何结合用户的需求,从技术中看到无限可能,为用户创造更优秀新奇的体验,这也是人工智能落地的核心要义所在。人工智能正不知不觉地慢慢改变人类的生活,作为计算机视觉的从业者或爱好者,也应当保持对行业产品动态的持续关注。