本文旨在介绍如何利用Anaconda进行软件的下载安装与使用,以及Jupyter Notebook的使用。文章将详细介绍数据挖掘实战——抖音用户浏览行为数据分析与挖掘的全过程,包括项目说明、项目意义、需要解决的问题或目标等。 首先,我们需要对项目进行选题与背景的介绍。本项目的目标是通过数据挖掘技术对抖音用户的浏览行为数据进行分析和挖掘,以获得有价值的信息和洞察,并将其应用于实际场景中,如用户个性化推荐、内容优化和广告定向投放等。 其次,我们需要了解项目的意义。在数据挖掘的背景下,抖音用户浏览行为数据分析与挖掘具有重要的意义。通过分析用户的兴趣和偏好,优化用户体验,提高内容的质量和吸引力,同时也可以为广告商提供更准确的定向投放服务,实现数据驱动的运营决策。 接下来,我们需要解决项目需要解决的问题或目标。A. 用户兴趣和喜好分析:通过分析抖音用户的浏览行为数据,了解用户对不同类型内容的偏好和兴趣。这可以帮助平台更好地了解用户需求,优化推荐算法,提供个性化的内容推荐,增加用户留存和活跃度。B. 内容优化和创新:通过数据挖掘,识别和分析受欢迎的内容类型、创意和趋势。这可以为内容创作者和平台运营者提供指导,优化现有内容,改进内容质量,吸引更多用户参与,并发现新的创意和趋势。C. 广告定向投放:利用用户浏览行为数据,了解用户的兴趣和偏好,为广告商提供精准的广告定向投放。通过分析用户行为模式,识别潜在的目标用户群体,并根据他们的兴趣和行为特征,将广告推送给最相关的用户,提高广告投放效果和转化率。D. 运营决策和业务优化:通过数据挖掘和分析,了解用户行为的变化趋势、活跃度和留存率等指标。这可以为抖音平台的运营决策提供依据,优化平台的功能设计、内容策略、资源分配和运营活动等,提升用户体验和平台的竞争力。 最后,我们将介绍如何使用Anaconda进行软件的下载安装与使用,以及如何使用Jupyter Notebook进行数据分析和可视化。我们还将展示一些代码示例,以帮助读者更好地理解和掌握这些工具的使用。 在抖音平台的用户行为分析中,通过对用户浏览行为的深入挖掘,我们能够识别出不同用户群体的特征、行为模式和偏好。这种分析不仅有助于了解用户群体的多样性,还能为不同用户提供更加个性化的内容和服务,从而满足他们的个性化需求。

数据收集

要有效地进行用户行为分析,首先需要获取包含用户观看记录、点赞记录、评论记录和分享记录等数据的数据集。这些数据可以从数据库中提取,通过网络爬虫获取,通过API访问数据源,或者与合作伙伴合作获得。此外,还可以利用与抖音平台的合作,直接从其API接口获取数据。

数据查看与预处理

在获取到数据后,接下来是数据查看与预处理阶段。这一阶段包括对数据的初步检查,确保数据的准确性和完整性;以及导入必要的Python包,如NumPy、Pandas,以便于后续的数据处理和分析。

数据查看

首先,我们需要熟悉数据集的结构,了解各个字段的含义。例如,uid表示用户ID,user_city表示用户的城市,item_id表示作品的ID,author_id表示作者的ID,item_city表示作品所在的城市,channel表示作品的频道,finish表示是否看完,like表示是否点赞,music_id表示音乐的ID,duration_time表示作品的时长,real_time表示具体发布时间,H、date表示时、天(发布)。

数据预处理

在数据查看之后,接下来是数据预处理阶段。这包括清洗数据,去除无效或错误的数据记录;转换数据格式,使其适合后续的分析处理;以及进行特征工程,提取对分析有用的特征。

应用机器学习模型

最后,将处理好的数据输入到机器学习模型中,如KMeans聚类算法,来识别用户群体的特征和行为模式。通过训练模型,我们可以预测用户的兴趣和喜好,为内容创作和运营策略提供指导。 通过上述步骤,我们能够从抖音用户浏览行为数据中获得有价值的信息,并将其应用于实际场景,如个性化推荐算法的改进、内容创作和运营策略的优化、广告投放的精准定向、平台功能设计的优化和用户体验的提升。

数据预处理与分析

在开始深入分析之前,我们首先对数据集进行初步的预处理工作。以下是对前5行数据的观察和处理步骤:

  1. 数据去重:确保数据集中没有重复的数据记录。

  2. 删除没有意义的列:移除不必要的列,只保留关键信息。

  3. 异常值检测:识别并处理异常数据点。

  4. 缺失值检查:确认数据集中的缺失值情况。

  5. 变量类型转换:将某些字段转换为适当的数据类型。

  6. 基本信息可视化:从不同维度展示观众、创作者和内容的基本画像。 接下来,我们将具体执行这些操作,并对结果进行分析。

    数据去重

    通过 drop_duplicates() 方法,我们已经成功去除重复的记录。现在,我们来查看去重前的数据集大小以及去重后的大小变化。

print(df.shape[0], "行数据")
print(df.drop_duplicates().shape[0], "行数据")

删除没有意义的列

为了确保数据集的简洁性,我们决定删除第一列(假设它没有实际意义)。

df = df.drop(df.columns[[0]], axis=1)

缺失值检查

使用 isnull() 函数来查看数据集中的缺失值数量。

print(np.sum(df.isnull()))

变量类型转换

接下来,我们将 real_timedate 字段转换为时间类型,同时将 id城市编码 转换为字符串类型,并去除其中的小数点。

df['real_time'] = pd.to_datetime(df['real_time'])
df['date'] = pd.to_datetime(df['date'])
df['id'] = df['id'].astype(str).str.strip('.')
df['城市编码'] = df['城市编码'].astype(str).str.rstrip('.')

基本信息可视化

最后,我们将展示观众、创作者和内容的基本信息,包括地区分布、用户数量等。

# 观众画像
user_info = df.drop_duplicates([`uid`]).groupby(['uid', 'user_city']).count().sort_values(by=[`uid`, `user_city`], ascending=False)
x1 = list(user_info.index)
y1 = user_info[`uid`].tolist()
len(y1)

结论

经过上述数据预处理和分析,我们得到了以下关键发现:

  • 数据集中的重复记录已被成功去重,去重后的数据集包含59232条记录。
  • 大部分用户集中在少数几个城市,其中编号为99的城市用户特别多,超过2000人;而编号为6、129、109、31的用户也超过了1000人。
  • 关注这些用户较多的城市有助于我们更好地理解目标受众,从而优化产品定位和营销策略。 内容重构: 在用户较少的城市,我们可以考虑采取地推或用户-用户推广策略,以增加该地区的用户数量。根据不同时间段的观看视频数量,我们发现下午的观看量较低,而22-23点是用户使用高峰期。因此,建议在高峰时段投放广告,以获得更高的曝光量。此外,在用户活跃的时段推荐优质内容,效果会更好。我们还注意到点赞率和完播率这两个指标与用户粘性和创作者收益有关。15点的点赞率和完播率较高,推测此时深度用户较多。 在统计时间内,周一到周三的观看人数较多,但总体观看次数基本在20-30万之间。因此,建议创作者选择在这些日子发布内容,以获得更多的观看数量。 关于观看路径,数据显示主要观看途径为App,但也有部分用户使用浏览器。为了拓宽观看渠道,我们可以考虑增加产品使用度。对于非主渠道观看,应制定策略提升转化,将流量引入主渠道。同时,针对主要渠道内容进行商业化策略投放,以提高效率。 在创作者画像方面,我们发现4地区的创作者最多,有超过5000人。此外,33、42、10地区也有较多的创作者。因此,我们需要关注创作者与地区的联系,尤其是创作内容如果和当地风俗环境人文有关。相邻近地区的优质创作者之间互动,可以更好地引流。 最后,我们对高产作者和高获赞作者进行了排名。其中,top5高产作者中,item_num[0]是最受欢迎的作品;top5高获赞作者中,item_num[0]和item_num[1]分别拥有最高的点赞数和完播率。 根据提供的内容,以下是重构后的内容: 4.3 内容画像 4.3.1 基本信息
  • 视频时长:视频时长主要集中在9-10秒,符合抖音“短”视频的特点。官方提供9/10秒专用剪视频模板,提高创作效率。创作者关注创意浓缩和内容提炼,视频分布在这两个时间点的爆发也能侧面反映用户刷视频的行为特征。 4.3.2 优质内容
  • 高点击:df.groupby([‘item_id’]).count().sort_values(by=[‘uid’],ascending=False)[‘uid’][:5]
  • 高点赞:df.groupby([‘item_id’]).sum().sort_values(by=[‘like’],ascending=False)[‘like’][:5]
  • 高频使用音乐:music = df.drop_duplicates([‘item_id’])[[‘item_id’,‘music_id’]] music.groupby([‘music_id’]).count().sort_values(by = [‘item_id’],ascending = False)[:5] (五)进阶分析 5.1 相关性分析
  • 由于变量非连续,采取spearman相关系数,制作相关性热力图。数据量比较大,几个数量性变量之间的相关性都比较小,其中看到finish和点赞之间的相关系数稍微大一些,可以一致反映用户对该视频的偏好。 5.2 留存率
  • 5.2.1 pv/uv 在2019年10月18日,用户进入使用高峰阶段,目标用户单人每天浏览多个视频。关注高峰时间段,是否是当下推荐算法起作用了? 5.2.2 710 留存率 用户留存率保持在40%+,且没有跌破30%,说明获取到的数据中忠实用户较多。存在一定可能性是因为数据只爬取了特定用户群体的行为数据,结合创作者数量>用户数量可得到验证。但一定程度可以反映软件留存这块做的不错。 (六)深度分析 6.1 客户价值判断 通过已观看数、完播率、点赞率进行用户聚类,价值判断:四类 三类 比较三类、四类的轮廓系数,确定聚为3类 可以大致对三类的内容做一个描述。 紫色:观看数量较少,但点赞完播率都非常高的:对内容观看有耐心,愿意产生额外性行为。因此通过观看兴趣内容打散、可以刺激用户观看更多视频。e.g.多推荐有悬念、连续性的短视频 绿色:观看数量适中,点赞率、完播率有所下滑,对这类用户的策略可以中和先后两种。 蓝色:观看数量非常多,点赞、完播率教室,这类用户更多会关注到视频前半段的内容,兴趣点可通过停留时间进行判断,但使用时间相对较长,反映产品依赖性,一定程度上来说算是核心用户。e.g.利用停留时间判断喜好,优化推荐算法,重点推荐前半段内容吸引力大的。🏆🏆🏆部分代码已省略–>可私信