一、项目整体框架
- 数据来源
- 数据集:抖音电商用户特征_数据集-阿里云天池
- 工具环境:Jupyter Notebook(Python)
- 项目背景与目标 基于抖音电商用户数据,通过Python对数据进行清洗和预处理,运用SQL对用户分层体系(RFM × 生命周期)和行为特征进行精细化分析,并结合用户画像,助力运营决策。关键业务问题包括量化用户价值和流失风险、动态划分用户生命周期阶段及对应规模和价值、挖掘不同层级用户在人口属性、消费习惯、兴趣偏好上的差异以及为提高留存、转化与挽回提供差异化策略。
- 数据字段及说明
字段名 | 说明
— | —
User_ID | 用户唯一标识
Age | 用户年龄
Gender | 用户性别
Location | 地区(郊区Suburban / 农村Rural / 城市Urban)
Income | 收入水平
Interests | 兴趣标签,如Sports、Food等
Last_Login_Days_Ago | 距离最后一次登录的天数
Purchase_Frequency | 购买频次
Average_Order_Value | 平均客单价
Total_Spending | 总消费金额
Product_Category_Preference | 产品品类偏好,如Apparel、Electronics
经过观察,数据中没有null值,但部分字段类型需要更改。接下来,我们将查看详细的数值型字段描述。
首先,我们使用
df.describe()方法来观察用户购买频次和消费金额的分布情况:
import pandas as pd
# 读取数据
data = pd.read_csv('D:\大学\简历\抖音电商用户行为分析\dy.csv')
# 观察数据
print(data.describe())
从输出结果可以看出,用户购买频次大多在7-11次之间,消费金额在15527649518之间。
接下来,我们将更改部分字段的字段类型。为此,我们使用astype()方法将Purchase_Frequency和Total_Spending字段的数据类型从字符串转换为浮点数(float):
# 更改字段类型
data['Purchase_Frequency'] = data['Purchase_Frequency'].astype(float)
data['Total_Spending'] = data['Total_Spending'].astype(float)
这样修改后,数据类型将更加准确,有助于避免因数据类型不匹配而导致的计算错误。 为了进一步确保数据处理的正确性,我们可以检查修改后的数据类型:
# 检查修改后的数据类型
data.dtypes
最后,为了保存处理后的数据,我们需要将其导出到CSV文件中。这里,我们将文件路径设置为D:\大学\简历\抖音电商用户行为分析\dy.csv,并将index=False参数传递给to_csv()函数,以便在导出时不包含索引列:
# 保存处理后的数据
data.to_csv(r'D:\大学\简历\抖音电商用户行为分析\dy.csv', index=False)
至此,我们已经完成了数据的导入、类型转换、检查以及导出过程。 根据您提供的内容,我将对内容进行重构并保持段落结构。以下是重构后的内容:
用户年龄与性别分布
SELECT CASE WHEN Age < 18 THEN ‘18岁以下’ WHEN Age BETWEEN 18 AND 24 THEN ‘18-24岁’ WHEN Age BETWEEN 25 AND 35 THEN ‘25-35岁’ ELSE ‘45岁以上’ END AS age_group, Gender, Location AS area_type, – 郊区Suburban/农村Rural/城市Urban SELECT Interests, Product_Category_Preference AS product_category, COUNT(User_ID) AS user_count FROM dy GROUP BY Interests, product_category HAVING user_count >= 5 – 筛选样本量≥5的有效组合 ORDER BY user_count DESC;
品类偏好分布
SELECT Interests, Product_Category_Preference AS product_category, COUNT(User_ID) AS user_count FROM dy GROUP BY Interests, product_category HAVING user_count >= 5 – 筛选样本量≥5的有效组合 ORDER BY user_count DESC;
用户行为特征分析
4.3 用户价值分层
RMF 模型是客户关系管理(CRM)和营销分析中常用的一种客户分层模型,通过三个核心指标对客户价值进行量化评估:最近一次消费时间(Recency)、消费频率(Frequency)、消费金额(Monetary),可以帮助企业识别高价值客户、制定精准营销策略。 Last_Login_Days_AgoPurchase_FrequencyTotal_Spending 重构后的内容如下:
WITH rfm_base AS ( SELECT User_ID, Last_Login_Days_Ago AS R, Purchase_Frequency AS F, Total_Spending AS M FROM dy ), rfm_score AS ( SELECT User_ID, -- R打分:登录天数越少,分数越高
CASE WHEN R <= 3 THEN 5
WHEN R <= 7 THEN 4
WHEN R <= 15 THEN 3
WHEN R <= 30 THEN 2
ELSE 1 END AS R_score, -- F打分:购买频率越高,分数越高
CASE WHEN F >= 10 THEN 5
WHEN F >= 5 THEN 4
WHEN F >= 3 THEN 3
WHEN F >= 1 THEN 2
ELSE 1 END AS F_score, -- M打分:消费金额越高,分数越高
CASE WHEN M >= 5000 THEN 5
WHEN M >= 2000 THEN 4
WHEN M >= 1000 THEN 3
WHEN M >= 500 THEN 2
ELSE 1 END AS M_score FROM rfm_base ), rfm_total AS ( SELECT User_ID, R_score + F_score + M_score AS Total_score FROM rfm_score ) SELECT User_ID, Total_score, CASE WHEN Total_score >= 12 THEN '高价值用户'
WHEN Total_score >= 8 THEN '中价值用户'
WHEN Total_score >= 4 THEN '低价值用户'
ELSE '流失用户' END AS User_Level FROM rfm_total ORDER BY Total_score DESC;
4.3.2 不同用户层级的品类偏好挖掘 在当今数字化时代,了解并分析不同用户层级的品类偏好对于企业制定有效的市场策略至关重要。通过深入挖掘和分析用户行为数据,我们可以揭示出不同用户群体对产品类别的偏好差异,从而为产品定位、营销策略和用户体验设计提供科学依据。 首先,我们需要收集和整理用户在使用产品过程中产生的数据,包括浏览历史、购买记录、评价反馈等。这些数据可以通过用户行为追踪工具、数据分析软件或直接的用户调查等方式获取。通过这些数据,我们可以构建一个用户画像,描绘出每个用户的基本特征、购买习惯、兴趣爱好等信息。 接下来,我们将根据用户画像对用户进行分层,将用户分为不同的层级,如普通用户、忠实用户、潜在用户等。每个层级的用户都有其独特的需求和偏好,因此需要有针对性地开展品类偏好挖掘工作。例如,对于普通用户,我们可以通过分析他们的浏览行为和购买记录,找出他们最常购买的产品类别,以及他们对产品的哪些特性最为关注;而对于忠实用户,我们则需要进一步深入了解他们的购买历史和反馈信息,挖掘出他们长期钟情的产品类别,以及他们对品牌和产品的忠诚度如何影响他们的品类选择。 在挖掘品类偏好的过程中,我们还可以利用一些先进的数据分析技术,如聚类分析、关联规则挖掘等,来发现不同用户群体之间的相似性和差异性。这些技术可以帮助我们更好地理解用户的需求和喜好,从而为企业提供更加精准的市场定位和产品推荐。 此外,我们还需要关注用户的地域、年龄、性别等因素对品类偏好的影响。通过地域分布图、年龄分段统计表等可视化工具,我们可以直观地看到不同地区、年龄段的用户对产品类别的偏好有何差异,从而为企业制定更加精准的市场策略提供参考。 最后,需要注意的是,品类偏好挖掘是一个持续的过程。随着市场环境的变化和用户需求的更新,我们的品类偏好模型也需要不断地调整和完善。因此,我们需要定期收集新的数据,重新评估和更新用户画像和品类偏好模型,以确保我们的分析结果始终能够反映最新的市场趋势和用户需求。 WITH user_level AS ( – 复用子目标1的用户分层逻辑 SELECT User_ID, CASE WHEN (R_score + F_score + M_score) >= 12 THEN ‘高价值用户’ WHEN (R_score + F_score + M_score) >= 8 THEN ‘中价值用户’ WHEN (R_score + F_score + M_score) >= 4 THEN ‘低价值用户’ ELSE ‘流失用户’ END AS User_Level FROM ( SELECT User_ID, CASE WHEN Last_Login_Days_Ago <=3 THEN 5 WHEN Last_Login_Days_Ago <=7 THEN 4 WHEN Last_Login_Days_Ago <=15 THEN 3 WHEN Last_Login_Days_Ago <=30 THEN 2 ELSE 1 END AS R_score, CASE WHEN Purchase_Frequency >=10 THEN 5 WHEN Purchase_Frequency >=5 THEN 4 WHEN Purchase_Frequency >=3 THEN 3 WHEN Purchase_Frequency >=1 THEN 2 ELSE 1 END AS F_score, CASE WHEN Total_Spending >=5000 THEN 5 WHEN Total_Spending >=2000 THEN 4 WHEN Total_Spending >=1000 THEN 3 WHEN Total_Spending >=500 THEN 2 ELSE 1 END AS M_score FROM dy ) AS temp ) SELECT ul.User_Level, de.Product_Category_Preference, COUNT(de.User_ID) AS User_Count, – 计算该品类在当前用户层级中的占比 ROUND(COUNT(de.User_ID) / SUM(COUNT(de.User_ID)) OVER (PARTITION BY ul.User_Level), 4) * 100 AS Category_Ratio FROM user_level ul JOIN dy de ON ul.User_ID = de.User_ID GROUP BY ul.User_Level, de.Product_Category_Preference ORDER BY ul.User_Level, Category_Ratio DESC; 4.4 运营策略优化分析 4.4.1 留存转化关键节点分析 为了深入理解用户活跃度与消费转化之间的关系,我们进行了一项关键的分析。首先,根据用户的活跃等级(Active_Level),我们将用户分为五个类别:超高活跃、高活跃、中活跃、低活跃和流失。这一分类基于用户最近一次登录的天数,具体如下:
超高活跃:Last_Login_Days_Ago <= 3
高活跃:Last_Login_Days_Ago <= 7
中活跃:Last_Login_Days_Ago <= 30
低活跃:Last_Login_Days_Ago <= 90
流失:其他情况 通过这种细致的划分,我们能够更准确地识别出不同活跃等级的用户群体,并进一步分析他们的消费行为。 接下来,我们对每个活跃等级的用户进行了消费转化的分析。我们计算了各个活跃等级用户的购买频率(Purchase_Frequency)、平均客单价(Average_Order_Value)以及总消费额(Total_Spend)。这些数据帮助我们了解不同活跃等级的用户在消费转化上的表现。 通过对活跃等级与消费转化关系的分析,我们发现某些活跃等级的用户群体具有较高的购买频率和较高的平均客单价,这表明他们更有可能进行消费转化。例如,“超高活跃”和“高活跃”等级的用户群体,他们的购买频率和平均客单价都相对较高,因此他们在消费转化方面表现较好。 然而,我们也发现了一些活跃等级较低的用户,他们的购买频率和平均客单价相对较低,这可能意味着他们的消费转化能力较弱。针对这部分用户,我们需要进一步分析其消费转化潜力,并制定相应的运营策略来提升他们的消费转化能力。 总之,通过对用户活跃度与消费转化关系的分析,我们可以更好地理解不同活跃等级用户的消费行为,并为运营策略的优化提供有力的数据支持。
抖音电商运营分析简报
4.4.1 个性化品类推荐模型
为提升用户体验和购物满意度,我们开发了一个基于用户行为和偏好的个性化品类推荐系统。该系统通过分析用户的购买历史、浏览记录及互动行为,利用机器学习算法预测用户可能感兴趣的产品类别。推荐结果不仅考虑了用户的直接兴趣点,还综合了其消费习惯和历史数据,从而提供更为精准的个性化服务。
4.4.2 营销活动高响应人群筛选
为了优化营销活动的参与度和转化率,我们专注于识别那些对特定营销活动有高度响应的用户群体。这一过程涉及对用户的行为模式进行深入分析,包括购买频率、平均订单价值以及总消费额等指标。通过这些数据,我们能够精确地确定哪些用户对营销活动反应最积极,进而将这些用户作为核心营销对象,以提高活动的整体效果。
4.4.3 输出核心营销人群,提升活动转化
通过对用户数据的细致分析,我们能够识别出最有潜力成为未来核心营销对象的用户群体。这些用户通常具有较高的购买频率和较高的平均订单价值,同时在地理位置上倾向于城市地区。基于这些信息,我们设计并实施了一系列针对性的营销策略,旨在提高这些用户对活动的响应度和参与度,从而有效提升活动的总体转化率。 核心用户年龄段分析显示,45岁以上的用户群体是主要关注点,他们通常是家庭的主要决策者。针对这一群体,推荐的产品包括家居厨具和健康护理产品,并可搭配满减加赠品活动(如购买厨具赠送清洁套装)。 对于36至45岁的用户,他们处于职场中坚和家庭责任期,更偏好性价比较高的数码设备和品质服饰。例如,可以推送“职场通勤装+家用投影仪”的组合优惠。 兴趣品类关联分析指出,“运动-服装”,“科技-书本”和“旅行-电子类”属于“高兴趣-高品类”组合,可以作为选品和营销的依据。 用户结构呈纺锤形,其中中价值用户占主导地位,占比75.9%,而高价值用户仅占15.8%,低价值用户占8.3%。 业务建议如下:
重点转化「中价值用户」:通过推送“满减券+高频复购品类”(如日用品)来提升其购买频率,引导向高价值层级迁移。
激活「低价值用户」:通过推送小额无门槛券(如5元券)来降低消费决策成本,召回沉默用户。 不同层级的用户偏好分析显示,高价值用户的核心偏好为Apparel(服饰)、Electronics(电子),而中价值用户在所有品类中都是主力群体。 业务建议如下:
给高价值用户推「高端品类」:包括Apparel的轻奢款、Electronics的数码新品,以匹配其消费能力。
给中价值用户推「高性价比爆款」:如畅销书、实用家居等,以贴合其消费偏好。 用户活跃度分析显示,中活跃用户最多(795人),但超高活跃用户的平均客单价最高。活跃等级越高,平均客单价越高,符合“活跃度→消费能力”的正相关逻辑。 业务建议如下:
维护「超高活跃用户」:为他们开通“专属客服+优先发货”权益,避免流失。
提升「中活跃用户」活跃度:通过推送“连续登录领积分”活动,引导其缩短登录间隔,转化为高活跃用户。 高潜力用户分析显示,三日内登陆人数较多的为高潜力用户,其核心偏好为Apparel(服饰)、Books(图书),登录间隔短,复购意愿强。 业务建议如下: 针对高潜力用户实施「即时复购刺激」策略,例如在Apparel品类中推送“买一送一”活动,在Books品类中推出“新书预售+限时折扣”。 此外,对于3天内登录的用户,将其标记并加入“每日新品推送”名单,以缩短其消费周期。 各品类偏好推荐分值的图表显示了不同品类偏好用户的占比和推荐分值,其中Food(美食)兴趣用户的色块最深,意味着这部分用户的购买频率和客单价表现最佳;而Fashion(时尚)、Sports(运动)兴趣用户的推荐分值也相对较高。 业务建议如下:
重点运营Food兴趣用户,推送“美食礼盒+会员折扣”,以提高其推荐分值对应的转化。
将高推荐分用户(如Food、Fashion)加入“私域社群”,进行精细化的内容种草,如美食教程、穿搭分享等。 总结: 我的第一个SQL分析项目到此结束,感谢大家的指导和建议。未来还有机会在此基础上进一步完善该项目,期待大家提供更多的建议!