一、概述 全流程自动化的实现,通过RPA技术,实现了输入领域关键词(种子关键词)后,系统自动生成仿写爆款文案的功能。用户无需关心中间黑盒的具体操作,只需关注输出是否符合预期。 二、全流程SOP
- 采集热门关键词
- 流程:
- 读取Excel配置文件
- 循环搜索种子关键词
- 用XPath采集触发出的热门下拉关键词
- 将采集结果写入Excel
- 核心流程:
- 给输入框元素输入关键词(参照物定位)
- 点击输入框元素以触发下拉词显示
- 获取下拉词快元素内文本,以抓取下拉词
- 采集爆款视频元数据
- 流程:
- 搜索热词
- 鼠标悬浮至【筛选】按钮
- 点击【个人认证】元素
- 循环内博主列表
- 核心流程:
- 博主昵称列表:通过获取文本内容,得到昵称列表
- 博主主页链接列表:通过获取HTML内容,得到链接列表 c)通过获取元素超链接,得到每个博主的主页链接,结果举例: [“广律在线(法律服务)”,“政一法律咨询”,“申鑫法律咨询”] d)通过zip()函数将昵称和主页链接转换成元组,将其关系对应上,比如: [(“广律在线(法律服务)”, “https://www.douyin.com/user/MS4wLjABAAAA9yDV0aMGSGEjMXi3QfuBZXcSKNJj-haMQqdA0j5kyHk”), (“政一法律咨询”, “https://www.douyin.com/user/MS4wLjABAAAAYVY6TLM8UVMNepMfRqWYVyBuMN04OH9rSxgHxod8XtM”), (“申鑫法律咨询”, “https://www.douyin.com/user/MS4wLjABAAAAA0X9xRlTpTkSFgqbqAkhF0Q7OYain3jEt0F8vD4ysnDL-8Sh–Xw1C1wjqFzPbMq”)] 5)浏览博主主页 6)获取博主视频列表 a、UI界面 b、核心流程 a)视频名称列表: 获取元素超链接得到视频名称列表 结果举例: [‘中华人民共和国公民,在法律面前一律平等。’, ‘欠钱不还可以网上起诉,起诉流程建议收藏起来’, ‘广律在线全国连锁经营。广律愿景:让天下没有难打的官司,让人人都能打得起官司,让人人都能感受到法律的公平和公正。’] b)视频链接列表 获取元素超链接得到视频播放页面地址: 结果举例: 根据提供的链接内容,我将对这段文本进行重构,以保持段落结构并确保内容的连贯性。以下是重构后的版本: — 视频数据收集与处理流程 一、 视频浏览与数据记录
- 使用
zip()函数将视频名称和视频播放页面地址转换成元组,例如:(video_name, video_url)。 - 通过循环遍历这些元组,实现视频的循环浏览。
- 同时,在视频详情页获取视频数据及地址,使用XPath捕获视频地址。 二、 视频数据采集
- 在视频详情页浏览视频,使用XPath捕获视频地址:
import requests
from bs4 import BeautifulSoup
# 发送请求获取网页内容
response = requests.get(video_url)
# 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 提取视频地址
video_url = soup.find('div', {'class': 'douyin-right-container'}).find('div', {'class': 'douyin-video-container'}).find('xg-video-container').find('video').get('src')
三、 资源下载
- 遍历博主的视频过程中,捕获到视频地址,使用视频下载指令下载到本地指定文件夹目录下。 四、 文案提取
- Autobox内部集成了视频提取音频、音频提取文案等功能,可以直接调用相关指令完成内容提取。
- 首先,从视频中提取音频文件。
audio_file = extract_audio(video_url)
- 然后,从提取的音频文件中提取字幕文件。
transcript_file = extract_transcript(audio_file)
- 最后,将提取的文案写入至txt文件。 五、 AI仿写
- 利用Autobox提供的功能,自动生成与原视频相似的文案。 在Autobox中,用户可以通过简单的配置信息填写,实现与AI大模型的自动化交互。以下是详细的操作步骤:
获取上一步提取好的txt文本。
调用Autobox集成好的 AI 大模型指令,通过指定参数生成Agent所需要的文本大模型内核。使用者可以指定基础URL、验证方式、模型类型、内容类型和配置信息来自定义对接指定 AI 大模型。
建立角色。
输入提示词,遍历txt文案,结合仿写提示词,生成仿写文案。
获取AI大模型返回结果。
将仿写结果写入txt文件。 六)风控监测:通过python脚本,拿仿写文案过一下下载好的抖音风险词库,设定一个风险词命中率,超过指定命中率则过滤掉,并记录。 七)转成视频:通过数字人平台,输入仿写文案,生成数字人口播视频。其中,选择形象,声音克隆等操作,需要提前设置好。 八)自动发布:
点击投稿:【投稿】元素xpath://[@id=‘douyin-header’]/div[1]/header/div/div/div[2]/div/pace-island/div/child::[last()]/preceding-sibling::*[1];
点击发布视频:【发布作品】元素xpath://*[@class=‘semi-dropdown-content’]/ul/li[1];
上传文件:a、UI界面 b、核心流程本步骤不需要先点击,再选择文件,然后上传,直接使用xpath,一行指令,即可实现上传:xpath定位到上传元素input:r’C:\Users\Administrator\Desktop\rpa\下拉词采集机器人运行demo-1.mp4’;
等待上传完成a、UI界面 b、等待元素消失上传过程中,会显示“取消上传”元素,上传完后,该元素会消失;
填写视频信息a、UI界面 b、输入标题
内容重构
输入描述信息
在RPA工具中,我们首先需要定位到输入描述信息的界面。通过XPath元素,我们可以点击并填写必要的信息。具体步骤如下:
使用XPath定位到
<input>标签,其ID为'root'。接着,我们需要找到位于
<div>标签下的<div>标签,其ID为'root'。继续向下寻找,直到我们定位到
<div>标签,其ID为'root'。在这个
<div>标签下,我们找到<div>标签,其ID为'root'。在该
<div>标签内,我们找到<div>标签,其ID为'root'。在这个
<div>标签下,我们找到<div>标签,其ID为'root'。最后,在该
<div>标签中,我们找到<div>标签,其ID为'root'。 完成以上步骤后,我们就可以开始输入描述信息了。滚动到发布按钮
接下来,我们需要将页面滚动到发布按钮的位置。这可以通过XPath实现。具体步骤如下:
使用XPath定位到
<button>标签,其ID为'root'。继续向下寻找,直到我们定位到
<button>标签,其ID为'root'。在这个
<button>标签下,我们找到<button>标签,其ID为'root'。在该
<button>标签下,我们找到<button>标签,其ID为'root'。在这个
<button>标签下,我们找到<button>标签,其ID为'root'。在该
<button>标签下,我们找到<button>标签,其ID为'root'。在这个
<button>标签下,我们找到<button>标签,其ID为'root'。在该
<button>标签下,我们找到<button>标签,其ID为'root'。在这个
<button>标签下,我们找到<button>标签,其ID为'root'。在该
<button>标签下,我们找到<button>标签,其ID为'root'。在这个
<button>标签下,我们找到<button>标签,其ID为'root'。在该
<button>标签下,我们找到<button>标签,其ID为'root'。在这个
<button>标签下,我们找到<button>标签,其ID为'root'。在该
<button>标签下,我们找到<button>标签,其ID为'root'。在这个
<button>标签下,我们找到<button>标签,其ID为'root'。在该
<button>标签下,我们找到<button>标签,其ID为'root'。在这个
<button>标签下,我们找到<button>标签,其ID为'root'。在该
<button>标签下,我们找到<button>标签,其ID为'root'。在这个
<button>标签下,我们找到<button>标签,其ID为'root'。在该
<button>标签下,我们找到<button>标签,其ID为'root'。在这个
<button>标签下,我们找到<button>标签,其ID为'root'。在该
<button>标签下,我们找到<button>标签,其ID为'root'。在这个
<button>标签下,我们找到<button>标签,其ID为'root'。在该
<button>标签下,我们找到<button>标签,其ID为'root'。在这个
<button>标签下,我们找到<button>标签,其ID为'root'。在该
<button>标签下,我们找到<button>标签,其ID为'root'。在这个
<button>标签下,我们找到<button>标签,其ID为'root'。在该
<button>标签下,我们找到<button>标签,其ID为'root'。在这个
<button>标签下,我们找到<button>标签,其ID为'root'。在该
<button>标签下,我们找到<button>标签,其ID为'root'。在这个
<button>标签下,我们找到<button>标签,其ID为'root'。在该
<button>标签下,我们找到<button>标签,其ID为'root'。在这个
<button>标签下,我们找到<button>标签,其ID为'root'。在该
<button>标签下,我们找到<button>标签,其ID为'root'。在这个
<button>标签下,我们找到<button>』的标签,其ID为‘root’」。 完成以上步骤后,我们就可以顺利地输入描述信息了。