053-端午节期间,我用RPA抓了小红书19大行业共1629条低粉爆文笔记,希望能给你带来帮助
大家好,我是小洛哥,一个刚刚开始每天写作的新人。
日更 100 天,第 53 天。
首发:端午节期间,我用RPA抓了小红书19大行业共1629条低粉爆文笔记,希望能给你带来帮助
圈友们大家好,我是小洛哥,2023.12 生财新人一枚,目前主要在探索各种 RPA+AI 的自动化项目,这也是我第一次在圈里发文。
6 月初的时候突然灵光一现,自己折腾 RPA 也有小半年了,是不是可以尝试输出一些内容了。于是构思了一个根据关键词抓取小红书低粉爆文笔记的 RPA 应用(下一步可能会通过移动端抓取低粉爆款的商品)。
为了验证成果,端午节这几天夜里电脑基本没关机,一直在跑 RPA ,总计大概跑了 3 个晚上。抓了小红书 19 大行业,共 1629 条低粉爆文的笔记,包含全部内容、数据及图片或视频内容希望能够给大家带来帮助。
至于这些低粉爆文的笔记有什么用,这个就仁者见仁智者见智了,可随意自取、自用。
对于我来说,小红书刷多了只会推一些我“感兴趣”的笔记给我,但外面更多的赛道是否有机会是很难留意到的,偶尔看一下可能会迸发出一些不错的灵感或者发现新的机会点。同时对于自己正在专注的赛道,也可以更轻松的搜集对标笔记的内容。
对这个过程如何实现不感兴趣的可以跳过后面的内容。
直接看数据:【小红书】1629条覆盖19大行业热门关键词的低粉爆文笔记
一、关键词选择
因为是带有一定实验性质的采集,所以第一想法是找当前小红书的热门关键词去采,这样也能让抓到的数据更有价值。可惜没有找到相应的词库,市面上更多的是根据核心词去挖掘长尾词。
正好看到 小红书的营销平台 上有一批官方出的行业月报,打开一看涉及 19 个行业,每个行业都有一些热搜词、上升词。遗憾的是看到最新的月报是 2024 年 2 月份的,时效性有些低了,但对于某些时效性要求不高的行业应该还是有一些用处的。
所以我下载了 19 个行业的报告,每个行业中手动选择了我认为有代表性的 10 个关键词(尽量长尾、尽量多维度、尽量多细分),一共 200 个热门关键词(其中 3C 行业小品类太多,选了 20 个词),想看看能抓到多少低粉爆文笔记。
当然,也有很多关键词,最终也无法爬取到「低粉爆文」的笔记。
二、抓取标准
在 PC 上抓取小红书笔记,一次搜索(即滑动页面到底部能展现的最大笔记数)时能够呈现 220 条笔记。但这些笔记究竟哪些可以称之为低粉爆文,需要一个精确的标准,而且每个行业的「低粉爆文」标准可能并不相同。标准过高,抓不到数据,标准过低,就达不到精选的效果。
经过多次尝试,我最终选取了笔记点赞>1000,博主粉丝<1000,作为采集标准。这样通常下来每个关键词,一次搜索大概能抓到 2-20 条笔记,这样叠加上 10 个关键词,每个行业都能有百条左右的精选低粉爆文。
并且还是因为有一定的实验性质,所以就部分行业了,全部按照这个标准来。
三、抓取流程(RPA 主要思路)
- 读取关键词、抓取标准列表(要抓取的关键词和标准我在表格上列为参数,后续调整方便)
- 循环上述关键词,在小红书主页搜索,选择筛选标准
- 上述页面循环滚动,同时抓取搜索结果的笔记数据(笔记/博主地址,点赞数,)
- 循环上述抓取到的笔记数据,剔除掉不符合点赞数要求的数据
- 对符合点赞数要求的笔记数据,进入博主主页查询粉丝数
- 查询后对符合粉丝数要求的笔记数据,进入笔记详情页抓取全部(标题内容、赞评藏、图片视频地址)
- 图片部分需单独处理,抓取到图片的网络地址后,需要先下载到本地才能再进行嵌入到飞书表格。
- 将上述抓取到的数据推送到飞书表格
以上就是本次的全部内容,希望能够给你带来帮助。