长腿蜘蛛-CTspider采集详细教程

发表于2019年12月29日2020年10月2日作者 jiukeshuju

如何安装

首先去长腿蜘蛛-CTspider官网下载插件

然后到WordPress插件页面点击上传，安装启用即可。
如果使用FTP上传,请使用二进制上传协议。

如何授权

登录长腿蜘蛛-CTspider官网注册账号（PS：注册账号需要邮箱验证激活码，请认真填写邮箱账号）。

点击用户中心->添加授权域名（PS：目前每位用户可以授权3个域名）。
得到授权码后，点击CTspider插件->系统配置->授权码配置->填入授权码->保存配置->验证授权

最近有很多网友问：为什么点击采集后显示没有任何数据只有两种可能

采集规则没有设置好。
如果确定采集规则没问题，请查看当前采集的网址是否是Ajax动态渲染加载（PS：目前长腿蜘蛛-CTspider 不支持动态渲染加载采集）

新建项目 / 基本配置

接下来我们详细说下如何采集一个项目

我们使用新浪科技为示例：

首先基本配置

任务名称：新浪科技（PS：自定义即可）
更新时间：默认60分钟（PS：当前任务60分钟自动执行一次）
字符集：默认选项就可以（PS：如果出现乱码情况，请针对当前web网页字符集选择即可）
随机IP：开启（PS：开启随机IP会在每次采集的时候自动更换IP,减少服务器IP被封的几率）
多线程采集：开启（PS：开启后可提高采集速度）
多线程数量：默认10（PS：根据自己服务器配置酌情使用）

列表设置

列表URL: http://roll.tech.sina.com.cn/internet_all/index.shtml （PS：如需多个，可换行添加）
列表区域选择器：.contList>ul>li （PS：【完全和CSS选择器用法一样】【可填，可不填】如果采集当前页面有多个相同列表DOM节点就要填写，确保采集精准度）用谷歌浏览器右键审查元素，可以看出当前列表数据都在.contList>ul>li下面

列表缩略图：如果有图可以直接填写当前缩略图CSS选择器
文章网址匹配：a （PS：由于上面区域选择器已经定位,我们可以直接填入a标签即可，如果区域选择器没有定位则设置：.contList li a 或者.contList a 具体根据你采集页面dom结构自己分析）
添加来源网址到自定义字段：source_url（PS：【自定义】可开启或不开启，设置后会在每天文章添加一个自定义字段source_url并且会把当前采集到网址链接赋值给该字段用于前台调用显示）如: get_post_meta('source_url') 可调用该字段的值。

点击列表测试可以查看当前项目列表配置情况

文章设置

标题匹配规则：h1

文章内容设置：#article_content

可以看到标题在h1标签下，也可使用.main-title来获取标题

正文内容看上去有好多 class和id 如果有id属性尽量采用id，毕竟id是唯一性，定位精准。

我们还可以增加规则来采集TAG标签

长腿蜘蛛-CTspider 提供了6总规则添加采集，并且可以自定义字段规则（PS：自定义字段规则可以添加多个）

点击采集测试

采集结果完美呈现（原文：标题：TAG）正确显示

但是我们发现结果中出现了a链接和一些多于的css属性和id属性还有span标签

我们可以利用长腿蜘蛛-CTspider强大的内容过滤模块进行数据清洗工作

内容过滤

首先删除数据中所有a链接但不删除a标签内容
删除数据中span标签并且也不删除内容
删除数据中无用的class属性和id属性

一	二	三	四	五	六	日
« 11月
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

长腿蜘蛛-CTspider采集详细教程

如何安装

如何授权

最近有很多网友问：为什么点击采集后显示没有任何数据只有两种可能

新建项目 / 基本配置

列表设置

点击列表测试可以查看当前项目列表配置情况

文章设置

点击采集测试

内容过滤

具体设置如下图：

最后在进行采集测试（得到纯净的数据）

发表评论取消回复

如何安装

如何授权

最近有很多网友问：为什么点击采集后显示没有任何数据只有两种可能

新建项目 / 基本配置

列表设置

点击列表测试可以查看当前项目列表配置情况

文章设置

点击采集测试

内容过滤

具体设置如下图：

最后在进行采集测试（得到纯净的数据）

发表评论 取消回复

发表评论取消回复