wordpress 万能采集方法，实现任何网站都能采集！ - 霹雳动漫社区_日本动漫_动漫之家_单机游戏

玩wordpress的小伙伴都知道，自己写内容是非常痛苦的事情而且自己写有很多局限性，那么有什么办法获得大量优质的文章资源呢？其实采集就是一条路子，当然不是说采集就是直接照搬别人，这不是很道德，对自己网站的seo也没有好处，但是可以以此为底稿，优化完善内容，这才是一条可行的健康的路子。

如何采集

首先你要知道采集的概念，采集是通过对别人的网站源代码的下载梳理获得自己需要的内容，所以我们需要准备一些工具：火车头采集工具，office套件，wordpress插件：Import Export Lite。

wordpress 万能采集方法，实现任何网站都能采集！插图 — 添加图片注释，不超过 140 字（可选）

准备好工具以后我们就可以找目标写火车头的规则了，以下面的网站为例子，我们先确定一下，我们要采集的部分内容，一般情况下采集一个网站是以分类为中心，而不是首页，所以进入分类页面看网站url的变化，我们就会发现其url出现了地址结构：

https://url/news  前面是地址 /news 是分类的标签

我们再滑到页面底部看一下，底部有一个翻页的按钮，在切换页面时url也发生了变化，由此我们知道了这个网站的分页逻辑：

https://url/news_2  
 
/news 是分类的标签
 
/_2 是页数

如果你采集的网站没有发生url的变化，说明有防采的设置，那就试试添加一些明显的分页url段，例如：https://url/news 不发生变化，在后面添加：/page/2 多数网站都能相应。

有了这一特征我们就可以写规则了，打开火车头添加采集规则，选择向导添加，然后使用批量添加url，把链接贴上去，然后在链接的分页数字处用”地址参数“表示，在下面有采集的页数，这里就要看你采集的网站，你看它有没有显示翻页总数，没有就用分页数字去测试，直到测试出数字最大值页面404为止，即可知道有多少页面。

wordpress 万能采集方法，实现任何网站都能采集！插图1 — 添加图片注释，不超过 140 字（可选）

确定好页数然后就可以确定采集的页面逻辑了，然后点进任意一篇文章，观察文章的url变化，在这里你可以看到url的参数逻辑，这里有一个固定的格式，与其他页面不同，所以在此我们知道，文章的固定格斯是：url+文章id+.html 这样我们在火车头的链接采集规则中加一个”包含.html“这个要求即可拿到准确的文章地址。

wordpress 万能采集方法，实现任何网站都能采集！插图2 — 添加图片注释，不超过 140 字（可选）

下载权限

查看

硬币

免费下载

评论并刷新后下载

登录后下载

查看演示

{{attr.name}}：

您当前的等级为

登录后免费下载登录小黑屋反思中，不准下载！评论后刷新页面下载评论支付以后下载请先登录您今天的下载次数（次）用完了，请明天再来支付积分以后下载立即支付支付以后下载立即支付您当前的用户组不允许下载升级会员

您已获得下载权限您可以每天下载资源次，今日剩余次

温馨提示：
1.本站内容均收集于网络!若内容若侵犯到您的权益，请发送邮件至：wayzt1314@163.com，我们将第一时间处理！
2.本站只提供web页面服务，并不提供影片资源存储，也不参与录制、上传,转载内容遵循避风港原则，不受本站保护。
3.所有UGC内容仅限于参考和学习，版权归原作者所有，更多问题欢迎阅读“服务申明”。

{{userData.name}}已认证

如何采集

下载权限

查看演示