wordpress 万能采集方法,实现任何网站都能采集!

玩wordpress的小伙伴都知道,自己写内容是非常痛苦的事情而且自己写有很多局限性,那么有什么办法获得大量优质的文章资源呢?其实采集就是一条路子,当然不是说采集就是直接照搬别人,这不是很道德,对自己网站的seo也没有好处,但是可以以此为底稿,优化完善内容,这才是一条可行的健康的路子。

如何采集

首先你要知道采集的概念,采集是通过对别人的网站源代码的下载梳理获得自己需要的内容,所以我们需要准备一些工具:火车头采集工具,office套件,wordpress插件:Import Export Lite。

wordpress 万能采集方法,实现任何网站都能采集!插图
添加图片注释,不超过 140 字(可选)

准备好工具以后我们就可以找目标写火车头的规则了,以下面的网站为例子,我们先确定一下,我们要采集的部分内容,一般情况下采集一个网站是以分类为中心,而不是首页,所以进入分类页面看网站url的变化,我们就会发现其url出现了地址结构:

https://url/news  前面是地址 /news 是分类的标签

我们再滑到页面底部看一下,底部有一个翻页的按钮,在切换页面时url也发生了变化,由此我们知道了这个网站的分页逻辑:

https://url/news_2  
 
/news 是分类的标签
 
/_2 是页数

如果你采集的网站没有发生url的变化,说明有防采的设置,那就试试添加一些明显的分页url段,例如:https://url/news 不发生变化,在后面添加:/page/2 多数网站都能相应。

有了这一特征我们就可以写规则了,打开火车头添加采集规则,选择向导添加,然后使用批量添加url,把链接贴上去,然后在链接的分页数字处用”地址参数“表示,在下面有采集的页数,这里就要看你采集的网站,你看它有没有显示翻页总数,没有就用分页数字去测试,直到测试出数字最大值页面404为止,即可知道有多少页面。

wordpress 万能采集方法,实现任何网站都能采集!插图1
添加图片注释,不超过 140 字(可选)

确定好页数然后就可以确定采集的页面逻辑了,然后点进任意一篇文章,观察文章的url变化,在这里你可以看到url的参数逻辑,这里有一个固定的格式,与其他页面不同,所以在此我们知道,文章的固定格斯是:url+文章id+.html 这样我们在火车头的链接采集规则中加一个”包含.html“这个要求即可拿到准确的文章地址。

wordpress 万能采集方法,实现任何网站都能采集!插图2
添加图片注释,不超过 140 字(可选)

下载权限

查看
  • 硬币
    免费下载
    评论并刷新后下载
    登录后下载

查看演示

  • {{attr.name}}:
您当前的等级为
登录后免费下载登录 小黑屋反思中,不准下载! 评论后刷新页面下载评论 支付以后下载 请先登录 您今天的下载次数(次)用完了,请明天再来 支付积分以后下载立即支付 支付以后下载立即支付 您当前的用户组不允许下载升级会员
您已获得下载权限 您可以每天下载资源次,今日剩余
温馨提示:
1.本站内容均收集于网络!若内容若侵犯到您的权益,请发送邮件至:wayzt1314@163.com,我们将第一时间处理!
2.本站只提供web页面服务,并不提供影片资源存储,也不参与录制、上传,转载内容遵循避风港原则,不受本站保护。
3.所有UGC内容仅限于参考和学习,版权归原作者所有,更多问题欢迎阅读“服务申明”。

给TA打赏
共{{data.count}}人
人已打赏
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧