实战:火车头采集post分页数据方法详解

www.96kaifa.com | 2017-03-15 |

摘要:实战:火车头采集post分页数据方法详解今天96KaiFa源码开始做VR界这个网站,采集VR界内容的时候看到VR界列表页加载采用的是ajax方式加载的,直接上去采集。最后发现采用的是post...

实战:火车头采集post分页数据方法详解

今天96KaiFa源码开始做仿VR界(购买链接:www.96kaifa.com/code/49.html)这个网站,采集VR界内容的时候看到VR界列表页加载采用的是ajax方式加载的,直接上去采集。最后发现采用的是post的方法获取到的内容,96KaiFa做过很多ajax列表网站的采集规则,但是分页大部分都是get方式获取内容的,可以直接修改分页参数就行。这次VR界采用post方式加载,对于没有写过post方式加载内容的我来说,确实有些难度。碰到问题先百度搜了下,了解了大概思路。下面直接写我采集VR界的时候的操作方法吧。

因为是ajax的方式加载,先要抓包到加载的post的内容。要抓包的网址是:http://www.vrjie.com/infocenter/

抓包到如下内容:

------------------------------------------------------------------------------------------------

POST /e/action/getajax.php HTTP/1.1

Host: www.vrjie.com

Proxy-Connection: keep-alive

Content-Length: 92

Accept: text/html, */*; q=0.01

Origin: http://www.vrjie.com

X-Requested-With: XMLHttpRequest

User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.76 Safari/537.36

Content-Type: application/x-www-form-urlencoded; charset=UTF-8

Referer: http://www.vrjie.com/infocenter/

Accept-Encoding: gzip, deflate

Accept-Language: zh-CN,zh;q=0.8,en;q=0.6

Cookie: bdshare_firstime=1489560531369; uohdocheckregkey=1489560941%2Cfd1282aa2e74cb9b1c7e73a86c2c25a3%2C8fe253f1034239f52b5f9a8f2f7e64d7

 

next=1&table=news&action=getmorenews&limit=8&small_length=130&classid=20%2C21%2C22%2C23%2C57

------------------------------------------------------------------------------------------------

下面我们看一下火车头post的采集列表规则怎么写,如下截图

1.jpg

从上图可以看出,填网址的时候组合下就行了,Host + POST就行了。

2.jpg

上图是采集列表的规则要填的,首先就是网站编码,VR界是utf-8的编码,我就手动选择UTF-8编码即可,发送的数据里填写post发送的数据,就是下面这段:

next=1&table=news&action=getmorenews&limit=8&small_length=130&classid=20%2C21%2C22%2C23%2C57

我加载了几遍,next后面的参数就是页码,所以post发送的数据直接把1的位置替换成[分页],分页里从0到3的意思,就是获取0-3也的文章列表。

上面就是具体方法,测试后获取到如下图的文章链接:

3.jpg

从上图可以看出,已经成功获取到列表页每页的文章链接。如果还有不懂的可以加QQ:21617372。

热门文章

最新文章

关注我们

微信扫一扫,关注更多精彩

  • 96KaiFa公众号
    全面掌握源码一手资讯

  • 96KaiFa服务号
    精彩活动,推送提醒