这几天开始做一些爬虫方面的东西,但是在解析页面是碰到了分页数据的爬取问题,如果分页是get方式的url还好,但是如果是Post方式的ajax提交那就感觉比较纠结
思路:
因为是post所以首先想到使用Post的参数方式来做:
public String doHttpSend(String keyWord,String searchType,int pageNum) throws Exception
{
PostMethod method = null;
try
{
HttpClient client = getHttpClient();
method = new PostMethod(SEARCH_URL);
method.addRequestHeader("connection","keep-alive");
NameValuePair[] params = new NameValuePair[]{
new NameValuePair("keyWord",keyWord),
new NameValuePair("page",String.valueOf(pageNum))
};
method.addParameters(params);
int statusCode = client.executeMethod(method);
if(statusCode != HttpStatus.SC_OK)
{
return null;
}
System.out.println(method.getResponseBodyAsString());
return method.getResponseBodyAsString();
}
finally
{
if(null != method)
{
method.releaseConnection();
}
}
}
但是发现该方法实现发送后,获得的结果总是"System.NotSupportedException";
刚开始以为是Header设置不对,用工具对比后发现header信息基本一直,但是参数格式却是不一样的,比如当前方式的参数格式最终为"param1=value1¶m2=value2",而页面上ajax提交的参数确实json格式的字符串;
于是,就修改参数的构造方式:
首先构造json格式的字符串 如:
String param ="{\"keyWord\":"+keyWord+",\"page\":"+pageNum+"}"
,而不能使用NameValuePair来传递参数
再设置参数到method :
method.setRequestBody(param);
这样就可以成功得到ajax返回的数据了,该方法同样适用于asp的异步方法,已经过验证;但是如果使用NameValuePair如何才能解决ajax问题呢,还有待研究!
分享到:
相关推荐
NULL 博文链接:https://gary0416.iteye.com/blog/900498
模拟登录 不提供用户名密码
HttpClient模拟登录实例,模拟登录网站,获取用户信息,登录后数据,带验证码登录,带解析HTML实例。
HttpClient模拟http发送post和get请求
httpclient模拟登陆,请大家快过来赶紧下载哦。
NULL 博文链接:https://shaozhen.iteye.com/blog/950472
本人的测试用,包括压缩及解压缩,完整模拟,处女作,不想做伸手党
java动态提交网站httpclient java动态提交网站httpclient
httpclient模拟登录淘宝源码,测试可用。5分重别人那下下来的,jar包没有的我都加全了 httpclient模拟登录淘宝源码,测试可用。5分重别人那下下来的,jar包没有的我都加全了
利用某些站点提供的页面来完成某种功能,例如说我们想知道某个手机号码的归属地而我们自己又没有这样的数据,因此只好借助其他公司已有的网站来完成这个功能,这个时候我们需要向网页提交手机号码并从返回的页面中...
httpclient模拟post请求json封装表单数据的实现方法 httpclient模拟post请求json封装表单数据的实现方法
此资源为新浪微博和腾讯微博的HttpClient4模拟登录的代码Sina.java为新浪的,TencentClient.java为腾讯的。
用HttpClient来模拟浏览器GET_POST,技术简单学!!
httpclient模拟登陆代码以及相关的jar包
httpclient发送模拟工具,可是想post,get等方式的发送,简单易用,通俗易懂
NULL 博文链接:https://lxzqz.iteye.com/blog/2051318
JAVA-用HttpClient来模拟浏览器GET,POST.docx
Jsoup+httpclient模拟登陆和抓取页面.pdf
httpclient4 微信公众账号模拟登陆,网络上看到的,觉得不错上传出来,供大家一起共同分享学习。
模拟登陆方正系统,在此基础上可以做开发类似课程格子之类的软件供个人或者多人之用