Jsoup网页内容抓取分析(1)

snoopy7713

浏览: 1124878 次
性别:
来自: 火星郊区

最近访客更多访客>>

青木落扬

jccz_zys

msn877763580

yushi103

博主相关

博客

微博

相册

留言

关于我

博客专栏

: OSGi
浏览量：0

文章分类

社区版块

存档分类

博客分类：

java爬虫搜索

java爬虫搜索

在Java 程序在解析HTML 文档时，大家应该晓得htmlparser 这个开源项目，我也是使用过，不过这个程序到了2006年就没有更新了。由于我的基础较差，对于扩展自定义的标签还是不太懂，还是有超时问题困扰，偶然的机会中发现有jsoup，而且更新到了1.72版，使用起来还是很容易上手的。下面写些使用心得：

jsoup is a Java library for working with real-world HTML. It provides a very convenient API for extracting and manipulating data, using the best of DOM, CSS, and jquery-like methods.

jsuop是一款java的html解析器，提供一套非常省力的API，通过dom模型css和类似于jquery的方式来获取和操作数据。

功能：1.解析一个Html文档，2.解析一个body片段

Java代码

String html = "<html><head><title>First parse</title></head>"
+ "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);//分析文档，使用doc.toString()可以转为文本
Element body=doc.body();//获取body片段，使用body.toString()可以转为文本

获取方式：1.从本地文件加载 2.根据url地址获取

Java代码

/**使用静态 Jsoup.parse(File in, String charsetName, String baseUri) 方法
*其中baseUri参数用于解决文件中URLs是相对路径的问题。
*如果不需要可以传入一个空的字符串。
*/
File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Java代码

/**
*根据url直接获取内容，可以加入超时，get方法不行，就用post方法
*我在实际应用中，出现404,405,504等错误信息
*将get改为post就可以，或者反过来改
*如果等以后弄明白了，再来解释清楚
*/
Document doc1 = Jsoup.connect("http://www.hao123.com/").get();
String title = doc1.title(); //获取网页的标题
String content=doc1.toString();//将网页转为文本
Document doc2 = Jsoup.connect("http://www.hao123.com")
.data("query", "Java")//请求参数
.userAgent("Mozilla")//设置urer-agent
.cookie("auth", "token")//设置cookie
.timeout(50000)//设置连接超时
.post();//或者改为get

分享到：

一个例子全部说明java泛型中的K,V,T,E,?,ob ... | MySQL中GBK与UTF-8的区别

2013-02-21 21:01
浏览 3034
评论(0)
分类:Web前端
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论