Java获取任意http网页源代码的方法
来源:爱站网时间:2020-05-29编辑:网友分享
开发项目经常会有这样或者那样的需求,而在WEB需要通过Java发送URL请求查看是否有效,那么Java获取任意http网页源代码的方法,大家知道吗?今天爱站技术频道就带大家来说说个实现方法。
开发项目经常会有这样或者那样的需求,而在WEB需要通过Java发送URL请求查看是否有效,那么Java获取任意http网页源代码的方法,大家知道吗?今天爱站技术频道就带大家来说说个实现方法。
JAVA获取任意http网页源代码可实现如下功能:
1. 获取任意http网页的代码
2. 获取任意http网页去掉HTML标签的代码
Webpage类:
/** * 网页操作相关类 */ package test; import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.URL; import java.util.regex.Matcher; import java.util.regex.Pattern; /** * @author winddack * */ public class Webpage { private String pageUrl;//定义需要操作的网页地址 private String pageEncode="UTF8";//定义需要操作的网页的编码 public String getPageUrl() { return pageUrl; } public void setPageUrl(String pageUrl) { this.pageUrl = pageUrl; } public String getPageEncode() { return pageEncode; } public void setPageEncode(String pageEncode) { this.pageEncode = pageEncode; } //定义取源码的方法 public String getPageSource() { StringBuffer sb = new StringBuffer(); try { //构建一URL对象 URL url = new URL(pageUrl); //使用openStream得到一输入流并由此构造一个BufferedReader对象 BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream(), pageEncode)); String line; //读取www资源 while ((line = in.readLine()) != null) { sb.append(line); } in.close(); } catch (Exception ex) { System.err.println(ex); } return sb.toString(); } //定义一个把HTML标签删除过的源码的方法 public String getPageSourceWithoutHtml() { final String regEx_script = "
调用:
Webpage page=new Webpage(); page.setPageUrl("http://www.baidu.com"); String code=page.getPageSourceWithoutHtml(); System.out.println(code); 现在大家都知道Java获取任意http网页源代码的方法了吧,爱站技术频道的知识也是非常好的,js.aizhan.com非常值得大家收藏。
上一篇:java发送短信的实现步骤
下一篇:详解Struts2动态方法调用