Java获取任意http网页源代码的方法

来源:爱站网时间:2020-05-29编辑:网友分享
开发项目经常会有这样或者那样的需求,而在WEB需要通过Java发送URL请求查看是否有效,那么Java获取任意http网页源代码的方法,大家知道吗?今天爱站技术频道就带大家来说说个实现方法。

开发项目经常会有这样或者那样的需求,而在WEB需要通过Java发送URL请求查看是否有效,那么Java获取任意http网页源代码的方法,大家知道吗?今天爱站技术频道就带大家来说说个实现方法。

JAVA获取任意http网页源代码可实现如下功能:

1. 获取任意http网页的代码
2. 获取任意http网页去掉HTML标签的代码

Webpage类:

/**
 * 网页操作相关类
 */
package test;
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
/**
 * @author winddack
 *
 */
public class Webpage {
  private String pageUrl;//定义需要操作的网页地址
  private String pageEncode="UTF8";//定义需要操作的网页的编码
  public String getPageUrl() {
    return pageUrl;
  }
  public void setPageUrl(String pageUrl) {
    this.pageUrl = pageUrl;
  }
  public String getPageEncode() {
    return pageEncode;
  }
  public void setPageEncode(String pageEncode) {
    this.pageEncode = pageEncode;
  }
  //定义取源码的方法
  public String getPageSource()
  {
    StringBuffer sb = new StringBuffer();
    try {
      //构建一URL对象
      URL url = new URL(pageUrl);
      //使用openStream得到一输入流并由此构造一个BufferedReader对象
      BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream(), pageEncode));
      String line;
      //读取www资源
      while ((line = in.readLine()) != null)
      {
        sb.append(line);
      }
      in.close();
    }
    catch (Exception ex)
    {
      System.err.println(ex);
    }
    return sb.toString();
  }
  //定义一个把HTML标签删除过的源码的方法
  public String getPageSourceWithoutHtml()
  {
    final String regEx_script = "

调用:

Webpage page=new Webpage();
page.setPageUrl("http://www.baidu.com");
String code=page.getPageSourceWithoutHtml();
System.out.println(code);

现在大家都知道Java获取任意http网页源代码的方法了吧,爱站技术频道的知识也是非常好的,js.aizhan.com非常值得大家收藏。

上一篇:java发送短信的实现步骤

下一篇:详解Struts2动态方法调用

您可能感兴趣的文章

相关阅读

热门软件源码

最新软件源码下载