除去标签的txt内容
来源:爱站网时间:2019-05-19编辑:网友分享
网页中会含有很多的段落,每个段落也会夹杂着不少的标签,但这些都不是我们需要的,所以我们要去掉它们,那么你知道怎么除去标签的txt内容吗?
网页中会含有很多的段落,每个段落也会夹杂着不少的标签,但这些都不是我们需要的,所以我们要去掉它们,那么你知道怎么除去标签的txt内容吗?
复制代码 代码如下:
NodeList body_nodes=this.getParser().parse(body_filter);
for(int i=0;i<body_nodes.size();i++)
{
Node node=body_nodes.elementAt(i);
Parser body_parser=new Parser(node.toHtml());
TextExtractingVisitor visitor=new TextExtractingVisitor();
body_parser.visitAllNodesWith(visitor);
body.append(visitor.getExtractedText());
}
TextExtractingVisitor,visitAllNodesWith等类及方法都是Visitor中比较很重要但也很少见的。
下面附源代码:
上一篇:Java如何操作文本文件
下一篇:怎么应用JSP Filter