java htmlparser 获取网页title
一直以来,编程始终是我的爱好。也使用python写了几个实用的工具。java的高性能是出了名的,作为SEO人员,如果能够从零开始实现一个搜索引擎,对以后的SEO工作肯定有很大的帮助。搜索引擎爬虫要收录一个网页,首先不就是获取网页内容来进行处理的嘛。
package htmlparserTest; // 下载 htmlparser库并导入 import org.htmlparser.Parser; import org.htmlparser.visitors.HtmlPage; public class GetTitle { public static void main(String[] args) throws Exception { new GetTitle().getTitle("https://www.yangshengliang.com"); } private void getTitle(String url) throws Exception { Parser parser = new Parser(url); //编码 parser.setEncoding(parser.getEncoding()); // 获取页面 HtmlPage htmlpage = new HtmlPage(parser); parser.visitAllNodesWith(htmlpage); // 获取 title String title = htmlpage.getTitle(); // 输出title System.out.println(title); } }
程序经测试是没有问题的,使用的环境是java8,其他版本的java 下未做测试。
更多阅读
- 2019新ad key及下拉词格式对应教程
- 百度UEditor-KityFormula for wordpress 2.0.1发布
- nginx服务器屏蔽网络爬虫程序采集器的办法
- 宇秀搜索引擎下拉及相关搜索推荐营销系统6.0-精确定制每个词:万能key标签【功能添加】
- 背锅,2018年淘宝店被差评
- java调用默认浏览器打开指定网页的方法(附源代码)
- 百度如何识别手机站和pc 站,加什么代码(已解决)
- 百度冰桶算法4.5更新:发力打击Landing Page恶劣广告行为
- 做seo需要会什么软件(工具)? 要用到的都在这了
- drupal 7 移除自带的 css 和 javascript 及 jQuery.extend(Drupal.settings,

qq:1535604235