如何使用 java 从存储在我的计算机上的 html 文件中提取 url？-java黑洞网

java黑洞网首页博客问答站长公众号 pdf 视频游戏脚本实战其它资源

写博客注册

本站消息

站长简介/公众号

出租广告位,需要合作请联系站长

黑洞官方问答小能手

615465

文章

312838795

访问

+关注

分类

暂无分类

标签

日期归档

暂无数据

如何使用 java 从存储在我的计算机上的 html 文件中提取 url？

发布于2024-10-29 15:47 阅读(1126) 评论(0) 点赞(14) 收藏(2)

我需要找到存储在我电脑中的 html 文件中的所有 URL，提取链接并将其存储到变量中。我使用下面的代码扫描文件并获取行。但我很难提取链接。如果有人能帮助我，我将不胜感激。

    Scanner htmlScanner = new Scanner(new File(args[0]));
    PrintWriter output = new PrintWriter(new FileWriter(args[1]));
    while(htmlScanner.hasNext()){
        output.print(htmlScanner.next());

    }
    System.out.println("\nDone");
    htmlScanner.close();
    output.close();

解决方案

实际上，您可以使用 Swing HTML 解析器来实现这一点。尽管 Swing 解析器只能理解 HTML 3.2，但更高版本的 HTML 中引入的标签将被视为未知，而您实际上想要的只是链接。

static Collection<String> getLinks(Path file)
throws IOException,
       MimeTypeParseException,
       BadLocationException {

    HTMLEditorKit htmlKit = new HTMLEditorKit();

    HTMLDocument htmlDoc;
    try {
        htmlDoc = (HTMLDocument) htmlKit.createDefaultDocument();
        try (Reader reader =
            Files.newBufferedReader(file, StandardCharsets.ISO_8859_1)) {

            htmlKit.read(reader, htmlDoc, 0);
        }
    } catch (ChangedCharSetException e) {
        MimeType mimeType = new MimeType(e.getCharSetSpec());
        String charset = mimeType.getParameter("charset");

        htmlDoc = (HTMLDocument) htmlKit.createDefaultDocument();
        htmlDoc.putProperty("IgnoreCharsetDirective", true);
        try (Reader reader =
            Files.newBufferedReader(file, Charset.forName(charset))) {

            htmlKit.read(reader, htmlDoc, 0);
        }
    }

    Collection<String> links = new ArrayList<>();

    for (HTML.Tag tag : Arrays.asList(HTML.Tag.LINK, HTML.Tag.A)) {
        HTMLDocument.Iterator it = htmlDoc.getIterator(tag);
        while (it.isValid()) {
            String link = (String)
                it.getAttributes().getAttribute(HTML.Attribute.HREF);

            if (link != null) {
                links.add(link);
            }

            it.next();
        }
    }

    return links;
}

所属网站分类: 技术文章 > 问答

作者：黑洞官方问答小能手

链接：http://www.javaheidong.com/blog/article/686427/0de893d6ba8b61f6f804/

来源：java黑洞网

任何形式的转载都请注明出处,如有侵权一经发现必将追究其法律责任

14 0

收藏该文

昵称:

评论内容：(最多支持255个字符)

---无人问津也好，技不如人也罢，你都要试着安静下来，去做自己该做的事，而不是让内心的烦躁、焦虑，坏掉你本来就不多的热情和定力

程序员的那些事(new) 更多>

地铁三号线 - 跟婶婶道个别

对前端工程师的理解

矢量素材 |企业商务画册设计参考

《青春舞曲》教学设计

哈哈，这本书不一样

工作能力不强怎么混

Windows_0x06{窗口程序 - MFC_对话框创建}

【记录贴】打工人的第一篇博客

见世面的成本有多低，这几个公众号告诉你！

创造力的重要性

电子书(new)

java jdk8 学习笔记

深入剖析Tomcat pdf下载

Java与模式 pdf下载

深入理解Java虚拟机：JVM高级特性与最佳实践(第2版) pdf 下载

数据结构与算法分析：Java语言描述(原书第3版) pdf 下载

Java并发编程实战中文版 PDF扫描版[9MB]

数据结构与算法分析：Java语言描述(原书第3版) 中文完整pdf扫描版[47MB] 附源码

Hadoop权威指南 pdf下载

重构改善既有代码的设计 pdf下载

JAVA编程思想 pdf下载

脚本(new)

输入一个数据n，计算斐波那契数列(Fibonacci)的第n个值

求 a+aa+aaa+.......+aaaaaaaaa=?

输出所有的水仙花数，把谓水仙花数是指一个数3位数，其各各位数字立方和等于其本身，

利用for循环打印 9*9 表?

编写程序求 1+3+5+7+……+99 的和值。

给定一个百分制的分数，输出相应的等级

编写程序，判断给定的某个年份是否是闰年

一些有趣的java小程序

菱形的图形生成器，2到100以内的质数-java实用小程序

java代码游戏编写

博客(new)

【Java 22 | 7】深入解析Java 22 ：密封类（Sealed Classes）增强详解

Java 多线程（三）—— 死锁

JSON parse error: Cannot deserialize value of type `java.util.Date` from String “2024-09-19 10:40:40

Java毕业设计：Java河南郑州景区景点买票购票系统毕业设计源代码作品和开题报告

Android Studio开发学习（一、用户登录）

华为OD机试 - 处理器问题（Java & JS & Python & C & C++）

C++之多态的深度剖析

Java 继承

JavaScript-sort()排序

【面试宝典】Java中创建线程池的几种方式以及区别

视频教程(new)

由浅入深，全面解析ThreadLocal

超全面讲解Spring Cloud Alibaba技术栈，java视频教程下载

三天全面系统学习ZooKeeper

2020年JavaSE强化系列教程泛型全剖析，java视频教程下载

详讲编码与解码，灵活解决乱码难题，java 视频教程下载

2020年抗疫之作java基础进阶13天

系统学习让你轻松定义java类加载器-java视频教程下载

真小白福音，完全从0带你掌握计算机与编程基础

java零基础入门到精通（2019版）

2020JAVA基础-深入系统的学习数据结构与算法

项目实战(new)

JSP+SSM+Mysql实现的学生成绩管理系统

JSP+Structs+JDBC+mysql实现的诚欣电子商城

JSP+SSH+Mysql+DBCP实现的租车系统

博客系统java项目

这是一个在线考试系统,java项目实战源码下载

简单状态机

Java Web编程课程中开发的项目

银行账户项目样本用Java完成的一个简单项目

一个使用Java开发在线概述用户管理平台

JAVAWeb项目 JAVA-WEB开发的一些练手项目，这些也适合初学者进行练习

问答(new)

java.security.AccessControlException：访问被拒绝（“java.util.PropertyPermission” “jna.boot.library.path” “读取”）

Java 测试：通过运行代码大量生成模拟对象

CacheBuilder 与 redis 结合使用

如何在多个 PU 之间最好地共享实体类/DAO？

读取和替换字符串中的整数

具有行数据网关的注册表模式

正则表达式匹配组

将 Heroku Cedar 模型映射到多线程应用程序

JNLP 通过文件加载 Sigar 本机库：但不通过 http：

Jasypt encrypted String not being able to decrypt on another machine

游戏(new)

2人对战游戏，java游戏

java小游戏-数学英雄

java游戏-蛙人

经典骰子游戏,java游戏源码下载

一些java小游戏

java小游戏-抓住这只球

二十一点，java小游戏源码下载

java小游戏集合下载

java五子棋游戏源码下载

java贪吃蛇游戏

其他资源(new)

某公司的雇员分为以下若干类： Employee：这是所有员工总的父类，属性：员工的姓名和生日月份。方法：getSalary(int month) 根据参数月份来确定工资，如果该月员工过生日，

判断随机整数是否是素数产生100个0-999之间的随机整数，然后判断这100个随机整数哪些是素数，哪些不是？

完成九宫格程序

. 定义一个int型的一维数组，包含10个元素，分别赋一些随机整数，然后求出所有元素的最大值

歌德巴赫猜想,任何一个大于六的偶数可以拆分成两个质数的和

在屏幕上打印出n行的金字塔图案，如，若n=5,则图案如下

计算圆周率

利用程序输出如下图形:

求 2/1+3/2+5/3+8/5+13/8.....前20项之和？

Nutch入门教程 pdf下载