BeautifulSoup get_text 不会删除所有标签和 JavaScript

xmlJava

1个回答

写回答

fxx123

2025-06-19 01:15

+ 关注

Java
Java

使用BeautifulSoup库的get_text方法可以提取HTML文档中的纯文本内容,但是它不会删除所有的标签和JavaScript代码。它主要用于提取HTML文档中的可见文本内容,例如段落、标题、列表等。下面是一个简单的例子来说明如何使用BeautifulSoup库的get_text方法。

首先,需要安装BeautifulSoup库。可以使用以下命令来安装:

pip install beautifulsoup4

接下来,导入BeautifulSoup库和一个HTML文档。假设我们有以下的HTML文档:

html

<!DOCTYPE html>

<html>

<head>

<title>示例网页</title>

</head>

<body>

<h1>欢迎来到示例网页</h1>

这是一个示例网页,用于演示BeautifulSoup库的get_text方法。

<script>

alert("这是一个弹窗");

</script>

</body>

</html>

然后,使用BeautifulSoup库解析HTML文档,并使用get_text方法提取纯文本内容:

Python

from bs4 import BeautifulSoup

html_doc = """

<!DOCTYPE html>

<html>

<head>

<title>示例网页</title>

</head>

<body>

<h1>欢迎来到示例网页</h1>

<img src="https://img.izhida.com/topic/a7f5f35426b927411fc9231b56382173.jpg" alt="Python"><br>Python

这是一个示例网页,用于演示BeautifulSoup库的get_text方法。

<script>

alert("这是一个弹窗");

</script>

</body>

</html>

"""

soup = BeautifulSoup(html_doc, 'html.parser')

text = soup.get_text()

print(text)

运行上述代码,输出结果如下:

示例网页

欢迎来到示例网页

这是一个示例网页,用于演示BeautifulSoup库的get_text方法。

alert("这是一个弹窗");

可以看到,get_text方法提取出了HTML文档中的纯文本内容,但保留了标题、段落和JavaScript代码。

接下来,我们根据以上内容生成一篇文章,并添加案例代码。

提取HTML文档中的纯文本内容

HTML文档通常包含了各种标签和JavaScript代码,如果我们只关心文本内容,可以使用BeautifulSoup库的get_text方法来提取纯文本内容。

以下是一个示例HTML文档:

html

<!DOCTYPE html>

<html>

<head>

<title>示例网页</title>

</head>

<body>

<h1>欢迎来到示例网页</h1>

这是一个示例网页,用于演示BeautifulSoup库的get_text方法。

<script>

alert("这是一个弹窗");

</script>

</body>

</html>

下面是使用BeautifulSoup库的get_text方法提取纯文本内容的代码:

Python

from bs4 import BeautifulSoup

html_doc = """

<!DOCTYPE html>

<html>

<head>

<title>示例网页</title>

</head>

<body>

<h1>欢迎来到示例网页</h1>

这是一个示例网页,用于演示BeautifulSoup库的get_text方法。

<script>

alert("这是一个弹窗");

</script>

</body>

</html>

"""

soup = BeautifulSoup(html_doc, 'html.parser')

text = soup.get_text()

print(text)

运行上述代码,输出结果如下:

示例网页

欢迎来到示例网页

这是一个示例网页,用于演示BeautifulSoup库的get_text方法。

alert("这是一个弹窗");

可以看到,get_text方法提取出了HTML文档中的纯文本内容,但保留了标题、段落和JavaScript代码。

使用BeautifulSoup库的get_text方法可以方便地提取HTML文档中的纯文本内容。但需要注意的是,它不会删除所有的标签和JavaScript代码,只提取可见的文本内容。根据具体需求,可能需要进一步处理提取到的文本内容。

以上是关于使用BeautifulSoup库的get_text方法提取HTML文档中纯文本内容的介绍和示例代码。希望对你有所帮助!

举报有用(4分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号