BeautifulSoup get_text 不会删除所有标签和 JavaScript

1个回答

fxx123

2025-06-19 01:15

Java
Java

使用BeautifulSoup库的get_text方法可以提取HTML文档中的纯文本内容，但是它不会删除所有的标签和JavaScript代码。它主要用于提取HTML文档中的可见文本内容，例如段落、标题、列表等。下面是一个简单的例子来说明如何使用BeautifulSoup库的get_text方法。

首先，需要安装BeautifulSoup库。可以使用以下命令来安装：

pip install beautifulsoup4

接下来，导入BeautifulSoup库和一个HTML文档。假设我们有以下的HTML文档：

html
<!DOCTYPE html>
<html>
<head>
    <title>示例网页</title>
</head>
<body>
    <h1>欢迎来到示例网页</h1>
    这是一个示例网页，用于演示BeautifulSoup库的get_text方法。
    <script>
        alert("这是一个弹窗");
    </script>
</body>
</html>

然后，使用BeautifulSoup库解析HTML文档，并使用get_text方法提取纯文本内容：

Python
from bs4 import BeautifulSoup
html_doc = """
<!DOCTYPE html>
<html>
<head>
    <title>示例网页</title>
</head>
<body>
    <h1>欢迎来到示例网页</h1>
    
<img src="https://img.izhida.com/topic/a7f5f35426b927411fc9231b56382173.jpg" alt="Python"><br>Python
这是一个示例网页，用于演示BeautifulSoup库的get_text方法。
    <script>
        alert("这是一个弹窗");
    </script>
</body>
</html>
"""
soup = BeautifulSoup(html_doc, 'html.parser')
text = soup.get_text()
print(text)

运行上述代码，输出结果如下：

示例网页

欢迎来到示例网页

这是一个示例网页，用于演示BeautifulSoup库的get_text方法。

alert("这是一个弹窗");

可以看到，get_text方法提取出了HTML文档中的纯文本内容，但保留了标题、段落和JavaScript代码。

接下来，我们根据以上内容生成一篇文章，并添加案例代码。

提取HTML文档中的纯文本内容

HTML文档通常包含了各种标签和JavaScript代码，如果我们只关心文本内容，可以使用BeautifulSoup库的get_text方法来提取纯文本内容。

以下是一个示例HTML文档：

html
<!DOCTYPE html>
<html>
<head>
    <title>示例网页</title>
</head>
<body>
    <h1>欢迎来到示例网页</h1>
    这是一个示例网页，用于演示BeautifulSoup库的get_text方法。
    <script>
        alert("这是一个弹窗");
    </script>
</body>
</html>

下面是使用BeautifulSoup库的get_text方法提取纯文本内容的代码：

Python
from bs4 import BeautifulSoup
html_doc = """
<!DOCTYPE html>
<html>
<head>
    <title>示例网页</title>
</head>
<body>
    <h1>欢迎来到示例网页</h1>
    这是一个示例网页，用于演示BeautifulSoup库的get_text方法。
    <script>
        alert("这是一个弹窗");
    </script>
</body>
</html>
"""
soup = BeautifulSoup(html_doc, 'html.parser')
text = soup.get_text()
print(text)

运行上述代码，输出结果如下：

示例网页

欢迎来到示例网页

这是一个示例网页，用于演示BeautifulSoup库的get_text方法。

alert("这是一个弹窗");

可以看到，get_text方法提取出了HTML文档中的纯文本内容，但保留了标题、段落和JavaScript代码。

使用BeautifulSoup库的get_text方法可以方便地提取HTML文档中的纯文本内容。但需要注意的是，它不会删除所有的标签和JavaScript代码，只提取可见的文本内容。根据具体需求，可能需要进一步处理提取到的文本内容。

以上是关于使用BeautifulSoup库的get_text方法提取HTML文档中纯文本内容的介绍和示例代码。希望对你有所帮助！

举报有用（4）分享收藏

BeautifulSoup get_text 不会删除所有标签和 JavaScript

1个回答

fxx123

热门话题

相关问题