Python requests-html 模块：十大实用功能

Travis Tang

2024-07-25

requests-html 模块是一个用于简化网页抓取和数据提取的强大工具，基于 requests 库构建，结合了 HTML 解析、浏览器模拟等功能，支持异步请求与解析。此模块可以很好地与 Python 3.7 及更高版本配合使用。

应用场景

requests-html 模块广泛应用于网络爬虫、数据采集、信息提取等场景。无论是需要获取静态网页内容，还是处理动态加载的 JavaScript 内容，requests-html 都能做到。它尤其适合数据科学家、网络开发者及研究人员创建一体化的网页数据抓取解决方案。

安装说明

requests-html 不是 Python 的默认模块，因此需要通过 pip 安装。以下是安装命令：

1	pip install requests-html # 使用 pip 工具安装 requests-html 模块

用法举例

1. 发送 GET 请求并解析 HTML

from requests_html import HTMLSession  # 导入 HTMLSession 类

session = HTMLSession()  # 创建一个 HTMLSession 实例
response = session.get('https://example.com')  # 发送 GET 请求，获取网页内容

# 打印网页标题
print(response.html.find('title', first=True).text)  # 提取并打印 HTML 中的标题

该代码展示了如何使用 requests-html 发送 GET 请求，并从返回的 HTML 中提取网页标题。

2. 处理动态内容（使用 JavaScript 渲染）

from requests_html import HTMLSession  # 导入 HTMLSession 类

session = HTMLSession()  # 创建一个 HTMLSession 实例
response = session.get('https://example.com')  # 发送 GET 请求

response.html.render()  # 渲染 JavaScript 内容

# 打印页面中的特定内容
print(response.html.find('.dynamic-content', first=True).text)  # 提取并打印动态内容

此示例展示了如何处理页面中由 JavaScript 生成的动态内容，通过调用 render() 方法来获取完整页面。

3. 使用 CSS 选择器提取信息

from requests_html import HTMLSession  # 导入 HTMLSession 类

session = HTMLSession()  # 创建一个 HTMLSession 实例
response = session.get('https://example.com')  # 发送 GET 请求

# 提取并打印所有链接
for link in response.html.find('a'):  # 遍历所有的链接
    print(link.attrs['href'])  # 打印每个链接的 href 属性

这段代码展示了如何使用 CSS 选择器提取页面中的所有链接，并打印它们的 URL。

软件和库版本不断更新

由于软件和库版本不断更新，如果本文档不再适用或有误，请留言或联系我进行更新。让我们一起营造良好的学习氛围。感谢您的支持！ - Travis Tang

强烈建议大家关注本人的博客全糖冲击博客，在这里你可以找到所有 Python 标准库的使用教程，方便您随时查询和学习。通过关注我的博客，您将能够获取最新的学习资源和技巧，帮助您在编程的道路上更加顺利，快速提升自己的技能水平。期待与您在博文中交流！