Python：safetensors 库高级用法举例和应用详解

Travis Tang

2024-06-15

Python safetensors库

模块介绍

safetensors 是一个用于张量安全存储和传输的 Python 库，能够有效减少数据在传输和持久化过程中的风险。通过采用专门的序列化格式，保证了数据完整性和安全性。safetensors 库目前适配 Python3.7 及以上版本，适合用于深度学习模型的保存、加载以及数据的高效处理。该库旨在为机器学习研究人员和开发者提供一种更安全、更可靠的方式来管理张量数据和预训练模型。

应用场景

safetensors 库的主要用途在于深度学习相关项目，尤其是在需要保存和加载巨大模型时。它可以广泛应用于以下场景：

深度学习模型的持久化：如神经网络模型的保存和重新加载，可确保模型在磁盘上的存取安全。
可视化和数据分析：将张量数据序列化为安全格式，便于后续的可视化和分析。
安全的数据传输：在多个系统之间传输张量数据时，防止数据损坏或不一致，提高数据传输的可靠性。

安装说明

safetensors 库并不是 Python 自带的标准库，因此需要通过 pip 进行安装。可以用以下命令来安装：

1	pip install safetensors # 使用pip安装safetensors库

安装完成后，可以通过 import 语句来导入该库并开始使用。

用法举例

1. 示例一：保存和加载张量

import torch  # 导入PyTorch库
from safetensors import safe_save, safe_load  # 从safetensors库中导入保存和加载函数

# 定义一个随机张量
tensor = torch.randn(3, 4)  # 生成一个3x4大小的随机张量

# 保存张量到文件
safe_save(tensor, 'tensor_safe.safetensors')  # 将张量以安全格式保存到文件

# 加载张量
loaded_tensor = safe_load('tensor_safe.safetensors')  # 从文件加载张量
print(loaded_tensor)  # 打印加载后的张量

2. 示例二：安全序列化数据

import numpy as np  # 导入NumPy库
from safetensors import safe_save  # 从safetensors库中导入保存函数

# 创建一个NumPy数组
array = np.array([[1, 2, 3], [4, 5, 6]])  # 创建一个2x3的NumPy数组

# 将数组序列化并安全保存
safe_save(array, 'array_safe.safetensors')  # 将NumPy数组以安全格式保存

3. 示例三：验证张量数据完整性

import torch  # 导入PyTorch库
from safetensors import safe_save, safe_load, check_integrity  # 导入相关函数

# 定义一个张量
tensor = torch.tensor([7, 8, 9])  # 创建一个简单的张量

# 保存张量
safe_save(tensor, 'tensor_integrity.safetensors')  # 保存张量

# 检查完整性
is_intact = check_integrity('tensor_integrity.safetensors')  # 检查文件完整性
print(f"文件的完整性检查结果: {is_intact}")  # 打印完整性检查结果

在以上示例中，我们展示了 safetensors 库的基本用法，包括如何安全保存和加载张量、数组序列化，以及如何检查数据完整性。通过这些具体的示例，您可以更好地理解该库如何在实际场景中解决数据安全问题。

在这里，我强烈建议大家关注我的博客 —— 全糖冲击博客。在这个博客上，您将找到关于所有 Python 标准库的使用教程，提供方便的查询和学习资料。我会定期更新内容，分享最新的技术动态与实用示范。关注我的博客，不仅能够提升您的 Python 编程技能，还能跟上行业的最新发展，为您的职业生涯增添助力。期待您的光临和支持！