Linux运维笔记：1010实验室电脑资源规范使用指南-海口c网

Linux运维笔记：1010实验室电脑资源规范使用指南

article/2025/6/10 9:14:08

文章目录

- 0. 检查资源使用情况，避免冲突
- - 检查在线用户
  - 检查 CPU 使用情况
  - 检查 GPU 使用情况
  - 协作建议
- 1. 备份重要文件和数据
- 2. 定期清理硬盘空间
- 3. 退出 ThinLinc 时注销，释放内存
- 4. 校外使用时配置 VPN
- 注意事项
- 总结

实验室的电脑配备了 CPU 和 GPU 资源，供多个子用户共享使用。为了避免资源冲突、提高效率并保护数据安全，大家需要规范使用工作站。以下是详细指导，帮助大家高效、协作地使用资源。

0. 检查资源使用情况，避免冲突

在运行代码前，务必检查 CPU 和 GPU 的使用情况，确保不与他人任务冲突。一起运行代码会降低性能，甚至导致程序崩溃。建议协商排队使用。

检查在线用户

命令：who
作用：查看当前登录工作站的用户。
操作：在终端输入以下命令：
```
who
```

输出示例：

user1   pts/0    2025-06-03 14:30 (192.168.1.10)
user2   pts/1    2025-06-03 14:32 (10.0.0.5)

说明：显示在线用户、登录时间和来源 IP。联系在线用户，确认他们的任务状态。

检查 CPU 使用情况

命令：htop
作用：实时查看 CPU 和内存使用情况，识别占用资源的进程。
操作：
1. 在终端输入：
```
htop
```
2. 查看“CPU”栏，检查使用率（例如 50% 表示一半负载）。
3. 按 F5 查看进程树，找到占用 CPU 的用户和程序（PID、用户、命令等）。
建议：如果 CPU 占用高（如 >80%），联系相关用户，协商错开运行时间。

检查 GPU 使用情况

命令：nvidia-smi
作用：查看 GPU 内存、利用率和运行进程。
操作：
1. 在终端输入：
```
nvidia-smi
```
2. 检查“GPU-Util”列（GPU 利用率）和“Processes”部分（显示 PID、用户、程序名）。

输出示例：

+---------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.14    Driver Version: 550.54.14    CUDA Version: 12.4        |
|-------------------------------+----------------------+-------------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC    |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M.    |
|===============================+======================+=========================|
|   0  NVIDIA GeForce RTX 4090  Off  | 00000000:01:00.0 Off |                 Off    |
| 30%   38C    P2    55W / 450W |  14704MiB / 24564MiB |      0%      Default    |
+-------------------------------+----------------------+-------------------------+
| Processes:                                                                      |
|  GPU   GI   CI   PID   Type   Process name                  GPU Memory Usage    |
|===============================+======================+=========================|
|    0    N/A  N/A  12345   C    python                    14700MiB              |
+-------------------------------+----------------------+-------------------------+

建议：若 GPU 内存或利用率高，联系占用者（通过 PID 对应用户），商量排队使用。

协作建议

沟通：运行大任务前，与在线用户沟通，确认资源可用性。
排队：协商使用时间，避免同时运行多个重负载任务。

1. 备份重要文件和数据

重要性：工作站数据可能因硬件故障、误操作或系统问题丢失。
建议：
1. 定期备份重要代码、数据和配置文件。
2. 存储位置：
  - 个人电脑硬盘
  - U 盘或移动硬盘
  - 云存储（如百度网盘）
3. 使用 SCP 命令 或 FileZilla 软件（如下截图所示）可以快捷与个人主机文件传输
注意：不要完全依赖工作站存储，意外情况随时可能发生！并且注意传入工作站的文件是否安全，切勿将疑似带有病毒的文件包传入！

在这里插入图片描述

2. 定期清理硬盘空间

背景：工作站硬盘是公用的，空间有限，需共同维护。
操作：
1. 检查磁盘使用情况：
```
df -h
```
  - 查看挂载点（如 /home）的剩余空间。
2. 查找大文件或无用数据：
```
du -sh /home/* | sort -hr
```
  - 列出目录和文件大小，找出占用空间大的内容。
3. 清理垃圾文件：
  - 删除临时文件、日志、旧数据包等。
  - 示例：删除 *.tmp 文件：
```
rm -rf /home/your_username/*.tmp
```
建议：
- 将不必要的文件转移到个人电脑或网盘。
- 能不留的垃圾文件和数据包都删除，保持硬盘整洁。
- 定期（例如每周）检查和清理。

3. 退出 ThinLinc 时注销，释放内存

背景：ThinLinc 是实验室常用的远程桌面工具，退出时若不注销，会话可能继续占用内存，导致工作站性能下降或死机。
操作：
1. 确认无程序需要后台运行。
2. 点击桌面右上角的“注销”按钮（通常在系统菜单中）。
3. 选择“注销”或“Log Out”，结束会话。
好处：
- 释放主机内存，减少资源占用。
- 降低工作站死机风险，提高稳定性。
注意：
- 但是若有长期任务（如训练模型），要确保任务在后台运行
- 若再次登陆时，发现无法通过 ThinLinc 建立连接的问题，如下图所示把End existing session勾选上再次尝试

4. 校外使用时配置 VPN

需求：在校外访问实验室工作站需通过学校网络。
操作：
1. 访问学校官网，找到 IT 或网络服务页面。
2. 下载 VPN 连接软件：EasyConnect。
3. 安装并配置：
  - 输入学校提供的 VPN 服务器地址。
  - 使用您的学号/工号和密码登录。
4. 连接成功后，通过 ThinLinc 或 SSH 访问工作站。
建议：
- 确保 EasyConnect 版本与学校要求一致。
- 校外使用时，保持 VPN 连接稳定，避免中断。

注意事项

谨慎操作：管理员修改系统设置或删除文件前，确认权限和影响。
备份：所有建议中，备份和沟通始终是关键，保护代码和数据。
尊重他人：资源共享，优先沟通，协商使用。

总结

规范使用实验室电脑资源是大家的责任！运行代码前检查 CPU（htop）和 GPU（nvidia-smi），用 who 确认在线用户，协商排队；备份重要数据，定期清理硬盘；退出 ThinLinc 时注销释放内存；校外使用时配置 EasyConnect VPN。让我们共同维护工作站的高效和稳定！

如有疑问，联系实验室管理员或群内讨论。谢谢配合！