Linux运维笔记:1010实验室电脑资源规范使用指南

article/2025/6/10 9:14:08

文章目录

    • 0. 检查资源使用情况,避免冲突
      • 检查在线用户
      • 检查 CPU 使用情况
      • 检查 GPU 使用情况
      • 协作建议
    • 1. 备份重要文件和数据
    • 2. 定期清理硬盘空间
    • 3. 退出 ThinLinc 时注销,释放内存
    • 4. 校外使用时配置 VPN
    • 注意事项
    • 总结

实验室的电脑配备了 CPU 和 GPU 资源,供多个子用户共享使用。为了避免资源冲突、提高效率并保护数据安全,大家需要规范使用工作站。以下是详细指导,帮助大家高效、协作地使用资源。

0. 检查资源使用情况,避免冲突

在运行代码前,务必检查 CPU 和 GPU 的使用情况,确保不与他人任务冲突。一起运行代码会降低性能,甚至导致程序崩溃。建议协商排队使用。

检查在线用户

  • 命令who
  • 作用:查看当前登录工作站的用户。
  • 操作:在终端输入以下命令:
    who
    
  • 输出示例
    user1   pts/0    2025-06-03 14:30 (192.168.1.10)
    user2   pts/1    2025-06-03 14:32 (10.0.0.5)
    
  • 说明:显示在线用户、登录时间和来源 IP。联系在线用户,确认他们的任务状态。

检查 CPU 使用情况

  • 命令htop
  • 作用:实时查看 CPU 和内存使用情况,识别占用资源的进程。
  • 操作
    1. 在终端输入:
      htop
      
    2. 查看“CPU”栏,检查使用率(例如 50% 表示一半负载)。
    3. F5 查看进程树,找到占用 CPU 的用户和程序(PID、用户、命令等)。
  • 建议:如果 CPU 占用高(如 >80%),联系相关用户,协商错开运行时间。

检查 GPU 使用情况

  • 命令nvidia-smi
  • 作用:查看 GPU 内存、利用率和运行进程。
  • 操作
    1. 在终端输入:
      nvidia-smi
      
    2. 检查“GPU-Util”列(GPU 利用率)和“Processes”部分(显示 PID、用户、程序名)。
  • 输出示例
    +---------------------------------------------------------------------------------+
    | NVIDIA-SMI 550.54.14    Driver Version: 550.54.14    CUDA Version: 12.4        |
    |-------------------------------+----------------------+-------------------------+
    | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC    |
    | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M.    |
    |===============================+======================+=========================|
    |   0  NVIDIA GeForce RTX 4090  Off  | 00000000:01:00.0 Off |                 Off    |
    | 30%   38C    P2    55W / 450W |  14704MiB / 24564MiB |      0%      Default    |
    +-------------------------------+----------------------+-------------------------+
    | Processes:                                                                      |
    |  GPU   GI   CI   PID   Type   Process name                  GPU Memory Usage    |
    |===============================+======================+=========================|
    |    0    N/A  N/A  12345   C    python                    14700MiB              |
    +-------------------------------+----------------------+-------------------------+
    
  • 建议:若 GPU 内存或利用率高,联系占用者(通过 PID 对应用户),商量排队使用

协作建议

  • 沟通:运行大任务前,与在线用户沟通,确认资源可用性。
  • 排队:协商使用时间,避免同时运行多个重负载任务。

1. 备份重要文件和数据

  • 重要性:工作站数据可能因硬件故障、误操作或系统问题丢失。
  • 建议
    1. 定期备份重要代码、数据和配置文件。
    2. 存储位置:
      • 个人电脑硬盘
      • U 盘或移动硬盘
      • 云存储(如百度网盘)
    3. 使用 SCP 命令FileZilla 软件(如下截图所示)可以快捷与个人主机文件传输
  • 注意:不要完全依赖工作站存储,意外情况随时可能发生!并且注意传入工作站的文件是否安全,切勿将疑似带有病毒的文件包传入!

在这里插入图片描述

2. 定期清理硬盘空间

  • 背景:工作站硬盘是公用的,空间有限,需共同维护。
  • 操作
    1. 检查磁盘使用情况:
      df -h
      
      • 查看挂载点(如 /home)的剩余空间。
    2. 查找大文件或无用数据:
      du -sh /home/* | sort -hr
      
      • 列出目录和文件大小,找出占用空间大的内容。
    3. 清理垃圾文件:
      • 删除临时文件、日志、旧数据包等。
      • 示例:删除 *.tmp 文件:
        rm -rf /home/your_username/*.tmp
        
  • 建议
    • 将不必要的文件转移到个人电脑或网盘。
    • 能不留的垃圾文件和数据包都删除,保持硬盘整洁。
    • 定期(例如每周)检查和清理。

3. 退出 ThinLinc 时注销,释放内存

  • 背景:ThinLinc 是实验室常用的远程桌面工具,退出时若不注销,会话可能继续占用内存,导致工作站性能下降或死机。

  • 操作

    1. 确认无程序需要后台运行。
    2. 点击桌面右上角的“注销”按钮(通常在系统菜单中)。
    3. 选择“注销”或“Log Out”,结束会话。

    在这里插入图片描述

  • 好处

    • 释放主机内存,减少资源占用。
    • 降低工作站死机风险,提高稳定性。
  • 注意

    • 但是若有长期任务(如训练模型),要确保任务在后台运行
    • 若再次登陆时,发现无法通过 ThinLinc 建立连接的问题,如下图所示把End existing session勾选上再次尝试
      在这里插入图片描述

4. 校外使用时配置 VPN

  • 需求:在校外访问实验室工作站需通过学校网络。
  • 操作
    1. 访问学校官网,找到 IT 或网络服务页面。
    2. 下载 VPN 连接软件:EasyConnect
    3. 安装并配置:
      • 输入学校提供的 VPN 服务器地址。
      • 使用您的学号/工号和密码登录。
    4. 连接成功后,通过 ThinLinc 或 SSH 访问工作站。
  • 建议
    • 确保 EasyConnect 版本与学校要求一致。
    • 校外使用时,保持 VPN 连接稳定,避免中断。

注意事项

  • 谨慎操作:管理员修改系统设置或删除文件前,确认权限和影响。
  • 备份:所有建议中,备份和沟通始终是关键,保护代码和数据。
  • 尊重他人:资源共享,优先沟通,协商使用

总结

规范使用实验室电脑资源是大家的责任!运行代码前检查 CPU(htop)和 GPU(nvidia-smi),用 who 确认在线用户,协商排队;备份重要数据,定期清理硬盘;退出 ThinLinc 时注销释放内存;校外使用时配置 EasyConnect VPN。让我们共同维护工作站的高效和稳定!

如有疑问,联系实验室管理员或群内讨论。谢谢配合!


http://www.hkcw.cn/article/CJrJuWTTKX.shtml

相关文章

Nginx + Tomcat负载均衡群集

目录 一、案例环境 二、部署 Tomcat(102/103) 1、准备环境 (1)关闭firewalld 防火墙 (2)安装JDK 2、安装配置 Tomcat (1)Tomcat 的安装和配置 (2)移动…

每日算法-250603

每日算法学习 今天学习了两道关于子数组和的 LeetCode 题目。 1524. 和为奇数的子数组数目 题目 思路 💡 前缀和 核心思想:子数组 arr[i..j] 的和可以表示为两个前缀和之差,即 prefixSum[j1] - prefixSum[i] (假设 prefixSum[k] 表示 arr[0…

【T2I】InteractDiffusion: Interaction Control in Text-to-Image Diffusion Models

CODE: CVPR 2024 https://jiuntian.github.io/interactdiffusion Abstract 大规模文本到图像(t2i)扩散模型在基于文本描述生成连贯图像方面展示了令人难以置信的能力,从而在内容生成方面实现了广泛的应用。虽然最近的进步已经引入了对物体定位、姿态和图像轮廓等因…

今日行情明日机会——20250603

上证指数放量收阳线,阳包阴,量能超过5天均量,个股涨多跌少,行情有所回暖。 深证指数缩量收阳线,再次回打支撑位。 2025年6月3日涨停股主要行业方向分析(基于图片数据) 1. 医药(政策…

Foundation Models for Generalist Geospatial Artificial Intelligence论文阅读

文章目录 摘要1. 引言2. 研究背景3. 预训练数据3.1 HLS-2数据3.2 高效数据采样3.3 预处理程序 4. 模型结构和预训练4.1 时空数据考虑4.2 预训练4.3 预训练结果 5. 下游任务5.1 任务微调数据集5.2 微调模型设置5.3 微调任务结果5.3.1 云插补任务5.3.2 洪水映射任务5.3.3 火灾痕迹…

C++实现汉诺塔游戏用户交互

目录 一、模型调整(一)模型定义(二)模型实现1.电脑自动完成部分2.SDL图形显示2.1拿起放下盘子的函数2.2左右移动手指的函数 二、处理用户输入,进行人机分流三、总结四、源码下载 上篇文章使用C语言实现汉诺塔游戏电脑自动完成的步骤,还没有实现用户交互&…

嵌入式学习 D32:系统编程--进程间通信IPC

引言--进程间通信管道的概念管道相关操作有名管道及其相关操作信号通信 一、引言--进程间通信 1)因为空间是独立和隔绝的,数据发不过去,需要进程间的通信来交互,所以需要通信。 2)linux进程间通信的常用几种方式&…

黑马Java面试笔记之 消息中间件篇(Kafka)

一. Kafka保证消息不丢失 Kafka如何保证消息不丢失 使用Kafka在消息的收发过程中都会出现消息丢失,Kafka分别给出了解决方案 生产者发送消息到Brocker丢失消息在Brocker中存储丢失消费者从Brocker接收消息丢失 1.1 生产者发送消息到Brocker丢失 设置异步发送 消息…

java的SPI机制

SPI(Service Provider Interface)是java提供的一种服务发现机制。允许你定义一个接口或抽象类,然后由第三方实现这个接口,并在运行时动态加载这些实现类 核心思想是:面向接口编程,解耦接口与实现 核心组件…

SpringCloud 分布式锁Redisson锁的重入性 高并发 获取锁

介绍 Redisson 的锁支持 可重入性,这意味着同一个线程在获取锁后,如果再次尝试获取该锁,它可以成功地获得锁,而不会被阻塞。 每次一个线程成功获取锁后,它的持有次数会增加。当线程再次获取该锁时,Rediss…

PyTorch--池化层(4)

池化层(Pooling Layer) 用于降低特征图的空间维度,减少计算量和参数数量,同时保留最重要的特征信息。 池化作用:比如1080p视频——720p 池化层的步长默认是卷积核的大小 ceil 允许有出界部分;floor 不允许…

【自动思考记忆系统】demo (Java版)

背景:看了《人工智能》中的一段文章,于是有了想法。想从另一种观点(⭕️)出发,尝试编码,告别传统程序员一段代码解决一个问题的方式。下图是文章原文和我的思考涂鸦✍️,于是想写一个自动思考记…

小白的进阶之路系列之十二----人工智能从初步到精通pytorch综合运用的讲解第五部分

在本笔记本中,我们将针对Fashion-MNIST数据集训练LeNet-5的变体。Fashion-MNIST是一组描绘各种服装的图像瓦片,有十个类别标签表明所描绘的服装类型。 # PyTorch model and training necessities import torch import torch.nn as nn import torch.nn.functional as F impor…

pytorch3d+pytorch1.10+MinkowskiEngine安装

1、配置pytorch1.10cuda11.0 pip install torch1.10.1cu111 torchvision0.11.2cu111 torchaudio0.10.1 -f https://download.pytorch.org/whl/cu111/torch_stable.html 2、配置 MinkowskiEngine库 不按下面步骤,出现错误 1、下载MinkowskiEngine0.5.4到本地 2、查看…

ORACLE 缺失 OracleDBConsoleorcl服务导致https://xxx:port/em 不能访问

这个原因是,操作过一下 ORCL的服务配置变更导致的。 再PATH中添加个环境变量,路径如下 管理员权限运行cmd 等待创建完成 大概3分钟 查看服务 点击第一个访问,下图登录后的截图

分布式流处理与消息传递——向量时钟 (Vector Clocks) 算法详解

Java 实现向量时钟 (Vector Clocks) 算法详解 一、向量时钟核心原理 #mermaid-svg-JcZ1GT0r1ZNSy6W7 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-JcZ1GT0r1ZNSy6W7 .error-icon{fill:#552222;}#mermaid-svg-JcZ…

深入浅出:Oracle 数据库 SQL 执行计划查看详解(1)——基础概念与查看方式

背景 在当今的软件开发领域,尽管主流开发模式往往倾向于采用单表模式,力图尽可能地减少表之间的连接操作,以期达到提高数据处理效率、简化应用逻辑等目的。然而,对于那些已经上线运行多年的运维老系统而言,它们内部往…

多模态大语言模型arxiv论文略读(104)

Talk Less, Interact Better: Evaluating In-context Conversational Adaptation in Multimodal LLMs ➡️ 论文标题:Talk Less, Interact Better: Evaluating In-context Conversational Adaptation in Multimodal LLMs ➡️ 论文作者:Yilun Hua, Yoav…

【Oracle】游标

个人主页:Guiat 归属专栏:Oracle 文章目录 1. 游标基础概述1.1 游标的概念与作用1.2 游标的生命周期1.3 游标的分类 2. 显式游标2.1 显式游标的基本语法2.1.1 声明游标2.1.2 带参数的游标 2.2 游标的基本操作2.2.1 完整的游标操作示例 2.3 游标属性2.3.1…

Ethernet/IP转DeviceNet网关:驱动大型矿山自动化升级的核心纽带

在大型矿山自动化系统中,如何高效整合新老设备、打通数据孤岛、实现统一控制,是提升效率与安全的关键挑战。JH-EIP-DVN疆鸿智能EtherNet/IP转DeviceNet网关,正是解决这一难题的核心桥梁,为矿山各环节注入强劲连接力: …