(笔记+作业)第五期书生大模型实战营---L1G2000 OpenCompass 评测书生大模型实践

article/2025/7/27 18:45:21

学员闯关手册:https://aicarrier.feishu.cn/wiki/QdhEwaIINietCak3Y1dcdbLJn3e
课程视频:https://www.bilibili.com/video/BV13U1VYmEUr/
课程文档:https://github.com/InternLM/Tutorial/tree/camp4/docs/L0/Python
关卡作业:https://github.com/InternLM/Tutorial/blob/camp4/docs/L0/Python/task.md
开发机平台:https://studio.intern-ai.org.cn/
开发机平台介绍:https://aicarrier.feishu.cn/wiki/GQ1Qwxb3UiQuewk8BVLcuyiEnHe
书生浦语官网:https://internlm.intern-ai.org.cn/
github网站:https://github.com/internLM/
InternThinker: https://internlm-chat.intern-ai.org.cn/internthinker
快速上手飞书文档:https://www.feishu.cn/hc/zh-CN/articles/945900971706-%E5%BF%AB%E9%80%9F%E4%B8%8A%E6%89%8B%E6%96%87%E6%A1%A3
提交作业:https://aicarrier.feishu.cn/share/base/form/shrcnUqshYPt7MdtYRTRpkiOFJd;
作业批改结果:https://aicarrier.feishu.cn/share/base/query/shrcnkNtOS9gPPnC9skiBLlao2c
internLM-Chat 智能体:https://github.com/InternLM/InternLM/blob/main/agent/README_zh-CN.md
lagent:https://lagent.readthedocs.io/zh-cn/latest/tutorials/action.html#id2

1. OpenCompass 概述

在这里插入图片描述
在 OpenCompass 中评估一个模型通常包括以下几个阶段:配置 -> 推理 -> 评估 -> 可视化。
配置:这是整个工作流的起点。您需要配置整个评估过程,选择要评估的模型和数据集。此外,还可以选择评估策略、计算后端等,并定义显示结果的方式。
推理与评估:在这个阶段,OpenCompass 将会开始对模型和数据集进行并行推理和评估。推理阶段主要是让模型从数据集产生输出,而评估阶段则是衡量这些输出与标准答案的匹配程度。这两个过程会被拆分为多个同时运行的“任务”以提高效率,但请注意,如果计算资源有限,这种策略可能会使评测变得更慢。如果需要了解该问题及解决方案,可以参考 FAQ: 效率。
可视化:评估完成后,OpenCompass 将结果整理成易读的表格,并将其保存为 CSV 和 TXT 文件。你也可以激活飞书状态上报功能,此后可以在飞书客户端中及时获得评测状态报告。
对于其他模型,请参考 configs 目录 中提供的其他示例。

2. 3.1 评测C-Eval 选择题+math_gen计算题

开发机Cuda12.2-conda

#1、环境安装
conda create -n opencompass python=3.10
conda activate opencompass
# 注意:一定要先 cd /root
cd /root
git clone https://github.moeyy.xyz/https://github.com/open-compass/opencompass opencompas
cd opencompas
pip install -r requirements.txt
pip install -e .pip install sentencepiece
#升级datasets 避免不识别新的功能
pip install datasets==3.2.0
pip install modelscope#2、配置数据集、模型
export DATASET_SOURCE=ModelScope
#可用数据集来源:humaneval, triviaqa, commonsenseqa, tydiqa, strategyqa, cmmlu, lambada, piqa, ceval, math, LCSTS, Xsum, winogrande, openbookqa, AGIEval, gsm8k, nq, race, siqa, mbpp, mmlu, hellaswag, ARC, BBH, xstory_cloze, summedits, GAOKAO-BENCH, OCNLI, cmnli
cd /root/opencompass
wget https://ghfast.top/https://github.com/open-compass/opencompass/releases/download/0.2.2.rc1/OpenCompassData-core-20240207.zip
unzip OpenCompassData-core-20240207.zip
#新建和编辑模型文件
touch opencompass/opencompass/configs/models/hf_internlm/hf_internlm3_8b_instruct.py#3、评测
#3.1直接评测
python run.py --datasets ceval_gen --models hf_internlm3_8b_instruct --debug
#3.2写配置脚本运行
cd /root/opencompass/opencompass/configs
touch eval_tutorial_demo.py
#编辑配置脚本文件
cd /root/opencompass
python run.py opencompass/configs/eval_tutorial_demo.py --debug
#3.3 评测math_gen计算题
python run.py --datasets math_gen --models hf_internlm3_8b_instruct --debug
#模型配置文件opencompass/opencompass/configs/models/hf_internlm/hf_internlm3_8b_instruct.py
from opencompass.models import HuggingFacewithChatTemplatemodels = [dict(type=HuggingFacewithChatTemplate,abbr='internlm3-8b-instruct-hf',path='/root/share/new_models/Shanghai_AI_Laboratory/internlm2_5-1_8b-chat',max_out_len=8192,batch_size=8,run_cfg=dict(num_gpus=1),)
]
#评测配置文件eval_tutorial_demo.py
from mmengine.config import read_basewith read_base():from .datasets.ceval.ceval_gen import ceval_datasetsfrom .models.hf_internlm.hf_internlm3_8b_instruct import models as hf_internlm3_8b_instructdatasets = ceval_datasets
models = hf_internlm3_8b_instruct

http://www.hkcw.cn/article/MHfAnFfYNy.shtml

相关文章

激光雷达的强度像和距离像误差与噪声分析(1)2025.5.30

激光雷达的强度像和距离像在测量过程中可能受到多种误差和噪声的影响,这些因素既包括硬件本身的物理特性,也涉及环境条件和算法处理等外部因素。以下是主要误差类型、噪声来源及其关键影响因素的综合分析: 一、强度像的误差与噪声 能量信号…

uboot移植之IOMUX介绍

本章节主要讲,如何将NXP官方i.MX6ULL EVK评估板的uboot源码移植适配到ELF 1开发板。本身uboot的作用就是启动内核,只要能成功启动内核,uboot使命便已完成。但是从开发调试的角度来讲,有时候我们需要在uboot阶段使用一些外设接口方…

3DMAX+Photoshop教程:将树木和人物添加到户外建筑场景中的方法

在本教程中,我将向您展示如何制作室外场景。我不会详细解释每一个细节,而是想快速概述一下我的方法。 在本教程中,我使用了一个相对简单的3D模型,并向您展示了在一些高质量纹理的帮助下可以做什么。此外,我将向您展示…

n8n 中文系列教程_25.在n8n中调用外部Python库

在n8n中使用Python处理复杂任务时,内置的Code节点由于运行在沙盒环境中,无法直接调用外部Python库(如pandas、requests等),限制了工作流的扩展能力。本文将介绍一种持久化解决方案:通过Docker挂载目录虚拟环…

STM32单片机简介

1.基本情况 STM32单片机正如其名是32位微控制器,相较于51单片机的8位微控制器,性能会更好,但学习难度也会提高。 在stm32单片机中内核时核心部分,是ARM公司设计的,其在stm32单片机中占据极为重要的地位。(程序指令的…

安全帽目标检测

安全帽数据集 这里我们使用的安全帽数据集是HelmentDetection,这是一个公开数据集,里面包含5000张voc标注格式的图像,分为三个类别,分别是 0: head 1: helmet 2: person 安全帽数据集下载地址、 我们将数据集下载后&#xff0c…

气镇阀是什么?

01、阀门介绍: 油封机械真空泵的压缩室上开一小孔,并装上调节阀,当打开阀并调节入气量,转子转到某一位置,空气就通过此孔掺入压缩室以降低压缩比,从而使大部分蒸汽不致凝结而和掺入的气体一起被排除泵外起此…

1,QT的编译教程

目录 整体流程: 1,新建project文件 2,编写源代码 3,打开QT的命令行窗口 4,生成工程文件(QT_demo.pro) 5,生成Make file 6,编译工程 7,运行编译好的可执行文件 整体…

Linux操作系统 使用共享内存实现进程通信和同步

共享内存使用 //main.c #include <stdio.h> #include <stdlib.h> #include <unistd.h> #include <assert.h> #include <sys/shm.h> #include <string.h> int main() {int shmidshmget((key_t)1234,256,IPC_CREAT|0600);assert(shmid!-1);…

力扣HOT100之动态规划:322. 零钱兑换

这道题和上一道题279.完全平方数的套路是完全一样的&#xff0c;但是这道题不需要我们自己生成物品列表&#xff0c;函数的输入中已经给出了&#xff0c;但是这道题有一个坑&#xff0c;就是我们在初始化dp数组的时候&#xff0c;所有的位置不应该赋值为INT_MAX&#xff0c;因为…

工厂方法模式(Factory Method)深度解析:从原理到实战优化

作者简介 我是摘星&#xff0c;一名全栈开发者&#xff0c;专注 Java后端开发、AI工程化 与 云计算架构 领域&#xff0c;擅长Python技术栈。热衷于探索前沿技术&#xff0c;包括大模型应用、云原生解决方案及自动化工具开发。日常深耕技术实践&#xff0c;乐于分享实战经验与…

π0-FAST-针对VLA模型的高效动作token化技术-2025.1.16-开源

0. 前言 2025年2月4日&#xff0c;π0 和 π0-FAST 一并开源&#xff0c;这个系列许多研究者、企业人士认为落地潜力很大 项目页 论文页 GitHub页 之前已经做了 π0 论文的详解&#xff1a;π0-通用VLA模型-2024.11.13-开源 本文来详解一下 π0-FAST 1. π0-FAST&#xff1…

正点原子Z20 ZYNQ ​​​开发板​​发布!板载FMC LPC、LVDS LCD和WIFI蓝牙等接口,资料丰富!

正点原子Z20 ZYNQ ​​​开发板​​发布&#xff01;板载FMC LPC、LVDS LCD和WIFI&蓝牙等接口&#xff0c;资料丰富&#xff01; 正点原子新品Z20 ZYNQ开发板来啦&#xff01;核心板全工业级设计&#xff0c;主控芯片型号是XC7Z020CLG484-2I。开发板由核心板底板组成&…

SPL做量化----SRMI(动量修正指标)

MI 修正指标&#xff0c;用法参考 MI 动力指数用法。 例如计算浦发银行 2024 年的 SRMI 指标&#xff0c;N 取 9。 代码示例&#xff1a; A160000022024-01-0132024-12-314call("adjustprice.splx", "", call("loadkday.splx", A1, A2,A3) )5…

【油藏地球物理正演软件ColchisFM】如何在实际地震剖面基础上增删地质体开展正演

在实际地震正演过程中&#xff0c;很多油田客户都希望看到在实际地震剖面上如果增加/减少一个砂体&#xff0c;或者仅仅目的层储层变厚/变薄&#xff0c;物性变好/变差&#xff0c;含油性改变地震上会是什么样的响应&#xff0c;而不仅仅是理论的模型&#xff0c;这时常规的正演…

数据库中求最小函数依赖集-最后附解题过程

今天来攻克数据库设计里一个超重要的知识点 —— 最小函数依赖集。对于刚接触数据库的小白来说&#xff0c;这概念可能有点绕&#xff0c;但别担心&#xff0c;咱们一步步拆解&#xff0c;轻松搞定&#x1f4aa;&#xff01; &#xff08;最后fuyou&#xff09; 什么是最小函数…

奇异值分解(SVD):线性代数在AI大模型中的核心工具

&#x1f9d1; 博主简介&#xff1a;CSDN博客专家、CSDN平台优质创作者&#xff0c;高级开发工程师&#xff0c;数学专业&#xff0c;10年以上C/C, C#, Java等多种编程语言开发经验&#xff0c;拥有高级工程师证书&#xff1b;擅长C/C、C#等开发语言&#xff0c;熟悉Java常用开…

通信算法之280:无人机侦测模块知识框架思维导图

1. 无人机侦测模块知识框架思维导图, 见文末章节。 2. OFDM参数估计,基于循环自相关特性。 3. 无人机其它参数估计

VScode ios 模拟器安装cocoapods

使用 Homebrew 安装&#xff08;推荐&#xff09; 如果你有 Homebrew&#xff0c;直接用它安装更稳定&#xff1a; brew install cocoapods

特伦斯 S75 电钢琴:重塑演奏美学的至臻之选

在电钢琴产业迈向技术与体验双升级的时代&#xff0c;特伦斯 S75 以颠覆性设计重新定义高端电钢琴的价值标杆。这款集工艺美学、演奏质感与智能科技于一体的乐器&#xff0c;不仅是音乐表达的工具&#xff0c;更是现代生活空间中流动的艺术符号。 一、极简美学与功能主义的完美…