【数据集】中国江北气候区100m逐日近地表气温数据

article/2025/8/20 21:39:06

目录

  • 数据概述
    • 一、数据输入来源与处理流程
      • 1. 再分析气温数据(主输入)
      • 2. 辅助数据(辅助输入)
      • 3. 对比数据集
    • 二、数据预处理与标准化
    • 三、模型结构与参数设置
      • 1. 模型结构 —— ConvLSTM 网络
    • 四、训练与推理流程
      • 1. 训练阶段
      • 2. 推理阶段
    • 五、输出效果与评估结果
      • 1. 精度评估指标
      • 2. 辅助变量重要性评估(Importance Score)
      • 3. 与其他数据集对比
    • 六、最终数据成果
  • 数据下载
    • 基于FileZilla下载数据
    • Python实现代码下载
  • 参考

根据论文《Convolutional Long Short-Term Memory network for generating 100 m daily near-surface air temperature》,本文旨在利用ConvLSTM(卷积长短期记忆网络)模型,生成中国江北气候区在2019–2023年夏季(6–8月)的100米空间分辨率的逐日近地表气温数据(最高温 Tmax、最低温 Tmin、平均温 Tmean)。以下是该数据集的详细生产过程,涵盖输入数据来源、处理方法、模型结构及最终输出效果。
在这里插入图片描述

数据概述

一、数据输入来源与处理流程

研究采用的数据总结如下:
在这里插入图片描述

1. 再分析气温数据(主输入)

ERA5 与 ERA5-Land陆地再分析产品:

  • 提供小时级的温度数据。

  • ERA5(0.25°)用于填补 ERA5-Land(0.1°,约等于10 km)在陆水交界处的空缺。
    ERA5-land以0.1的较高空间分辨率提供每小时温度,但仅针对陆地地区,导致陆地-水界面出现缺口。为了解决这个问题,我们使用0.25分辨率的无缝ERA5数据来填补ERA5-Land中的空白。

  • 所有时间数据从 UTC 转换为北京时间(UTC+8)。
    由于研究区域位于中国境内,ERA5-hour(UTC) 和 ERA5-land-hour(UTC) 数据被转换为中国时区 (UTC+8)。

  • 使用双线性插值将 ERA5 resample 至 0.1°。

  • 融合后计算每日 Tmax、Tmin、Tmean。

2. 辅助数据(辅助输入)

温度与海拔高度密切相关,因为海拔越高,温度越低。数字高程模型提供了重要的地形信息,直接影响温度模式。

不同的土地利用类型也会影响温度变化。人类活动的增加放大了不透水表面对温度的影响。然而,LULC数据在土地覆盖均匀的地区可能不太有效,如山区,那里类似的像素编码可能无法捕捉温度变化。尽管所选的 LULC 数据满足研究的时间和空间分辨率要求,但有限的类别数量(如表1所示)导致了类似的挑战。

此外,在城市地区,高度的土地利用异质性和100米的目标分辨率仍然会带来精度损失的风险,尤其是在分散的城市绿地中。

考虑到以上两个原因,我们计划采用NDVI(归一化植被指数)和FVC(植被覆盖度)数据来补充LULC信息。

数据类型数据来源分辨率描述
DEM (数字高程模型)NASA SRTM90m反映地形对气温的影响
LULC (土地利用/覆盖)CLCD30m9类地表类型(如耕地、城市、森林等)
FVC (植被覆盖度)Sentinel-2 NDVI计算10m基于 NDVI 的经验估算公式计算得出
气候分区矢量中国气候区划数据/用于定义研究区域
地面气象站观测数据中国气象局 V3.0日尺度用作模型训练与验证标签,共276个站点

CLCD 土地利用类型含9个分类,如下:
在这里插入图片描述

3. 对比数据集

为了评估ConvLSTM降尺度数据集(表示为CMData)的性能,选择了另外两个数据集进行比较:

(1) 2019年至2022年6月至8月的每日温度数据(WData)
J2024-Reconstruction of all-sky daily air temperature datasets with high accuracy in China from 2003 to 2022

(2) 2019年至2023年6月至8月的每月温度数据(TData)
J2019-1 km monthly temperature and precipitation dataset for China from 1901 to 2017

为了确保时间尺度的一致性,CMData和台站温度数据都汇总到一个月尺度,以便与TData进行比较。

二、数据预处理与标准化

空间重采样:所有数据统一至0.001°(约100米)空间分辨率。

标准化处理:

  • Tmax、Tmin、Tmean、DEM 使用 Z-score 标准化。
  • FVC、LULC 保持原始形式输入。

窗口提取:以站点为中心提取 5×5 像素窗口,构建六维数组输入模型。

三、模型结构与参数设置

1. 模型结构 —— ConvLSTM 网络

ConvLSTM:在 LSTM 的基础上引入卷积操作,融合时间与空间特征。
在这里插入图片描述
因此,本研究中使用的网络由三个ConvLSTM层组成,分别具有128、64和64个隐藏单元。最后应用一个卷积层来产生Tmax、Tmin和Tmean的输出。卷积核大小设置为5×5。通过优化和测试,我们实现了模型准确性和过度拟合风险之间的平衡。在其他参数中,批量大小被设置为32,训练时期的数量被设置为50。

网络层数:

  • 三层 ConvLSTM:隐藏单元数分别为 128、64、64。
  • 最后一层为卷积层,输出单个预测值(Tmax、Tmin、Tmean)。

卷积核大小:5×5。
损失函数:加权 MSE(均方误差):Tmax 和 Tmin 权重为 0.4,Tmean 权重为 0.2。

训练参数:

  • 批处理大小(Batch size):32
  • 训练轮次(Epochs):50

四、训练与推理流程

本研究基于两个假设:
(1) 周围环境影响中心位置的温度。据此,我们选取了气象站位置及其周围5×5图像窗口对应的像元作为数据批次。
(2) 温度和环境因素之间的关系在几年内保持相对稳定。虽然全球变暖是一个严重的长期现象1,但短期波动是存在的,线性趋势在短短几年内并不明显。这个假设保证了在研究期(五年)内共享同一个模型的可行性。
此外,通过将时间框架集中在夏季,大规模的温度波动有所缓解。

在这项研究中,我们首先使用双线性插值法处理从ERA5和ERA5-land、DEM、LULC和FVC数据计算的每日温度数据,以实现0.001(约100米)的空间分辨率。
使用处理后的数据作为ConvLSTM模型输入,我们以100米的空间分辨率生成每日Tmax、Tmin和Tmean数据。
然后,我们进行了时间和空间的准确性评估,计算微波辐射、RMSE和R2指标,并与其他数据集进行比较。
此外,我们分析了所选因子作为输入数据的通道重要性,并讨论了降尺度数据集的应用价值。

1. 训练阶段

在对原始多数据集进行双线性插值后,我们对Tmax、Tmin、Tmean和DEM应用Z得分标准化,而FVC、NDVI和LULC则以其原始形式使用。
由于NDVI和FVC有很强的相关性,我们测试了三种情况——使用NDVI、FVC或两者都使用——发现只使用FVC会导致较小的培训损失。因此,FVC被选为与DEM和LULC作为最终的辅助投入。

在标准化的图像中,我们提取与气象站相对应的图像窗口,并将其堆叠成六维数组:ID、年份、时间步长、通道Channel、高度、宽度。
这里,ID代表不同的站,Year代表研究年份(2019–2023),Time_Step代表天数(6月到8月,92天),Channel 代表输入变量(Tmax,Tmin,Tmean,DEM,FVC,LULC),Height 和Width 代表窗口维数(均为5)。

在随机选择训练和测试站后,我们将ID和Year维度合并到Batch维度中,得到一个五维输入数组:Batch_Size、Time_Step、Channel、Height、Width。
输入维度:[Batch_Size, Time_Step (92天), Channel (6), Height (5), Width (5)]
模型的损失函数是均方误差(MSE)。
标签为站点观测数据(Tmax、Tmin、Tmean)

说明:最初,损失被定义为Tmax、Tmin和Tmean的平均MSE。经过测试,我们发现Tmax和Tmin的MSE高于Tmean。因此,我们将损失函数调整为MSEs的加权和,Tmax和Tmin的权重为0.4,Tmean的权重为0.2。

2. 推理阶段

使用基于台站的数据进行初始模型训练和验证。对于像素级温度推断,我们采用了滑动窗口方法。
首先,使用与训练数据相同的平均值和标准偏差对输入数据进行标准化:
对于Tmax,30.950和3.285;对于Tmin,24.081和2.709;对于Tmean,27.303和2.723;DEM为 69.769 和138.189 。
然后提取围绕每个目标像素的 5×5窗口 作为推理的输入,并应用该模型获得Tmax、Tmin和Tmean。

使用滑动窗口法对整个区域像素进行推理:

  • 每个像素提取其周围 5×5 窗口作为输入。
  • 使用训练好的模型预测该像素的 Tmax、Tmin、Tmean。

五、输出效果与评估结果

考虑的评价指标有三个,如下:
在这里插入图片描述

1. 精度评估指标

月尺度评价指标如下:
在这里插入图片描述
年尺度评价指标如下:
在这里插入图片描述

变量MAE (℃)RMSE (℃)
Tmax0.7841.0270.929
Tmin0.6960.9080.892
Tmean0.5640.7330.943

Tmean 的预测精度最高。

散点密度图显示了Tmax (a)、Tmin (b)和Tmean ©的观测值和预测值之间的一致性,MAE、RMSE和R2的结果位于左上角。
在这里插入图片描述

箱线图显示真实观测值和预测值之间的月(a)和年(b)绝对差异
在这里插入图片描述

空间评估显示:大多数站点 MAE < 1°C,R² > 0.9,但部分高海拔森林地区精度较低(如安徽岳西站)。
在这里插入图片描述

2. 辅助变量重要性评估(Importance Score)

每个 辅助变量的重要性分数评估如下:

输入因子重要性评分
ERA5-Tmean49.33%
ERA5-Tmin20.74%
ERA5-Tmax16.88%
DEM8.55%
LULC4.15%
FVC0.89%

对应于所有站点的LULC、DEM和FVC属性的MAE值。
在这里插入图片描述

主要依赖 ERA5 气温数据。
DEM 在辅助数据中最重要,FVC 贡献最小。

3. 与其他数据集对比

相比 WData(1km/日)与 TData(1km/月):

  • CMData(本研究)空间分辨率更高(100m);
  • 精度略低于 WData,但远优于 TData;
  • 更适合城市内部温度细节研究。
    在这里插入图片描述
    在这里插入图片描述

六、最终数据成果

输出内容:逐日 Tmax、Tmin、Tmean(单位:℃)
时间范围:2019–2023年6月–8月
空间范围:中国江北气候区(110.22°E–121.91°E,27.20°N–34.10°N)
空间分辨率:100米

数据下载

国家青藏高原科学数据中心-Summer Daily Scale 100m Maximum, Minimum, and Average Temperature
在这里插入图片描述

基于FileZilla下载数据

下载信息如下:
在这里插入图片描述
打开FileZilla,并填写上述信息:
在这里插入图片描述
可根据需要,右键下载。

Python实现代码下载

GitHub-ConvLSTM-for-Temperature-Downscaling
在这里插入图片描述
各文件功能总结如下:
main_run.py: main function to run scripts
convlstm_final.py: convLSTM model
contribution_factors.py: customized function to calculate channel importance
criterion_weighted.py: weighted criterion function train_validate.py: train and validate functions
parameters_std.xlsx: standardized parameters for required training channels
checkpoint_model_19-23.pth: final model to conduct downscaling

参考


http://www.hkcw.cn/article/MXkxJiOfvR.shtml

相关文章

罗马-华为

SPA应用:single-page application:单页应用SPA是一种网络应用程序或网站的模型,它通过动态重写当前页面来与用户交互,这种方法避免了页面之间切换打断用户体验在单页应用中 集成 ROMA Connect 主要包含四个组件:数据集成( FDI )、服务集成( APIC )、消息集成 ( MQS …

这种剧毒蛇再次现身安徽 罕见物种重现

安徽大学陈众调查团队在黄山市徽州区进行县域两栖爬行动物调查时,记录到极罕见的毒蛇——福建华珊瑚蛇。这是自2010年以来,时隔15年安徽再次记录到该物种,也是省内目前仅有的两笔确凿分布记录,具有重要的科研与保护价值。福建华珊瑚蛇属有鳞目眼镜蛇科中华珊瑚蛇属。其体长…

shell脚本中常用的命令

一、设置主机名称 通过文件的方式修改通过命令修改 二、nmcli 查看网卡 ip a s ens160 (网卡名称) ifconfig ens160 nmcli device show ens160 nmcli device status nmcli connection show ens160 2.设置网卡 a)当网卡没有被设置时 b)网卡被设定&#xff0c;需要修改 三…

Spring框架学习day2--Bean管理(IOC)

Spring如何进行Bean管理&#xff08;IOC&#xff09;方式1&#xff1a;基于xml&#xff08;spring.xml&#xff09;依赖注入 方式2&#xff1a;基于注释&#xff08;常用&#xff09;方法1&#xff1a;**Autowired**方法2&#xff1a; **JDK 注解Resource 自动注入****注解与 X…

Practice 2025.5.29 —— 二叉树进阶面试题(1)

文章目录 部分二叉树进阶面试题(1)Leetcode_606 根据二叉树创建字符串Leetcode_236 二叉树的最近公共祖先Leetcode_105 从前序与中序遍历构造出二叉树Leetcode_LCR 155 将二叉搜索树转化为双向链表 部分二叉树进阶面试题(1) 本篇文章将对一些面试中比较常见的、难度稍微大一些…

1.spring基础入门(一)

Spring Framework 前⾔ Spring 是当前 Java 开发的⾏业标准&#xff0c;第⼀框架。 Spring 概念诞⽣于 2002 年&#xff0c;于 2003 年正式发布第⼀个版本 Spring Framework 0.9。 经过⼗⼏年的优化迭代&#xff0c;Spring Framework 已经从最初的取代 EJB 的框架逐步发展…

从0到1构建无纸化办公:Paperless-ngx系统实战部署与效率优化全过程

文章目录 前言1.关于Paperless-ngx2.Docker部署3.简单使用paperless4.安装cpolar内网穿透5. 配置公网地址6. 配置固定公网地址总结 前言 在信息技术迅猛发展的今天&#xff0c;传统纸质文件管理正面临前所未有的挑战。每当晨会开始的提示音响起&#xff0c;职场人士是否经历过…

PCA主成分分析与Python应用

一.原理简介 主成分分析&#xff08;Principal Compoent Analysis,PCA&#xff09;是一种常用的统计方法和降维技术&#xff0c;用于从高维数据中提取重要信息&#xff0c;减少数据的维度&#xff0c;同时尽可能保留数据的关键特征和变化信息。 PCA通过将原始数据投射到新的坐…

印度5岁女童遭邻居性侵,警方认为是轻罪当晚放人!

印度5岁女童遭邻居性侵,警方认为是轻罪当晚放人。印度北方邦阿格拉市一名5岁女童,到家附近的寺庙玩耍时,竟遭邻居诱骗性侵,过程全被监视器拍下。警方却认为,邻居只是犯下轻罪,当晚就将他释放。受害女童的祖母讲述,孙女18日上午到附近的寺庙外头玩耍,邻居帕维特拉将孙女…

刘越评全运会断腿事件:“踢不到球还不会踢人吗?”中国足球不冤 社会足球现状堪忧

5月29日,前国脚刘越在社交媒体上对全运会足球比赛中出现的暴力飞踢事件发表了看法。他认为,全运会足球增设社会组本是一项很好的推广全民体育的尝试,让不同年龄和背景的人都能参与进来。以前,参加全运会是专业运动员奋斗的目标,现在这种机会扩大到了更广泛的群体。然而,社…

官方通报小车高架坠桥5人死亡 车道突变致车辆失控

官方通报小车高架坠桥5人死亡!近日,广东东莞环莞快速路虎门段发生了一起交通事故,引起了广泛关注。一名网友称其侄儿驾车经过该路段时,由于四车道突然收窄为三车道,车辆失控从高架冲出路面,造成5人伤亡。事故发生在5月19日18时23分,苏某(男,23岁)驾驶小汽车搭载4人沿…

Perforce P4产品简介:无限扩展+全球协作+安全管控+工具集成(附下载)

本产品简介由Perforce中国授权合作伙伴——龙智编辑整理&#xff0c;旨在带您快速了解Perforce P4版本控制系统的强大之处。 世界级无限可扩展的版本控制系统 Perforce P4&#xff08;原Helix Core&#xff09;是业界领先的版本控制平台&#xff0c;备受19家全球Top20 AAA级游…

Futaba乐迪小飞象Frsky7通多协议接收机KA6说明书

Futaba乐迪小飞象Frsky7通多协议接收机KA6 重量&#xff1a;10g 尺寸&#xff1a;40x28x14mm 工作电压&#xff1a;3.7-5v 信号输出&#xff1a; 7个PWM通道 支持协议&#xff1a;Futaba SFHSS, Radiolink,DumboRC, Frsky D8 遥控距离&#xff1a;SFHSS 使用 4合1高频头&…

炸裂!追觅管理者致内部:员工价值需达雇佣成本15倍,请自我审视一下 深圳同事效率受质疑

5月29日,网传消息称追觅公司有管理层质疑深圳办公地点员工的工作饱和度。该管理人员指出,许多深圳同事早上九点后才到岗,晚上八点前就下班了,并质疑深圳同事是否真的能在更短时间内高效完成工作。这位管理人员还提到,在行业内普遍认为员工创造的价值应达到雇佣成本的15倍以…

记者调查美国滥施关税究竟伤了谁?

记者调查美国滥施关税究竟伤了谁?2025年春天,当特朗普政府再度挥起关税大棒,美国的各行各业都被推到风口浪尖。东方卫视记者从美国华盛顿出发,车行一万公里,走访近10个州,用镜头拍下仓库里的空架、厨房里的囤货、超市标签的悄然变动,也记录下了农民的迷茫、民众的抱怨和…

项目管理进阶:98页IPD全流程全要素详解【附全文阅读】

IPD&#xff08;集成产品开发&#xff09;是源于 PACE 理论的系统性研发管理体系&#xff0c;强调以市场需求为驱动、将产品开发视为投资&#xff0c;通过四大核心流程&#xff08;战略管理、市场管理、产品开发、技术开发&#xff09;和四类跨部门团队&#xff08;IPMT、PDT、…

3372.连接两棵树后最大目标节点数目 I:脑筋急转弯——深搜确定k邻近节点(清晰题解)

【LetMeFly】3372.连接两棵树后最大目标节点数目 I&#xff1a;脑筋急转弯——深搜确定k邻近节点(清晰题解) 力扣题目链接&#xff1a;https://leetcode.cn/problems/maximize-the-number-of-target-nodes-after-connecting-trees-i/ 有两棵 无向 树&#xff0c;分别有 n 和 …

哪吒汽车债转股失败!金主出手,条件是罢免创始人方运舟

哪吒汽车债转股失败。据《21汽车・一见Auto》5月29日爆料,哪吒“债转股”减轻债务以求新融资到位的方案宣告失败。爆料称,哪吒汽车欠供应商的总款项约60亿元左右,原定只需要化解一半的债务即30亿元,投资方才愿意提供新的资金。但知情人士透露,愿意接受“债转股”方案的供应…

明日端午节:“双春早端午,午时要躲藏” 古老习俗再现

明日端午节:“双春早端午,午时要躲藏” 古老习俗再现!端午节在仲夏时节,这时白天逐渐变长,太阳早出晚落。尽管我们看到的是太阳东升西落,实际上是地球自转造成的。端午节的具体日期是农历五月初五,也被称为重五日,主要是为了纪念屈原。这一天,人们会制作粽子、划龙舟等…

org.apache.ibatis.binding.BindingException: Invalid bound statement (not found): com.lxsq.service.

org.apache.ibatis.binding.BindingException: Invalid bound statement (not found): com.lxsq.service.mapper.DeviceInfoMapper.insertDeviceInfo 看文件夹没注意可能看不出来&#xff0c;其实是文件夹应该创建成层级&#xff0c;这个文件夹的名称就是mapper.service 在看…