
世界气象组织(WMO)的科学与技术愿景——通过数据科学推进气象和气候工作
今天就实施一个以数据为中心的模型,用于天气和气候分析。这项任务的核心是标准化元数据、强大的数据质量检查以及跨机构和跨国界的开放、安全的数据共享。目标:每天从卫星、飞机、地面站、海洋传感器和雷达网络摄取2PB的新观测数据,关键数据集的端到端延迟小于5分钟。建立一个集中的数据经纪人、一个通用目录和一个透明的访问框架,为研究人员、操作员和决策者服务。
另请参阅:141 资本管理中的道德问题:道德、合规性和最佳实践综合指南。
创建一个模块化的数据融合堆栈,将实时观测数据与模型输出相结合。使用共享数据模型和FAIR原则,确保数据是可查找、可访问、可互操作和可重用的。实施一个带有机器可操作描述符和数据溯源跟踪的元数据注册中心。部署可扩展的微服务,用于摄取、验证并将数据发布到24/7的计算网格。
投资于能力建设和人才保留:每年培训250名数据科学家和180名气象学家;每年资助WMO成员之间的5个联合数据科学项目;确保在合作伙伴项目中至少有30%的参与来自发展中地区。
开源工具和可复现的工作流成为基础:采用xarray、Dask、Apache Arrow和基于Jupyter的仪表板;提供可复现笔记本的模板;维护一个带有CI管道的共享Git存储库。每年建立3个优先软件包,以加速预报验证、异常检测和气候情景分析。
以操作指标定义成功:实时地面观测的延迟低于3分钟;关键即时预报的数据质量目标为95%的准确率;90%的核心数据集发布了机器可读的元数据;成员国数据支持的决策使用量每年增加20%。
哪些研究优先事项有助于天气和气候预报的增强?

这项任务的核心是加强数据和模型的整合,以提高天气和气候预报的准确性。通过将雷达、卫星、地面和现场观测与耦合模型相结合,我们可以缩短更新周期,并减少各个尺度的偏差。
推进数据同化方法和集合流,以提供支持风险决策的概率预报。构建简化的数据处理流程,在数小时内摄取观测数据,并将其不确定性传播到数天至数季的预报中。
投资于强大的观测网络、计算能力和跨领域联系,以确保一致的初始条件。利用机器学习进行后处理、偏差校正和快速异常检测,同时保持物理约束。
这项任务需要各机构、区域和研究界之间的密切合作,以共享数据、基准和软件,加速其在预报中心的采用。
关键研究领域
| 优先事项 | 理由 | 行动 | 关键绩效指标 |
|---|---|---|---|
| 大气-海洋-陆地-冰冻圈一体化数据同化 | 跨领域的初始条件对齐,以减少跨领域偏差。 | 实施耦合EnKF/4D-Var,统一质量控制,跨中心共享试点数据集。 | 3-7天预报的RMSE降低15-25%;核心产品的更新延迟<3小时。 |
| 观测网络优化和实时摄取 | 在同化窗口内最大化有影响力的观测。 | 优先考虑高影响卫星,扩大欠发达地区的探空仪和地面网络,自动化质量控制。 | 目标区域的覆盖范围提高20-40%;摄取延迟<1小时。 |
| 季节性预报的气候-天气耦合 | 改善气候尺度预报的初始化和边界条件。 | 开发季节性气候模型和日尺度天气模型之间的无缝耦合;交叉验证偏差。 | 2-6个月预报的技能提升;概率校准指标提高10-20%。 |
| 不确定性量化和机器学习增强的后处理 | 提供可靠的概率预报和可操作的风险指标。 | 使用机器学习来学习残余偏差,校准集合,量化不确定性;确保物理约束。 | 可靠性指标得到改善;低离散度减少;用户信任指标。 |
实施路径和合作
另请参阅:应对气候变化中的创新保险解决方案。
制定具有明确里程碑的多年度联合研发议程,并建立治理结构以协调数据共享和软件管理。通过培训计划、共享数据集和国家气象服务可访问的开源工具来建设能力。
如何对全球观测网络进行升级以实现实时数据?
部署模块化、可互操作的传感器网格,并进行边缘处理,以提供近实时的字符串数据。每个节点在本地融合测量数据,进行快速质量检查,并将经审核的数据转发到中央枢纽,从而减少回传负载并实现更快的警报。
通过低成本地面传感器和增强型固定站的组合来增加覆盖范围,以弥合观测差距。将目标定为90%的关键观测在收集后的五分钟内到达数据中心,并计划在五年内为高优先级区域每1000平方公里增加100个新的微传感器。包括用于快速季节性活动的便携式剖面仪。
建立多层下行链路,利用区域地面站、卫星链路和密集的中继节点来缩短区域内的延迟。优先考虑易受风暴影响的地区和沿海地区,这些地区的快速更新可以挽救生命和财产。
采用开放标准和共享数据格式,如NetCDF、CF约定、SensorML和WMO信息系统。创建通用API进行数据摄取,并将数据推送到具有清晰溯源和准确时间戳的区域数据立方体中,以确保可追溯性。
通过轻量级检查和机器学习辅助的异常检测,在边缘实现质量控制的自动化。使用自动化的质量控制标志、元数据验证和与邻近传感器的交叉验证,以减少误报并提高警报的置信度。
治理必须与任务保持一致:确保跨境数据共享协议,提供稳定的维护资金,以及强大的网络安全,包括访问控制和审计跟踪。建立一个两层模型,其中区域节点管理本地融合,全球中心协调标准、基准和进度指标。
另请参阅:2024年宣言:一项大胆的变革、进步与增长计划。
实施步骤包括差距分析、在不同气候条件下的试点网络、分阶段扩展以及对延迟、正常运行时间和数据质量的持续监控。为利益相关者发布仪表板,并通过与数据管道相结合的培训计划来建设能力。
哪些数据标准和互操作性支撑着全球愿景?
采用核心堆栈:用于网格化场地的CF兼容NetCDF-4,用于观测和预报的BUFR和GRIB,以及以ISO 19115/19139配置文件表示的元数据。发布带有持久标识符和清晰许可的数据,并通过OGC API标准暴露访问,以实现无缝的跨系统使用。
这项任务依赖于开放、文档齐全的标准,团队可以逐步采用。建立一个共享的元数据模型,该模型以WMO核心元数据配置文件和ISO 19115为基础,并包含用于变量、单位和溯源的受控词汇表。以机器可读的形式附加数据质量标志和溯源细节,以支持自动发现、引用和可复现性。
开放的接口证明了互操作性:实现OGC API - Features和OGC API - Coverages,以及在需要时用于可视化访问的WMS/WMTS。提供多种编码格式的数据(NetCDF/CF、用于元数据的JSON-LD),并确保数据集之间一致的空间参考系统和时间轴。
治理和管理驱动一致性:定义许可、访问规则和版本控制;跟踪数据溯源;在摄取时要求元数据完整性;维护历史记录和更改日志。使用DOI进行数据集发布,并为预报产品和观测流分配稳定的标识符。
实施计划包括多机构试点,目标是:两年内80%的新数据流符合CF标准;15分钟内超过90%的预报和观测数据流可通过API访问;API正常运行时间目标为99.5%;并在中央存储库中发布文档,包含示例查询。
人工智能、数据同化和高性能计算如何改变预测能力?
现在采用三层堆栈:用于快速亚网格物理学的AI代理模型,用于加强分析的AI驱动的数据同化,以及用于扩展集合的HPC驱动的工作流程。这项任务将科学与业务相结合,实现了更快的周转速度和更强的预报信心。
实施大纲
- AI代理模型:用物理信息神经网络取代昂贵的亚网格组件,如辐射传输和云微物理,这些网络的计算成本为1/5到1/2。在5个代表性案例中与全物理模型运行进行验证,并将近地表温度的误差范围保持在0.5-1.0 K以内,关键风段的误差范围保持在0.5-1.0 m/s以内。
- 数据同化增强:将AI预测的协方差与集合-变分框架融合;允许通过在线性能进行自适应膨胀调谐;在高观测影响的同时控制虚假信号。目标是在试点区域,24-72小时预报的RMSE降低10-15%。
- HPC工作流程:容器化组件,使用MPI和多线程并行化同化循环,并通过分阶段数据移动最小化I/O停顿。在拥有数万亿核心的集群上运行32-64个成员的集合;目标是在高峰运行时,端到端的48小时预报生成时间低于2-3小时。
具体的预期成果
- 生产环境:AI代理模型将每个核的时间缩短40-60%;整体集合循环时间下降20-35%;数据同化周期在预报窗口内完成。
- 可靠性:AI驱动的协方差将集合离散度失配减少15-25%,提高了关键字段的校准指标。
- 实施就绪性:部署模型代码的持续集成,确保通过版本化数据集进行可复现的实验,并维护预报和后处理的可审计跟踪。
下一步包括在一个地区进行为期6个月的试点,随着结果的稳健性得到证明,将其扩展到邻近地区,并建立治理机制,为预报和后处理提供清晰的数据访问、可复现性和审计跟踪。
哪些治理、访问和协作模式指导着开放数据?
采用与任务一致的三层治理模型:指导委员会、数据管理员网络以及访问与合规办公室。指导委员会制定政策,确定数据集的优先级,并批准许可。数据管理员网络负责每个项目的元数据、质量检查和数据集生命周期。访问与合规办公室负责管理许可、用户身份验证和审计跟踪。
许可应默认为CC0(公共领域)用于公开数据,CC BY 4.0(署名)用于需要署名的数据,并包含关于衍生作品的明确条款。每个数据集都附带元数据中的机器可读许可。实施一个带有DCAT-AP或DataCite DOI的数据目录。维护一个中央API网关,通过具有速率限制和使用日志的REST端点提供数据。包括隐私和安全限制,确保敏感信息得到保护。
访问层级:公共(用于预报产品和历史数据);研究(通过双因素��证供已验证的研究人员使用);受限(用于根据数据共享协议共享的敏感数据集)。所有访问事件都会被记录以备追责。费用:免除非营利性研究和教育的费用;对大量商业请求收取适度费用,并设有年度上限。
协作模式:创建共同的数据治理章程、标准元数据和API规范;采用数据交换标准,如DCAT-AP、OpenAPI和SensorThings API(用于传感器数据);使用DataCite DOI。使用跨机构工作组进行季度冲刺;发布季度透明度报告,说明数据集数量、许可、访问次数和事件日志。
实施蓝图
启动90天滚动计划:发布治理章程,任命数据管理员,部署许可模板,并将目录连接到API网关。设定可衡量的目标:在2个工作日内做出访问决定,自动检查的数据质量得分至少达到92%,以及前200个数据集的目录完整性至少达到85%。
通过定期冲刺收集反馈:收集预报员和研究人员的使用案例,调整层级和许可,并完善目录。发布季度透明度报告,详细说明数据集数量、许可、访问次数和事件日志,以保持信任。
能力建设和知识转移如何为成员国运作?

设立三个区域能力建设与知识转移(CBKT)中心,共同承担一项共享任务,提供三个流:结构化数据科学培训、应用预报和气候项目工作,以及基于导师的指导。目标是每个中心每年培训150名从业人员,以及25名区域导师,他们支持学员、同行和国家团队。每个中心连接到一个中央知识中心,该中心托管模块化课程、实践练习、可重用代码和多语言材料,这些材料与WMO数据标准和可互操作的系统保持一致。
设计具有快速反馈的知识转移流程。每月提供8-12分钟的微学习模块,每季度在区域中心举办一次动手研讨会,每年举办一次虚拟训练营,汇集来自多个国家的参与者。让学员与国家气象服务和国际专家的导师配对。提供为期3-6个月的借调机会,以开展国家项目并将学习成果反馈给项目。材料与WIS 2.0互操作性和开放数据政策(在获得授权的情况下)保持一致。创建一个活的培训手册,记录成功的试点项目并支持规模化。
通过专门的资源模型确保可持续性,为交付、知识库开发和评估分配资金。将约60%分配给培训交付,25%分配给知识中心和工具,15%分配给监控和评估。与大学合作进行资质认证,与行业合作获取真实世界的数据集。将材料翻译成主要的国家语言。提供基于云的实践实验室,并提供安全的数据访问,以实现远程学习,同时保护敏感信息。
定义实际指标来跟踪进展:接受培训的员工人数、工作效率的提高、数据质量指标和最终用户满意度。为成员国发布季度仪表板,并与来自区域集团的多元化代表进行年度审查。利用反馈来调整课程、更新数据集和更新工具包,确保与国家能力计划和应急响应需求保持一致。
实施步骤:在WMO结构内建立一个CBKT治理机构;在12个月内启动3个区域中心;建立一个包含课程、数据集和代码的中央知识库;在第一年每个区域运行两次试点;三年内扩展到所有成员国。每季度监控里程碑,并调整资源分配以满足国家层面的需求。其结果是一支具备数据能力的劳动力队伍,能够提供及时的气候和天气服务,支持韧性。
哪些指标、验证和评估方法可以有效跟踪进展?
采用一个与任务一致的指标集,包含8到12个指标,并在每次数据发布后的四周内发布一个实时仪表板,以保持团队的专注和责任心。
需要跟踪的指标
关注三个层级:预报准确度、概率技能和数据质量。对于点预报,跟踪关键变量(温度、降水、风)的MAE和RMSE,并进行区域分层。对于概率预报,报告CRPS和Brier分数,以及可靠性曲线以揭示校准不足。监控数据延迟(从观测到摄取的时间)、数据完整性(预期观测的百分比)和异常率。增加治理指标:模型版本数量、文档覆盖率和可复现性指标(代码可用性、容器化和版本标记)。设定目标,例如中纬度地区日温度MAE<1.5°C,降水概率CRPS<0.25,流数据延迟<15分钟,关键站点数据完整性>98%。每月审查指标,并与气候学基线进行比较,以保持任务的透明度。
验证和评估方法
使用滚动原点验证,采用12个月的预报范围和5年的数据窗口,以反映季节周期和气候趋势。应用时空交叉验证,通过划分区域和季节来避免过拟合。对过去五到十年进行回溯检验,并将预报与观测结果进行比较。进行消融研究,以衡量数据源、平滑和模型组件的影响。使用可靠性图和PIT测试进行校准检查,以确保概率输出与观测频率一致。通过预测区间和覆盖率量化不确定性(例如,90%的区间捕获观测结果的次数约为90%)。通过监控输入和输出分布的变化来跟踪模型漂移,并至少每年更新一次验证计划。记录评估计划,尽可能发布代码和数据溯源,并自动化报告生成,以让利益相关者了解实现任务目标的进展情况。
