sg001 发表于 2016-11-22 23:51:44

美军大数据技术研究

<p>  <strong>二、美军航空航天局大数据的发展</strong></p><p>  当今世界正处于信息爆炸时期,社会步入了大数据时代。航天领域也正在沐浴着大数据的朝阳,潜在地引导科学工程技术的创新和人类思维的变革。</p><p>  NASA在保持美国民用和军用航空航天优势的同时,继续进行科学探索以及加强对宇宙、太阳系和地球环境的了解,并将航天技术和知识转移用于一般工业。NASA在利用航空航天技术以满足国家需要方面起领导作用,在新技术研究和应用方面处于行业内国际领先地位。</p><p>  <strong>NASA的大数据发展计划</strong></p><p>  美国《大数据研发倡议》,展示了大数据研发应用将从以往的商业行为上升到美国国家战略部署的总体蓝图。其中,关于NASA大数据发展计划的阐述:</p><p>  美国航空航天局(NASA)的先进信息系统技术(AIST)旨在降低其信息系统的风险和成本,以支持未来的地球观测任务,并转化为NASA气候中心预测的地理信息。该技术方案将有助于寻求成熟的大数据能力,以减少地球科学部空军基地和陆军基地信息系统的风险、成本、规模和开发时间,从而提高科学数据的获取和实用性。</p><p>  NASA的地球科学数据和信息系统(ESDIS)项目持续用超过15年的时间从空中和外地活动中对地球卫星数据和数据进行处理、存档和发布,并从提升用户满意度出发,努力确保科学家和公众在从地球到太空的研究中的数据访问功能,从而提升地球科学在应对气候和环境变化挑战中的能力。</p><p>  全球地球观测系统(GEOSS)通过国际之间合作进行地球观测数据共享和整合。NASA已经与美国环境保护署(EPA)、美国国家海洋和大气管理局(NOAA)以及其他机构和国家的力量强强联手,整合卫星、地面监测和建模系统,评估环境条件和预测包括森林火灾、人口增长等结果。研究人员将在短期内整合各种复杂的空气质量信息,从而更好地了解和解决空气质量对环境和人体健康的影响。</p><p>  由NASA和Cray公司制定的太空行动协议,将允许一个或多个项目集中发展和应用低延迟“大数据”系统。特别是,该项目测试的混合计算机系统的应用程序,能够以高度集成的非SQL数据库作为数据传输的手段,以加强建模和分析软件。</p><p>  NASA的行星数据系统(PDS)是美国NASA行星任务的数据档案。目前,系统已经成为了世界各地科学家的基本档案数据资源。所有的系统生产的产品通过同行评审,进行归档,可以很容易通过一个行星学科提供的在线目录系统进行访问。</p><p>  空间望远镜科学研究所(MAST)作为NASA的分布式空间科学数据服务的一个组成部分,主要侧重于光学、紫外线和近红外部分频谱等相关的科学数据,支持和提供各种天文数据档案。研究所支持多种工具,可以对各种光谱图像数据进行访问。</p><p>  地球系统电网联邦公共档案是一个公共的数据存档服务,支持由国际小组研究并在2014年完成对气候变化的第五次评估报告(如同第四次评估报告的存档一样)。美国NASA联合会通过与美国能源部合作,能够促进数据观测和模型的输出。</p><p>  <strong></strong></p><p>  <strong>NASA的大数据云平台</strong></p><p>  <strong>(1)云服务平台</strong></p><p>  2008年,NASA埃姆斯研究中心使用自开发的开源综合云服务平台“星云”(Nebula)来协助完成对月球和火星的探索任务。该项目需要对大量高分辨率影像进行储存和处理。在传统的环境中,为此构建IT基础设施及配置设备需要花费近150~180天;同时,大数据交互需要接入内部载体或网络。采用“星云”平台取代昂贵的数据中心,对科学数据提供基于网络的应用环境及可伸缩的计算和存储能力,NASA因此不用为新增的大数据构建IT基础设施,研究人员可以在几分钟内通过云完成所需要的存储和计算资源的构建、配置、监视与升级等一系列任务;“星云”平台提供框架、代码库、接口数据装置和网络服务,使用安全的方法使云上的数据接入不同研究子部门或合作单位,避免对内部载体网络的大量接入。勇气号和机遇号任务为在轨运行空间任务中试验云计算提供资源,其低成本、高效率的数据处理能力在空间任务中得到良好的体现。</p><p>  同时,NASA对开源综合云服务平台“星云”进行评估,以确定一系列科学云方案用以建设任务级企业数据中心以应用于众多数据任务,包括:</p><p>  1)为地球观测科学开发网(SERVIR.net)、短期预报研究和转折中心(SPoRT)服务,通过天气预报(WRF)模型来完成高分辨率短期天气预报图像合成工作,以在不中断其他业务行为的情况下,快速部署标准模型以应对自然灾害;</p><p>  2)为广域红外探索项目WISE服务,以提高高分辨图像处理能力与存储能力;</p><p>  3)Ames研究中心飞行运载技术部考虑采用昂贵的普莱亚(Pleiades)设备,节约设备组建的时间和维护的经费;</p><p>  4)对巨大存储体和存储空间具有需求的组织考虑采用“星云”平台,以实现为其虚拟机随时指定需要的存储体和存储空间;</p><p>  5)借助“星云”平台为软件开发者建立虚拟工作站来测试、编译其代码,给开发者共享运行在各自桌面上更多的模块和库。美国加州理工学院(Caltech)可视与自主探索系统研究实验室利用云技术通过互联网实现在地球表面任何地方对移动平台近实时的数据交互与控制,以完成供遥实验、自主监视与探索侦察的多巡视器技术的支持。通过WLAN在移动平台终端处理器与采用云技术的主机前端控制软件之间建立连接。其中,移动平台连接到1个或多个通信服务器上,运用云计算实现对连接的多个移动机器人平台的遥控。遥控用户云服务自行建立连接,连接一旦建立成功,地面代理即可发送打包并压缩的视频帧与传感器数据。</p><p>  <strong>(2)云计算平台iRODS</strong></p><p>  NASA喷气推进实验室从2007年开始致力于在行业中发挥云计算优势的途径,以找到可行、成本合理的任务应用。其中,“火星漫游车”项目的“云应用”是一个以结果为导向的示例。实验室还在云计算平台iRODS上对其行星任务数据系统进行实践性实验。云计算平台iRODS使用并行传输控制协议以及大数据移动优化技术。通过iRODS提供的并行传输协议,可以实现大数据在网络间的快速迁移。云计算平台iRODS可以用来将分布式的计算机整合成一个庞大的存储资源,用于存储、统一管理和共享数据,客户端通过访问这台虚拟服务器可以获取所有的数据,而不必关心数据存放在哪台计算机上。使用大数据云平台技术的行星任务数据系统,其扩展性、可靠性大大提高,同时,大幅度降低系统对基础设施建设、监控和维护的成本。在不增加新的IT基础设施的情况下,系统在该平台上数据存储、备份、传输和计算的效率分别提高50%以上;同时,该实验室与微软的“云工作组”进行合作,采用微软MS Azure云计算平台,以寻求增加其教育的影响和促进推广计划。该平台提供统一应用程序编程接口,可以访问超过25万幅高分辨率火星图像而无需在实验室的计算机上存储任务附加数据。</p><p align="center"></p><p>  NASA的大数据应用实例</p><p>  <strong>(1)月球计划中的计算模型</strong></p><p>  NASA的“月球勘测轨道器”(LRO)发回大量高分辨率月球表面影像,每天生产的数据可达到TB级规模,且还在不断增长。NASA喷气推进实验室与加州理工学院在“月球表面测绘与建模”项目中进行合作,采用云计算架构对月球表面高分辨率照片进行高可靠、高效率的图像分块处理。该项目选用开源云计算平台Hadoop以及计算模型Map-Reduce,可以在37s内完成对2.7GB大小的高分辨率图像的分块处理。美国亚利桑那大学的研究人员使用Nirvanix的云存储平台来传递、存储备份这些数据。传回的影像数据先分别拷贝到亚利桑那州立大学研究项目学院的主数据中心的NetApp磁盘阵列上。然后,再复制到Nirvanix存储传递网络。Nirvanix CloudNAS取代以往的磁带存储,提供可靠的、规模灵活的、可访问的企业级数据,长期保留以供访问、浏览甚至再加工处理等。</p><p>  <strong></strong></p><p>  <strong>(2)NASA“火星勘测轨道器”中的应用</strong></p><p>  2013年8月,自2006年起一直执行火星探测任务的NASA“火星勘测轨道器”(MRO)返回的科学数据突破25TB。从规模上来看,该独立任务产生的数据量已经超过近10年间NASA喷气推进实验室深空网所有数据量总和的3倍还多。该25TB数据包包括在火星表面工作的机器人探测车返回的数据,99.9%则来自MRO上的6个科学观测设备。值得注意的是,该数据量的统计并未包含实验室用于操作的遥控数据。</p><p>  “火星勘测轨道器”具有面积约20m2的太阳能电池板,用以为其星上发射机供电,并通过自带的3m抛物面天线向地球方向源源不断发送数据。NASA则通过位于加州、西班牙以及澳州的深空网接收来自不同科学任务的数据波洪流。</p><p>  “火星勘测轨道器”任务科学家,来自喷气推进实验室的Rich Zurek表示,25TB任务数据中的每一比特的传输均经过一条复杂的路径。实验室借助数据软件平台的处理能力,按日处理10GB左右的速度将接收的任务数据分割成小块再分别处理,以保证及时为科学家提供还原的数字信息和其他数据产品。</p><p>  位于“火星勘测轨道器”上科学设备收集的数据首先被记录在火星轨道器的主存储器中。轨道器环绕火星轨道周期约2h,在每次绕火星环绕中,MRO与地球的通信线路往往会被火星本身阻挡。当地球处于“火星勘测轨道器可视窗口”时段,深空网的天线将对准火星并侦听“火星勘测轨道器”的信号。在每月多达32次探空任务的情况下,深空网的天线需要为此维护一个非常复杂的调度机制。引用“火星勘测轨道器”项目软件工程师Bryan Allen的介绍,深空网将接收到的数据按30min记录时长规模分割成块(chunk)。这些块中可能包含来自不同任务的数据,混合在一起从加州、西班牙和澳州的深空站传输到实验室。实验室运用数据软件对它们进行分类并生成专业数据产品,如照片、大气测量结果、行星表面声波侦听结果等。迄今为止,经统计实验室的数据系统平均一天要处理58 GB的数据并生成约303项数据产品。</p><p>  美国“火星勘测轨道器”在轨飞行示意图</p><p>  <strong></strong></p><p>  <strong>(3)NASA大数据流的处理</strong></p><p>  经统计,NASA的航天任务每小时都会产生总共约上百TB的数据信息,如将这些信息打印出来,所需要的纸张将消耗上千万棵树木。该类大数据洪流给NASA数据处理带来巨大挑战。位于加州的喷气推进实验室为解决这些信息的存储、处理和访问问题,提供了一些行之有效的策略。实验室高级调研员Eric De Jong说:“NASA科学家们使用航天大数据做任何事情,从气候预测到火星冰盖监测,甚至到银河系,无所不含。”Jong服务于NASA的大数据项目——可视化太阳系系统模拟器,该项目致力于将航天任务收集到的科学信息转换为用户可用的图形图像。在这个工作系统内,实验室是数据的持有者,用户是需要数据代表的相片、地形纹路、地图和视频的天文学家和其他科学家。他们使用这些实验室生成的数据产品开展诸如模式匹配和理论验证的工作,例如,在实验室的火星轨道任务中,Jong小组负责从大量数据集中生成分辨率高达120M像素的照片并将之拼接起来做成视频。</p><p>  实际上,从来自NASA或其他国际宇航机构的任务中获取大量数据并将之存档本身就是一项艰巨的任务。以“平方千米阵列”(SKA)项目为例,该项目计划2016年在南非和澳州建立由上千射电望远镜组成的深空探测阵列。假设,该项目最终实施并开始使用,它每天生产的数据量估计将达到700TB之多,几乎等于当下全球互联网2天产生的数据量之和。对这样庞大信息洪流或大数据的存档处理和加工,实验室相关研究人员认为存在合理的解决方案。以此项目为例,实验室中心的大数据专家们声称可以在现有的硬件设备基础上,利用云计算技术并配合开源软件程序来满足项目需求而非为之设计新的数据处理新产品,实验室的另一位大数据高级调研员Chris Mattman表示肯定:“可以对开源程序进行修改,使之成为更快且成本更小的大数据解决方案。”</p><p>  <strong>三、结束语</strong></p><p>  “大数据”不仅是一个概念,更是给当代科学研究带来了巨大的挑战,是科学研究范式的一场变革。目前,大数据仍处于一个初级阶段,还有很多问题需要解决。美国大数据战略和相应的做法为我国开展大数据工作提供了有意义的启示和借鉴。</p><p>  1)重视顶层设计,积极制定大数据发展战略和规划。将大数据战略提升至国家战略高度,确定我国发展大数据的方向和重点,从保障国家安全、推动社会经济发展、提高企业竞争力等多个方面出发,确定政府优先支持的大数据发展方向,引导大数据产业发展。</p><p>  2)加大研发支持力度,推动应用。在明确关键技术的基础上,确定重点支持领域,加大研发支持力度。整合相关专项资金和项目,支持大数据技术的开发、研究和应用示范,引导企业加大研发力度,实现关键技术突破。同时,在政府部门和公用事业的信息化应用中积极应用大数据技术,以政府采购引导国内大数据发展。结合当前的云计算、物联网等试点工程,积极开展大数据技术应用,充分发挥示范效应,带动社会其他领域的大数据应用。</p><p>  3)推动政产学研用各方参与,构建大数据产业生态。当前全球大数据产业还处于起步阶段,产业生态尚不完善。我国应该抓住契机,从数据资源建设和大数据技术研发两方面入手,联合政产学研用各方力量,共同构建大数据产业生态。同时,要重视与大数据息息相关的云计算、物联网、移动互联等领域的发展。</p><p>  4)加强基础大数据采集建设。一方面,完善数据采集体系。大数据需要有大量的数据源。应建立特定主题的数据监测系统,如交通、能源、医疗、自然灾害等专题建立基础数据库,持续不断收集相关数据,为大数据发展提供基础。另一方面,推动国家基础数据开放共享。美国十分重视政府信息资源的共享和利用,将“共享第一”作为美国联邦IT共享服务战略的基础范式,力推政府开放平台。我国应加快推进政府信息资源共享,尤其推进数据资源共建共享,给大数据技术发展提供原材料,促进大数据成果广泛应用。</p><p>  通过研究美国在军事及民用航天领域中大数据技术的应用,可缩小与世界军事发达国家的信息化差距,掌握“大数据”资源使用主动 权,提高情报信息获取、处理、分析、防护等能力。总之,只有敏锐地关注大数据技术的发展变化,及时掌握与了解美国在大数据技术应用方面的最新动态,我们才能在信息资源的深度开发利用与信息技术自主创新方面做出成绩。</p><p>  上文选自《国际太空》,如有需要请查阅该期刊。</p><br />
页: [1]
查看完整版本: 美军大数据技术研究