大数据GIS及应用浅析
大数据GIS是在大数据浪潮下,GIS从传统迈向大数据时代的一次变革。大数据GIS能为空间大数据的存储、分析和可视化提供更先进的理论方法和软件平台,促进了传统GIS的产业升级,为地理信息产业发展提供新的渠道和原动力,服务于我国“十三五”期间的大数据产业发展和部署。本文将浅析大数据GIS的产生及其在相关行业中的应用方式。
大数据GIS的产生
• 大数据
近几年,大数据(Big Data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。
一般认为,大数据具备体量大、变化快、种类多和价值密度低等特征。而大数据区别于单纯海量数据的根本在于:大数据是随着互联网、移动互联网、物联网等高新技术的发展,能够自动化获取的数据,例如手机信令数据、导航定位数据、电商交易数据、搜索引擎数据、社交媒体数据、公交刷卡数据等等。我们能够从这些数据中分析挖掘出有价值的信息和规律,从而帮助我们在各个行业的应用中辅助决策,甚至预测未来。
• 空间大数据
业界常说,日常生活中80%的数据和空间位置有关。而在大数据领域,由于数据主要来自互联网、移动互联网、物联网等自动采集的数据,其带有空间位置的比例更高。例如:手机信令数据由通讯基站与手机之间的信令链接所产生,通过手机与基站的相对关系就能计算出手机的位置;社交媒体数据中,用户分享的文字、图片、视频等,通常标注有从用户终端获取的位置信息;公交刷卡数据能够从车辆定位系统中获取位置信息;即便是电商交易数据,也能从IP地址获得其大致的位置信息。
总的来说,空间大数据就是大数据中带有(或者隐含)空间位置的数据。由于获取方式的特殊性,空间大数据与经典的海量空间数据有所差别,空间大数据带有大数据的价值密度低的特征,在大数据技术发展前,使用常规手段无法处理,更无法有效分析和挖掘这些数据的价值。
随着大数据技术的发展,开采空间大数据的价值成为可能,对于空间大数据的挖掘,让我们能从一个新的视角,即空间位置关系和时空变迁的角度,去发掘大数据中的规律和趋势,从而打开大数据应用的另一扇窗。
• 大数据GIS
大数据领域已经出现了许多实用的IT技术,例如分布式文件系统、分布式数据库、分布式计算框架、流处理框架等。这些技术使我们能够使用普通机器对大数据进行处理和挖掘,但多聚焦于通用的非空间数据领域,对空间数据的专业分析能力不足。而传统GIS由于受其IT技术框架的限制,并不能很好地应对大数据对分布式存储与计算、流数据处理等的技术要求。
大数据GIS就是把大数据技术与GIS技术进行深度融合,把GIS的核心能力嵌入到大数据基础框架之内,并打造出完整的大数据GIS技术体系。大数据GIS的核心技术如下图所示:
1、分布式技术
(1)空间数据的分布式存储。在原有分布式存储系统之中,嵌入分布式空间索引、空间数据的分片处理和管理等技术,通过空间数据的横向扩展(Scale-Out),实现单表过亿、乃至数十亿空间数据的存储与管理。常用的分布式存储系统有HDFS、HBase、Elasticsearch等。
(2)分布式空间计算。以Spark分布式计算框架为基础,把原有地理空间分析算法进行分布式改造,实现在数小时完成原有GIS无法完成的上亿条空间面对象之间的空间分析计算。
(3)分布式地图渲染。通过矢量金字塔、分布式渲染、自动缓存和前端渐进加载等技术,实现超大规模空间数据的“免切片”渲染效果(具体内容请点击《超图高性能分布式地图渲染技术解密与应用》进行查看)。
2、流数据的实时处理技术
基于Spark Streaming流计算框架的基础能力,扩展实现流式数据的实时接入、过滤、转换、计算、可视化与输出等相关能力。
3、空间大数据可视化技术
不同于传统GIS中直接把所有地物绘制到地图上,大数据动辄就是千万、上亿条数据,直接展示如此大量的数据既无必要,也没有可能。空间大数据的可视化更强调的是,在对数据进行分析计算之后,来表达其空间分布情况、聚合程度及连接关系等。
总的来看,大数据GIS主要解决了两个方面的问题:
• 新数据:大数据GIS扩展了GIS所管理空间数据的边界,除了经典的,如矢量、栅格等基础空间数据,大数据GIS还能管理实时发生的流数据,以及存档下来的空间大数据,这也为空间大数据的挖掘和应用提供了有效的工具。
• 新技术:大数据GIS也扩展了传统GIS的技术边界,通过与大数据IT技术的融合,极大地提升了GIS对超大规模空间数据的存储容量、计算性能和渲染能力。
然而,仅仅做到攻克大数据GIS技术还是不够的,要想真正服务好社会,更重要的是如何能够通过大数据GIS为各个行业的相关业务提供多元思维、多元决策,为行业迎合新技术的冲击,为行业发展提供坚实的技术基础。
大数据GIS的应用
大数据GIS在行业中的应用可被称为“双轮驱动”,即数据驱动和业务驱动。
所谓“数据驱动”,指的是大数据应用中,首先要考虑有效的数据来源,并且很多数据除了采集者给自身业务提供支撑外,还能为更多行业提供数据增值服务。最典型的如通讯运营商所获取的手机信令数据,除了分析基站和服务网点的合理性,还能利用这些数据分析人口的分布和位置改变,为规划、人口管理、公共安全等众多行业提供非常广阔的应用价值。
“业务驱动”则是从业务角度出发,指的是很多行业的业务需要,在没有大数据之前也是必须开展的,但由于受数据所限,存在效率不足、颗粒度大、反馈周期长等诸多问题。而采用大数据后,能有效地解决这些问题。例如在商业选址时,以前只能实地调查或发放问卷,应用空间大数据GIS技术,我们能迅速知道流动人口的分布情况,叠加现有酒店的数据,就很容易发现哪里的酒店建设过多,哪里还不足以满足需求,从而指导我们下一步酒店选址。对于城市规划、公共安全、交通拥堵等诸多工作也一样适用。
数据和业务的“双轮驱动”,推进大数据GIS在行业中的应用,而各行业内部存在的具体问题和解决方式会有所差异,下面以自然资源领域、城市规划、公安行业、城市综合管理领域为 例,略作说明。
• 自然资源领域
2018年4月,原国土资源部、国家海洋局、国家测绘地理信息局等相关部门进行了整合,组建了自然资源部,部门的职责涉及土地、海洋、测绘、不动产登记等诸多方向。
在自然资源领域,不断累积的数据存量和仍然不断增加的数据增量,使得数据量从GB、TB向PB级发展,用传统GIS的方式难以进行有效管理。例如,不动产登记业务是在各区县开展,但 需要在部委层面整合起来,建成全国不动产数据库,其单表的空间数据就多达5亿条以上;又如,某省级地理国情普查库由于历史数据的累计,存有多达410TB的数据,且还在不断增多。基于单节点模式的传统关系型数据库存储技术难以胜任这一任务。
与此同时,传统的空间分析运算所花费的时间会随数据量的增长而增长,有些比较复杂的空间运算还会随数据量的增长呈指数量级增长,即若数据量增长一倍,处理时间会增加好几倍。以空间连接为例,十万个对象的空间连接耗时约0.7分钟,百万个对象则需5.6分钟左右,千万个对象之间则骤增到97分钟,对于亿级数据量的空间连接,传统GIS根本就得不出结果,只能按照区域先人工分解数据,再分片计算,最后合并,费时费力,结果的准确性还无法得到保证。
在空间数据发布和浏览时,为提高地图浏览的效率,人们一般采用预先切片的技术路线。全国级别的数据切到18级,往往需要数天乃至数周的时间,无法满足数据快速上线的要求,而不切片又无法达到实时地图浏览性能要求。
大数据GIS在自然资源领域的应用将很好地解决上述痛点。分布式存储技术可以轻松管理单表上亿乃至数十亿的空间对象,并具备几乎无限的横向扩展能力;分布式空间分析大幅度降低了空间计算所花费的时间,使得上亿对象之间在1小时内完成全量的叠加分析;采用高性能分布式地图渲染技术,只需结合分布式存储技术,先把数据导入到分布式空间数据库中,就能实现数据的“免切片”发布与浏览。例如四川省测绘局基于分布式架构的时空大数据分析系统时空大数据基础支撑软件实现的千万量级植被覆盖图层快速可视化(图3)。
• 城市规划
城市规划是典型的业务驱动型应用大数据GIS的行业。在没有大数据GIS之前,城市规划所依赖的数据资料往往时效性差、粒度粗,很多时候就只能“拍脑袋”。有了大数据GIS的帮助,才能知道人口分布、职住关系等真实且实时的城市运行面貌,为规划师制定方案提供全面的视角空间和量化依据。规划师能够从人口、就业、岗位、用地、公共服务、交通、通勤和休闲等角度对职住关系进行诠释,而不单单局限于“职住平衡”指数。如图3所示上海城市空间单元画像速写展示系统,利用就业地块与居住地块之间的关系,可分析城市的通勤关系并制定改善措施。
除此之外,借助大数据的空间可视化技术,各类规划成果都能聚在一张地图上,能很清楚地提取查看,并清晰地知晓多个规划行为之间的关系。在提供基础数据同时,还能提供各类有效的业务专题数据,辅助规划编制。例如,通过展示公交车刷卡线路、站点刷卡情况,结合人口分布等其他信息,能够分析公交线路规划是否合理、哪里需要增加站点,为城市规划提供决策支持,如图4所示。
• 公安行业
公安行业数据包括基础地理数据、三维模型数据,以及丰富的公安专题数据,如警车、警员、摄像头、公安机构、重点区域、布控点等信息(这些多为实时数据)。在公安业务中,经常需要对基于位置的移动目标进行实时监测。在数据接收过程中,还要实现实时位置计算功能。海量动态数据的存档、计算和可视化等都需要使用大数据GIS才能实现。
大数据GIS在公安行业的应用主要依托云GIS技术、分布式存储技术、流数据处理技术,将基础地理信息库与带有时空信息的公安专题数据库进行融合,为各个警种的业务开展提供更高效的地理信息服务。例如,使用流数据处理技术能够实现对实时监控数据的传输、地理围栏构建及轨迹重建,如图5所示,某市公安局警情案件分析系统展示实时警情密度分布,可为警力资源的指挥调度提供指导。
使用流数据的管理,还能实现对历史数据的存储检索、轨迹回放等功能,能够了解到车辆是否按照要求的线路巡查行驶,中途是否出现过什么问题,并检查车辆巡查路线设计是否合理,为科学合理分配警务资源提供参考。
除此之外,利用大数据GIS的空间分析技术,也能为现有的公安业务拓展新的视角。例如,对于套牌车的判断主要是依靠比对抓拍的车牌和车型是否一致,若套牌的车型也一模一样,就很难准确识别。采用大数据空间分析的“要素连接”算法,可以设置分析提取参数,例如分析提取在五分钟之内、距离大于10公里的同一个车牌疑似为套牌车,从时空结合的角度提供更有力的线索。
• 城市综合管理
随着新一代智慧城市的发展,城市中的市民、交通、商业、通信、自然资源等逐渐形成一个普遍联系的整体。中国工程院郭仁忠院士认为,“智慧城市基于共同的设施和数据资源,具有大量共性化的操作,需要一个操作系统,而智慧城市的操作系统非GIS莫属”。大数据GIS在传统GIS之上,扩展了所管理的数据边界和使用的技术边界,为智慧城市的综合管理带来了新的契机。
随着大数据GIS与数字孪生技术的共同发展,数字模型将覆盖城市的每个角落,为城市综合管理带来多样化的数据支撑。大数据GIS将通过对城市多源数据进行空间与非空间、结构化与非结构化的数据融合,对数据进行一体化管理,使得基于城市数字模型的综合管理变为可能。
逐渐增多的城市数据量拓宽了城市管理的服务范围,大数据GIS的高效计算与查询能力变得尤为需要。例如使用通讯基站分布数据,能够对城市空间边界进行划定;使用导航地图、POI (Point of Interest)、大众点评等数据,能够进行城市公共空间的定义和识别;使用企业登记数据模拟企业迁徙流向等。这些都能为政府职能、公众提供更多样的地理信息服务。
随着新的城市管理和服务需求的出现,传统GIS在可视化方面能力已经无法满足应用需求。大数据GIS的分布式渲染、流数据处理等可视化技术的基础上,还能够实现地上地下、室内室外、动态静态数据的集成展示,为政府政务、企业管理、市民生活带来新鲜的体验。
在行业应用的“双轮驱动”下,大数据GIS已经成为了连接空间大数据与行业应用的桥梁。除了本文中提到的行业外,还有许多行业,如气象、水利、环保、军事等都在将大数据GIS能力与当前的业务平台或系统进行融合,实现GIS行业大数据平台的升级和扩展。
未来,随着硬件配置的进一步提高,以及云计算、云原生等技术的普及,大数据GIS技术也会不断进步。空间大数据的存储与分析技术将向着处理量更大、效率更高的方向发展,所能承载的数据也更复杂、多变、实时。内置分布式技术和流数据技术的大数据GIS,将取代传统GIS,成为GIS的默认标配。
随着“十三五”规划中地理大数据的全面部署、“一带一路”建设中空间大数据分析重大战略需求,大数据GIS将会在社会经济的各个领域发挥不可替代的作用,后续应用发展前景无限。
---------------------
作者:supermapsupport
来源:CSDN
原文:https://blog.csdn.net/supermapsupport/article/details/96475219
版权声明:本文为博主原创文章,转载请附上博文链接!