GIS数据是什么?地理信息中常用的数据分类

2020-04-14 13:37:08

数据是GIS的基础,几乎所有GIS运作的基础都离不开数据。GISer中关于数据的“行话”是最基础的,作者在大学的时候,这些内容也是每上一节课都会被教授提起来复习一次,直到所有人都把“Nominal, Ordinal, Interval, Ratio...” 这样的词背得滚瓜烂熟才可以。也许对很多GISer来说,这篇文章的内容是老调重弹了,但是这些老调还是要任性重弹一次。由于作者本科是用英文念的,手上的材料也多是英文版,一些专有名词会尽量做好翻译,并且注上英文,如果有不准确的地方欢迎指出。


//
四种测量方式
Level of Measurement
//


所谓的四种测量分别是定类变量(Nominal)、定序变量(Ordinal)、定距变量(Interval)和定比变量(Ratio)。


定类变量,即指出类别的变量,通常只有分类没有数值,更不能比较大小。最常见的定类变量就是“性别”,无论是“男”、“女”,还是“无性别”,都只能表示事物的类别,就像“水果”和“蔬菜”一样,把他们相加减或是相乘除都没有任何意义。


定序变量,即含有顺序的变量,此种变量可能有数值,比如比赛的排名(第一名、第二名、第三名、第四名),或是年级(大一、大二、大三、大四),但这些数字只表示顺序、并没有数学意义,也就是说依然不可以进行加减乘除等运算。


定距变量,即两个值的差有数学意义并且可以比较;定比变量与定距变量十分类似,最大的差距就是定比变量有绝对的“0点”,并且0的含义是没有和不存在,这与定距变量中设置的0是有一定区别的。比如,摄氏度和华氏度的0度都是人为根据相关物理现象设定的,就只能认为是定距变量,而降水量则是定比变量,因为降水量为0是非常自然的没有降水的指示。


其实在英文中,所谓“四种测量方式”的表达直译过来是“测量级别”的意思,也就意味着这四种方式确实是有级别的高低之分的。最低的是定类变量,其次是定序和定距,最高的是定比。这个倒不是说定比变量比其他变量更高贵,而是这个在这个等级之中,等级高的变量含有更多的信息,也可以向等级低的变量转换,但是反之,等级较低的却不含有向等级较高的变量转换的信息。


举一个比较经典的例子,10位选手参加比赛,分别取得第一名到第十名,而前三名可以获得奖牌,则拥有了第一名到第十名的排名数据(定序变量),则可以知道哪些选手获得奖牌而哪些选手没有(定类变量,获得奖牌/未获得奖牌)。所谓等级的意义就在此。



//
 一手数据和二手数据
Primary Data and Secondary Data
//


相对比较易于理解的概念,一手数据通常是自己(或自己的团队)采集整理的数据,而二手数据则是别人收集整理的数据,通过他人的发布或者向他人购买获得。大多数人认为二手数据用的比一手更多,因为通常收集数据所消耗的人力和财力是巨大的,需要大型的组织完成,不过具体还是要看数据的类型。



//
 精确度、准确度、有效性和可靠度
Precision, Accuracy,Validity and Reliability
//


这个概念通常用于评判一个数据的质量。精确度和准确度在中文中非常好区分,从名字上就阐述得非常清楚了,但是我在美国的时候每个老师都需要反复强调这两个的区别。


精确度,通俗来说就是我们数学常说的“保留到几位小数”,与数值本身是否准确反映了现实无关。这个精确度通常与测量工具的精确度有关系,比如尺子的刻度到分米、厘米还是毫米,决定了测量结果的精确度。


准确度,则恰好指示了数据是否正确反映现实,错误的测量方式会导致准确度下降。一个数据可以同时有非常高的精确度和非常低的准确度,这两者之间并没有绝对的联系。比如物化实验中使用的量筒,如果使用者没有保持水平,即使量筒的精度极高,也会导致数据准确度的不足。


有效性通常是运用在衡量数据采集的标准上的。在衡量一个不太容易直接测量的现象时,我们是否测量了正确的数据是有效性判断最主要的内容。比如,想衡量一个学校的“教学质量”,需要测量哪些数据,是成绩?还是学生对老师的评价?数据的有效性就是这样体现在测量的内容是否可以支撑最终想衡量的现象。


可靠度,通常由数据与数据之间的一致性和稳定性决定。由于数据的收集通常需要一个时间段,而不是突然同时完成的,不同的日期、环境和采集方式都会影响数据的可靠度。通常情况下,在相对较短时间内收集的、采集方式具有一致性的数据可靠度更高。

//
 矢量数据和栅格数据
Vector Data and Raster Data
//


终于说到矢量数据和栅格数据了,几乎所有人提到GIS都会将这个点提出来。几乎只要提问是有关GIS的,下面的回答里就一定会有人将GIS的矢量数据和栅格数据拿出来讲解一番。准确来说,矢量数据和栅格数据并不算是数据的类型,而是GIS之中的两大数据结构。

矢量数据在GIS之中主要由几何形状组成,包括点、线和多边形(Points, lines and polygons),优势在于可以较为精确地表达大陆、河流、海洋或是其他类型区域的形状和轮廓,结构干净没有冗余。矢量数据储存空间小、对计算机的要求较低。

精确的同时,矢量数据有一个很大的优势在于存储拓扑结构(Topology),拓扑可以帮助探测数据中存在的不合理的交叉、空缺等,所以可以说是非常重要的结构之一。但是,精确也意味着复杂,数据的矢量化是十分耗时,另外矢量数据之间的叠加也比较麻烦,逻辑上并不如栅格数据那样简单、清晰。

栅格数据结构则是以像素格、也就是栅格为基础的。每个栅格会储存相关的数值,并且连成一个完整的平面。

栅格数据的最大优势在于叠加,相对应的栅格也可以进行数值的加减乘除。但是栅格数据不能存储拓扑结构,同时由于数据结构比较简单因而相对不如矢量数据灵活。同时,因为栅格在形状表达上的局限性,栅格数据在表现某块区域的时候也不如矢量数据那样精确,若是一块边沿形状弯曲多、不规则的大陆,栅格数据结构对于这块大陆的表现受到栅格本身严整正方形的局限,就自然会有很多不准确的地方。

在数据的存储上形式矢量和栅格结构也不太一样。比如在ArcGIS之中,矢量数据结构下打开一个图层数据表格(Attribute Table),结构大致是某个形状对应的ID,再对应有关的数据。这里的数据可能有不同的种类,比如某个普查区对应的ID后,可以存储收入中位数、本科学位比例等数据。栅格数据结构的图层对应的表格则简单得多,通常一个格子的ID对应一个数值,这个数值是单一的。


地址:湖南省长沙市天心区新岭路66号天心软件产业园B栋10楼