GIS数据是什么?地理信息中常用的数据分类
数据是GIS的基础,几乎所有GIS运作的基础都离不开数据。GISer中关于数据的“行话”是最基础的,作者在大学的时候,这些内容也是每上一节课都会被教授提起来复习一次,直到所有人都把“Nominal, Ordinal, Interval, Ratio...” 这样的词背得滚瓜烂熟才可以。也许对很多GISer来说,这篇文章的内容是老调重弹了,但是这些老调还是要任性重弹一次。由于作者本科是用英文念的,手上的材料也多是英文版,一些专有名词会尽量做好翻译,并且注上英文,如果有不准确的地方欢迎指出。
所谓的四种测量分别是定类变量(Nominal)、定序变量(Ordinal)、定距变量(Interval)和定比变量(Ratio)。
定类变量,即指出类别的变量,通常只有分类没有数值,更不能比较大小。最常见的定类变量就是“性别”,无论是“男”、“女”,还是“无性别”,都只能表示事物的类别,就像“水果”和“蔬菜”一样,把他们相加减或是相乘除都没有任何意义。
定序变量,即含有顺序的变量,此种变量可能有数值,比如比赛的排名(第一名、第二名、第三名、第四名),或是年级(大一、大二、大三、大四),但这些数字只表示顺序、并没有数学意义,也就是说依然不可以进行加减乘除等运算。
定距变量,即两个值的差有数学意义并且可以比较;定比变量与定距变量十分类似,最大的差距就是定比变量有绝对的“0点”,并且0的含义是没有和不存在,这与定距变量中设置的0是有一定区别的。比如,摄氏度和华氏度的0度都是人为根据相关物理现象设定的,就只能认为是定距变量,而降水量则是定比变量,因为降水量为0是非常自然的没有降水的指示。
其实在英文中,所谓“四种测量方式”的表达直译过来是“测量级别”的意思,也就意味着这四种方式确实是有级别的高低之分的。最低的是定类变量,其次是定序和定距,最高的是定比。这个倒不是说定比变量比其他变量更高贵,而是这个在这个等级之中,等级高的变量含有更多的信息,也可以向等级低的变量转换,但是反之,等级较低的却不含有向等级较高的变量转换的信息。
举一个比较经典的例子,10位选手参加比赛,分别取得第一名到第十名,而前三名可以获得奖牌,则拥有了第一名到第十名的排名数据(定序变量),则可以知道哪些选手获得奖牌而哪些选手没有(定类变量,获得奖牌/未获得奖牌)。所谓等级的意义就在此。
这个概念通常用于评判一个数据的质量。精确度和准确度在中文中非常好区分,从名字上就阐述得非常清楚了,但是我在美国的时候每个老师都需要反复强调这两个的区别。
精确度,通俗来说就是我们数学常说的“保留到几位小数”,与数值本身是否准确反映了现实无关。这个精确度通常与测量工具的精确度有关系,比如尺子的刻度到分米、厘米还是毫米,决定了测量结果的精确度。
准确度,则恰好指示了数据是否正确反映现实,错误的测量方式会导致准确度下降。一个数据可以同时有非常高的精确度和非常低的准确度,这两者之间并没有绝对的联系。比如物化实验中使用的量筒,如果使用者没有保持水平,即使量筒的精度极高,也会导致数据准确度的不足。
有效性通常是运用在衡量数据采集的标准上的。在衡量一个不太容易直接测量的现象时,我们是否测量了正确的数据是有效性判断最主要的内容。比如,想衡量一个学校的“教学质量”,需要测量哪些数据,是成绩?还是学生对老师的评价?数据的有效性就是这样体现在测量的内容是否可以支撑最终想衡量的现象。
可靠度,通常由数据与数据之间的一致性和稳定性决定。由于数据的收集通常需要一个时间段,而不是突然同时完成的,不同的日期、环境和采集方式都会影响数据的可靠度。通常情况下,在相对较短时间内收集的、采集方式具有一致性的数据可靠度更高。