简介
统计模型是一组数学模型,它包含了一组关于样本数据的假设。统计模型通常以相当理想化的形式表示数据生成过程。
统计模型所体现的假设由一组概率分布来描述,其中一些概率分布被假定为充分近似于对特定数据集进行采样的分布。统计模型固有的概率分布是统计模型与其他非统计数学模型的区别。
统计模型通常由与一个或多个随机变量以及可能的其他非随机变量相关的数学方程来指定。因此,统计模型是“理论的形式化表示”。
所有的统计假设检验和所有的统计估计都来自统计模型。更一般地说,统计模型是统计推断基础的一部分。
数据统计模型
多变量统计分析主要用于数据分类和综合评价。综合评价是区划和规划的基础。从人类认识的角度来看有精确的和模糊的两种类型。因为绝大多数地理现象难以用精确的定量关系划分和表示,因此模糊的模型更为实用,结果也往往更接近实际。模糊评价一般经过四个过程:
(1)评价因子的选择与简化;
(2)多因子重要性指标(权重)的确定;
(3)因子内各类别对评价目标的隶属度确定;
(4)选用某种方法进行多因子综合。
1.主成分分析
地理问题往往涉及大量相互关联的自然和社会要素,众多的要素常常给模型的构造带来很大困难。为使用户易于理解和解决现有存储容量不足的问题,有必要减少某些数据而保留最必要的信息。
2.层次分析法(AHP)
Hierarahy Analysis 是T.L.Saaty等在70年代提出和广泛应用的,是系统分析的数学工具之一,它把人的思维过程层次化、数量化,并用数学方法为分析、决策、预报或控制提供定量的依据。
表示,A叫成对比矩阵,它应满足:
。
3.系统聚类分析
60年代末到70年代初,人们把大量精力集中于发展和应用数字分类法,且将这类方法应用于自然资源、土壤剖面、气候分类、环境生态等数据,形成“数字分类学”学科。聚类分析已成为标准的分类技术,在许多大型计算机中都存储了这种分析程序,从GIS数据库中将点数据传送到聚类分析程序也不困难。
聚类分析的主要依据是把相似的样本归为一类,而把差异大的样本区分开来。在由m个变量组成为m维的空间中可以用多种方法定义样本之间的相似性和差异性统计量。
4.判别分析
判别分析是根据表明事物特点的变量值和它们所属的类求出判别函数,根据判别函数对未知所属类别的事物进行分类的一种分析方法,与聚类分析不同,它需要已知一系列反映事物特性的数值变量值及其变量值。
判别分析就是在已知研究对象分为若干类型(组别)并已经取得各种类型的一批已知样品的观测数据基础上,根据某些准则,建立起尽可能把属于不同类型的数据区分开来的判别函数,然后用它们来判别未知类型的样品应该属于哪一类。根据判别的组数,判别分析可以分为两组判别分析和多组判别分析;根据判别函数的形式,判别分析可以分为线性判别和非线性判别;根据判别时处理变量的方法不同,判别分析可以分为逐步判别、序贯判别等;根据判别标准的不同,判别分析有距离判别、Fisher判别、Bayes判别等。
判别分析与聚类分析同属分类问题,所不同的是,判别分析是预先根据理论与实践确定等级序列的因子标准,再将待分析的地理实体安排到序列的合理位置上的方法,对于诸如水土流失评价、土地适宜性评价等有一定理论根据的分类系统定级问题比较适用。
地统计模型
地统计(克里金法)模型包括多个组成部分:检查数据(分布、趋势、方向组成和异常值),计算经验半变异函数或协方差值,根据经验值拟合模型,生成克里金方程矩阵以及对其进行求解以为输出表面中的每个位置获取预测值及其关联误差(不确定性)。
计算经验半变异函数
与大多数插值法一样,克里金法基于距离越近的事物就越相似这一基本原则(此处量化为空间自相关)。经验半变异函数是一种发掘这种关系的方法。在距离上彼此接近的点对应比互相远离的点对差异小。在经验半变异函数中可检查使这种假设成立的范围。
拟合模型
拟合通过用点定义可提供最佳拟合的模型来实现。也就是说需要找出一条线,使每个点和这条线之间的加权平方差尽可能小。这称为加权最小二乘拟合。此模型量化数据中的空间自相关。
创建矩阵
克里金方程包含在依赖于测量采样位置和预测位置的空间自相关的矩阵和矢量中。空间自相关值来自于半变异函数模型。矩阵和矢量确定分配给搜索邻域中的每个测量值的克里金权重。
进行预测
模型的维度
,其中d是正整数R表示实数。在这里,d被称为模型的维度。
,那么模型是半参数的;否则,模型是非参数的。
目的
统计模型是一类特殊的数学模型。统计模型与其他数学模型的区别在于统计模型是非确定性的。因此,在通过数学方程式指定的统计模型中,一些变量不具有特定的值,而是具有概率分布;即一些变量是随机的。在上面的例子中,ε是一个随机变量;没有这个变量,模型将是确定性的。
即使建模的物理过程是确定性的,也经常使用统计模型。例如,投掷硬币原则上是一个确定性的过程;但它通常被建模为随机的(通过伯努利过程)。
根据Konishi和Kitagawa的观点,统计模型有三个目的:
预测
信息提取