7月 8, 2011

Posted in 统计应用 | 0 条评论

SAS9.2统计作图小记

参考《Statistical Graphics in SAS》,本文对SAS 9.2作图方式进行了简单的梳理。

1.主要的3种统计图形生成方式:

  1. 利用Output Delivery System(ODS),统计过程步直接产生统计图形。使用“ods graphics on”语句,将会直接输出统计过程步的默认图形。
  2. 利用SG过程步。主要包括proc sgplot,proc sgscatter,proc sgpanel三个过程步。
  3. 利用GTL(Graph Template Language)。主要使用proc template和proc sgrender。

2.实例:

对数据集sashelp.class中的weight关于height作一次回归拟合图。

数据如下:

继续阅读
5月 11, 2011

Posted in 统计应用 | 1 条评论

SAS多元分析之判别(1)–proc discrim

 

本文主要对SAS做判别分析的proc discrim步的应用做一个简单的摘录,相关的理论知识细节,请参见SAS help文档及其他统计学相关文献等。

1.简介

判别分式是判断样本所属类别的一种统计方法,常用的判别分析法有:

  • 距离判别法:首先定义新样本到总体的距离,然后考察样本到各个总体的距离,把新样本判归至与其距离最近的总体。常用距离使用马氏距离。
  • 贝叶斯(Bayes)判别法:更具Bayes统计思想,计算新样本属于各个总体的条件概率,比较各个条件概率的大小,将新样本判归至条件概率最大的总体。
  • Fisher判别法:是一种先进行高维向低位投影,再根据距离判别的一种方法。借助方差分析的思想构造判别函数(相当于一种投影),使组间区别最大、组内离差最小,然后代入新样本数据,将其与判别临界值比较以确定应判为至哪一总体。
  • 逐步判别法:主要是利用一些检验规则,对变量进行逐步筛选,同时进行判别的一种方法。

SAS中的proc discrim(判别归类过程)可以实现:距离判别法,贝叶斯(Bayes)判别法,Fisher判别法(典型判别)。

在proc discrim中,当各总体为正态总体是,距离判别是Bayes判别的特殊形式。

继续阅读
4月 19, 2011

Posted in 分享 | 8 条评论

SAS中定义字符长度问题

前段时间翻看SASOR上的老帖子,在这个帖子ahuigeqkaiwei 讨论了下SAS中定义字符长度的问题,觉得挺有意思也挺有用处,摘录如下:

ahuige

1.第一个讨厌的特性,变量按第一次赋值决定变量的长度。

1
2
3
4
5
data xx;
x='ab';
x='ab'||'c';
put x=;
run;

以上的语句,在log窗中可以看到,x的值依然是’ab’;这会让一个使用过其他语言写过这种天经地义的正确写法但又在sas中得到这种结果的人不知所措

ahuige

然后现在会有sas的卫道者跳出来说,这有什么,一个变量应该先定义长度,然后再赋值。下面的方法可以解决这个问题

1
2
3
4
5
6
data xx;
length x$8.;*这里加一个定义长度;
x='ab';
x='ab'||'c';
put x=;
run;

这个问题的确解决了,log窗里可以看到这里x=’abc’
好,现在初学者认为他已经了解了解决这个问题的方法。但是,下面的pitfall又来了。

1
2
3
4
5
6
data xx;
length x$8;
x='ab';
x='x||'c';
put x=;
run;

作者的本意是想得到x=’abc’,但是log里面又显示的是x=’ab’,作者还是又跳进陷阱了。

继续阅读
4月 17, 2011

Posted in 统计应用 | 7 条评论

SAS多元分析之聚类(2)–proc fastclus

本文主要对SAS做聚类分析的proc fastclus步的应用做一个简单的摘录,相关的理论知识细节,请参见SAS help文档及其他统计学相关文献等。

1.简介

proc fastclus为动态聚类(又称快速聚类),以迭代思想为理论基础,先对样本观测粗略分类,然后按某种最优准则逐步修改分类至最优为止,其适用于观测量大的数据。
步骤为:

  1. 选择若干观测为初始“凝聚点”。(注:凝聚点必须是完整观测,即该观测的各个变量值不能有缺失存在。)

1) 系统顺序选取
2) 系统随机选取
3) 指定初始凝聚点

  1. 根据初始“凝聚点”进行初始分类。

1) 按批初始分类
2) 逐个初始分类

  1. 对分类进行逐步修改优化。

1) 按批修改法
2) 逐个修改法

  1. 确定最优分类。

继续阅读
4月 4, 2011

Posted in 统计应用 | 6 条评论

SAS多元分析之聚类(1)–proc cluster

本文主要对SAS做聚类分析的proc cluster步的应用做一个简单的摘录,相关的理论知识细节,请参见SAS help文档及其他统计学相关文献等。

1.简介

proc cluster一般适用于规模较小的样本观测聚类(即Q型聚类)。proc cluster为系统聚类,包括11种方法,根据“距离”作为分类标准。

继续阅读
第 2 页,共 4 页1234
返回顶部