2009年9月30日水曜日

Windsurf、年毎、類似度?

 最近、「集合知プログラミング」「Rによるデータサイエンス - データ解析の基礎から最新手法まで」を片手にRをいじってみている。さすがに統計について何も知らないだけあってよくわからない。プログラミング言語としてもまだイメージがつかめず、苦しんでいるけれど、とりあえず、今までの自分のWindsurfのデータを喰わせてみた。年毎のゲレンデにおとづれた回数のデータ。これで年毎の類似性を調べてみようというのだ。関数はユークリッド距離関数を使用したけれど、ほんとうはピアソンの相関関数がいいんだろうな。でもdistでピアソンの相関関数を使用する方法がわからなくてねぇ……。とりあえず。
 クラスタ化してデンドログラムにしてみたのが、以下。



wind.data<-read.csv("data.csv",header=T,row.names=1)
wind.dist<-dist(wind.data)
wind.hc<-hclust(wind.dist)
plot(wind.hc,hang=-1)


 それをさらにマッピング。




wind.data<-read.csv("data.csv",header=T,row.names=1)
wind.dist<-dist(wind.data)
windsurf<-cmdscale(wind.dist)
plot(windsurf,type="n")
text(windsurf,rownames(windsurf),col=rownames(windsurf))

 ほおっ、いう感じ。ちょっと意外だけど、ユークリッド距離関数をつかっているからだろうか。

使用データ