Posted by & filed under Rドリル, 分析.

このエントリーをはてなブックマークに追加
はてなブックマーク - Rドリル 第5回 Rによるやさしい統計学 -第5章
Facebook にシェア
[`livedoor` not found]
[`evernote` not found]

ちゃんとやってますから!

やっと色々な感覚がつかめてきて楽しくなってきました。この勢いを借りていきます。
今回は第5章です。

レポート

統計的仮説検定の必要性
標本相関を例にして説明。
  • plot(変数,変数):2変数の散布図を表示(既出)
    • xlim=c(数値,数値):x軸の軸範囲を指定するオプション
    • ylim=c(数値,数値):y軸の軸範囲を指定するオプション
統計的仮説検証の手順と用語
帰無仮説と対立仮説、TypeIエラーや検定力など。コード無し。
標準正規分布を用いた検定
(1つの平均値の検定・母分散が既知)
母分散がわかっている場合における平均値に対する検定(Z検定)の計算の流れと演習。
  • qnorm(p値):下側確率がp値となる時のZの値を算出
    • lower.tail=論理値:下側確率で算出するかどうかを指定するオプション。デフォはTRUE(下側)
  • curve(xの関数式):xの関数の曲線を出力(既出)
    • abline(a=数値,b=数値):y=bx+aの直線を引く関数。そのままで現在のプロットに追加される。
      • v=数値:x=数値の直線(垂直線)を引くオプション。この時はaとbは不要
      • h=数値:y=数値の直線(水平線)を引くオプション。この時はaとbは不要
  • pnorm(Z値):標準正規分布上でその値以下となる確率。つまり下側確率を算出。
t分布を用いた検定(1つの平均値の検定・母分散が未知)
いわゆる1サンプルのt検定。計算の流れと演習。
  • qt(p値,自由度):指定した自由度でのt分布で下側確率がp値となるt値を算出。
  • pt(t値,自由度):指定した自由度でのt分布でその値以下となる確率。下側確率(片側)。
  • t.test(変数):変数に対して1サンプルのt検定を実施。デフォではμ=0が帰無仮説、両側検定。
    • mu=数値:帰無仮説のμを指定するオプション。
    • alternative=”greater”あるいは”less”:片側(上側あるいは下側)を指定するオプション。
相関係数の検定(無相関検定)
いわゆる無相関検定の計算の流れと演習。
  • cor.test(変数,変数):ピアソンの積率相関係数を算出し無相関検定も実施。
    • method=”spearman”:スピアマンの順位相関係数について検定。
    • method=”kendall”:ケンドールの順位相関係数について検定。
独立性の検定(カイ二乗検定)
連関のお話とカイ二乗検定のお話。
  • dchisq(x,自由度):指定した自由度におけるカイ二乗分布でのxの確率密度関数を出力。
  • qchisq(p値,自由度):指定した自由度におけるカイ二乗分布で下側確率が指定したp値となるカイ二乗値を算出。
  • pchisq(カイ二乗値,自由度):指定した自由度におけるカイ二乗分布上で、指定した値の下側確率を算出。
  • chisq.test(クロス集計データ):引数に指定したデータについてカイ二乗検定を実施。
    • correct=”TRUE”or”FALSE”:連続性の補正(イエーツの補正)を指定するオプション。デフォではTRUE。
サンプルサイズの検定結果への影響について
サンプルサイズが大きくなると有意な結果が出やすくなることを実際に検討して説明。
  • matrix(データ,行数,列数):行列を作成する関数。
  • rownames(行列)<-ラベルデータ:行列に対してラベルデータの行見出しをつける。
  • colnames(行列)<-ラベルデータ:行列に対してラベルデータの列見出しをつける。

私的メモ・コメント

統計についての説明はかなり丁寧で、かゆいところに手が届く感じ。このあたりをわかりやすく説明するのはいつも苦労していたので参考になると思った。

今回気付いた一番大きなポイントは、「結構省略した表現でコマンド入力できるんだ」ということ。オプション名を指定せずに数値などだけで引数にしても許容してくれる。しかし初学者にはこの省略形だけを見せられても厳しいかな。ただ慣れてくると実に面倒になってくるだろうから両方に対応できるのはいいと思う。
自分で思い立って以下のことを試して確認:

  • 論理値の指定にバリエーションがある
    • 真値:”TRUE” “T” 1
    • 偽値:”FALSE” “F” 0
  • オプションの値などで使う文字列も省略可能なものもある
    • 例) t.test関数での片側オプションalternativeで、”greater”→”g”や”less”→”l”など

あと今回の内容を実施するときの留意点メモ:

  • 直線を引くablineでは数式がy=bx+aであり、y=ax+bではない
  • chisq.testの連続性の補正オプションはデフォでONだけど毎回OFFで指定した方がいいかも。
    期待度数が小さいならば素直にフィッシャーのあれを使えばいいわけで、そのコマンドは別に用意されているから。

あと、今回やっていてついにR(というかRstudioが飛んだ。
爆弾マークが出てきて旧MacOSを使っていた自分としては「おぉ?!」っとなぜか喜んだ。まあおかげで作業履歴がかなり吹っ飛んでしまったんですが致命傷ではないのでいいです。
ただこれからちゃんとワークスペースとかプロジェクトとか設定してから回すようにしないといけないなと思いました。

しかしこのドリル、本の内容を実行するのはさくっと終わるのだけど、そこから関連する内容を自分で調べたり試したりするので結構なボリュームになってくる。そしてそれをこの記事にまとめるのにかなり時間がかかってしまう。
おかげでRに慣れるという目標へは近づいていると思います‥‥が、進行が遅くなりそうです。まあ気楽に楽しく、趣味もかねて次回もやっていきますよ。

One Response to “Rドリル 第5回 Rによるやさしい統計学 -第5章”

Leave a Reply

  • (will not be published)