Rでの正規性の検定 【正規性をまず検定しましょう】

R

 

こんにちは。

・2つの群の間の違いを統計的に比較する方法を知りたい

・Rで正規性の検定を行う方法が知りたい

このような疑問に答えます。

本記事の内容

■1 まず帰無仮説とp値の関係をおさえましょう

■2 群間検定に必要な事前準備~CSVファイルを群別に並べ替えましょう~

■3 正規性の検定をできるようになりましょう

■1 まず帰無仮説とp値の関係をおさえましょう

例えば、ここに29名の対象者がいます。ExcelやCSVデータで男性16名、女性13名分の背中の角度データはあります。男性16名、女性13名です。男性群を「0」、女性群を「1」と定義しましょう。
ここであなたの知りたい内容は「男性群と女性群で背中の角度に差があるかどうか」だとします。
このようなときまず何をしますか?

このような時は、男女の群間の検定をしていきますが、「帰無仮説とp値」のことを知っておきましょう。

帰無仮説とは2つの群の間に差や関連が「ない」と考える仮説

です。この理解で特に困らないと思います。

p値はこの帰無仮説が起こる確率です。

通常5%が基準になり、
p値が5%未満=帰無仮説が起こる確率が5%未満と考えましょう。帰無仮説が起こる確率が5%未満、つまりほとんどないので2つの群間に差(関係)があると考えることになります。


■2 群間検定に必要な事前準備~CSVファイルを群別に並べ替えましょう~

群間の比較を行う場合は、CSVデータを「群ごとに整理してならべておきましょう」。まずファイルを開きます。

そして「データ」→「並び替え」です。

該当するデータの範囲を全て選択します。

ちなみにこのとき便利なキーを紹介します

データ範囲を一発で全指定できるキーです。

これはデータが100行とかある時には不可欠なテクニックなのでぜひ覚えましょう。

データの左端(この場合IDのセル)にカーソルを合わせ、

「CTRL」キーと「SHIFT」キーを同時押しします。
そして「→」と「↓」を押してください。

簡単にデータ全範囲が選べます。

「並び替え」を押すとこのような画面が出てきます。

「最優先されるキー」を「男0女1」にして選択してください。

するとデータが男女順に並び変えられましたね。

ここまで来たらCSVデータをRに読み込みましょう。CSVデータ読み込みの方法はRにexcelで作ったファイルを読み込む方法【CSV形式で読み込みましょう】の記事でも解説しています。

■3 正規性の検定をできるようになりましょう

群ごとに並んだCSVファイルがRで読み込めましたでしょうか。そうしたら次に行うことは「正規性の検定」です。正規性は分布のバランスを表すものです(この程度の理解で差支えないと思います)。

正規性は「ある」or「ない」で考えます。正規性が「ある場合(分布のバランスがとれている)」と「ない場合(分布がアンバランス)」でこの後の検定方法が異なりますので必ず最初に正規性の検定を行いましょう。

Shapiro-wilk検定のポイント
①検定の最初に行いましょう。
②群で分ける場合は各群で行いましょう。

正規性の検定はshapiro-wilk検定を行います。Rではshapiro.testを用います。

Shapero-wilk検定のRでのコード

   Shapiro.test (データ名[行番号,列番号])

・データ名=使用したCSVファイル名です

・行番号=行は横

・列番号=列は縦

デモデータで試してみます。
「テスト点数」を男女に群分けしました。

黄色が男性、青色が女性です。

まず、男性の「テスト点数」の正規性を検定します。

男性のテスト点数は、CSVファイルの4列目、2~17行です。

この際、行の数の指定はCSVの表記より1を差し引いて実施します
CSVでは2行目~17行目ですが、Rでは1行目~16行目と指定してください。

Shapiro.test(データ名[行番号,列番号])に従い、
shapiro.test(data[1:16,4]) とコードを打ちます。

なお、ここでの「:」は範囲選択「~」を示しています。

Enterボタンで結果を出したら完了です。
この場合、p-value=0.001631となります。

Shapiro-wilk検定は帰無仮説が「正規分布に従う」
なので、帰無仮説に従う確率が5%未満=帰無仮説に従わないということになります。
つまりp<0.05の場合は正規分布に従わないノンパラメトリック検定の対象になります

同様に、女性群についても同様に行っていきましょう。
shapiro.test(data[17:29,4])
で結果を出すとp=0.02455となります。P<0.05なので正規分布に従わないノンパラメトリック検定ですね。

本日の記事は以上となります。
次回、群間の検定方法の詳細を書いていきたいと思います。
今後も有益な記事を書いていきます。
よろしくお願いします。

タイトルとURLをコピーしました