【文系でも10分で理解できる】一元配置分散分析の原理、計算手順とは？

こんにちは。
本日は一元配置分散分析に関する疑問について説明したいと思います。

論文を読んでると、一元配置分散分析って出てきたけど一体何なの？
一元配置分散分析を原理から理解したい！

このような疑問に答えます。

統計学ってとっつきづらいですよね。
ですが、研究論文で使ったり、データサイエンスの勉強をするときにはその原理まで含めて理解したいところ。本日は一元配置分散分析をテーマにブログを書いていきたいと思います。

これを書いている僕は社会人で大学院に通い5年目で、現在は原著論文1本、投稿中1本、学会発表多数…とデータ解析については中級者レベル位です。初心者の方にもわかるような記事が書けると思います。

では始めていきますね。

一元配置分散分析とは？【3群以上の“平均値”を比較する統計手法です】
1. 一元配置分散分析を使用する条件
【文系でもわかる】一元配置分散分析の原理

一元配置分散分析とは？【3群以上の“平均値”を比較する統計手法です】

まず、一元配置分散分析の前に、統計学的な検定について確認しておきます。

統計学的な検定とは、”2つ以上の群の「違い」を比較すること”ですね。

その中で、一元配置分散分析とは以下の位置付けです。

一元配置分散分析とは、

比較対象の群が合計3群以上ある場合に使用する統計手法です。

一元配置分散分析を使用する条件

一元配置分散分析を使用する条件は以下です。

・3群以上のデータである

・データが正規分布をしていないと使用できない

・結果としてわかるのは「群の間に差があるか・ないか」だけで、「どこに差があるか」は追加解析（チューキーの検定）が必要

正規分布とは、平均値を頂点とした釣り鐘状の分布になっていることです。
下にある図のような分布をしたデータを指します。

調べたいデータが正規分布しているかどうかわからないですか？

以前の記事で検定方法（シャピロウィルク検定といいます）を紹介しています。
【SPSS】正規性を検定してt検定をする方法【10分でできる】

【文系でもわかる】一元配置分散分析の原理

例えば、こんなデータがあるとします。
東京、千葉、埼玉の賃貸家賃のデータです。
各都県でランダムに選択されたA～Dの賃貸物件の家賃が記載されています。
合計12のデータがありますね。

東京、千葉、埼玉で家賃の平均に差があるかどうか、
stepに分けて解説をしていきますね。

（単位は万円です）

こちらのデータはリンクを貼っておきます。
データはこちら

一元配置分散分析は3群以上の平均値を比較するものでしたので、東京、千葉、埼玉の平均家賃に差があるかどうかを検定します。

まず、前提条件として帰無仮説を設定します。
この場合、帰無仮説は「各県の家賃平均には差がない」です。
ここから一元配置分散分析の段階に入っていきますね。

帰無仮説とは、統計学的検定の最初に行う仮説の作成方法です。わからない方はググってみるとわかりやすい記事がたくさん出てきます。

step1: データ全体の平均と各群の平均値を求める

まずは全データの平均を求めましょう。

赤丸で囲まれた部分の平均を求めます。
平均は10.08でした。

はい、次に各群（この場合、都道府県）の平均を求めましょう。

次に、それぞれの群（赤丸部）の平均を求めます。
東京→12.75
千葉→8
埼玉→10.5でした。

step2 「全体平均 ― 各データ」のズレを求める

先ほど求めた全体平均（10.08）と各データ（12個）の差を求め、2乗します。

「全体平均　―　各データ」の2乗和とは
(10-10.08)2+(15-10.08)2+(12-10.08)2+(14-10.08)2+ … = 100.9167

※2乗が上手く表示できず、2が大文字になっています。すみません🙇

各データから全体平均(10.8)を引いて2乗していき、全ての和を出します。
ここでは100.9167でした。

step3 「全体平均 ― 各群の平均」のズレを求める

次に、全体平均 (10.08)と各群の平均の差を求め、先ほど同じように二乗和を求めます。
まず各群の平均とは、

東京→12.75

千葉→8

埼玉→10.5

でした。

そうすると式は、

(10.8-12.75)2×4 ←東京
+(10.8-8)2×4 ←千葉
+(10.8-10.5)2×4　←埼玉

= 67.17

※2乗が上手く表示できず、2が大文字になっています。すみません🙇

step4 「それ以外」のズレを求める

それ以外のずれは

「step2の数値（全体平均と各データのズレ）　―　step3の数値（全体平均と各群平均のズレ）」

求められます。

「100.91 (step2) – 67.17 (step3) = 33.75」です。

step5 それぞれに自由度をつける

求めた3つのズレに自由度を割り当てます。

自由度とは「データ数―１」で表される数値のことです。

・「全体平均―各データのズレ」の自由度＝「全データ数12 – 1 =11」です。
・「全体平均―各群の平均のズレ」の自由度＝「群の数3 – 1=2」です。
・「それ以外のズレ」の自由度＝「11 – 2 =9」です。

step6 統計量F値を求める

分散分析では

「全体平均―各群の平均のズレ」÷ 自由度　の数値と、

「それ以外のズレ」÷ 自由度　の数値を用います。

すると、
・「全体平均 ―各群の平均のズレ(67.17)」÷ 自由度 (2) = 33.58
・「それ以外のズレ(33.75)」÷　自由度(9) = 3.75

です。

ここでF値が登場します。

F値＝(全体平均ー各群平均のズレの平均平方/自由度)　÷　(それ以外のズレの平均平方/自由度)

この例の場合、
F値= 33.58 ÷ 3.75＝8.96です。

step7 F分布表を見て、統計的に有意か判断する

求めたF値をF分布表というものにあてはめます。
F分布表はこちらにリンクを貼っておきます。
F分布表

この例の場合、自由度は(2,9)になるので、F値が19.385以上ないと統計的有意な差とはいえないことがわかりました。

従って今回の東京、千葉、埼玉の家賃は群間に有意な差は見られないという結論になりました。

以上、本日は一元配置分散分析の原理についてやさしく解説をしました。

これからも有益な記事を書いていきます。よろしくお願いします。