Rで散布図と回帰直線を引く方法【2つの項目の関係性】

R

こんにちは。
本日はRを使って散布図を書く方法を記事にしました。

散布図は2つの項目間の関係性を確認するときに非常によく使う図ですね。

 ✅疑問

・Rでデータを視覚化する方法がわからない

・Rで散布図や回帰直線の引き方を知りたい

このような疑問に答えます。

僕は医療職で働きながら大学院に通って4年目です。SPSSやRを使って学会発表や論文投稿まで行うことができています。

 ✅このような方におススメ

・Rを使ってデータを視覚化したい

・Rを始めたばかり。基礎的な使用法を身に着けたい

では始めていきます。
ちなみに、Rを使った棒グラフの作り方については以前記事にしています。参考にしてみてください。
Rでデータの概要を表示する、棒グラフを作成する 【基礎編】

Rを使った散布図の書き方【簡単です】

本日はこちらのdemodataを使用します。
こちら


9つの項目がある30行9列のデータになっています。

このデータをRに読み込んでいきましょう。

↑read.csv関数を使います。
RでのCSVファイルの読み込み方法についてはこちらの記事を参照してください。
Rにexcelで作ったファイルを読み込む方法【CSV形式で読み込みましょう】
これでRにdemodataのCSVファイルが読み込まれました。

では早速散布図を作ってみましょう。
「背中角度」と「足の長さ」で散布図を作ってみます。


 関数の解説

・plot(A,B):AをX軸、BをY軸とした散布図を作る。


散布図が完成しました。ただし、まだタイトルとかラベルはない状態です。

散布図を見やすくするオプション

ここで散布図を見やすくするオプションを紹介します。
参考:データ科学便覧

オプション 詳細
type プロットの形式を指定する

p : 点

i : ライン

b : 点とライン

n : プロットしない

type=”p”
col プロットの色を指定

blue, green, red, orange など

col=”blue”
main 散布図のタイトルを指定 main=”demo plot”
xlab x軸のラベルを指定 xlab=”Aの角度”
ylab y軸のラベルを指定 ylab=”Bの点数”
xlim x軸の表示範囲の指定。

ベクトル(c)で指定。

xlim=c(0,10)
ylim y軸の表示範囲の指定。

ベクトル(c)で指定。

ylim=c(0,10)
log xまたはyを指定すると指定した軸を対数軸で表示 log=”y”
cex.main グラフタイトルのフォントサイズの指定 cex.main=”3”
cex.lab 軸ラベルのフォントサイズの指定 cex.lab=”1.5”
cex.names 軸項目のフォントサイズの指定 cex.names=”1.5”
cex.axis 目盛りのフォントサイズの指定 cex.axis=”1.2”

散布図にタイトルやラベルを付ける


 <関数の解説>

col=”blue”: プロットを青色に変更

main=”demodata”: グラフタイトルをつけた

cex.main=”3”: タイトルのフォントを3にした

xlab=”背中の角度”: x軸のラベルにタイトルを付けた

ylab=”足の長さ”: y軸のラベルにタイトルを付けた

↑このような散布図ができました。

だいぶん見やすくなってきましたよね。
あとはこちらに回帰直線を引いていきたいと思います。

散布図に回帰直線を引く

回帰直線とは
単回帰分析の結果を示す線分です。

 単回帰分析とは

y=ax+b

の一次方程式の形を求める分析です。

aが傾き、bが切片といいます

 

まずは単回帰分析を行う必要があります。

 関数の解説

lm(A~B):AとBの間の関係を求める。

Aはy軸(縦)のデータ、Bはx軸(横)のデータになるように注意です。

※逆に入れてしまうと回帰直線は出てきません。

 

次に回帰直線を引きます

 関数の解説

abline(A):Aの結果に沿った直線を引く関数

 

↑このような回帰直線が引けました。

【応用】回帰分析の結果を解釈してみよう

散布図を見ると回帰直線が右下に下がっていますよね。
つまり「背中の角度」が大きくなるほど足の長さが短くなるという傾向が読み取れます。

先ほどの回帰分析の結果を詳しく見ることができます。


 関数の解説

summary(A):Aの分析結果の詳細を表示する

 


このような結果が出てきます。
真ん中あたりの「Coefficients」を見ます。
今回はx軸がdata[,5]ですので、その行を見ます。
「Estimate」が-0.6909になっていますね。これがy=ax+bのaの部分(傾き)です。
また、右側の「Pr」はp値を指します。p値は帰無仮説(傾きは0である)が生じる確率で、5%未満で有意な関係性です。
今回は0.752なので75%は傾きが0になる確率があるため有意な関係性ではありません。

このように結果を解釈します。

本日のまとめ

散布図はデータの関係性を視覚的に捉えるためよく使われる図です。
また、回帰直線を引きその結果を解釈できれば単回帰分析の知識までもカバーできています。

本日は以上となります。
今後も有益な記事を書いていきます。
よろしくお願いします。

タイトルとURLをコピーしました