疑問
Rっていう統計ソフトが無料って聞いたんだけど、やっぱり難しいのかな?
どこから手をつけていいのかわからない。。
本日はこのような疑問に答えます。
無料で使える統計ソフトではPythonかRがあります。
本日はRの基礎レベルを習得するまでのロードマップを示しました。文系の方も問題ありません。
この記事を書いている僕は医療職で働きながら大学院に通って5年目です。これまでRを使って
学会発表や論文発表まで行うことができています。
この記事を読むことでRの基礎レベルから応用レベルの一部までを修得可能です。
✓本記事はこのような方におススメ
・無料で使える統計ソフトを探している。
・Rの基礎レベルを勉強したい。
・Rに関するこまぎれの知識ではなく、体系的な知識を身に着けたい
統計ソフトRの紹介
ひとことでいうと、Rは1995年に誕生した「統計・データ解析専用の言語」です。
仕事で統計解析をしていきたい!
でも無料でやっていきたい!という方にはおススメの統計ソフトです。
統計ソフトRを学習する際の注意点
既にほかのプログラミング言語を学んでいる人は以下の点は大丈夫かもしれません。スルーして下さい。
僕もそうでしたが、プログラミング言語って非常にとっつきづらいんですよね。
初心者がプログラミング言語を学ぶときに注意すべき点は
・難しそうに見える見た目に圧倒されないこと
・コード(何か作業するときは必ず書く必要がある命令文)は必ず自分でも画面に打ってみること(写経といいます)
・わからないコードはgoogle等で調べること
です。
コードが何行か並んでいるだけで、アラビア文字を見ているような感覚に襲われます。。
そこで諦めないことが重要で、写経していけば絶対理解できます。
STEP 1 まずはRをインストールしましょう!
Rはインターネットからプログラムをインストールできます。
まずはインストールしてみましょう。
Rインストールについて、こちらの記事を参照してください。
STEP 2 RにExcelデータやCSVデータを読み込ませましょう
インストールができたら早速動かしてみましょう。
まずはデータの読み込みを行わないと解析が始まりませんので、データの読み込みを修得します。
ここから、Rのコードが少しずつ出てきます
例えば、
・「イコール」は「=」で表すか、「<-」と表すかの二通りあります。
・「header」とはExcelデータやCSVデータの先頭行をさす。
などです。
手を動かして覚えていって頂けたらと思います。
データ読み込みに関する記事は下記にリンクを貼っておきます。
Step3 Rでデータの概要を示してみる(平均値など)、棒グラフを描く
CSVファイルの読み込みまで成功したら、次はデータの概要を表記してみましょう。
データの概要とは平均値、標準偏差などのことです。
データの全体的な傾向をつかむための段階です。
こちらの記事を参考にsummary関数など便利な関数を使えるようになるとよいです。
step4 実際に統計処理を行ってみる
ここまできたら、ついに統計処理を行ってみましょう。
t検定、χ二乗検定、相関解析、回帰分析を紹介しています。
「t検定??何それ?」
この状態の方はまず統計学を基礎だけ勉強してからRの操作に戻ることをおススメします。
以下におススメのサイトや書籍をいくつか載せておきますね。
統計おススメサイト:統計web
「統計学の時間」というコーナーで統計学の基礎~応用まで体系立てて学習できます。とてもわかりやすいです。
リンクを貼っておきますね。統計学の時間
統計おススメ書籍: [図解]大学4年間の統計学が10時間でざっと学べる
統計webと同様に、統計学の基礎レベルを中心にまとめられています。数式の意味も説明されており、数学が苦手な方でも読みやすいです。
二群間の比較をRで行えるようになる
実際に統計解析を行う時に、最も使用頻度が高いのがこの2群間での比較ではないでしょうか。
「Aという方法とBという方法を比較する」方法は企業でも「ABテスト」として行われていると聞きます。
必要な解析手法はχ二乗検定、t検定、ウィルコクソンの符号付き順位和検定などになります。
以下の記事を参照して下さい。
・χ二乗検定
【R】Rでのχ二乗検定の方法です【データの尺度についておさえましょう】
・t検定、ウィルコクソンの検定
Rによる2群間検定 【4種類解説しました】
データ項目間の関係性を表せるようになる
通常、データにはたくさんの項目(例えば売上、クリック率、ページビュー等)があると思います。
相関解析ではそれぞれの項目同士がどのくらい関係しているかを「0~1」の数値で表すことができます。
相関解析についてはこちらの記事を参考にして下さい。
回帰分析を行えるようになりましょう
回帰分析は、単回帰分析(相関解析とほぼ同じ)と重回帰分析、ロジスティック回帰分析があります。
重回帰分析とロジスティック回帰分析はいくつかの項目の中から結果に最も影響する因子を探し出すような方法です。
重回帰分析は名義尺度(数値に意味を持たない尺度:「あり、なしなど」)には使用できない点が両者の違いです。
回帰分析についてはこちらの記事を参考にして下さい。
本記事はこちらで以上となります。
最後までお読みいただきありがとうございました。
なお、動画で学んでみたい方は以下のオンラインスクールがあります。
1講座の値段も高くなく、Rの講座も充実しています。
本日は以上です。
ありがとうございました。