データサイエンスを学びたい場合は、これらの統計クラスをいくつか受講してください

画像クレジット

1年前、私はコーディングの背景のない数字マニアでした。オンラインプログラミングコースを試した後、私はカナダで最高のコンピューターサイエンスプログラムの1つに入学したほど刺激を受けました。

2週間後、代わりにedX、Coursera、およびUdacityを使用して必要なすべてを学習できることに気付きました。だから私は中退しました。

決定は難しくありませんでした。必要なコンテンツをより速く、より効率的に、わずかな費用で学習できました。

私はすでに大学の学位を取得しており、おそらくもっと重要なことは、すでに大学での経験を持っていることです。学校に戻るために3万ドル以上を支払うことは無責任に思えました。

その後すぐに、オンラインコースを使用して自分のデータサイエンス修士号を作成し始めました。それは、コンピュータサイエンスよりも自分に適していることに気づいた後です。プログラミングの概況を精査しました。このシリーズの最初の記事では、初心者のデータサイエンティスト向けにいくつかのコーディングクラスを推奨しました。

次に、統計と確率について説明します。

私はいくつかのコースを受講し、多くのコースの一部を監査しました。そこにあるオプションと、データアナリストまたはデータサイエンティストの役割を準備する学習者に必要なスキルを知っています。

このガイドでは、2016年11月の時点で提供されている統計と確率のコースのすべてのオンライン紹介を識別し、シラバスとレビューから重要な情報を抽出し、評価をコンパイルするのに15時間以上費やしました。このタスクでは、オープンソースのClass Centralコミュニティと、何千ものコース評価とレビューのデータベースにほかなりませんでした。

クラスセントラルのホームページ。

2011年以来、Class Centralの創設者であるDhawal Shahは、おそらく世界中の誰よりもオンラインコースに注目しています。ダワールは個人的にこのリソースのリストを作成するのを助けてくれました。

考慮すべきコースの選択方法

各コースは4つの基準に適合している必要があります。

  1. 統計や確率の経験がほとんどまたはまったく必要ない入門コースでなければなりません。
  2. オンデマンドであるか、数か月ごとに提供される必要があります。
  3. それはまともな長さでなければなりません:推定完了のために少なくとも合計10時間。
  4. インタラクティブなオンラインコースである必要があるため、書籍や読み取り専用のチュートリアルはありません。これらは統計と確率を学ぶための実行可能な方法ですが、このガイドではコースに焦点を当てています。

上記の基準に適合するすべての注目すべきコースを網羅したと考えています。 Udemyには数百のコースがあるように見えるため、最も評価が高く、最も評価の高いコースのみを検討することにしました。ただし、何かを見逃す可能性は常にあります。良いコースを除外した場合は、コメントセクションでお知らせください。

コースの評価方法

Class Centralおよびその他のレビューサイトからの平均評価とレビュー数をまとめました。各コースの加重平均評価を計算しました。シリーズに複数のコースがある場合(テキサス大学オースティン校の2部構成の「データ分析の基礎」シリーズなど)、すべてのコースの加重平均評価を計算しました。テキストレビューを読み、このフィードバックを使用して数値評価を補足しました。

次の3つの要因に基づいて、主観的なシラバス判定を行いました。

  1. 各コースがコーディング例を使用して統計を教える度合い-できればRまたはPythonで。
  2. 確率と統計の基礎の範囲。記述統計、推論統計、および確率理論を網羅することが理想的です。
  3. シラバスのどれくらいがデータサイエンスに関連していますか?シラバスには、いくつかの生物統計学コースと同様に、ゲノミクスなどの専門的なコンテンツがありますか?シラバスは、データサイエンスではあまり使用されない高度な概念をカバーしていますか?
RとPythonは、データサイエンスで最も人気のある2つのプログラミング言語です。

ターゲットコーディングを行う理由

ハーバードの応用数学の修士号を持つQuoraのデータサイエンティストであるWilliam Chenは、質問に対するこの人気のQuora回答で次のように書いています。

意欲的なデータ科学者であれば、PythonまたはRでのコーディング例を重視して統計を学習することを強くお勧めします。

データ科学者の統計作業の多くはコードを使用して実行されるため、最も一般的なツールに慣れることは有益です。

統計と確率

確率は統計ではなく、その逆も同様です。それらの違いの私のお気に入りの説明は、ストーニーブルック大学からです:

確率は将来のイベントの可能性の予測を扱い、統計は過去のイベントの頻度の分析を伴います。

彼らは「確率は主に数学の定義の結果を研究する数学の理論的な分岐である」、「統計は主に実世界で観測の意味を理解しようとする応用された数学の分岐である」と説明する。

一般に、統計はデータサイエンスの柱の1つと見なされています。確率は、あまり注目されませんが、データサイエンスのカリキュラムの重要な部分でもあります。

ハーバード統計局の教授であるジョーブリッツスタインは、この人気のあるQuoraの回答で、意欲的なデータ科学者も確率論の良い基礎を持つべきだと述べました。

博士号を持つデータサイエンティスト、ジャスティンライジング。ウォートンの統計では、この「優れた基盤」は学部レベルの確率に満足していることを意味していることが明らかになりました。

データサイエンティスト向けの最高の統計および確率コースのおすすめは…

  • データ分析の基礎—パート1:テキサス大学オースティン校(edX)によるRを使用した統計
  • データ分析の基礎—パート2:テキサス大学オースティン校による推論統計(edX)

「Foundation of Data Analysis」には、20のレビューで5つ星のうち4.48の加重平均評価で利用可能な2つのトップレビュー統計コースが含まれています。このシリーズは、コーディングの例を中心とした統計を教えるための、評価の上位階層で唯一のコースの1つです。どちらのコースタイトルにも記載されていませんが、シラバスにはテスト基準を満たすのに十分な確率の内容が含まれています。これらのコースは、初心者のデータサイエンティスト向けの基本的なカバレッジと範囲の素晴らしい組み合わせです。

テキサス大学オースティン校の講師兼上級統計コンサルタントのマイケルJ.マホメタは、「Foundation of Data Analysis」シリーズのインストラクターです。シリーズの両方のコースは無料です。推定タイムラインは、各コースの週3〜6時間で6週間です。著名な校閲者は次のように述べています。

素晴らしいコース!私はパート1を受講してとても楽しんだので、パート2に進むのは非常に簡単でした。演習は興味深いものであり、資料(ビデオ、ラボ、問題)は適切で適切に選択されています。このコースは、統計分析(機械学習、ビッグデータ、データサイエンスなど)に興味がある人におすすめです。 1から10までのスケールで、私は50を与えます!

各コースの説明とシラバスは、上記のリンクからアクセスできます。

テキサス大学オースティン校のedXページ。

優れた専門性

更新(2016年12月5日):元の2番目の推奨事項であるUCバークレーの「Stat2x:統計入門」シリーズは、この記事のリリースから数週間後に登録を終了しました。それに応じて、「ザコンペティション」セクションで最高の推奨事項を宣伝しました。

  • Courseraのデューク大学によるR専門化の統計

…次の5つのコースが含まれます。

  • 確率とデータの概要
  • 推論統計
  • 線形回帰とモデリング
  • ベイジアン統計
  • R Capstoneを使用した統計

この5コースの専門分野は、デュークの優れたデータ分析および統計的推論コースに基づいており、55のレビューで4.82星の加重平均評価を獲得しました。専門分野は、同じ教授と数人の追加教員によって教えられます。 5個のレビューに対して3.6つ星の加重平均評価を持つ新しい個々のコースの初期レビューは、サンプルサイズが小さいため、一粒の塩を使用して行う必要があります。シラバスは包括的であり、確率に専念した完全なセクションがあります。

MineÇetinkaya-Rundel博士は、専門分野のメインインストラクターです。個々のコースは無料で監査できますが、採点はできません。レビューから、この専門分野は「お金に見合うだけの価値がある」ことが示唆されています。各コースには、週に5〜7時間の4〜5週間のスケジュールがあります。ある著名な校閲者は、専門分野の基礎となった元のコースについて次のように述べています。

これまでに受講した中で最高のコースの1つ。 [博士。私のÇetinkaya-Rundelは、素晴らしい先生であり、生徒との交流に深く関わっています。多種多様な教育アプローチとツール。短いテスト、Rプログラミングラボ、綿密なプロジェクトによる多くの実践。困難に対処するための多くの助けと非常に活気のあるフォーラム。コースはそれほど難しくありませんが、提案された教材の多様性は、学生がかなり実質的に関与することを必要とします。たくさんの練習問題で無料で入手できるとても素敵な本。
デューク大学のCourseraページ。

もっと確率が必要ですか?

  • 確率の紹介—マサチューセッツ工科大学(MIT)による不確実性の科学

確率の世界をさらに詳しく知りたい場合は、上記のMITコースを検討してください。これは、34件のレビューで5つ星中4.91の加重平均評価を持つ傑作です。注意してください:それは挑戦であり、ほとんどのMOOCよりもはるかに長くなります。コースが確率をカバーするレベルも、データサイエンスの初心者には必要ありません。

MITの電気工学およびコンピューターサイエンス学科の教授であるJohn TsitsiklisとPatrick Jailletがコースを教えています。このコースの内容は、対応するMITクラス(確率システム分析と応用確率)の内容と本質的に同じです-50年以上にわたって提供され、継続的に改良されてきたコースです。推定タイムラインは、週12時間で16週間です。著名な校閲者は次のように述べています。

多くのオンラインコースは何らかの形で骨抜きにされていますが、これは、MITのようなトップスクールで実際に受けるものに似た、適切な厳密な運動主導型コースのように感じられます。教授は、長年の教育経験を通じて明らかにレーザーフォーカスに磨きをかけられた講義でコンセプトを提示します。プレゼンテーションに無駄な時間はありません。コンセプトを理解するための正しいペースと詳細で正確に進みます。演習では、知識に基づいて作業することができ、概念を実際に内部化するために重要です。これは、私がどんな科目でも受講した最高のオンラインコースです。

このコースのClass Centralのページにアクセスして、残りのレビューを読むことをお勧めします。

MITのedXページ。

競争

私たちの#1ピックは、20件のレビューで5つ星中4.48の加重平均評価を獲得しました。他の選択肢を見てみましょう。

  • MedStats:Statistics in Medicine(Stanford University / Stanford OpenEdx):例に医学的焦点がある素晴らしいシラバス。 UTオースティンのシリーズほどではありませんが、最後に少しのRプログラミングについて説明します。誰でも、薬をターゲットにしていない人にとっても価値のある選択肢です。 32件のレビューで4.58つ星の加重平均評価があります。
  • SOC120x:私は「ハート」統計:統計を愛することを学ぶ(ノートルダム大学/ edX):技術的な知識のない人をターゲットにしていますが、誰にとっても良いでしょう。コーディングなし。良い生産価値。コースとインストラクターはとても楽しそうです。 12件のレビューで4.54つ星の加重平均評価があります。
  • QM101x:ビジネスの統計(インド管理協会バンガロール/ edX):4コースシリーズの一部。ビジネスの焦点。コーディングを使用する優れたシラバス。シリーズの最後の2つのコースは2016年11月の時点でリリースされていないため、まだ判断できません。 27件のレビューで4.43つ星の加重平均評価があります。
  • 確率と統計のワークショップ(Udemy):UCLA Anderson School of ManagementのエグゼクティブMBAプログラムの副学部長であるDr. George Ingersollが指導しました。費用がかかります。 Excelを使用します。 452件のレビューで4.4つ星の加重平均評価があります。
  • 記述統計入門(サンノゼ州立大学/ Udacity):2コースシリーズの一部。一口サイズの動画。コーディングなし。 8件のレビューで3.88つ星の加重平均評価があります。
  • 推論統計入門(サンノゼ州立大学/ Udacity):2コースシリーズの一部。私は両方のコースを学部生の統計クラスの復習として受講し、より深い理解を得ました。ケイティコルマニックの指導スタイルを本当に楽しんでいました(下のビデオを参照)。一口サイズの動画。コーディングなし。 5件のレビューで4.4つ星の加重平均評価があります。
  • 6.008.1x:計算の確率と推論(マサチューセッツ工科大学/ edX):Pythonで例をコーディングすることに焦点を当てて統計を教える2つのコース/シリーズの1つ。レビューは、以前の統計経験が必要であり、コースが少し組織化されていないことを示唆しています。 12件のレビューで4つ星の加重平均評価があります。
  • 基本統計(アムステルダム大学/クールセラ):アムステルダム大学の方法と統計の社会科学専門分野における2つの統計コースの1つ。シリーズとそのインストラクターに関する非常に肯定的なレビュー。コーディングなし。それは8レビューで4.06つ星の加重平均評価をしています。
  • 推論統計(アムステルダム大学/クルセラ):アムステルダム大学の方法と統計の社会科学専門分野における2つの統計コースの1つ。シリーズとそのインストラクターに関する非常に肯定的なレビュー。コーディングなし。 3つのレビューで4つ星の加重平均評価があります。
アムステルダム大学の社会科学専門分野の方法と統計には、基本統計と推論統計が含まれています。
  • PH525.1x:統計とR(ハーバード大学/ edX):edXの7コースシリーズの一部。ライフサイエンスに焦点を当てます。 Rプログラミングを使用しますが、レビューではUT Austinのシリーズの方が優れていると示唆しています。 26件のレビューで3.96つ星の加重平均評価があります。
  • PH525.3x:ハイスループット実験の統計的推論とモデリング(ハーバード大学/ edX):edXの7コースシリーズの一部。ライフサイエンスに焦点を当てます。 Rプログラミングを使用しますが、レビューではUT Austinのシリーズの方が優れていると示唆しています。 4つのレビューで4.63つ星の加重平均評価があります。
  • 統計入門(Udacity):これはUdacityの初期のコースの1つであり、大学教育者によるこの記憶に残るレビューで説明されているように、欠点があります。コーディングなし。 41件のレビューで3.93つ星の加重平均評価があります。
  • 数学的生物統計学ブートキャンプ1(ジョンズホプキンス大学/クルセラ):2コースシリーズの一部。生物統計学の焦点。 23件のレビューで3.13つ星の加重平均評価があります。
  • 数学的生物統計学ブートキャンプ2(ジョンズホプキンス大学/クルセラ):2コースシリーズの一部。生物統計学の焦点。それは3件のレビューで3.83星の加重平均評価をしています。
  • KIexploRx:Rで統計を探索する(Karolinska Institutet / edX):統計コースよりもデータ探索コースです。コーディングを使用します。 22件のレビューで3.77つ星の加重平均評価があります。
  • 統計的推論(Johns Hopkins University / Coursera):JHUのデータサイエンス専門分野の2つの統計コースの1つ。悪いレビュー。 29件のレビューで2.9つ星の加重平均評価があります。
  • 回帰モデル(Johns Hopkins University / Coursera):JHUのデータサイエンス専門分野の2つの統計コースの1つ。悪いレビュー。 30件のレビューで2.73つ星の加重平均評価があります。
  • DS101X:データサイエンスと分析の統計的思考(コロンビア大学/ edX):データサイエンスのマイクロソフトプロフェッショナルプログラム証明書の一部。短いシラバス。悪いレビュー。 24件のレビューで2.77つ星の加重平均評価があります。
  • 臨床研究を理解する:統計の裏側(ケープタウン大学/コースラ):「これは包括的な統計コースではありませんが、医学研究と一般的に使用される統計分析の分野への実践的なオリエンテーションを提供します。」 15件のレビューで5つ星の加重平均評価があります。
  • MED101x:応用生物統計学入門:医学研究の統計(大阪大学/ edX):生物統計学の焦点。コーディングを使用します。 3件のレビューで4.5つ星の加重平均評価があります。
  • 確率と統計(Stanford University / Stanford OpenEdx):カリキュラムは素晴らしく見えます。一つのレビューは本当にポジティブです。コーディングなし。 1つ以上のレビューで4.5つ星の加重平均評価があります。
スタンフォード大学の確率と統計のコースは素晴らしいように見えますが、レビューはありません。
  • ビジネスの推論および予測統計(イリノイ大学アーバナシャンペーン/クールセラ校):7コースの経営経済学およびビジネス分析の専門分野の一部。 Excelを使用します。 1件のレビューで5つ星の加重平均評価があります。
  • ビジネスの意思決定のためのデータの調査と作成(イリノイ大学アーバナシャンペーン校/コースラ校):7コースの経営経済学とビジネス分析の専門化の一部。 Excelを使用します。 1件のレビューで5つ星の加重平均評価があります。
  • 確率、統計、およびランダムプロセスの概要(マサチューセッツ大学アマースト/独立):ビデオはコース全体では利用できません。 2件のレビューで2.5つ星の加重平均評価があります。
  • 005x:遺伝子マッピングの統計的手法の紹介(京都大学/ edX):遺伝学の焦点。事前の統計とRの知識が必要です。 1件のレビューで2.5つ星の加重平均評価があります。
  • ゲノムデータ科学の統計(ジョンズホプキンス大学/クルセラ):ゲノムの焦点。良い入門コースではありません。「この分野に興味があり、Rプログラミングのバックグラウンドも持っている人のための公正なクラスです。」2つのレビューで2つ星の加重平均評価を持っています。

2016年11月現在、以下のコースにはレビューがありませんでした。

  • Pythonの統計的思考(パート1)およびPythonの統計的思考(パート2)(DataCamp):コーディングとPythonを具体的に使用し、その言語を使用する数少ない価値のあるコースまたはシリーズの1つにします。 7時間のビデオと120以上の演習。 DataCampは一般的なオプションです。
  • R(DataCamp)を使用した統計の実践的な紹介:コーディングを使用します。 26時間のビデオと150以上の演習。繰り返しになりますが、DataCampは一般的なオプションです。
  • Rを使用した統計計算—穏やかな紹介(University College London / Independent):コーディングを使用します。
  • 確率と統計(カーネギーメロン):Rを使用します。主にテキストベースの指示。大学の統計学コースの1学期に相当するように設計されています。
  • 確率と統計の概要(マサチューセッツ工科大学/ MIT OCW):従来の講義形式(ビデオ録画)。
  • 工学統計分析の基礎(オクラホマ大学/ジャヌックス):工学の焦点。
  • Elementary Business Statistics(オクラホマ大学/ジャヌックス):ビジネスの焦点。
  • STAT101x:ビッグデータアプリケーションの生物統計学(テキサス大学医学部支部/ edX):生物統計学の焦点。
  • 416.1x:確率:基本概念と離散確率変数(Purdue University / edX):2コースシリーズの一部。
  • 416.2x:確率:分布モデルと連続ランダム変数(Purdue University / edX):2コースシリーズの一部。
  • ビジネス統計と分析の専門分野(米大学/クルセラ):Excelを使用します。
  • 統計110:確率(ハーバード大学):従来の講義形式(ビデオ録画)。 Quoraでよく推奨されます。
  • 統計(Dataquest):約12時間のコンテンツを含むマルチコースシリーズ。サブスクリプションが必要です。 Pythonでのサンプルのコーディングを中心とした統計を教える2つのコース/シリーズの1つ。 Dataquestからのメモ:「統計コースは、現時点では完全に書き直されており、11月末頃にリリースされる予定です。」

まとめ

これは、データサイエンス分野に参入するための最高のMOOCをカバーする6ピースシリーズの2番目です。プログラミングについては最初の記事で取り上げ、シリーズの残りの部分では、データサイエンスプロセス、データの視覚化、機械学習など、他のデータサイエンスの中核となるいくつかの能力を取り上げます。

最後の部分は、それらのコースの要約であり、データランリング、データベース、さらにはソフトウェアエンジニアリングなど、他の主要なトピックに最適なMOOCです。

データサイエンスMOOCの完全なリストを探している場合は、クラスセントラルのデータサイエンスおよびビッグデータサブジェクトページで見つけることができます。

これを読んで楽しんでいる場合は、クラスセントラルの他の作品をご覧ください。

私が見逃したコースについての提案があれば、回答で教えてください!

これが役立つと思ったら、Ifをクリックして、より多くの人がここで中にそれを見るようにします。

これは、Class Centralで公開された元の記事の要約版で、コースの説明、シラバス、複数のレビューが含まれています。