機械学習インタビューの25の楽しい質問

機械学習のインタビューの質問は、同時に面白くて深いものですか?

画像ソース:https://xkcd.com/1838/

データサイエンティストの多くは、主にデータプラクティショナーの観点から機械学習(ML)を研究しています。その結果、可能な限り多くの新しいパッケージ、フレームワーク、技術について学習することに集中し、コアの理論的側面の詳細な検討に集中することはできません。また、ここでの機械学習の定義には、標準的な統計学習のすべてが含まれます(つまり、深層学習のみを構成するわけではありません)。

しかし、いくつかの努力を精査して熟考すると、非常に多くの素晴らしいMLの質問を思い付くことができ、答えて分析すると、より深い側面を美しく明らかにすることができます。基本的に、これらの質問は、上に示したこの山から頭を出すのに役立ちます。私たちは一日中データセットをかき混ぜたくはありません。機械学習技術の特性、癖、複雑さを深く掘り下げ、それらを受け入れたいのです…

結局のところ、「機械学習のための標準的なインタビューの質問」に関するインターネット上の記事がたくさんあります。少し変わって面白いことはできますか?

免責事項:私は思考を刺激し、議論を刺激するための質問を投稿しています。既製の答えはありません。いくつかの質問にはヒントがありますが、実際には決定的な答えではなく、より多くの議論のためのものです。それぞれの質問は、さらに詳しく議論する価値があります。決まった答えはありません。いくつかの質問は不自然で、いくつかはただの楽しみのためです。ただ楽しむ:-)ブートするために、5回目の質問ごとに面白いミームが挿入されています…

楽しい質問

  • 95%の信頼区間を示す線形回帰モデルを作成しました。モデル係数が、近似しようとしている関数の真の推定値である可能性が95%あるということですか? (ヒント:実際には95%の時間を意味します...)
  • Hadoopファイルシステムとk最近傍アルゴリズムの類似点は何ですか? (ヒント:「怠laz」)
  • どの構造が表現力の点でより強力です(つまり、特定のブール関数を正確に表すことができます)-単一層パーセプトロンまたは2層決定ツリーですか? (ヒント:XOR)
  • そして、どちらがより強力なのですか。2層の決定木ですか、それとも活性化機能のない2層のニューラルネットワークですか。 (ヒント:非線形性?)
  • ニューラルネットワークを次元削減のツールとして使用できますか?方法を説明してください。
  • 誰もが線形回帰モデルの切片項を悪性化し、軽視します。そのユーティリティの1つを教えてください。 (ヒント:ノイズ/ガベージコレクター)
  • LASSO正則化は、係数を正確にゼロに減らします。リッジ回帰により、それらは非常に小さいがゼロ以外の値になります。 2つの単純な関数のプロットとの違いを直感的に説明できますか| x |とx²? (ヒント:| x |プロットの鋭い角)
  • データセット(連続した数値)の元となる分布について何も知らず、正規ガウス分布であると仮定することは禁じられているとします。真の分布が何であれ、データの〜89%が平均から+/- 3標準偏差以内に収まることを保証できることを可能な限り単純な引数で示します(ヒント:マルコフ博士
  • 機械学習アルゴリズムの大半は、乗算や反転などの何らかのマトリックス操作を伴います。このようなMLアルゴリズムのミニバッチバージョンが完全なデータセットを使用したトレーニングよりも計算上効率的である理由を、簡単な数学的引数で説明します。 (ヒント:行列乗算の時間の複雑さ…)
  • 時系列は、1つの応答変数と1つの予測子、つまり時間だけを持つ、本当に単純な線形回帰の問題だと思いませんか?時系列データの場合の線形回帰近似(必ずしも単一の線形項ではなく、多項式の次数項でも)アプローチの問題は何ですか? (ヒント:過去は未来の指標です…)
  • 可能なすべてのツリー構造の中から分類問題の最適な決定木を見つけることは、指数関数的に難しい問題になる可能性があることを簡単な数学的引数で示します(ヒント:とにかくジャングルにはいくつの木がありますか?)
  • 決定木とディープニューラルネットワークはどちらも非線形分類器です。つまり、複雑な決定境界で空間を分離します。それでは、決定ツリーモデルとディープニューラルネットワークを直感的にたどることが非常に簡単なのはなぜですか?
  • バックプロパゲーションは、ディープラーニングの主力です。逆伝播を使用せずにニューラルネットワークをトレーニングするためのいくつかの可能な代替手法を挙げてください。 (ヒント:ランダム検索…)
  • 線形回帰とロジスティック回帰(分類)の2つの問題があるとしましょう。それらのどれが新しく発見された超高速大行列乗算アルゴリズムの恩恵を受ける可能性が高いですか?どうして? (ヒント:マトリックス操作を使用する可能性が高いのはどれですか?)
  • 主成分分析に対する予測子間の相関の影響は何ですか?どのように取り組むことができますか?
  • 地球へのmet石の影響に関する分類モデル(人間文明にとって重要なプロジェクト)を構築するよう求められます。予備分析の後、99%の精度が得られます。あなたは幸せになるべきですか?何故なの?あなたはそれについて何ができますか? (ヒント:まれなイベント…)
  • 連続変数とカテゴリー変数の間の相関をキャプチャすることは可能ですか?はいの場合、どのように?
  • 遺伝子発現データを使用している場合、多くの場合、数百万の予測変数と数百のサンプルしかありません。回帰モデルを構築する場合に、そのような状況で通常の最小二乗法が適切な選択ではない理由を簡単な数学的引数で示します。 (ヒント:行列代数…)
  • 時系列モデルでk分割交差検証がうまく機能しない理由を説明します。あなたはそれについて何ができますか? (ヒント:過去は未来の密接な指標です…)
  • トレーニングデータセットのトレーニングおよび検証セットへの単純なランダムサンプリングは、回帰問題に適しています。しかし、分類の問題に対するこのアプローチで何が問題になるのでしょうか?それについて何ができますか? (ヒント:すべてのクラスは同じ程度普及していますか?)
  • モデルの精度とモデルのパフォーマンスのどちらがより重要ですか?
  • 複数のCPUコアを利用できる場合、ランダムフォレストよりもブーストツリーアルゴリズムを好むでしょうか?どうして? (ヒント:タスクを行うハンドが10個ある場合、それを利用します)
  • データセットが線形に分離可能であることがわかっており、アルゴリズムの収束およびアルゴリズムの反復/ステップの最大数を保証する必要があると想像してください(計算リソースの理由により)。この場合、勾配降下を選択しますか?何を選べますか? (ヒント:ソリューションを見つける保証を提供する単純なアルゴリズムはどれですか?)
  • 非常に小さなメモリ/ストレージがあるとします。ロジスティック回帰またはk最近傍アルゴリズムとはどのようなアルゴリズムを好むでしょうか?どうして? (ヒント:スペースの複雑さ)
  • 機械学習モデルを最初に構築するには、100個のデータポイントと5個の機能がありました。バイアスを減らすために、5つの変数を含めるように機能を2倍にし、さらに100のデータポイントを収集しました。これが正しいアプローチかどうかを説明してください? (ヒント:機械学習には呪いがあります。それについて聞いたことがありますか?)

共有する他の楽しいMLの質問やアイデアがある場合は、ここで著者に連絡してください。良い質問を生成することは困難であり、好奇心を引き起こし、深く考えさせる。面白くて興味深い質問をすることで、学習体験を楽しく充実したものにします。この試みを楽しんだことを願っています。