「機械学習」、「深層学習」、「ニューラルネットワーク」、「人工知能」、「A.I。」、「データサイエンス」などの用語は、過去数年間のテクノロジーの流行語でした。計算能力の進歩と利用可能なデータ量の増加により、何十年も前から知られている技術を意味のある実践に移すことができます。

しかし、実際にはどういう意味ですか?

数学の方程式は、人間として学んだことの基本的な理解を機械に与えます。

私たちのほとんどは、「問題を解決するためにコンピューターを教えることがすべてです」という行に沿って10,000フィートの説明を知っていますが、多くの人は実際に内部で何が起こっているのかを知らないでしょう。機械学習の基本は、十分にシンプルで、直観的で、さらに重要なことには、比較的短時間で誰でも理解できるほど興味深いものです。

問題を解決するためにコンピューターを教えるために機械学習を使用する方法のこの簡単な説明は、機械学習の知識がない人、またはゼロから始めたい人を対象としています。

最適なライン

私たちの多くは、グラフにプロットされたデータポイントを参照して、「最適な線」と呼ばれる学校の何かを覚えているかもしれません。最適な線は、データが示すものを表すように点を通る線です。次のようになります。

プロットされたデータポイントを通る最適な線。すべての画像:ダンハリス

この概念は、実際には最も基本的な機械学習です。これらのポイントを自分でプロットして、最適な独自のラインを描画しようとする代わりに、データをコンピューターに渡すことができます。

たとえば、上のグラフに示されているデータは、多くの人の靴のサイズと高さであると想像できます。左下のポイントは、足が小さい他の人より背が低い人を表し、右上のポイントは、背が高く、足が大きい人を表します。靴のサイズと高さは完全に相関しているわけではないため、すべてのポイントが「より高い人は足が大きい」というステートメントに当てはまるわけではありませんが、最適なラインは一般的に正しいことを示唆しています。

最適なラインを使用して、新しいデータについて経験に基づいた推測を行うことができます。靴を見つけたとします。サイズを判断し、グラフを参照して靴の所有者の身長について経験に基づいた推測を行うことができます。

最適なラインを使用して推測する。

シンプルでしょ?機械学習では、これは「線形回帰」として知られています。名前を怖がらせないでください。上記のすべてを理解すれば、線形回帰を理解できます。これは、線形形状のデータセットについて予測を行うために使用される単純な機械学習手法です。

機械学習の線形回帰のプロセスは次のようになります。

  1. データポイントを収集します。
  2. データポイントを線形回帰を適用できるプログラムに与えて、最適なラインを提供します。
  3. 最適なラインを使用して、新しいデータに関する予測を行います。

これは、コンピューター(または機械)が靴のサイズと高さの関係を学習(またはこの場合は1つの方程式)したため、「機械学習」と呼ばれます。数学的な方程式は、人間として私たちが学んだことの基本的な理解を機械に与えます。一般に、背の高い人は足が大きいです。

線形回帰を使用できる他のシナリオは、部屋の数に基づいて家の費用を推測すること、またはクリスマスツリーの下にあるプレゼントの数に基づいて子供の叔母と叔父の数を推測することです。

線形回帰の問題

線形回帰は、上記の例のようにデータが線のような形をしている場合に役立ちます。しかし、線のように見えないデータセットの形状について、どれほどよく学んでいますか?データは次のようになります。

実際には線形の形状を持たないデータポイント。

このデータに最適な行を追加すると、次のようになります。

最適なラインを持つ非線形データポイント。

最適なラインは、データを一致させるという大丈夫な仕事をしますが、もっと良くできるように思えます。データの形状は直線ではないため、描かれた最適な線はデータに適切に適合しません。これは、「アンダーフィット」として知られる機械学習の問題です。最適なラインは、実際にはデータにうまく適合しません。しかし、最適なラインを曲線に変更すると、より良い結果が得られる可能性があります。

最適な曲線を持つ非線形データポイント。

この曲線を使用して、最適な直線で行ったのと同じように、正確で教育された推測を行うことをより簡単に想像できます。これは、「多項式回帰」として知られる線形回帰の単純な拡張です。繰り返しますが、名前を怖がらせないでください。曲線がデータセットの形状を計算する際に直線よりも有用である理由を理解すれば、多項式回帰がどのように役立つかを理解できます。

モデルを作成できるようになりました(つまり、一連のデータポイントに最適な直線または曲線を見つけることができます)。直線または曲線のいずれかの形状のデータについては、これで完了です。程遠い。しかし、これらの概念に基づいて構築できます。

モデルの精度を選択する

多項式回帰の問題は、使用する前にどれだけの柔軟性を与えるかを決定する必要があることです。これは注意が必要です。最初のデータセットに戻りましょう。

データポイントの線形セット。

以前、線形回帰を使用して、これらのデータポイントを直線で結びました。しかし、代わりに、多項式回帰を使用して、直線よりもうまく機能するデータに最適な曲線を作成することもできます。次のようになります。

3次最適曲線を持つ線形データセット。

多項式回帰についての1つのことは、最適曲線をどの程度曲線にするかを正確に伝えることができるということです。曲線であるほど、データセットの記述の柔軟性が高まります。上記の最適曲線は非常に単純ですが、さらに進んでこのような最適曲線を見つけることもできます。

4次最適曲線を持つ線形データセット。

または、次のような場合に最適なラインをさらに曲線にすることもできます。

性的最適曲線を持つ線形データセット。

上記の最適曲線のそれぞれは、データセットをより良く説明するように見えますが、特に最後の例では、少し間違っているように感じます。多項式回帰に最適曲線の曲線を決定する際の柔軟性を与えることにより、多くのデータポイントを直接処理するのが困難になりました。結果は、最適な直線よりも予測にはあまり役に立たないように見える曲線です。

たとえば、靴のサイズと高さの例をもう一度適用すると、グラフにいくつかの推測を追加することで、非常に曲線の最適曲線が2つの異なる靴サイズに対して同じ高さを与えることがわかります。

データをオーバーフィットする最適な曲線。

機械学習におけるこの問題は「過適合」と呼ばれ、過適合の反対です。それは、私たちが作成した最適曲線があまり一般化されていないことを意味します。私たちが持っているデータを照合するのは素晴らしい仕事ですが、新しいデータを賢明に推測するのには役立ちません。機械学習の主な関心事の1つは、データセットの一般的な形状を模倣するのに十分なだけ曲線状であるが、あまり推測できないほど曲線化できない最適な直線または曲線を見つけることです新しいデータポイント。

これは、多項式回帰が陥るところです。多項式回帰を使用する前に最適曲線をどのように曲線にするかを明示的に指定する必要があり、特にデータがより複雑な場合、それを決定するのは容易ではありません。

これまでの例では、データポイントは2次元のみでした(靴のサイズの値と高さの値など)。これは、2次元グラフにプロットできることを意味します。そうすることで、データの一般的な形を見るのはかなり簡単です。しかし、2次元以上の機械学習の問題では、これはよくありません。また、データの形状がわからない場合、多項式回帰でどのように曲線が最適な線になるかを実際に伝えることはできません。

少し手間をかけるだけで、ニューラルネットワークを使用して、数値を返す代わりに、データに関するyes / noの質問に答えることもできます。

1つのオプションは、さまざまなレベルの柔軟性で多項式回帰を何度も試行し、どれが最適かを確認することです。しかし、本当に必要なのは、必要に応じて曲線を描く柔軟性があり、新しいデータを一般化できるように曲線を制限する機械学習技術です。

この柔軟性の問題は、一般にデータサイエンティストが線形回帰と多項式回帰から、代わりにニューラルネットワークを使用する場合に発生します。単独で、ニューラルネットワークは、非常に曲線的な形状を持つデータセットを学習できるという点で、多項式回帰に非常に似ています。彼らは自分で過剰適合の問題を解決しませんが、正則化と呼ばれる技術と組み合わせると、すべてがうまくいく傾向があります。

ニューラルネットワークと正則化の仕組みの実装の詳細は、機械学習の基本を理解する上でそれほど重要ではありません。覚えておくべき重要なことは、ニューラルネットワークは線形回帰または多項式回帰よりも複雑なデータセットの形状の学習に非常に優れており、正則化はニューラルネットワークがデータを過剰適合させないようにすることです。

コンピュータに質問に答えさせる

これまでに取り上げた手法(線形回帰、多項式回帰、ニューラルネットワーク)については、与えられたデータに応じて数値を与えるようにコンピューターをトレーニングする方法についてのみ見てきました。靴のサイズと高さのモデルは、靴のサイズ番号を与えると高さの番号を与えます。同様に、部屋の数に応じた家のコストのモデルは、部屋番号を与えるとコスト番号を与えます。

しかし、数字の出力が常に必要なものとは限りません。代わりに、機械学習モデルに代わりに質問に答えてほしいことがあります。たとえば、家を売っている場合、家がどれだけの価値があるかを機械で判断するだけでなく、6週間以内に家が売れるかどうかを調べることもできます。

良いニュースは、数を与える代わりに特定の質問に答える機械学習技術が利用可能であることです(すでに見たものと同様です)。機械学習モデルを設定して、部屋の数、費用、面積などの基本的な入力データを提供するときに、6週間以内の販売の質問にyes / noの答えを出すことができます。明らかに、住宅市場は厳密なルールに従っていないため、完璧なモデルになることはありませんが、機械学習モデルを使用して、これらのタイプの質問に高い精度で回答します(データの品質に依存します)。

線形回帰の場合、関係するアナログはロジスティック回帰の線形形式になります。 (繰り返しますが、専門用語に惑わされないでください。基礎となる方法は実際には非常に直感的です。)「このメールはスパムですか?」や「明日雨が降る?」などの質問に答えることができます。最適なラインを計算しますが、そのラインの使用方法は異なります。念のため、データセットに別の数値を予測するために使用した線形回帰モデルを次に示します。

ロジスティック回帰も同様に機能しますが、データを2つのグループに分ける最適な線を見つけます。この線を使用して、線のどちら側にあるかに応じて、新しいデータポイントが1つのグループにあるか他のグループにあるかを予測できます。

スパムフィルタリングの線形ロジスティック回帰モデル。

線形回帰の場合と同様に、ロジスティック回帰を拡張して、データの形状をより柔軟に近似できる曲線状の多項式モデルを使用できます。少し手間をかけるだけで、ニューラルネットワークを使用して、数値を返す代わりに、データに関するyes / noの質問に答えることもできます。

yes / no応答を探している質問よりも複雑な質問に答えたい場合は、多項ロジスティック回帰と呼ばれる手法を使用するか、これらのケースを処理できるようにニューラルネットワークを適応させることができます。この方法で作成されたモデルは、「明日は雨、晴れ、または雪になりますか?」などの質問に答えることができます。「多項」の部分は、答えが多くの選択肢の1つになることを意味します。この例では、3つの可能な答えは雨、晴れ、または雪です。

この機械学習シリーズのパート2が利用可能になりました。次の場所にあります。

この記事とその形式が気に入ったら、私のシリーズをご覧ください…