AIと機械学習の6つの領域を注意深く監視する

AIのニュースと分析については、こちらのニュースレターにサインアップしてください。

人工知能(AI)として適格なものの一般的に受け入れられている定義を抽出することは、最近の議論の復活トピックになっています。 AIを「コグニティブコンピューティング」または「マシンインテリジェンス」とブランド変更したものもあれば、AIを誤って「機械学習」と交換するものもあります。これは、AIが1つのテクノロジーではないためです。実際には、ロボット工学から機械学習に至るまで、多くの分野で構成される幅広い分野です。私たちの多くは、AIの究極の目標は、人間の知能の範囲内にあるタスクと認知機能を実行できるマシンを構築することです。そこにたどり着くためには、マシンはそれぞれの機能をエンドツーエンドで明示的にプログラムするのではなく、これらの機能を自動的に学習できる必要があります。

自動運転車から音声認識と合成に至るまで、AIの分野が過去10年間でどれだけ進歩したかは驚くべきことです。このような背景に対して、AIは、AIをさらに20年先のテクノロジーではなく、今日の生活に影響を与えるテクノロジーと見なすようになった企業や家庭で話題になっています。実際、人気のある報道機関は、ほぼ毎日のAIとテクノロジーの巨人について1つずつ、重要な長期AI戦略を明確に述べています。いくつかの投資家や現職者は、この新しい世界で価値を獲得する方法を理解しようと熱望していますが、大多数はまだこれが何を意味するかを理解するために頭を掻いています。その間、政府は社会における自動化の影響に取り組んでいます(オバマの別れの挨拶を参照)。

AIが経済全体に影響を与えることを考えると、これらの会話のアクターは、AIシステムの構築または使用に関する意図、理解のレベル、および経験の程度の全体的な分布を表しています。そのため、質問、結論、推奨事項を含むAIに関する議論は、推測ではなくデータと現実に基づいていることが重要です。公開された研究や技術プレスの発表、投機的な解説、思考実験の結果の意味合いを乱暴に推定するのは、あまりにも簡単です(時には刺激的です!)。

ここでは、デジタル製品とサービスの将来に影響を与える能力において特に注目に値するAIの6つの分野を紹介します。それらが何であるか、なぜ重要であるか、今日どのように使用されているかを説明し、これらの技術に取り組んでいる企業や研究者のリスト(決して網羅的ではない)を含めます。

hereここでサインアップして、受信トレイに直接届くようにします。

1.強化学習(RL)

RLは、人間が新しいタスクを学習する方法に触発された試行錯誤による学習のパラダイムです。典型的なRL設定では、エージェントは、デジタル環境で現在の状態を観察し、設定された長期的な報酬の発生を最大化するアクションを実行するタスクを担当します。エージェントは、各アクションの結果として環境からフィードバックを受け取り、アクションがその進行を促進したか妨げたのかを認識します。したがって、RLエージェントは、環境の調査とバランスを取り、目的の目標を達成するために見つけた最良の戦略を活用して、報酬を獲得する最適な戦略を見つけなければなりません。このアプローチは、Google DeepMindのAtariゲームとGoの研究で人気がありました。現実の世界で動作するRLの例は、Googleデータセンターを冷却するためのエネルギー効率を最適化するタスクです。ここで、RLシステムは冷却コストを40%削減しました。シミュレーション可能な環境(ビデオゲームなど)でRLエージェントを使用することの重要なネイティブの利点は、トレーニングデータを人里で非常に低コストで生成できることです。これは、管理されたディープラーニングタスクとはまったく対照的で、多くの場合、高価で実世界からの調達が困難なトレーニングデータが必要です。

  • アプリケーション:複数のエージェントが共有モデルを使用して環境のインスタンスを学習したり、同じ環境で相互にやり取りして学習したり、自動運転のために迷路や街路などの3D環境をナビゲートしたり、観察された行動を再現した逆強化学習タスクの目標を学習することにより(例:ノンプレイヤービデオゲームキャラクターに人間のような振る舞いをさせる、または与えることを学習する)。
  • 主な研究者:ピーターアブビール(OpenAI)、デビッドシルバー、ナンドデフレイタス、ライアハッセル、マルクベレマーレ(Google DeepMind)、カールラスムッセン(ケンブリッジ)、リッチサットン(アルバータ)、ジョンシャウテイラー(UCL)など。
  • 企業:Google DeepMind、Prowler.io、Osaro、MicroPSI、Maluuba / Microsoft、NVIDIA、Mobileye、OpenAI。

2.生成モデル

分類または回帰タスクに使用される判別モデルとは対照的に、生成モデルはトレーニング例の確率分布を学習します。この高次元の分布からサンプリングすることにより、生成モデルはトレーニングデータに似た新しい例を出力します。これは、たとえば、顔の実際の画像でトレーニングされた生成モデルが、類似した顔の新しい合成画像を出力できることを意味します。これらのモデルの機能の詳細については、Ian Goodfellowの素晴らしいNIPS 2016チュートリアルの記事をご覧ください。彼が導入したアーキテクチャである生成的敵対ネットワーク(GAN)は、教師なし学習への道を提供するため、現在、研究の世界で特に注目されています。 GANには、2つのニューラルネットワークがあります:ランダムノイズを入力として受け取り、コンテンツ(画像など)の合成を担当するジェネレーターと、実際の画像がどのように見えるかを学習し、画像が作成されたかどうかを特定する弁別器発電機による本物または偽物です。敵対者訓練は、発生器がノイズから画像を作成する方法を繰り返し学習する必要があるゲームと考えることができます。これにより、識別器は生成された画像と実際の画像を区別できなくなります。このフレームワークは、多くのデータモダリティとタスクに拡張されています。

  • アプリケーション:時系列の可能な未来をシミュレートします(強化学習のタスクを計画するなど)。画像の超解像; 2D画像から3D構造を復元する。小さなラベル付きデータセットからの一般化。 1つの入力が複数の正しい出力を生成できるタスク(vide0の次のフレームの予測、会話型インターフェイス(ボットなど)での自然言語の作成、暗号化、すべてのラベルが利用できない場合の半教師付き学習、芸術的スタイルの転送、音楽の合成、音声、画像の描画。
  • 企業:Twitter Cortex、Adobe、Apple、Prisma、Jukedeck *、Creative.ai、Gluru *、Mapillary *、Unbabel。
  • 主な研究者:イアン・グッドフェロー(OpenAI)、ヤン・レクン、スミス・チンタラ(Facebook AI Research)、シャキール・モハメド、アーロン・ファン・デン・オード(Google DeepMind)、アリョーシャ・エフロス(バークレー)など。

3.メモリを備えたネットワーク

AIシステムが私たちと同じように多様な実世界の環境で一般化するには、新しいタスクを継続的に学習し、それらすべてを将来にわたって実行する方法を覚えておく必要があります。ただし、従来のニューラルネットワークは通常、忘れずにこのような順次タスク学習を行うことができません。この欠点は、壊滅的な忘却と呼ばれます。ネットワークがタスクBを解決するためにその後トレーニングされると、タスクAを解決するために重要なネットワークの重みが変更されるために発生します。

ただし、さまざまな程度のメモリをニューラルネットワークに付与できる強力なアーキテクチャがいくつかあります。これらには、時系列の処理と予測が可能な長期短期メモリネットワーク(リカレントニューラルネットワークバリアント)、ニューラルネットワークとメモリシステムを組み合わせて独自に複雑なデータ構造から学習およびナビゲートするDeepMindの微分可能なニューラルコンピュータ、以前に見たタスクの重要度に応じて特定の重みで学習を遅くする弾性重み統合アルゴリズム、およびタスク固有のモデル間の横方向の接続を学習して新しいタスクの以前に学習したネットワークから有用な特徴を抽出するプログレッシブニューラルネットワーク。

  • アプリケーション:新しい環境に一般化できる学習エージェント。ロボットアーム制御タスク;自動運転車;時系列予測(例:金融市場、ビデオ、IoT);自然言語の理解と次の単語の予測。
  • 企業:Google DeepMind、NNaisense(?)、SwiftKey / Microsoft Research、Facebook AI Research。
  • 主任研究員:アレックス・グレイブス、ライア・ハッセル、コライ・カヴクオグル(Google DeepMind)、ユルゲン・シュミットフーバー(IDSIA)、ジェフリー・ヒントン(Google Brain /トロント)、ジェームズ・ウェストン、スミット・チョプラ、アントワーヌ・ボーデス(FAIR)。

4.より少ないデータから学習し、より小さなモデルを構築する

ディープラーニングモデルは、最先端のパフォーマンスを達成するために膨大な量のトレーニングデータを必要とする点で注目に値します。たとえば、チームが画像認識モデルに挑戦するImageNet大規模視覚認識チャレンジには、1000個のオブジェクトカテゴリで手作業でラベル付けされた120万個のトレーニング画像が含まれています。大規模なトレーニングデータがなければ、ディープラーニングモデルは最適な設定に収束せず、音声認識や機械翻訳などの複雑なタスクではうまく機能しません。このデータ要件は、単一のニューラルネットワークを使用してエンドツーエンドで問題を解決する場合にのみ増加します。つまり、入力としてスピーチの生のオーディオ録音を取り、スピーチのテキスト転写を出力します。これは、それぞれが中間表現を提供する複数のネットワークを使用するのと対照的です(例:生の音声音声入力→音素→単語→テキストトランスクリプト出力、またはステアリングコマンドに直接マッピングされたカメラからの生のピクセル)。トレーニングデータが特に困難で、コストがかかり、機密性が高く、調達に時間がかかるタスクをAIシステムで解決したい場合は、少ない例から最適なソリューションを学習できるモデルを開発することが重要です(つまり、単発またはゼロショット学習)。小さいデータセットでトレーニングを行う場合の課題には、過剰適合、外れ値の処理の難しさ、トレーニングとテスト間のデータ分布の違いが含まれます。別のアプローチは、集合学習と呼ばれるプロセスを使用して、以前のタスクから取得した機械学習モデルに知識を転送することにより、新しいタスクの学習を改善することです。

関連する問題は、同じ数または大幅に少ないパラメーターを使用して、最新のパフォーマンスを備えた小規模な深層学習アーキテクチャを構築することです。データをサーバー間で通信する必要があるため、分散トレーニングがより効率的になり、クラウドからエッジデバイスに新しいモデルをエクスポートするための帯域幅が少なくなり、メモリが限られているハードウェアへの展開の実行可能性が向上します。

  • アプリケーション:もともとラベル付きの大きなトレーニングデータでトレーニングされたディープネットワークのパフォーマンスを模倣することを学習して、浅いネットワークをトレーニングします。パラメーターは少ないが、深いモデルと同等のパフォーマンスを備えたアーキテクチャー(例:SqueezeNet);機械翻訳。
  • 企業:Geometric Intelligence / Uber、DeepScale.ai、Microsoft Research、Curious AI Company、Google、Bloomsbury AI。
  • 主な研究者:Zoubin Ghahramani(ケンブリッジ)、Yoshhua Bengio(モントリオール)、Josh Tenenbaum(MIT)、Brendan Lake(NYU)、Oriol Vinyals(Google DeepMind)、Sebastian Riedel(UCL)。

5.トレーニングと推論のためのハードウェア

AIの進歩を促進する主な要因は、大規模なニューラルネットワークモデルをトレーニングするためのグラフィックスプロセッシングユニット(GPU)の再利用です。順次方式で計算する中央処理装置(CPU)とは異なり、GPUは複数のタスクを同時に処理できる超並列アーキテクチャを提供します。ニューラルネットワークは膨大な量(多くの場合高次元データ)を処理する必要があるため、GPUでのトレーニングはCPUを使用するよりもはるかに高速です。 2012年にAlexNetが発表されて以来、GPUはGPUに実装された最初のニューラルネットワークです。 NVIDIAは、Intel、Qualcomm、AMD、さらに最近のGoogleに先立ち、2017年まで引き続き充電をリードしています。

ただし、GPUはトレーニングや推論のために特別に設計されたものではありません。ビデオゲームのグラフィックスをレンダリングするために作成されました。 GPUは、必ずしも必要ではない高い計算精度を備えており、メモリ帯域幅とデータスループットの問題を抱えています。これにより、Googleなどの大企業内の新しい種類のスタートアップやプロジェクトが、高次元の機械学習アプリケーション専用のシリコンを設計および製造するための場が開かれました。新しいチップ設計によって約束される改善には、より大きなメモリ帯域幅、ベクトル(GPU)またはスカラー(CPU)の代わりにグラフでの計算、より高い計算密度、ワットあたりの効率とパフォーマンスが含まれます。 AIシステムが所有者とユーザーに提供する明確な加速効果により、これはエキサイティングです:より高速で効率的なモデルトレーニング→ユーザーエクスペリエンスの向上→ユーザーの製品への関与が増える→より大きなデータセットの作成→最適化によるモデルパフォーマンスの向上したがって、より速くトレーニングし、計算上およびエネルギー効率の高いAIモデルを展開できる人は、大きな利点があります。

  • アプリケーション:モデルの高速トレーニング(特にグラフ上);予測を行う際のエネルギーとデータの効率。エッジでのAIシステムの実行(IoTデバイス);常にリスニングするIoTデバイス。サービスとしてのクラウドインフラストラクチャ。自動運転車、ドローン、ロボット工学。
  • 企業:Graphcore、Cerebras、Isocline Engineering、Google(TPU)、NVIDIA(DGX-1)、Nervana Systems(Intel)、Movidius(Intel)、Scortex
  • 主任研究者:?

6.シミュレーション環境

前述のように、AIシステムのトレーニングデータを生成することはしばしば困難です。さらに、AIは、現実の世界で私たちに役立つためには、多くの状況に一般化する必要があります。そのため、現実世界の物理と挙動をシミュレートするデジタル環境を開発すると、AIの一般的な知能を測定およびトレーニングするためのテストベッドが提供されます。これらの環境は生のピクセルをAIに提示し、AIは設定された(または学習された)目標を解決するためにアクションを実行します。これらのシミュレーション環境でのトレーニングは、AIシステムがどのように学習するか、どのように改善するかを理解するのに役立ちますが、実際のアプリケーションに潜在的に移行できるモデルも提供します。

  • アプリケーション:運転の学習。製造;工業デザイン;ゲーム開発;スマートシティ。
  • 企業:Improbable、Unity 3D、Microsoft(Minecraft)、Google DeepMind / Blizzard、OpenAI、Comma.ai、Unreal Engine、Amazon Lumberyard
  • 研究者:アンドレアヴェダルディ(オックスフォード)

AIのニュースと技術の世界、研究室、民間/公開企業市場からの分析をカバーする私のニュースレターにサインアップしてください。

3月3日に開催される次回のLondon.AIミートアップでこれらのトピックについてお聞きください。この作品を読んでくれたAlexandre Flamantに感謝します。

あなたの考えを聞いてみたい*。以下にコメントするか、Twitter(@nathanbenaich)でpingしてください。