3つの機械学習通訳ツールを使用してビジネス上の意思決定を改善する

機械学習の解釈可能性は非常にホットな研究トピックであり、このテーマに関する新しい科学論文と記事は毎週公開されています。この記事では、ManoManoでの機械学習の通訳ニーズのほとんどをカバーする3つの補完ツールを紹介し、300万人のDIYおよびガーデニング製品のカタログで必要なものを毎日100万人以上見つけるのを支援しています:

  1. 機能の重要性:モデルが最も使用する機能はどれですか?
  2. 部分依存プロット:モデルは特定の変数をどのように使用しますか?
  3. 機能の貢献:モデルがなぜこの特定の予測を行ったのですか?
xkcd

なぜ機械学習モデルを解釈する必要があるのですか?

  • ビジネスを理解する:ウェブサイトのコンバージョン率を左右する要因は何ですか?配送価格がそれにどのような影響を与えますか?
  • ビジネスカウンターパートとの信頼関係の構築:なぜこの売上予測の予測がそれほど高いのですか?製品は先週157回販売され、そのカテゴリの季節性が高まっているためです。
  • 問題を解決するために関連するアクションを実行します。この顧客はなぜ解約する可能性が高いのですか?彼は先月品質の問題を抱えていたからです。
  • モデルのデバッグ/改善:この売上予測の予測がそれほど高いのはなぜですか?本番データセットの欠損値。なぜそんなに過小評価したのですか?この製品は在庫切れであり、気づかなかったため、売上は低かった。
予測力と解釈可能性のジレンマ(©ManoMano)

使用例:勾配ブースティングツリーを使用した変換率のモデル化

3つのツールを説明するために、製品のコンバージョン率のモデル化に注目します。トレーニングデータセットは次のようになります。

製品ベースの機能(価格、評価、出荷時間など)と曜日に応じて、特定の日の製品のコンバージョン率を予測しようとしています。次の分析を簡素化するために、データセットを人為的にサンプリングして、平均コンバージョン率が10%になるようにします。

ツリーを使用した非常に強力なアンサンブルモデルであるLightGBMを使用しています。このツールは、データサイエンスのコンテストで広く使用されています。

機能の重要性

機能の重要性は、モデル内の各機能の有用性を計算してすばやく視覚化するツールです。このツールは、ランダムフォレストや勾配ブースティングツリーなどのアンサンブルモデルで一般的に使用されます。決定木を使用して重要な決定を行うために機能が使用されるほど、その相対的な重要性は高くなります。機能の重要度の計算方法の詳細については、このブログ投稿を参照してください。予測モデルの特徴重要度プロットを視覚化しましょう:

この棒グラフによると、コンバージョン率を予測するための最も重要な機能は、製品価格、出荷価格、評価、および出荷時間です。それは私たちのビジネスの直感と一致しますが、それは素晴らしいことです。

欠損値の影響

別の設定を試してみましょう。データ品質の問題があり、何らかの理由で価格の90%が欠落していると想像してください。モデルを再トレーニングした後、次のようになります。

価格は重要な機能ではなく、まったく間違っていると推測できます。モデルを改善するには、データ品質の改善に時間を費やす必要があります。ところで、欠損値には情報が含まれることもあります。たとえば、平均評価が欠落しているということは、単に評価がないことと、製品が人気または新規ではないことを意味します。

相関変数の影響

3つの相関(およびノイズの多い)価格機能を追加して、何が起こるかを見てみましょう。

ここでは、機能「価格」の重要性が38%から24%に低下しました。この変数の重要性は、相関する変数に分散されていました。さらに、ノイズの多い機能を追加すると、メモリとCPUの使用量が増加し、過剰適合のリスクが増加します。したがって、このツールによる重要な機能は必要な機能ではない場合があります。

機能の重要性の長所と短所

  • (+)実装が非常に簡単で、数行のコードです
  • (+)信号に関する優れた洞察をすばやく提供
  • (+)トレーニングデータセットのデータ品質の問題を検出する効率的なツール
  • (-)特徴相関に敏感
  • (-)欠損値に敏感
  • (-)機能とターゲット関数の関係を提供しません(この例では、価格がターゲットと非常に相関していることはわかっていますが、どの方向にいるかはわかりません)

部分依存プロット

部分依存プロットは、予測されたターゲットに対するフィーチャの影響を視覚化し、他のすべてのフィーチャの値を無視するのに役立ちます。このようなツールは、ターゲットと機能の相関関係を理解するのに役立ちます。他のすべての条件は同じです。完全な数学的デモンストレーションについては、統計学習の要素のこの章を参照できます。部分依存プロットは、すべての機械学習モデルで使用できます。完全なPDPBox pythonパッケージを使用することをお勧めします。

部分的な依存関係を説明するために、ユースケースに関連する実際の例を見てみましょう。事業主は、送料がコンバージョン率に与える影響を知りたいと考えています。出荷価格は製品価格と非常に相関していることがわかっているため、製品出荷価格とその合計価格の比であるshipping_ratio機能を計算することから始めます。

shipping_ratioのビンで平均コンバージョン率を計算して、単変量解析を行います。

結果のグラフは非常に明確です。変換率はratio_shipping機能と正の相関があります。経営者と連絡を取り、コンバージョン率を高めるためにすべての製品の出荷価格を引き上げるようアドバイスしますか?もちろん、相関は因果関係を意味しないため、そうではありません。同じ変数で部分依存分析を行い、違いを観察しましょう。

予想どおり、予測モデルで使用される他のすべての機能を考慮すると、shipping_ratio機能は予測コンバージョン率と負の相関関係にあります。実際の因果関係はまだ見られませんが、他の機能から修正された相関関係に注意してください。

部分依存プロットの長所と短所

  • (+)特徴と対象変数の関係を示します
  • (+)標準の単変量解析と比較して、ある特徴が別の特徴に及ぼす無相関の影響を確認できます
  • (-)大規模なデータセットでは時間がかかる
  • (-)2次元プロットに限定
  • (-)特徴相関に敏感

機能の貢献

機能の寄与度は、特定の予測に対する各機能の影響を計算します。各予測の詳細な理解が得られます。部分依存プロットのように、使用される機械学習モデルに関係なく、特徴の寄与を計算できます。ランダムフォレストの計算方法を知りたい場合は、このブログ投稿を参照してください。 LightGBM予測関数は、それらを直接計算するためのパラメーターを提供します。マノマノで最も人気のある製品の1つであるマキタのドリルを予測し、各機能の貢献度を観察してみましょう。

この製品には多くの良い評価があります(平均評価4.69 / 5の644の評価)。したがって、予測されるコンバージョン率に対する格付け数の寄与は+ 12%です。ただし、価格(167.99€)は平均を上回っています。高価な製品は、コンバージョン率が低い傾向があります。したがって、予測されるコンバージョン率への貢献は-7.5%です。貢献の合計は、予測されたコンバージョン率に等しいことに注意してください(合計に切片を追加する必要もあります)。

別の製品に対してこのプロセスを繰り返し、違いを観察できます。

この製品の予測コンバージョン率が以前のマキタドリルのものに類似している場合でも、別の「プロファイル」があります。価格ははるかに安く(34.2€)、評価は高いですが、配送時間と価格は抑制されます8日間)。

前の2つの方法と同様に、特徴の寄与は特徴の相関に敏感です。2つの非常に相関のある特徴をモデルに与えると、予測の寄与は人為的に2で除算されます。

機能貢献の長所と短所

  • (+)特徴の寄与の合計としての予測のミクロな説明
  • (+)予測を調査して、最終的にモデルのバグやデータ品質の問題を事前に検出するのに役立ちます
  • (+)ビジネスオーナーにアルゴリズムの動作を説明することで信頼を築く
  • (+)規範的モデリングを許可(予測モデリングと比較):顧客が解約する理由を説明すると、適切なアクションを実行するのに役立ちます
  • (-)特徴相関に敏感

結論

ManoManoでの解釈のニーズのほとんどをカバーする3つのツールを紹介しました。そのまま使用する場合の警告:

  • 高度に相関した機能は、機械学習の解釈可能性にとって厄介です。モデルを解釈する前に、それらを取り除く必要があります。
  • 予測パフォーマンスが非常に低いモデル(0.51 AUCなど)を解釈しようとしても意味がありません。解釈の有用性は、モデルによってキャプチャされた予測信号に直接リンクしています。

他の解釈可能性ツール(LIME、Shapley値、ICEプロットなど)が存在することに注意してください。これらのツールの詳細と数学的詳細については、Christoph Molnar完全ガイドを参照してください。

この記事がお役に立てば幸いです。また、強力な機械学習技術を使用する際に、解釈可能性の問題がもう問題にならないことを願っています。

ジャック・ピーターズとロマン・エアーズによって書かれました。

謝辞

アレクサンドル・カゼ、ヨハン・グレーバー、クロエ・マルティノー、マリン・ド・ボーシャン、ブライス・チチ、ラファエル・シメオン、トーマス・シャエル、ルイ・ペリー、シリル・オーベルガー、マチュー・コルネック、マノマノのすべての偉大な同僚。

参加しませんか

ManoManoで新しい同僚を探しています。求人をご覧ください。