データサイエンティストとして始める前に知っておくべき12のこと

私はわずか3年以上データサイエンティストでした。私は学生からこの分野についてのアドバイスを求められるので、ここに私の考えのいくつかを示します。最初に、この分野に参入したときに知りたいと思ういくつかのことをリストし、次に、卒業後にデータサイエンティストになりたい学生に対する私の標準的なアドバイスをリストします。

データサイエンスについて知りたいこと

心配するツールが非常に多いため、実際に使用するツールはほとんどありません

「データサイエンス」はあいまいな用語なので、それに応じて扱います

データサイエンスは、ほぼすべての定量的作業をカバーできます。異なる企業、または同じ企業内の2人のデータサイエンティストは、まったく異なるタイプの作業を行うことができます。この分野は徐々に、データエンジニア、データアナリスト、機械学習エンジニアなど、より具体的な役職に分割されています。この専門化のプロセスは、将来的に確実に加速します。したがって、データサイエンスについて話したり、仕事に応募したりするときは、その状況に関連するデータサイエンスの具体的な定義を理解し、それが自分のものと一致するようにしてください。具体的には、特定のデータサイエンスの役割で成果物がどのようなものになるかを調べることが役立ちます。本番システムに存在するコードを記述する必要がありますか?データパイプラインを作成する必要がありますか?オフラインデータの分析を作成しますか?作成する場合、どのような分析を行いますか?職務内容は実際の職務内容を読むよりもしばしばよくなります。職務内容は、職務の内容を実際に詳述するのではなく、幅広い候補者を引き付けるように書かれている傾向があるためです。

偽者症候群は仕事の正常な部分です

すべてのデータサイエンティストは偽者症候群を経験します。私は仕事の重要な部分がそれをナビゲートしていることがわかりました。常にあなたが知らないことがあるでしょう。上記のように、フィールドの定義が不十分であるため、「データサイエンス」の定義に当てはまると思われる非常に多くのトピックがあります。ブログやQuoraを読むと、世界に通用する必要があるように感じます。すべてのスキルで、データサイエンティストになります。スタンフォード博士の統計学者、Googleのキャリバーエンジニア、マッキンゼー級のビジネスエキスパート、すべてが1人に包まれています。現実には、すべてに完璧な人はいません。どういうわけか魔法のようにすべてのスキルに完璧であったとしても、各プロジェクトでそれらのスキルのサブセットのみを使用し、使用していないスキルの練習を失うことになります。優れたデータサイエンティストになるために必要なことは、有用なデータを使用する方法を見つけることだけです。それを行うにはさまざまな方法があります。時々偽者症候群を感じても大丈夫です。それが正常であることを知っているだけで、あなたを失望させないでください。代わりに、エキサイティングな成長の機会として学ぶべき新しい何かがある状況を受け入れ、次にあなたが何かを知らない他の人に出会ったとき、その気持ちを覚えておいてください。

すべてのツールを知る必要はありません

Hadoop、Spark、Yarn、Julia、Kafka、Airflow、Scalding、Redshift、Hive、TensorFlow、Kubernetes…データサイエンスコーディング言語、フレームワーク、およびツールは一見無数にあります。以前にデータサイエンスの仕事に就いたことがない場合、本当のデータサイエンティストになるためには、それらすべてを知っている必要があるように感じます。私が会話で知らないツールについて誰かが言及するのを聞くたびに、私は静かに内部を驚かし、精神的なメモを作成して、私が過激にできるトピックに関するCourseraクラスを見つけましたstat幸いなことに、99%のデータサイエンスツールは無視しても問題ありません。最終的に、あなたの会社は独自のツールのセットを持つことになります。会社の誰もがこれらのツールの使用に長けており、他のほとんどのツールについて完全に無知です。さらに、以前に特定のツールセットを使用したことがある場合、良い会社は気にしません。あなたが本当に専門的な役割を果たさない限り、彼らはあなたが仕事で彼らのスタックを学ぶことができると期待するでしょう。面接に合格するには十分な知識が必要です。あなたのために働くツールの小さなセットを選んでください。それらに慣れて、仕事に就くまであまり分岐することを心配しないでください。

ただし、基本的なツールをよく学ぶ

すべてのツールを知る必要はありませんが、日常的に使用する基本的なツールについて深く理解する必要があります。最適化されたクエリの作成方法など、会社が使用するSQLダイアレクトの退屈な部分を学習したことを後悔することはありません。 Rを使用する場合、ggplot2とdplyrの詳細を学んでください。 Pythonを使用している場合は、パンダ、numpy、scipyを本当に理解してみてください。私は数ヶ月間gitを知っているふりをしていましたが、常にgit-knotsに縛られていました。最後に、私は故障し、ツールに関する素晴らしいチュートリアルを読みました。それから、git-invincibleを感じました。定期的に何かを使用していることに気付いたら、そのマニュアルを読んでください。

あなたは方法だけでなく、ドメインの専門家です

データサイエンスは、リサーチサイエンスの役割とビジネスアナリストの役割の間の妥協案として生まれました。前者は強力な方法を使用しましたが、ビジネスの意思決定に間接的にしか影響しませんでしたが、後者はビジネスの所有者に直接影響しましたが、そのための限られたツールを使用しました。データサイエンティストは、両方の側面を組み合わせて、ドメインに関する深い知識と適切な統計ツールおよびエンジニアリングツールを組み合わせて、より良い意思決定または有用なデータ製品を作成するときに最も大きな影響を与えます。

私の経験では、ほとんどのデータサイエンティストは研究科学者の方向に偏りすぎており、ビジネスアナリストの道に向いていません。彼らは派手なテクニックを使うのが大好きですが、彼らは自分たちのドメインについて学ぶことに投資していません。彼らは機械学習会議に参加しますが、マーケティングやリスクなどに関する会議に参加することはめったにありません。多くのデータサイエンティストは、彼らがドメインを持っていることすら認識していません。何が機能し、ドメイン知識がないかについて蓄積された知識を持つチームは、ビジネスパートナーから、または他の会社の同様のチームと話をすることによってそれについて学ぶことができます。ドメインを知ることは戦いの半分であるため、「ハードスキル」と同じように、そこで時間を投資してください。

最も重要なスキルは批判的思考です

知識の仕事の大部分は、何が重要で何が重要でないかを判断することです。完璧な分析を行うことはできますが、間違った問題を解決していることが判明した場合、または洞察が実用的でない場合、それは重要ではありません。あなたの仕事のより広い文脈について考えることに積極的に時間を費やす価値があります。チームで最も重要な課題は何ですか?その理由は何ですか?あなたの現在のロードマップはあなたのチームを助けるための最良の方法ですか、それともあなたの計画を変えるべきですか?これらの質問に対する答えは時間とともに変化する可能性があるため、定期的にチェックインすることが重要です。多くのデータサイエンティストが、単に慣性のために長い道のりを進んでいるのを見てきました。

データサイエンティストになるために学生としてすべきこと

技術的なクラスだけでなく、関連するクラスを受講する

もちろん、統計とコンピューターサイエンスのクラスは仕事に役立ちます。ただし、多くのクラスが役立ちます。哲学、歴史、英語など、批判的に考え、書かれた議論を実践できるようにするものは、データサイエンスで多くのことを行うので便利です。経済学や定量的心理学などの社会科学の主題は、因果推論を行う経験を得るのに最適です。よく考えるクラスは、説得力のあるスピーキングクラスで、仕事で定期的に呼び出します。技術的なクラスの公平なシェアを取るが、広く学び、あなたの興味に従ってください。私の戦略は、常に偉大な教授と一緒に素晴らしいシラバスを使うことでした。データサイエンスの有無にかかわらず、大学生にそれをお勧めします。

コミュニケーションの練習—文章、視覚、および口頭

コミュニケーションスキルは非常に重要であり、データサイエンスでは慢性的に過小評価されています。分析に基づいて決定を下したり、製品の構築を支援したりするために他の人を説得する必要があるため、あなたの影響はコミュニケーションスキルと同じくらい良いものです。したがって、非常に専門的なデータ科学者の多くのキャリアは、明確に書くことも話すこともできないため、暗黙的に制限されています。練習-書面、視覚、口頭の3つすべての形式で-が実際の違いを生みます。特にライティングが苦手だと感じたり、英語が第一言語ではない場合は、たくさんの文章を書くクラスを受講してください。多くのキャンパスには、フィードバックを得るのに役立つライティングセンターがあります。それはあなたがそれを持っている間に利用するリソースです。

実際のデータの問題に取り組む

Kaggleは、モデリングについて学ぶのに最適です。ただし、Kaggleでは、最も困難な部分がすでに行われています。そのデータで解決する問題の収集、クリーニング、および定義です。データサイエンティストとしての仕事に備える最善の方法は、実際のデータを使用して実際の質問に答えることです。理由は簡単です。実際に仕事をすることなく、実際の仕事に最も近い場所です。興味のあるものを見つけて、独自のデータを取得します。 BeautifulSoup、Scrapy、rvestなどのパッケージを使用すると、インターネットからデータをスクレイピングすることは、ほとんどの初心者が理解するよりもはるかに簡単です。インスピレーションが必要な場合、ウィキペディアとRedditは良いターゲットですが、最良の選択は、探索することに本当に興奮しているものです。次に、興味のある質問をいくつかし、それらにどれだけ答えられるかを確認します。データをクリーンアップし、グラフとモデルを作成して、結論をどこかに公開します。初めはゆっくりですが、それはあなたが学んでいるからです。可能であれば、地域の人々の実際の現実の問題を解決してみてください。たとえば、学校のスポーツチームの統計作業や学校の新聞の投票分析を行って、利害関係者管理の練習も行います。

作業を公開してフィードバックを得ることができます

何でも良くなるための唯一の方法は、フィードバックを得ることです。データ処理も例外ではありません。最近では、ノートブックをGithubや個人のWebサイトに簡単に投稿できます。友人が興味を持っているトピックについて書く場合、あなたは彼らがどのように反応するかから多くを学ぶことができます。プレゼンテーションの魅力は何でしたか?不明な点は何ですか?あなたの主な議論について彼らを説得できましたか?彼らは読書に飽きて、最後までそれをしませんでしたか?重要なのは、コードを使用可能にし、他の学生からコードレビューを取得して、お互いをより良くできるようにすることです。受講中のクラスのテクニックを使用する場合は、教授に自分がやったことを示したり、専門家からのフィードバックを得たりしながら、イニシアチブを示すこともできます。そして、誰があなたの分析の1つがインターネット上でバイラルになるなら、あなたはそれから仕事を得るかもしれません!

イベントに参加—ハッカソン、会議、ミートアップ

地理や予算が許す限り、学生の間に外部のデータサイエンスの世界と交流するようにしてください。そうすることで、現場の現実をよりよく理解し、ネットワーキングの有利なスタートを切ることができます。ほとんどの主要都市にはデータサイエンスのミートアップやハッカソンがあり、私の経験では、ほとんどの人は学生にとても親切です。通常、会議では学生のチケットが大幅に割引されます。友達と一緒に行くことも一緒に楽しい遠足をすることができます!

フィールドに入る方法に柔軟に対応する

データサイエンスは競争の激しい分野です。優れたデータサイエンスブランドを持つハイテク企業は限られています。夏のインターンシップとエントリーレベルの役割をめぐる戦いはis烈です。ただし、実際のデータサイエンスの実務経験が少しでもあれば、フィールドで2番目の仕事を得るのがはるかに簡単になります。あまり知られていない企業からでも数年の経験を積んだデータサイエンティストは、多くの場合、トップ企業に採用されるのにほとんど苦労しません。したがって、データサイエンティストになりたいが、有名企業の1つからすぐに申し出を受けられない場合は、職探しを広げることを検討してください。解決すべき興味深い問題を抱えている企業はたくさんあります。

読んでくれてありがとう!上記のフィードバックの箇条書きに従って、私はあなたの考えを聞きたいです! —下にコメントを残してください。