• SIS Lab
  • >
  • Blog
  • >
  • [デブサミ2018夏]Kaggleで描く成長戦略〜個人編・組織編〜

[デブサミ2018夏]Kaggleで描く成長戦略〜個人編・組織編〜

更新日:2019.04.27 作成日:2018.07.27

kaggleをやるとどうなるのか?

  • アルゴリズムの力を養えることができる
  • プログラムを定期的に書き続けることができる

原田さん @Seed57_cash

  • kaggler枠リーダー
  • Kaggle Master

趣味プロコン

  • Project Euler
  • AtCoder
  • 人狼知能コンテスト

Kaggleとは

  • 機械学習モデルを構築するコンペのプラットフォーム
  1. スポンサーがデータと問題を出す
  2. 参加者はデータを分析してモデルをつくり、予測結果を出す

問題例

  • ローンのデフォルトを予測
  • ユーザーが不正なアクセスをしているかどうか予測
  • 観光名所の画像を検索する
  • 掲示板への書き込みが削除対象かどうか判断
  • 商品の販売各区を予測する

Kaggleで学べること ≒ Data Scientistに必要なスキル

  • データを扱う勘
    • このデータなんかおかしいとか、わかるらしい・・・
  • データハンドリング
    • データを取り扱ううちに嫌でも身についていく
  • 上位を目指すうちに理論も身についていく
    • 数学、数学的な思考
    • 統計
    • 機械学習の理論

8 Skills You Need to Be a Data Scientist | Udacity

  • 達人になるためには必要かもしれないが、始めるだけならいらない
    • すごい人も最初からすごかったわけではない
  • kaggleにはHello world的な問題もたくさんある
    • 新しいプログラミング言語を覚えるのと同じようにトライ!

Kaggleに対する周りからの疑問

  • 何の役に立つの?
    • じゃああなたは何の役に立つんですか?
  • モデルの精度 0.0001を争っていくって不毛では?
    • 車に対するF1みたいなもの
      • 普通の車を作る上での
    • 競い合う中で安全運転もわかってくる
  • 勝つためのテクニックの移り変わりが早い
    • でも逆に「新しいテクニックを身につける」というスキルがいまのご時世どれだけ重要かを考えて欲しい
    • 5年前の手法は今では通用しない
  • サイエンス特化じゃなくて、バランス人材が大事では?
    • まず何かで一人前になるべき
    • なんでも半人前にしかできない人は、一番役に立たない
    • 仕事なのだからチーム全体としてなんとかなればいい

なぜKagglerはKaggleをやるのか?

  • モチベーションは賞金ではない
  • 面白い、自己顕示(ネトゲでランキング上位)がモチベーションになっていることが多い
  • データ分析の勉強のため
    • 普段は自社のデータしか触れないため、新しいテーマに触れることができる
    • ヘタに論文を読むよりも、コンペに真面目に参加して、上位入賞者の解法を見たほうが分かりやすい
  • 自己PRのため
    • 採用活動に利用するケースが日本でも増えてきた
    • Kaggle masterになると転職市場でも価値が出る

どんな人が強いKagglerなの?

  • 数学・物理の理論系出身
    • 数学、統計、機械学習の理論への親和性が高い
  • 機械学習関連分野(画像処理、自然言語処理)出身
  • プロコン勢
    • 新しいことを始めるスキルが高い
  • データ分析エンジニア出身
    • 仕事の幅を広げてきたケース
    • まだまだ少数

Kagglerが得意なこと

  • 精度の高いモデルを作る
  • モデルの評価・検証の仕組みの設計
  • 高速でモデル構築ができる
  • 引き出しが広い
    • Kaggleで色々試しているのため
  • データをみてあれこれ考える
  • 論文を読んでなんとなく理解する
    • 新しいことを学ぶ能力が鍛えられている

得意ではないこと

  • データ処理、蓄積の設計
  • 解決するべき問題の大枠の設計
  • 可視化、わかりやすく説明する
  • 綺麗なコードを書く
  • 論文を書かされる(読めるとかけるは違う)
  • 何年も1つの仕事をする
    • 新しいもの好きのためすぐに飽きてしまう

Kaggleをやる上での心構え

  • データの奥に何があるのか、そのデータの元に何があるのかを知ることが大事
  • よくわからないことは試してみることが大事!

Related contents