Kaggle勉強会 2019/05/24

はじめに

目的

  • kaggleコンペに参加するための基礎的なノウハウの獲得する
  • 今日知った内容を誰かにレクチャーできるようになる

今日の流れ

基本的に以下の記事に従って進めていきます。 7. まで進める予定です。

Kaggleに登録したら次にやること ~ これだけやれば十分闘える!Titanicの先へ行く入門 10 Kernel ~ - Qiita

0. Kaggleの概要

For MANABIYA

  • [ ] ユーザ登録(まだの方は https://www.kaggle.com から)

  • [ ] Overview タブ

  • [ ] Data タブ
  • [ ] Kernels タブ
  • [ ] Discussion タブ
  • [ ] Leaderboard タブ
  • [ ] Rules タブ
  • [ ] Team タブ

1. まずはsubmit! 順位表に載ってみよう

  • [ ] kernel の使い方
  • [ ] submit の仕方

2. 全体像を把握! submitまでの処理の流れを見てみよう

  1. パッケージの読み込み
    • [ ] numpy, pandas
  2. データの読み込み、データを知る
    • [ ] Data タブの確認
    • [ ] Data の読み込み
      • [ ] 形式の確認
      • [ ] 欠損値の確認
    • [ ] EDA
  3. 特徴量エンジニアリング
    • [ ] X_train, y_train, X_test, y_test の作成
  4. 機械学習アルゴリズムの学習・予測
  5. submit(提出)

3. ここで差がつく! 仮説に基づいて新しい特徴量を作ってみよう

演習

  • 新しい特徴量を作ってみよう

実装例: https://www.kaggle.com/gky360/upura-kaggle-tutorial-03

4. 勾配ブースティングが最強?! いろいろな機械学習アルゴリズムを使ってみよう

演習

  • LightGBM を使ってみよう

実装例: https://www.kaggle.com/gky360/upura-kaggle-tutorial-04

5. 機械学習アルゴリズムのお気持ち?! ハイパーパラメータを調整してみよう

6. submitのその前に! 「Cross Validation」の大切さを知ろう

演習

実装例: https://www.kaggle.com/gky360/upura-kaggle-tutorial-05-06

7. 三人寄れば文殊の知恵! アンサンブルを体験しよう

演習

  • 他人もしくは自分の submission csv ファイルをダウンロードして、アンサンブルしてみよう

実装例: https://www.kaggle.com/gky360/upura-kaggle-tutorial-07

これからどうするか?

初心者にオススメの戦い方

  1. ベースラインとなるKernelを探す
  2. 本記事の内容を参考に、ベースラインを改善する

Further reading