Kaggle勉強会 2019/05/24
はじめに
目的
- kaggleコンペに参加するための基礎的なノウハウの獲得する
- 今日知った内容を誰かにレクチャーできるようになる
今日の流れ
基本的に以下の記事に従って進めていきます。 7. まで進める予定です。
Kaggleに登録したら次にやること ~ これだけやれば十分闘える!Titanicの先へ行く入門 10 Kernel ~ - Qiita
0. Kaggleの概要
[ ] ユーザ登録(まだの方は https://www.kaggle.com から)
[ ] Overview タブ
- [ ] Data タブ
- [ ] Kernels タブ
- [ ] Discussion タブ
- [ ] Leaderboard タブ
- [ ] Rules タブ
- [ ] Team タブ
1. まずはsubmit! 順位表に載ってみよう
- [ ] kernel の使い方
- [ ] submit の仕方
2. 全体像を把握! submitまでの処理の流れを見てみよう
- パッケージの読み込み
- [ ] numpy, pandas
- データの読み込み、データを知る
- [ ] Data タブの確認
- [ ] Data の読み込み
- [ ] 形式の確認
- [ ] 欠損値の確認
- [ ] EDA
- 特徴量エンジニアリング
- [ ] X_train, y_train, X_test, y_test の作成
- 機械学習アルゴリズムの学習・予測
- [ ] scikit-learn のモデルの使い方 Scikit-learnのモデルをまとめてみた - のんびりしているエンジニアの日記
- submit(提出)
3. ここで差がつく! 仮説に基づいて新しい特徴量を作ってみよう
- [ ] 再現性について
- [ ] 仮説と可視化から新しい特徴量を作る Kaggleのタイタニックを例に - u++の備忘録
演習
- 新しい特徴量を作ってみよう
実装例: https://www.kaggle.com/gky360/upura-kaggle-tutorial-03
4. 勾配ブースティングが最強?! いろいろな機械学習アルゴリズムを使ってみよう
- [ ] 公式ドキュメント
- [ ] LightGBM 徹底入門
演習
- LightGBM を使ってみよう
実装例: https://www.kaggle.com/gky360/upura-kaggle-tutorial-04
5. 機械学習アルゴリズムのお気持ち?! ハイパーパラメータを調整してみよう
6. submitのその前に! 「Cross Validation」の大切さを知ろう
演習
- RandomizedSearchCV を使ってみよう
実装例: https://www.kaggle.com/gky360/upura-kaggle-tutorial-05-06
7. 三人寄れば文殊の知恵! アンサンブルを体験しよう
演習
- 他人もしくは自分の submission csv ファイルをダウンロードして、アンサンブルしてみよう
実装例: https://www.kaggle.com/gky360/upura-kaggle-tutorial-07
これからどうするか?
初心者にオススメの戦い方
- ベースラインとなるKernelを探す
- 本記事の内容を参考に、ベースラインを改善する