大阪大学医学部 Python会

Now is better than never.

Kaggle Tabular Playground Series - Dec 2021

2022-03-10(Thu) - Posted by 石本 in 技術ブログ    tag:Data Science Competition

Contents

    やったこと

    • baseline作成(参考記事) public score = 0.95102
      • Sequential モデルを使用
      • データフレームからあまり重要でなさそうな行や列を削除
      • Aspectはコンパスの方向のことなので0~359の範囲に入っていないものは±360して正規化
      • x_dist_hydrlgy, y_dist_hydrlgyをマンハッタン距離とユークリッド距離に変換
      • hilshadeが0~255に入っていない場合は外れ値とみなして0または255に正規化
      • RobustScalerでデータのスケール変換・移動
      • メモリ節約のためにデータフレームのデータ型を変換
      • 試運転のため、epoch数を200 -> 1に変更
    • soil_typeの合計とwilderness_areaの合計を特徴量に加えた。(参考記事
    • 進捗を見ながら学習を進めるために、tqdmを導入した。
    • epoch数を1 -> 200に変更 public score = 0.95664

    結果・感想

    結果は、273位でした。baselineに手を加えられたのは初めてだったので成長を感じることができました。とはいえ、baselineのモデルを完全に理解できたわけではなかったので有効な改善ができたかは不明です。 これからも積極的にコンペに参加していきたいです。

    参考にした本

    今回のコンペでは『kaggleで勝つデータ分析の技術』を参考にし、モデルの改善に取り組みました。特に、「特徴量の作成」の項が参考になりました。部分的にしか読めていないので、今後コンペに参加していく中で完読を目指していきます。