pandasのpivot_tableを用いた高速データ処理

2018-11-17(Sat) - Posted by 金子 in 技術ブログ

Contents

概要

pandasのpivot_tableは強力な機能で、カテゴリごとの集計や計算を高速に行うことができます。

pivot_tableを使った計算で個人的によく使う処理をまとめたものをkaggle のkernelで公開しました。

このkernelでは簡単なダミーデータでpivot_tableに対する計算の仕方をまとめた後、実例としてPLAsTiCC コンペのStarter Kitにあった特徴量の計算をpandasのpivot_tableを用いて高速化しました。

上記のkernelはEDA中に実際に僕が書いたコードに少し修正を加えたものですが、

愚直なコード(1時間以上) → groupbyでの処理(2分半) → pivot_table(4秒)

という感じで早くなりました。

2025
8/8	[Blog]	CodeQUEEN 2025に参加しました！
2024
10/16	[News]	富本がICPC 2024 World Finalsへ出場
8/16	[Blog]	CodeQUEEN2024
3/4	[Blog]	single cell解析における遺伝子発現量の可視化
2023
10/31	[News]	富本が全国6位：日本最強プログラマー学生選手権決勝
10/27	[News]	非公認団体に復帰のお知らせ
10/23	[Blog]	5年次研究留学 @ ハーバード大学
8/16	[Blog]	MatterGPT: Mattermostで動作するChatGPT連携チャットボット