pandasまとめ

はじめに

【仕組みを覚える】

「列」指定方法（列名、列のインデックス番号）
- ｜df['a’]｜df[['b’,’c’]]｜df.a｜
- pandas:【基本】列の指定（Select句）
「列」指定方法（列番号指定）
- ｜df[df.columns[[0,2]]]｜
- pandas:【サンプルコード】列の範囲指定
「行」指定方法（行のインデックス番号）
- ｜df[0:2]｜df[:]｜
- pandas:一番簡単な【行データ】取り出し方
条件付き行データ抽出の基本（処理が高速）
- ｜df[df.index==0]｜df[df.a==12]｜df[df['a’]==24]｜
- pandas:【行選択の基本】ブールインデックス参照

【便利な機能】

高度なデータ抽出方法
- ｜df.loc｜df.iloc｜
- pandas:【loc,iloc】高度な行と列の指定方法
条件付きで複数データ抽出
- ｜df.q.isin([12,17])｜NaNデータ：df.a.isnull()｜
- pandas:【isin,isnull】条件付き行の抽出方法
条件の否定（～以外、～でない、～を含まない）
- ｜df[df['p’] != 63]｜df[~(df['q’] == 25)]｜df[~(df['r’].isin([20,77,96]))]｜
- pandas:【~（チルダ）】否定条件での行抽出
件数集計、ソート、先頭（行頭）、末尾
- ｜value_counts｜sort_values｜head｜tail｜
- pandas:【件数集計,ソート,先頭末尾】データ抽出方法
集計（sum,max,min,mean,…）
- |aggregate（agg）|
- pandas:【集計】sum,max/min,mean
こんなことできる？（SQLのSELECT文を例にして）
- ｜GROUP BY：df.unique｜部分一致（正規表現利用）：str.contains('^a’)｜
- pandas:【SQL文で例える】データ抽出方法

行データ更新、列データ更新、セル更新、行追加
- ｜代入：対象選択=xx｜df.update｜追加：更新処理の延長｜
- pandas:データ更新【UPDATE,INSERT】方法
行データ削除
- ｜df.drop｜
- pandas:データ削除【DELETE】方法
列データ一括更新
- ｜置換文字列格納：ディクショナリ｜置換文字列作成：マージ（**記号）｜置換：lambda｜
- pandas:【サンプル】列データの一括置換

列追加、列削除、列名変更、インデックス列指定、応用：ラベルエンコーディング
- ｜df.rename(columns={'a’:’b’})｜set_index｜sklearn,LabelEncoder｜
- pandas:【列,列名,index列】定義変更
データフレームの結合（縦方向、横方向）、インデックス番号のリセット
- ｜pd.concat｜reset_index｜
- pandas:データフレームを【連結】する
マージ（共通の列を使って2つのデータフレームを結合）
- ｜pd.merge｜
- pandas:データフレームを【マージ】する方法
データフレームをクラス列で分割する
- ｜.groupby｜
- pandas:データフレームを【クラス分割】する方法