pandasでmulti-hot encodingする

Python 前処理特徴量

pivot_tableに関しては以下参照しています datascience.stackexchange.com やりたいこと以下のようにpandasでlistとして保持しているカテゴリー値を以下のようにmulti-hot encodingしたいやり方全体処理以下のように、一度listを展開し、pivot_tableで…

#Python #前処理 #特徴量 #機械学習 #pandas

2020-11-02

dictで保持している特徴量のtrain_test_split

Python 前処理特徴量

やりたいこと以下のように辞書型で保持している特徴量を {'field1': array([0, 1, 2, 3, 4, 5]), 'field2': array([5, 4, 3, 2, 1, 0]), 'label': array([1, 0, 1, 0, 0, 0])} 以下のように辞書型を保持したまま分割したい {'field1': array([4, 0, 3]), 'f…

#Python #前処理 #特徴量 #機械学習 #scikit-learn

2020-10-29

Pythonで不規則な2次元標準リストをflattenする

Python 前処理特徴量

やりたいこと [0, 0, [0, 0], 0, [0]] みたいな不規則にlistが含まれる標準リストを以下のように平坦化したい [0, 0, 0, 0, 0, 0] やり方一度全ての値をリスト化して、その上でitertools.chain.from_iterableを適用すればできた def flatten_sequences(sequ…

#Python #前処理 #特徴量 #itertools

2020-09-03

one-hot encodingされた特徴量を逆に元のカテゴリー値に戻す

Python 前処理特徴量

MovieLensのデータセットがこんな感じで処理がめんどくさかったのでメモとしてやりたいこと以下のように one-hot encoding された状態で渡されたデータセットを movie_id action horror romance sf 0 1 1 0 0 0 1 2 0 0 1 0 2 2 1 0 0 0 3 3 0 0 0 1 4 3 1…

#Python #前処理 #機械学習 #特徴量 #MovieLens

2019-12-02

時系列に考慮したシーケンシャル・カテゴリ特徴量へのログデータの省メモリな変換

前処理 Python 特徴量

はじめにこんにちは、今回は時系列情報を考慮する必要のあるログデータに対して、メモリ消費を抑えつつ前処理を行う方法について書いていきます。やりたいことこのようなユーザーごとの行動ログの入ったデータセットがあったとして、 userid itemid categ…

#機械学習 #Python #前処理 #特徴量

2019-11-20

ログデータの省メモリなmatrix変換

Python 前処理特徴量

やりたいこと以下のような、user, item などキーとして階層的に値を持つログデータがあるとして、（以下、user item はケースによって読み替えてください） >>> df = pd.DataFrame([['user1','item1',5],['user1','item2',4],['user2','item2',5],['user2'…

#Python #前処理 #機械学習 #特徴量