データ操作
前回はPandasのconcatを使って行や列にデータフレイムを追加する方法を紹介しました。 その中のオプションjoinで、内部結合と外部結合の方法を紹介しましたが、このオプションには左外部結合(または右外部結合)がありません。 ただ、少し工夫することでで…
機械学習などを行うとき、複数のデータを1つにまとめたりしたい時があります。その時に便利なのがPandasのconcatです。 やりたいこと コード紹介 出力結果 少し解説 concatの引数 join について concatの引数 axis について インデクスの初期化(reset_inde…
取得したデータを行ごとに操作したいことってありますよね。 例えば、機械学習のモデルを作った後に、テスト用のデータを行ごとに推論させて結果を保存する、というようなときに、便利な使い方を紹介します。使う関数はiterrows()を使います。 コード紹介 出…
以前のブログで列のフィルタをかける方法を紹介しました。 今回はその応用で、複数の条件でフィルタをかける方法です。 簡単にできるかと思ったら結構ハマってしまったので、、紹介します。 データはこちらを使っています。 コード紹介 出力結果 少し解説 コ…
データを見るとき、print(df)やprint(df.head(10))などをしますが、これだとすべてのデータを見ることはできません。 とはいえ全部のデータを見るのは至難の業なので、データ解析にはざっくりと傾向をつかむことが大事です。 今回は文字列データの傾向をつか…
以前の投稿でフィルタ操作(つまり行の絞り込み)を紹介しましたが、今回は列の操作について紹介します。 データは前回同様、総務省統計局のデータを拝借します。 コード紹介 出力結果 少し解説 drop関数 loc関数 コード紹介 # インポート import pandas as …
前回紹介したstr関数(contains startswith endwith matchなど)は、文字列型にしか使えません。 Pandasでread_excelやread_csvなどをすると自動的に型を割り当ててくれるので、便利ではあるのですが数値型にも上記の関数を使い時もあります。 その方法をお…
Excelでいうフィルタ機能をPythonで実現していきます。 データ操作は、いつも通りPandasで行います。 コード紹介 出力結果 少し解説 文字列の条件 条件の追加 コード紹介 # インポート import pandas as pd # 列の最大表示数を7に設定 pd.set_option('displa…
Pandasはデータ成型に非常に便利ですが、データを表示する時に良きに計らい勝手に省略してくれます。 ざっくり見るのにはよいのですが、やはりExcelのようにデータを全部見たいときありますよね。 困りごと 解決策(コード紹介) 出力結果 少し解説 困りごと…
データ分析をする時にもPythonは便利です。 Excelでできるようにフィルタ、ソートなどの整形、グラフ化だけでなく、機械学習などの応用もできますし、Excelで取り扱えない100万行以上のビッグデータの解析にも活用できます。 使用するデータ ソースコード紹…