ITいろいろ

プログラミングやクラウド、データ解析など、ITにかかわることをいろいろと書いています。

データ操作

2つのデータフレームを1つに結合(行、列の追加)

前回はPandasのconcatを使って行や列にデータフレイムを追加する方法を紹介しました。 その中のオプションjoinで、内部結合と外部結合の方法を紹介しましたが、このオプションには左外部結合(または右外部結合)がありません。 ただ、少し工夫することでで…

2つのデータフレームを1つに結合(行、列の追加)

機械学習などを行うとき、複数のデータを1つにまとめたりしたい時があります。その時に便利なのがPandasのconcatです。 やりたいこと コード紹介 出力結果 少し解説 concatの引数 join について concatの引数 axis について インデクスの初期化(reset_inde…

PandasのDataFrameを1行ずつ(もしくは1列ずつ)取り出す

取得したデータを行ごとに操作したいことってありますよね。 例えば、機械学習のモデルを作った後に、テスト用のデータを行ごとに推論させて結果を保存する、というようなときに、便利な使い方を紹介します。使う関数はiterrows()を使います。 コード紹介 出…

Pandasで必要な列だけを取り出す(複数の条件)

以前のブログで列のフィルタをかける方法を紹介しました。 今回はその応用で、複数の条件でフィルタをかける方法です。 簡単にできるかと思ったら結構ハマってしまったので、、紹介します。 データはこちらを使っています。 コード紹介 出力結果 少し解説 コ…

データの傾向をつかむ(uniqueで文字列カテゴリを確認)

データを見るとき、print(df)やprint(df.head(10))などをしますが、これだとすべてのデータを見ることはできません。 とはいえ全部のデータを見るのは至難の業なので、データ解析にはざっくりと傾向をつかむことが大事です。 今回は文字列データの傾向をつか…

Pandasで必要な列だけを取り出す

以前の投稿でフィルタ操作(つまり行の絞り込み)を紹介しましたが、今回は列の操作について紹介します。 データは前回同様、総務省統計局のデータを拝借します。 コード紹介 出力結果 少し解説 drop関数 loc関数 コード紹介 # インポート import pandas as …

astypeで数値型を文字列型に変換

前回紹介したstr関数(contains startswith endwith matchなど)は、文字列型にしか使えません。 Pandasでread_excelやread_csvなどをすると自動的に型を割り当ててくれるので、便利ではあるのですが数値型にも上記の関数を使い時もあります。 その方法をお…

Pandasでフィルタ操作(条件によるデータの絞り込み)

Excelでいうフィルタ機能をPythonで実現していきます。 データ操作は、いつも通りPandasで行います。 コード紹介 出力結果 少し解説 文字列の条件 条件の追加 コード紹介 # インポート import pandas as pd # 列の最大表示数を7に設定 pd.set_option('displa…

set_optionでPandasデータの出力結果を省略させない

Pandasはデータ成型に非常に便利ですが、データを表示する時に良きに計らい勝手に省略してくれます。 ざっくり見るのにはよいのですが、やはりExcelのようにデータを全部見たいときありますよね。 困りごと 解決策(コード紹介) 出力結果 少し解説 困りごと…

Pandasを使ってExcelデータを取り込み&データベース化

データ分析をする時にもPythonは便利です。 Excelでできるようにフィルタ、ソートなどの整形、グラフ化だけでなく、機械学習などの応用もできますし、Excelで取り扱えない100万行以上のビッグデータの解析にも活用できます。 使用するデータ ソースコード紹…