ITいろいろ

プログラミングやクラウド、データ解析など、ITにかかわることをいろいろと書いています。

データの傾向をつかむ(uniqueで文字列カテゴリを確認)

データを見るとき、print(df)print(df.head(10))などをしますが、これだとすべてのデータを見ることはできません。

とはいえ全部のデータを見るのは至難の業なので、データ解析にはざっくりと傾向をつかむことが大事です。

今回は文字列データの傾向をつかむことを考えます。

データはこちらを使っています。

コード紹介

# インポート
import pandas as pd

# ファイルの取り込み
df = pd.read_excel("05k2-3.xlsx", skiprows=3, skipfooter=3)

# 人口区分の中にあるデータを確認(重複削除)
df['人口区分'].unique()

出力結果

少し解説

Pandasのunique()関数を使うことで、重複を削除した状態で表示することができます。

これを使えば、「総人口と日本人人口の2つがデータの中にあるのか。じゃあ今回は総人口のデータを使おう」と考えれば、そのデータだけを取り出すdf2 = df[(df['人口区分'] == '総人口')]という次の解析のアクションにつなげられるわけです。