データの傾向をつかむ(uniqueで文字列カテゴリを確認)
データを見るとき、print(df)
やprint(df.head(10))
などをしますが、これだとすべてのデータを見ることはできません。
とはいえ全部のデータを見るのは至難の業なので、データ解析にはざっくりと傾向をつかむことが大事です。
今回は文字列データの傾向をつかむことを考えます。
データはこちらを使っています。
コード紹介
# インポート import pandas as pd # ファイルの取り込み df = pd.read_excel("05k2-3.xlsx", skiprows=3, skipfooter=3) # 人口区分の中にあるデータを確認(重複削除) df['人口区分'].unique()
出力結果
少し解説
Pandasのunique()
関数を使うことで、重複を削除した状態で表示することができます。
これを使えば、「総人口と日本人人口の2つがデータの中にあるのか。じゃあ今回は総人口のデータを使おう」と考えれば、そのデータだけを取り出すdf2 = df[(df['人口区分'] == '総人口')]
という次の解析のアクションにつなげられるわけです。