Python
の pip
を利用したデータ分析ライブラリの pandas
のインストール方法を説明します。
pandas とは
pandas - Python Data Analysis Library
データ解析を支援する機能を提供するライブラリです。特に、数表および時系列データを操作するためのデータ構造と演算を機能として備えています。
インストールした環境
インストール時の環境は下記の通りです。
- macOS : Catalina 10.15.4
- Python : 3.6.1
pandas ライブラリインストール
pandas
ライブラリをインストールします。
$ pip install pandas
インストールされているか確認します。
$ pip list
...
pandas 1.0.3
...
こんな感じで pandas
ライブラリが確認できればインストール成功です。
実装サンプル
DataFrame を作成する
以下のように実装することでデータフレームを作成できます。
import pandas as pd
df = pd.DataFrame({
"Name": ["Braund, Mr. Owen Harris",
"Allen, Mr. William Henry",
"Bonnell, Miss. Elizabeth"],
"Age": [22, 35, 58],
"Sex": ["male", "male", "female"]})
print(df)
Name Age Sex
0 Braund, Mr. Owen Harris 22 male
1 Allen, Mr. William Henry 35 male
2 Bonnell, Miss. Elizabeth 58 female
特定の列のみ取り出す
先ほどの DataFrame
から Age
の列のみ取り出します。
import pandas as pd
df = pd.DataFrame({
"Name": ["Braund, Mr. Owen Harris",
"Allen, Mr. William Henry",
"Bonnell, Miss. Elizabeth"],
"Age": [22, 35, 58],
"Sex": ["male", "male", "female"]})
print(df['Age'])
0 22
1 35
2 58
Name: Age, dtype: int64
最大値を求める
Age
の最大値を取得します。
print(df['Age'].max())
58
最小値を求める
Age
の最小値を取得します。
print(df['Age'].min())
22
平均値を求める
Age
の平均値を取得します。
print(df['Age'].mean())
38.333333333333336
最後に
最近データサイエンスの分野が盛り上がっていますので、乗り遅れないように最低限の知識は身につけておきたいですね。
コメント