【Python】データ分析でよく使うライブラリ

Pythonを利用してのデータ分析でよく使うライブラリについて備忘録としてまとめています。
随時更新

pandas

Excelのようにテーブルデータを読み込んでデータ処理をすることができるライブラリ。
その時に読み込んだデータは、データフレームと呼ばれる型で格納される。

import pandas as pd

numpy

三角関数や対数関数、行列などの数学的な計算を行えるライブラリ。

import numpy as np

matplotlib

グラフの可視化に利用するライブラリ。

import matplotlib.pyplot as plt

seaborn

グラフの可視化に利用するライブラリ。

import seaborn as sns

sklearn.model_selection(train_test_split関数)

与えられたデータ全てを学習用としてモデルに使ってしまうと、一度学習したそのデータに対しては精度の高い評価を行うが、学習に使っていない新しいデータに対しては精度が上がりにくくなる。
そこで、学習に使うデータ以外に、擬似的な新しいデータとして「評価用データ」を取り分けておき、それをモデルの精度評価に使用する。その際に学習用データと評価用データの分割をするライブラリ。

from sklearn.model_selection import train_test_split

# X:説明変数のデータフレーム、y:目的変数のデータフレームとする。
# オプションtest_sizeは、分割比率（評価用データの割合）を指定できる。
# ここでは評価用データとして、全体の30%を取り分けるために、test_size=0.3とする。
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

sklearn.linear_model(LogisticRegression)

2値分類（0か1かの予測）でよく使用される、ロジスティック回帰モデル。
0と1のどちらに分類されるかを確率的に予測する手法。

from sklearn.linear_model import LogisticRegression

# モデルの初期化
モデル名 = LogisticRegression()

# モデルに学習させる
モデル名.fit(説明変数, 目的変数)

# 予測結果を取得するには、predict関数を使い、引数に評価用の説明変数データを与えて計算させる。
# 予測結果をy_predに代入する場合

y_pred = モデル名.predict(評価用の説明変数データ)

月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

nobulog.work

【Python】データ分析でよく使うライブラリ

pandas

numpy

matplotlib

seaborn

sklearn.model_selection(train_test_split関数)

sklearn.linear_model(LogisticRegression)

コメントするコメントをキャンセル

【Python】データ分析でよく使うライブラリ

pandas

numpy

matplotlib

seaborn

sklearn.model_selection(train_test_split関数)

sklearn.linear_model(LogisticRegression)

コメントする コメントをキャンセル

コメントするコメントをキャンセル