Pythonでデータ可視化:seabornの基本と使い方を解説

seabornのアイキャッチ IT

はじめに

データ分析において、データを視覚化することは重要なステップです。その中で、Pythonのデータ可視化ライブラリ「seaborn」は、美しいグラフを簡単に作成できる強力なツールとして広く使われています。本記事では、seabornの基本的な使い方と、オープンデータを用いた実践的な可視化例を紹介します。

可視化はデータ分析をする際には不可欠な技術となります。これらについて理解が難しい場合は、経験豊富な方とマンツーマンで学習していくのもオススメです。

seabornとは

seabornは、Matplotlibをベースにした高レベルのデータ可視化ライブラリです。統計的なプロットを簡単に作成することができ、以下の特徴があります。

  • 美しい可視化が簡単に可能
  • Pandasデータフレームとの連携が容易
  • 多種多様なグラフのサポート
  • 統計的な集計やヒートマップの簡単な作成

Pythonでseabornを使ってみる

seabornのインストール

seabornを使うには、以下のコマンドでインストールします。

pip install seaborn

必要ライブラリのインポート

可視化に必要なライブラリをインポートします。

import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt

サンプルデータセットのロード

seabornにはデフォルトでサンプルデータセットが含まれています。

ここでは、penguinsデータセットを使用します。このデータセットは、異なるペンギンの種や体重、体長などを記録したものです。

data = sns.load_dataset('penguins')
data.head()

Pythonを用いたseabornの可視化例

散布図 (scatterplot)

散布図は、2つの変数間の関係を視覚化するために使用されます。以下は、ペンギンのくちばしの長さ(bill_length_mm)とくちばしの高さ(bill_depth_mm)の関係を示した散布図です。

hueを使って、色分けなども簡単にできるので、種類ごとに見るなどしたい時にはかなり便利です。

plt.figure(figsize=(8, 6))
sns.scatterplot(data=data, x='bill_length_mm', y='bill_depth_mm', hue='species', style='species')
plt.title('くちばし長さと高さの関係')
plt.show()

箱ひげ図 (boxplot)

箱ひげ図は、データの分布や外れ値を視覚化するのに適しています。以下は、ペンギンの種ごとのくちばし長さを示した例です。

plt.figure(figsize=(8, 6))
sns.boxplot(data=data, x='species', y='bill_length_mm', palette='Set2')
plt.title('くちばし長さの箱ひげ図 by Species')
plt.show()

カウントプロット (countplot)

カテゴリデータの分布を視覚化するのに便利なカウントプロットです。以下は、ペンギンの種ごとのサンプル数を示した例です。

plt.figure(figsize=(8, 6))
sns.countplot(data=data, x='species', palette='pastel')
plt.title('Speciesカウント')
plt.show()

ヒストグラム (histplot)

ヒストグラムは、データの分布を視覚化する基本的な手法です。seabornではhistplotを用いて作成できます。

plt.figure(figsize=(8, 6))
sns.histplot(data=data, x='bill_length_mm', kde=True, color='blue')
plt.title('くちばし長さのヒストグラム')
plt.show()

ヒートマップ (heatmap)

ヒートマップは、データの相関を視覚化するのに適しています。以下は、数値データ間の相関行列を示した例です。

plt.figure(figsize=(8, 6))
corr = data[['bill_length_mm', 'bill_depth_mm', 'body_mass_g']].corr()
sns.heatmap(corr, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('相関ヒートマップ')
plt.show()

ペアプロット (pairplot)

ペアプロットは、データセット内のすべての数値変数間の関係を一度に視覚化するのに適しています。

sns.pairplot(data=data, hue='species', palette='husl')
plt.show()

まとめ

seabornを使うことで、Pythonで簡単に美しいデータ可視化が可能になります。本記事では、基本的な使い方と代表的なプロット方法を紹介しました。実際の分析では、seabornを活用してデータの傾向や特徴を素早く把握することが重要です。

seabornのほかにもMatplotlibplotlyなど、Pythonを用いて様々な手法で可視化できるので幅広く学習するのもオススメです。

ぜひ、実際のデータセットを用いてseabornの可視化機能を試してみてください!

seabornを用いたデータ可視化を学ぶのにオススメの方法

書籍:Matplotlib&Seaborn実装ハンドブック

下記の書籍にmatplotlibやseabornの可視化処理がまとめられているので、読んでみるのもいいと思います。

スクール:現役データサイエンティストに教えてもらう

データ可視化は分析の際に必須です。難しいと感じる場合は、相談しながら進められるスクールもオススメです。

データサイエンティストになるためにオススメのスクール5選。
はじめに近年、多くの企業でデータ活用が進み、AIやデータ分析への期待がますます高まっています。そのため、データサイエンティストは現代のビジネス界で最も需要のある職業の一つです。データ分析、機械学習、統計学、プログラミングなど多岐に...

コメント

Copied title and URL