Pandasで始めるデータ分析入門

Pythonを使ってデータを解析したい人にとって、「Pandas」は必要不可欠なツールです。この記事では、Pandasを使ってデータファイルを読み込む基本的な方法を解説します。


目次

  1. Pandasって何だろう?
  2. CSVファイルを読み込む
    • 基本的な読み込み方法
    • 区切り文字の指定
  3. Excelファイルを読み込む
  4. カラム名を指定する
  5. 文字コードの問題と解決策
  6. Pandasが便利な場面

1. Pandasって何だろう?

PandasはPythonのライブラリで、データ分析や表の処理を旨としています。ExcelやGoogleスプレッドシートのような「表」の形式をPythonで簡単に処理できるのが大きな魅力です。例えば、「販売情報」や「顧客データ」を分析したい場面で宜しい力を発揮します。


2. CSVファイルを読み込む

基本的な読み込み方法

Pandasを使えば、CSVファイルを簡単に読み込めます。下記は基本的なコードです。

import pandas as pd

# CSVファイルを読み込む
df = pd.read_csv('example.csv')
print(df)

正常に読み込めると以下のように表示されます。

  店舗      商品   価格  個数
0  A  banana  200   1
1  B  orange  400   2
2  C  orange  350   1

区切り文字の指定

CSVの区切り文字がタブ文字(\t)の場合は、sep='\t'を指定します。

import pandas as pd

df = pd.read_csv('example_tab.csv', sep='\t')
print(df)

3. Excelファイルを読み込む

Excelファイルも、Pandasのread_excel()を使って読み込めます。

import pandas as pd

df = pd.read_excel('example.xlsx')
print(df)

複数のSheetを指定することも可能です。

import pandas as pd

df = pd.read_excel('example.xlsx', sheet_name='Sheet1')
print(df)

4. カラム名を指定する

データにカラム名が含まれていない場合、header=Noneでデフォルトの操作を無効にし、names=[]でカラム名を指定します。

import pandas as pd

df = pd.read_csv('example.csv', header=None, names=['店舗', '商品', '価格', '個数'])
print(df)

5. 文字コードの問題と解決策

CSVの文字コードがUTF-8ではない場合、encoding='文字コード'を指定します。例:

import pandas as pd

df = pd.read_csv('example_sjis.csv', encoding='shift-jis')
print(df)

6. Pandasが便利な場面

  • 業務データの解析 販売情報や店舗レビューを自動化したい時に有用。
  • データクリーニング 例えば、不要な行や列をフィルターしたり、数値の計算を簡単に行えます。
  • 総計レポート作成 日々の業務経過を分析し、月次の総計を自動生成するといった作業に宜しいです。

Pandasを使えば、日常の作業をスマートにすることができます。この記事を参考に、ぜひ実践してみてください。

 

コメント

タイトルとURLをコピーしました