Pythonを使ってデータを解析したい人にとって、「Pandas」は必要不可欠なツールです。この記事では、Pandasを使ってデータファイルを読み込む基本的な方法を解説します。
目次
- Pandasって何だろう?
- CSVファイルを読み込む
- 基本的な読み込み方法
- 区切り文字の指定
- Excelファイルを読み込む
- カラム名を指定する
- 文字コードの問題と解決策
- Pandasが便利な場面
1. Pandasって何だろう?
PandasはPythonのライブラリで、データ分析や表の処理を旨としています。ExcelやGoogleスプレッドシートのような「表」の形式をPythonで簡単に処理できるのが大きな魅力です。例えば、「販売情報」や「顧客データ」を分析したい場面で宜しい力を発揮します。
2. CSVファイルを読み込む
基本的な読み込み方法
Pandasを使えば、CSVファイルを簡単に読み込めます。下記は基本的なコードです。
import pandas as pd
# CSVファイルを読み込む
df = pd.read_csv('example.csv')
print(df)
正常に読み込めると以下のように表示されます。
店舗 商品 価格 個数
0 A banana 200 1
1 B orange 400 2
2 C orange 350 1
区切り文字の指定
CSVの区切り文字がタブ文字(\t
)の場合は、sep='\t'
を指定します。
import pandas as pd
df = pd.read_csv('example_tab.csv', sep='\t')
print(df)
3. Excelファイルを読み込む
Excelファイルも、Pandasのread_excel()
を使って読み込めます。
import pandas as pd
df = pd.read_excel('example.xlsx')
print(df)
複数のSheetを指定することも可能です。
import pandas as pd
df = pd.read_excel('example.xlsx', sheet_name='Sheet1')
print(df)
4. カラム名を指定する
データにカラム名が含まれていない場合、header=None
でデフォルトの操作を無効にし、names=[]
でカラム名を指定します。
import pandas as pd
df = pd.read_csv('example.csv', header=None, names=['店舗', '商品', '価格', '個数'])
print(df)
5. 文字コードの問題と解決策
CSVの文字コードがUTF-8
ではない場合、encoding='文字コード'
を指定します。例:
import pandas as pd
df = pd.read_csv('example_sjis.csv', encoding='shift-jis')
print(df)
6. Pandasが便利な場面
- 業務データの解析 販売情報や店舗レビューを自動化したい時に有用。
- データクリーニング 例えば、不要な行や列をフィルターしたり、数値の計算を簡単に行えます。
- 総計レポート作成 日々の業務経過を分析し、月次の総計を自動生成するといった作業に宜しいです。
Pandasを使えば、日常の作業をスマートにすることができます。この記事を参考に、ぜひ実践してみてください。
コメント