Pandasデータ処理の実践的テクニック12選
はじめに
Pandasは、Python環境において高速で強力がかつ使いやすいデータ分析・操作ツールです。pipコマンドでかんたんにインストールできます。
pip install pandas
コード内でPandasを使用する場合は、まずインポートを行います。
import pandas as pd
本記事では、頻繁に使用される12のデータ処理操作を紹介します。
# サンプルデータの作成
sample_data = pd. ...
6月24日 18:12 投稿
Pandas Seriesオブジェクトの詳細解説と実践例
データ型変換における問題と解決策
実務で以下のエラーに遭遇することがあります:
TypeError: unsupported operand type(s) for -: 'str' and 'float'
このエラーは文字列型と浮動小数点型の間で減算演算を実行しようとした際に発生します。
基本的な問題例
str_value = "5"
float_value = 3.14
result = str_value - float_value # 文字列と浮動小数点の減算は不可能
...
6月16日 21:47 投稿
クラウド在庫管理コンペティションのベースライン実装
問題定義
主要な概念
在庫レベル: 倉庫に保管されている商品の数量
リードタイム: 発注から入庫までの所要時間(本課題では14日間)
発注残: 発注済みだが未入庫の商品数量
補給戦略: 週次発注方式(毎週月曜日に発注決定)
負の需要: クラウドリソースの解放による需要の減少
データ構造
トレーニングデータセット
ファイル名内容
demand_train.csv過去のリソー ...
6月16日 19:56 投稿
分類アルゴリズムの基礎:不均衡データへのSMOTE適用
分類アルゴリズムの概要
分類アルゴリズムは、教師あり学習における主要な手法の一つです。その目的は、入力されたデータをあらかじめ定義された複数のクラス(カテゴリ)に割り当てることです。例えば、受信したメールを「迷惑メール」と「通常メール」に分類するのは典型的な二値分類のタスクであり、一方で、料理の材料情報からその料理がどの国の料理であるかを予測す ...
6月8日 00:13 投稿
Python機械学習入門
NumPyの基礎
NumPyは、科学計算やデータ解析に最適な高速な配列演算を提供するライブラリです。
配列の基本属性
ndim:配列の次元数
shape:各次元のサイズを示すタプル
size:配列の要素数
dtype:配列のデータ型
itemsize:各要素のバイト数
配列の作成と操作
import numpy as np
# 1次元配列の作成
data = np.array([10, 20, 30, 40, 50])
print("1次元配列:", dat ...
6月4日 21:18 投稿
データ可視化の実装手法
基本プロット作成
Matplotlibを用いた基本的なプロット作成手順:
import numpy as np
import matplotlib.pyplot as plt
x_values = np.linspace(0, 2*np.pi, 100)
sine_wave = np.sin(x_values)
cosine_wave = np.cos(x_values)
plt.title("三角関数の比較")
plt.plot(x_values, sine_wave)
plt.plot(x_values, cosine_wave)
plt.show()
棒グラフの作成
縦型・横型棒 ...
6月3日 23:21 投稿
get_dummiesで生成された結果がすべてブール値になる問題の解決
データ処理を行っている際に、pandasのget_dummies()メソッドを使って離散的な文字列型の特徴量にone-hotエンコーディングを適用したところ、0や1ではなくTrueとFalseのブール値で出力されてしまう問題に遭遇しました。解決方法を調査し、問題を解消したため記録します。
one-hotエンコーディングは、カテゴリ型の特徴量を数値化するための一般的な手法です。この方法では ...
6月1日 00:30 投稿
PythonでExcelをテキストとして読み込む方法
PythonでExcelをテキストとして読み込む
日常業務では、Excelファイルのデータ処理が頻繁に行われます。時にはExcelデータをテキスト形式で読み込み、さらなる分析や処理を行う必要があります。このような場合、Pythonは非常に便利なツールです。Pythonには豊富なライブラリが用意されており、Excelファイルのデータをテキスト形式に変換する機能を簡単に実装できます。
...
5月28日 02:13 投稿
【プロジェクト実践】Python tkinterでランダム抽選アプリを作成する
筆者の知人である女性教師から「授業で使えるランダム指名ツールが欲しい」と相談されました。Excel名簿からデータを読み込み、GUIで操作できるアプリをPythonのtkinterで作成します。最終的な動作画面は以下の通りです(画像再現は不要のため割愛)。
データ処理
学校の名簿は通常Excelで管理されています。そこで pandas と openpyxl を利用してデータを読み込みま ...
5月27日 08:03 投稿
PandasによるExcelデータ処理の実践ガイド
Pandasを用いたExcel操作の基本から応用までを解説する。
ファイルの読み込みと書き出し
Excelファイルの読み込みには pd.read_excel() を使用する。ヘッダー行の指定やインデックス列の設定も同時に行える。
import pandas as pd
# 基本的な読み込み
df = pd.read_excel('data/sample.xlsx')
# ヘッダー行を3行目に指定
df = pd.read_excel('data/sample.xlsx', header= ...
5月26日 21:13 投稿