Scikit-learn - 異端開発室 | 奇想天外なアイデアがコードで現実になる場所

Scikit-learn

決定樹アルゴリズムの基礎から応用まで：R および Python 実装解説

樹木モデルの概要監督学習の手法において、樹木ベースのアルゴリズムは最も効果的で頻繁に利用されるアプローチの一つです。これらの手法は、予測モデルに高い精度と安定性をもたらすだけでなく、結果の解釈性も優れています。線形モデルとは異なり、非線形な関係性を適切に表現できる点が大きな特徴です。分類問題および回帰問題の双方に対応可能であり、データサイエン ...

6月21日 23:13 投稿

分類器の選択と評価：多クラス分類におけるロジスティック回帰の実装

はじめに前回の記事では、料理データセットの前処理（クリーニングとバランシング）を完了しました。今回は、複数の分類アルゴリズムを用いてモデルを構築し、特定の材料の組み合わせから料理の国籍を予測するタスクに取り組みます。この過程で、異なる分類アルゴリズムの評価と比較を行い、タスクに最適なモデルを選択する方法を学びます。分類アルゴリズムの選択 Sci ...

6月20日 19:36 投稿

K-MeansとDBSCANクラスタリングアルゴリズムの徹底解説

クラスタリングアルゴリズムの概要 K-MeansとDBSCANは、データマイニングや機械学習の分野で広く利用される教師なし学習アルゴリズムです。これらのアルゴリズムは、ラベル付けされていないデータから自然なグループ（クラスター）を発見するために使用されます。 K-Meansアルゴリズムの詳細 K-Meansは分割ベースのクラスタリング手法であり、データ空間内のk個の中心点 ...

6月14日 00:02 投稿

機械学習におけるハイパーパラメータとモデルパラメータの違い

機械学習モデルには、主に二種類のパラメータが存在します。ハイパーパラメータ: モデルの訓練が始まる前に決定する必要がある設定値。モデルパラメータ: 訓練プロセスを通じてデータから学習される値。例として、K近傍法（KNN）アルゴリズムは訓練により学習する内部パラメータを持たず、近傍数kは典型的なハイパーパラメータです ...

6月1日 22:36 投稿

Pythonによる機械学習モデルの評価と選択：実践ガイド

機械学習プロジェクトにおいて、モデルの性能を客観的かつ再現性のある方法で評価することは、単なる精度向上を超えて、信頼性・一般化能力・業務適用可能性を担保する鍵となります。本稿では、scikit-learnを用いた代表的な評価戦略と指標を体系的に解説し、実装コードを再構成して提示します。すべての例はPima Indians Diabetesデータセット（8次元特徴＋バイナリラベル ...

5月30日 01:04 投稿

Pythonによる非教師学習：K平均法（K-Means）の実装と可視化

K平均法（K-Means）の基本概念 K平均法は、教師なし学習における代表的な分割型クラスタリングアルゴリズムです。与えられたデータ集合をユーザーが指定した数（K個）のグループに分類し、各データポイントが自身に割り当てられたクラスタの重心（平均ベクトル）とユークリッド距離的に最も近くなるよう反復的に最適化を行います。この手法は「類似した特徴を共有するデー ...

5月21日 18:48 投稿

勾配ブースティング決定木の原理とPythonによる実装

一、概要勾配ブースティング決定木（Gradient Boosting Decision Tree、GBDT）はアンサンブル学習におけるブースティング手法の一種です。このアルゴリズムは、CART（分類回帰木）のような決定木を基本学習器として使用し、反復的なプロセスを通じて、回帰タスクでは残差を、分類タスクでは負勾配を繰り返し適合させていきます。これにより、一連の決定木を段階的に構築し ...

5月19日 00:53 投稿

1. 必要なライブラリのインポートとデータの読み込み import pandas as pd import numpy as np from scipy import stats from sklearn.cluster import KMeans from scipy.spatial.distance import cdist from sklearn.preprocessing import StandardScaler import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns file_path = '1999年全国31个省 ...

5月12日 16:51 投稿

異端開発室