KDD Cup 2015 コース離脱予測モデルの開発

KDD Cup 2015の二値分類問題、コースからの離脱予測に関する実装を整理します。 データ前処理:NumPyとPandasライブラリを用いた特徴量の数値化処理 #!/usr/bin/env python # coding=utf-8 import pickle import pandas as pd import numpy as np # 辞書型で値をマッピング source_mapping={'server':0,'browser':1} event_mapping = {"problem":5,"vid ...

6月28日 16:31 投稿

勾配ブースティング決定木の原理とPythonによる実装

一、概要 勾配ブースティング決定木(Gradient Boosting Decision Tree、GBDT)はアンサンブル学習におけるブースティング手法の一種です。このアルゴリズムは、CART(分類回帰木)のような決定木を基本学習器として使用し、反復的なプロセスを通じて、回帰タスクでは残差を、分類タスクでは負勾配を繰り返し適合させていきます。これにより、一連の決定木を段階的に構築し ...

5月19日 00:53 投稿