get_dummiesで生成された結果がすべてブール値になる問題の解決
データ処理を行っている際に、pandasのget_dummies()メソッドを使って離散的な文字列型の特徴量にone-hotエンコーディングを適用したところ、0や1ではなくTrueとFalseのブール値で出力されてしまう問題に遭遇しました。解決方法を調査し、問題を解消したため記録します。
one-hotエンコーディングは、カテゴリ型の特徴量を数値化するための一般的な手法です。この方法では ...
6月1日 00:30 投稿
画像処理およびディープラーニングによる CAPTCHA 認識システムの実装
1. はじめに
ウェブセキュリティにおいて、人間の操作を証明するために CAPTCHA(完全自動化されたパブリック・ターバック・コンピュータ区別テスト)が広く利用されている。自動化スクリプトによるアクセス制限が主流となる中、これらの認証コードを機械的に解析する技術の研究は、セキュリティ対策の強度を評価する上で重要な課題となっている。
本記事では、従来の画像 ...
5月19日 22:11 投稿
階層クラスタリングの理論と実装
クラスタリングの基本概念
クラスタリングは教師なし学習の一種であり、類似するデータポイントを同じグループに分類する手法です。この技術はデータマイニング、画像解析、バイオインフォマティクスなど多くの分野で活用されています。
階層クラスタリングのアプローチ
階層クラスタリングは、データ間の階層的な関係を樹形図(デンドログラム)として表現するアルゴリズ ...
5月13日 11:12 投稿