Javaによるテキストクラスタリングの実装
中文理解においてcarrot2が不十分であるため、ネットワーク上のリソースを参考に、このコードを提供します。
この実装では、文字や語の出現頻度を計算し、スコアを付与して、最も重要な語彙を抽出する方法を取りました。以下は実行可能なコードです。
ClusterBuilder.java
/** <br></br>*
* @author
* @version 作成日時:2011-3-8 午後02:02:36
* クラスタ ...
6月27日 22:07 投稿
Linuxにおけるテキスト処理ツールsedの基本操作と応用
sedコマンドの主な機能:追加・削除・置換・表示
sed(Stream Editor)は、標準入力またはファイルからテキストを読み込み、指定された操作を実行して出力する強力なストリームエディタです。特に「検索」「追加」「削除」「置換」の4つの基本操作が頻繁に使用されます。
主なオプション
-n:デフォルトの出力を抑制し、明示的に指定した行のみを出力します。
-r:拡 ...
6月7日 19:38 投稿
テーマ知識の自動生成:Pythonによる週間計画作成ツール
テーマ知識素材を活用した次学期の19週間分のテーマ知識Word作成
背景要件
新学期が始まり、週間計画シリーズを継続し、既存の基盤上でさらなるコード最適化を行います。
準備素材
すべて「02 テーマ知識」フォルダ内のコンテンツを使用します。
第1段階:既存ファイル名の1-9週を01-09週に変更
既存のテーマ知識資料(テーマ知識と情報窓の内容を含む)
ファイル名の週数 ...
5月25日 08:01 投稿
NLP実践入門:One-Hotエンコーディングの実装
One-Hotエンコーディング(一位有効符号化)とは、N個の状態をエンコードするためにNビットの状態レジスタを使用する方法です。各状態には独立したレジスタビットがあり、任意の時点で有効なビットは1つだけです。
例えば、性別を考えた場合、男性と女性の2つの選択肢があり、2ビットで表現されます:
男性:10
女性:01
英語テキストのOne-Hotエンコーディング
import t ...
5月20日 22:00 投稿
ハリー・ポッター英語版テキストの文字と単語の出現頻度分析
要件
ハリー・ポッター英語版テキストファイルを読み込み、各英字の出現確率を計算し(大文字小文字を区別)、降順で表示する
テキストファイル内の各単語の出現回数をカウントし、頻度の高い単語を指定された形式で出力する
機能1
ファイル内のすべてのユニークな単語を、出現回数の多い順に並べ替え、出現回数が同じ場合は辞書順に並べ替えて出力する
機能2
指定さ ...
5月15日 18:44 投稿