RNA-seq解析におけるカウントデータの統計的性質とモデリング

RNA-seqカウントデータの基礎

RNA-seq解析の出発点は、各サンプルにおける遺伝子ごとの発現量をまとめた「カウント行列(Count Matrix)」です。この行列において、行は遺伝子、列はサンプルを指し、各セルには特定の遺伝子から得られたシーケンスリードの整数値が格納されます。高いカウント値は一般的に高い発現量を示唆しますが、正規化なしの生の数値には注意が必要です。

データ分布の特性

特定のサンプル(例: sample_01)のカウント分布をヒストグラムで可視化すると、以下の特徴が浮かび上がります。

  • 大半の遺伝子は低いカウント値を示す。
  • 右側に長い裾を持つ非正規分布である。
  • データは連続値ではなく不連続な整数である。
library(ggplot2)
ggplot(count_data, aes(x = sample_01)) +
  geom_histogram(bins = 150, fill = "steelblue") +
  labs(title = "リードカウントの分布", x = "Raw Counts", y = "遺伝子数")

統計モデルの選択と過分散

カウントデータに対しては、ポアソン分布や負の二項分布が検討されます。統計モデルを選択する際、平均値と分散の関係を評価することが不可欠です。複数の生物学的反復(レプリケート)を用いて、遺伝子ごとの平均と分散をプロットすると、以下の関係性が確認できます。

# 統計量の算出
exp_means <- rowMeans(replicate_matrix)
exp_vars <- apply(replicate_matrix, 1, var)

# 散布図による確認
plot_df <- data.frame(mean = exp_means, var = exp_vars)
ggplot(plot_df, aes(x = mean, y = var)) +
  geom_point(alpha = 0.5) +
  scale_x_log10() + scale_y_log10() +
  geom_abline(intercept = 0, slope = 1, color = "red")

多くの場合、分散は平均値を超え(過分散)、データは赤線(y=x)よりも上側に分布します。この「異分散性」を考慮するため、RNA-seq解析では負の二項分布を用いたモデリングが標準的です。

生物学的反復の重要性

実験において生物学的反復(Biological Replicates)を確保することは、信頼性の高い差分発現解析を行うための鍵となります。反復数が多いほど、以下のメリットが得られます。

  • 遺伝子ごとの発現変動(分散)の正確な推定
  • 未知の共変量によるノイズの緩和
  • アウトライヤーの検出と除去
  • 群間差の統計的有意差の向上

シーケンス深度を深くすることよりも、反復数を増やすことの方が、有意な差分発現遺伝子(DEG)を検出する効率が高いことが経験的に知られています。

差分発現解析ツール:DESeq2

DESeq2は、負の二項分布を基盤とした堅牢な解析手法を提供します。感度(検出率)と特異度(誤検出抑制)のバランスに優れており、生物学的反復を考慮した統計モデルによって、不必要なノイズを排除しながら興味深い変動遺伝子を抽出可能です。

タグ: RNA-seq DESeq2 バイオインフォマティクス 統計モデリング 次世代シーケンサー

5月29日 07:04 投稿