Analysis Types

どの分析を選ぶかを整理する

DataCello では現在 7 種類の分析を扱えます。迷ったら「何を予測したいか」「何を比較したいか」「何を要約したいか」から選びます。

Selection Rule

迷ったときの選び方

分析名から入るより、目的と列の種類から逆算した方が選びやすくなります。

目的変数が数値 回帰
目的変数がカテゴリ 分類
群間差を比べたい 仮説検定
ラベルなしで傾向を見たい K-means / PCA
時間の流れを含めて予測したい 時系列予測
イベント発生までの時間を見たい 生存時間分析
分析 向いている場面 主に必要な列 補足
回帰 売上やスコアなど数値を予測したい 数値 Target、説明変数の Features 現在のモデルは線形回帰です
分類 成約 / 非成約のようなクラスを予測したい カテゴリ Target、Features 現在のモデルはロジスティック回帰です
仮説検定 群間差があるかを確かめたい 数値列、必要に応じて Grouping 列 t 検定、ANOVA、Wilcoxon、カイ二乗などを選べます
K-means 似た傾向のデータをまとめたい 数値 Features クラスタ数を指定します
時系列予測 日付列を使って将来の値を予測したい Date 列、Target 列 予測期間を指定します
PCA 多変量データの構造を圧縮して見たい 数値 Features 主成分数を指定します
生存時間分析 イベント発生までの時間を分析したい Time 列、Event 列 Kaplan-Meier / Cox を選べます
Details

各分析の見方

実行前に「どの列を使うか」と「結果のどこを見るか」を把握しておくと、試行錯誤が短くなります。

回帰

数値ターゲットを予測します。Train Ratio や Standardize の設定が結果に影響します。

  • 必要: 数値 Target と数値中心の Features
  • 見る点: 誤差、予測値と実測値のずれ
  • 注意: Target がカテゴリだと不適切です

分類

カテゴリを予測します。正解率だけでなく、偏りの有無も合わせて見ます。

  • 必要: カテゴリ Target と Features
  • 見る点: Accuracy、AUC などの分類指標
  • 注意: Target のクラス数や偏りを確認します

仮説検定

群間差があるかを確認します。比較したい群の分け方が明確なときに向いています。

  • 必要: 数値列、必要に応じて Grouping 列
  • 見る点: p 値と比較対象の意味づけ
  • 注意: 群の定義が曖昧だと解釈しづらくなります

K-means

似た傾向のデータをラベルなしでまとめます。クラスタ数の設定が結果の見え方を左右します。

  • 必要: 数値 Features
  • 見る点: クラスタごとの特徴と分かれ方
  • 注意: 使う列のスケール差に注意します

時系列予測

日付の並びから将来の値を予測します。日付列の判定が正しいことが前提です。

  • 必要: Date 列と数値 Target
  • 見る点: 予測期間と推移の妥当性
  • 注意: 日付が文字列扱いだと実行できません

PCA

多変量データの構造を少ない軸に圧縮して見ます。特徴量同士の関係把握に向いています。

  • 必要: 数値 Features
  • 見る点: 主成分数と分散の集約具合
  • 注意: 解釈したい列を Features に含めます

生存時間分析

イベント発生までの時間を扱います。時間列とイベント列の意味づけが重要です。

  • 必要: Time 列と Event 列
  • 見る点: 生存曲線やハザード比
  • 注意: イベント列の値定義を先に確認します
Before You Run

実行前に確認したいこと

  • 列型が意図通りに判定されているか
  • Target、Grouping、Date など必須列が揃っているか
  • 欠損や空文字が主要列に多すぎないか
  • Validation が Blocked になっていないか