Analysis Types

どの分析を選ぶかを整理する

DataCello では現在 7 種類の分析を扱えます。迷ったら「何を予測・比較・要約したいか」から選んでください。

分析 向いている場面 主に必要な列 補足
回帰 売上やスコアなど数値を予測したい 数値の Target、説明変数の Features 現在のモデルは線形回帰です
分類 成約 / 非成約のようなクラスを予測したい カテゴリ Target、Features 現在のモデルはロジスティック回帰です
仮説検定 群間差があるかを確かめたい 数値列、必要に応じて Grouping 列 t 検定、ANOVA などを選べます
K-means 似た傾向のデータをまとめたい 数値 Features クラスタ数を指定します
時系列予測 日付列を使って今後の値を予測したい Date 列、Target 列 予測期間を指定します
PCA 多変量データの構造を圧縮して見たい 数値 Features 主成分数を指定します
生存時間分析 イベント発生までの時間を分析したい Time 列、Event 列 Kaplan-Meier / Cox を選べます

回帰

数値ターゲットを予測します。Train Ratio、Standardize、評価指標を調整できます。

分類

カテゴリ分類向けです。Accuracy や AUC を見ながらモデルを比較できます。

仮説検定

グループ比較に向いています。Grouping 列が必要になるケースが多いです。

K-means

事前ラベルなしでデータを分けたいときに使います。クラスタ数が分析の鍵です。

時系列予測

日付列が正しく判定されているかが重要です。予測期間は短めから試してください。

PCA / 生存時間分析

PCA は構造把握、生存時間分析は時間とイベントの関係を見る用途に向きます。

Selection Rule

迷ったときの選び方

  • 目的変数が数値なら回帰を検討する
  • 目的変数がカテゴリなら分類を検討する
  • 群間差の確認なら仮説検定を選ぶ
  • ラベルがなく構造だけ見たいなら K-means か PCA を選ぶ
  • 時間経過を含む将来予測なら時系列予測を使う
  • イベント発生までの時間がテーマなら生存時間分析を使う