回帰
数値ターゲットを予測します。Train Ratio や Standardize の設定が結果に影響します。
- 必要: 数値 Target と数値中心の Features
- 見る点: 誤差、予測値と実測値のずれ
- 注意: Target がカテゴリだと不適切です
DataCello では現在 7 種類の分析を扱えます。迷ったら「何を予測したいか」「何を比較したいか」「何を要約したいか」から選びます。
分析名から入るより、目的と列の種類から逆算した方が選びやすくなります。
| 分析 | 向いている場面 | 主に必要な列 | 補足 |
|---|---|---|---|
| 回帰 | 売上やスコアなど数値を予測したい | 数値 Target、説明変数の Features | 現在のモデルは線形回帰です |
| 分類 | 成約 / 非成約のようなクラスを予測したい | カテゴリ Target、Features | 現在のモデルはロジスティック回帰です |
| 仮説検定 | 群間差があるかを確かめたい | 数値列、必要に応じて Grouping 列 | t 検定、ANOVA、Wilcoxon、カイ二乗などを選べます |
| K-means | 似た傾向のデータをまとめたい | 数値 Features | クラスタ数を指定します |
| 時系列予測 | 日付列を使って将来の値を予測したい | Date 列、Target 列 | 予測期間を指定します |
| PCA | 多変量データの構造を圧縮して見たい | 数値 Features | 主成分数を指定します |
| 生存時間分析 | イベント発生までの時間を分析したい | Time 列、Event 列 | Kaplan-Meier / Cox を選べます |
実行前に「どの列を使うか」と「結果のどこを見るか」を把握しておくと、試行錯誤が短くなります。
数値ターゲットを予測します。Train Ratio や Standardize の設定が結果に影響します。
カテゴリを予測します。正解率だけでなく、偏りの有無も合わせて見ます。
群間差があるかを確認します。比較したい群の分け方が明確なときに向いています。
似た傾向のデータをラベルなしでまとめます。クラスタ数の設定が結果の見え方を左右します。
日付の並びから将来の値を予測します。日付列の判定が正しいことが前提です。
多変量データの構造を少ない軸に圧縮して見ます。特徴量同士の関係把握に向いています。
イベント発生までの時間を扱います。時間列とイベント列の意味づけが重要です。