• Nem Talált Eredményt

欠損値の自動代入

In document 追加の出版物 (Pldal 69-76)

値を代入する用意ができたので、自動設定で実行してみましょう。ただ し、代入を要求する前に、乱数シードを設定します。乱数シードを設定す ると、分析を正確に複製できます。

E 乱数シードを設定するには、メニューから次の項目を選択します。

[変換] > [乱数ジェネレータ...]

図 5-6

[乱数ジェネレータ] ダイアログ ボックス

E [アクティブ ジェネレータを設定]を選択します。

E [Mersenne Twister] を選択します。

E [出発点 (スターティング ポイント) の設定]を選択します。

E [固定値]を選択し、値として 「20070525」と入力します。

E [OK] をクリックします。

E 欠損データ値を多重代入するには、メニューから次の項目を選択します。

[分析] > [多重代入] > [欠損データ値を代入]

図 5-7

[欠損データ値の代入] ダイアログ

E 代入モデルの変数として「サービス月数 [期間]」から「世帯の人数 [ 世帯人数]」までを選択します。

E 代入データを保存するデータセットとして、「telcoImputed」と入力します。

E [出力] タブをクリックします。

図 5-8 [出力] タブ

E [代入値を持つ変数の記述統計量] を選択します。

E [OK] をクリックします。

代入指定

図 5-9 代入指定

代入指定テーブルは、指定が正しいにことを確認するために、これまでに 行った指定を確認するのに役立ちます。

代入結果

図 5-10 代入結果

代入結果は、代入プロセスにおいて、実際に何が起こっているかの概要を 確認できます。特に次の点に注意する必要があります。

指定テーブルの代入方法は [自動] で、自動で実際に選択される方法 は、[完全条件指定] です。

要求された変数はすべて代入されます。

代入順序は、変数が欠損値パターン グラフの x-軸に出現する順番です。

代入モデル

図 5-11 代入モデル

代入モデル テーブルでは、それぞれの変数がどのように代入されたか を、さらに詳細に確認することができます。特に次の点に注意する必 要があります。

変数は、代入順序の順でリストアップされます。

スケール変数は、線型回帰モデルにモデル化され、カテゴリ変数は、ロ ジスティック回帰モデルにモデル化されます。

それぞれのモデルは、その他すべての変数を.主効果として使用します。

各変数の欠損値の数が、その変数に代入された値の総数とともに報告 されます (欠損数 × 代入数)。

[記述統計]

図 5-12

期間 (サービス月間) の記述統計量

記述統計量テーブルは、代入値を持つ変数の要約を示します。個々のテー ブルは、変数ごとに作成されます。表示される統計量の種類は、スケー ル変数かカテゴリ変数かによって変わります。

スケール変数の統計量には、元のデータの度数、平均値、標準偏差、最 小値、最大値、それぞれの代入値、およびそれぞれの完全なデータセット (元の値と代入値の組み合わせ) が含まれます。

「期間 (サービス月間)」の記述統計量は、元のデータの値とほぼ等し い代入値のセットにおける平均値と標準偏差を表します。ただし、最小 値で、「期間」にマイナスの値が代入されていることで、明らかな問題 があることが分かります。

図 5-13

婚姻状況の記述統計量

カテゴリ変数では、統計量には、元のデータのカテゴリの度数とパーセン ト、代入値、および完全なデータが含まれます。「婚姻状況」のテーブ ルには、面白い結果が含まれています。代入値として、ケースの大部分 が、もとのデータより多く結婚しているものと推定されています。これ は、ランダムな変動、つまり、欠損の機会がこの変数の値と関連している ことに起因する場合があります。

図 5-14

収入 (家族全体の収入) の記述統計量

「期間」と同様に、その他すべてのスケール変数、「収入 (家族全体の収 入)」はマイナスの代入値 — を示しており、特定の変数に制約条件を設けて ユーザー指定によるモデルを実行する必要があります。しかし、「収入」

に、別の潜在的な問題があります。代入ごとの平均値が元のデータよりか なり高く、代入ごとの最大値が元のデータよりかなり低くなっています。

収入の分布は、かなり右に歪んだ傾向にあり、したがって、これが問題 の原因である可能性があります。

In document 追加の出版物 (Pldal 69-76)