• Nem Talált Eredményt

最近隣分析

In document IBM SPSS Statistics Base 19 (Pldal 153-167)

最近隣分析は、他のケースに対する類似度に基づいてケースを分類する 方法です。機械学習において、この方法は保存されたパターン、または ケースに対する正確な一致を必要とせずにデータのパターンを認識する 方法として開発されました。類似したケースはお互いに近く、類似して いないケースはお互いに離れています。そのため、2 つのケース間の距 離は、非類似度を示す尺度です。

お互いに近いケースは、「近隣」と呼ばれます。新しいケース (ホールド アウト) が示されると、モデルの各ケースからの距離が計算されます。最 も類似したケース「最近隣」の分類が集計され、新しいケースは最大数の 最近隣を含むカテゴリに投入されます。

ユーザーは、検証する最近隣の数を指定できます。値は k です。図では、

新しいケースが 2 つの異なる値の k を使用してどのように分類するかを示 します。k = 5 の場合、最近隣の大多数がカテゴリ 1 に属するため、新しい ケースはカテゴリ 1 に投入されます。ただし、k = 9 の場合、最近隣の大多 数がカテゴリ 0 に属するため、新しいケースはカテゴリ 0 に投入されます。

図 20-1

分類で k を変更した場合の効果

際近隣分析を使用して、連続型目標の値を計算することもできます。こ の場合、最近隣の平均または中央目標値を使用して、新しいケースの予 測値を取得します。

目標および特徴。 目標および特徴は次のとおりです。

© Copyright SPSS Inc. 1989, 2010 139

140

最近隣分析

ホールドアウト サンプルが定義されている場合でも、one-of-c コー ド化はすべて学習データに基づいています (分割 を参照)。そのため、

ホールドアウト サンプルに学習データにはない予測変数カテゴリを持つ ケースがある場合、それらのケースはスコア化されません。ホールドア ウト サンプルに学習データにはない従属変数カテゴリを持つケースがあ る場合、それらのケースはスコア化されます。

再調整。 スケール機能はデフォルトで標準化されます。ホールドアウト サ ンプルが定義されている場合でも、再調整はすべて学習データに基づいて 行われます (「分割」 ( p.147 )を参照)。変数を指定して分割を定義する 場合、特徴に学習サンプル、検定サンプル、ホールドアウト サンプル全体 の類似した分布が含まれていることが重要です。 たとえば、[探索的分析]

手続きを使用して、分割全体の分布を検証します。

度数による重み付け。 度数による重み付けは、この手続きによって無視

されます。

結果の再現この手続きでは、分割の無作為割り当て時に乱数ジェネレータ

を使用します。結果を正確に複製する場合、同じ手続きの設定を使用する ほか、Mersenne Twister のシード (「分割」 ( p.147 ) 参照) を設定、また は変数を使用して分割および交差検証群を定義します。

最近隣分析を取得するには

メニューから次の項目を選択します。

分析(A) > 分類 > 最近隣法(N)...

142 20 章

図 20-2

[最近隣分析: 変数] タブ

E 1 つまたは複数の特徴を指定し、目標がある場合独立変数または予測変数 について考えられるようにします。

目標 (省略可能)。目標が指定されていない場合 (従属変数または応答)、手

続きでは k 最近隣のみを検出します。分類または予測は実行されません。

スケール機能を標準化(N) 標準化された機能には同じ範囲の値があり、推

定アルゴリズムのパフォーマンスを向上させます。調整済み正規化の [2*(x−min)/(max−min)]−1 が使用されます。調整済み正規化の値は −1 ~ 1 です。

中心ケース識別子 (省略可能)(O) 特に重要なケースをマークすることがで

きます。たとえば、研究者がある学区の検定スコア、中心ケースが同じ ような学区の検定スコアと比較可能かどうかを確認したいと考えていま す。彼は最近隣分析を使用して、与えられたセットの特徴に関して最も近

最近隣分析

144 20 章

近隣

図 20-4

[最近隣分析: 近隣] タブ

最近隣数 (k) 最近隣数を指定します。より大きな数の近隣を使用すると、必

ずしも正確なモデルが作成されるとは限りません。

目標が [変数] タブで指定されている場合、値の範囲を指定し、手続き で範囲内の「最適な」近隣数を選択することができます。最近隣数を 決定する方法は、特徴選択が [特徴] タブで要求されているかどうかに よって異なります。

„ 特徴選択が有効である場合、特徴選択は要求された範囲の k の各値に実 行され、 最も低い誤差率 (または目標がスケールの場合、最も低い平 方和の誤差) の k および付随する特徴セットが選択されます。

„ 特徴選択が有効でない場合、V 群交差検証を使用して、「最適な」近隣 数を選択します。群の割り当てについては、コントロールの [データ区 分] タブを参照してください。

最近隣分析

奥行きの計算 ケースの類似度の測定に使用する距離基準を指定するた

めの計量です。

„ ユークリッド計量(E) x および y の 2 つのケース間の距離は、すべての次元

においてケースの値の間の差異を平方の合計の平方根です。

„ 都市ブロック計量(C) 2 つのケースの間の距離は、すべての次元の、そ

れらのケースの値の絶対差の合計になります。Manhattan 距離とも呼 ばれます。

オプションで、目標が [変数] タブで指定されている場合、距離の計算時に 正規化された重要度によって特徴に重みをつけることができます。予測変 数の特徴重要度は、予測変数をモデルからすべてのモデルの誤差率または 誤差の平方和に移動して、誤差率の比率またはモデルの誤差の平方和に よって計算されます。正規化された重要度は、合計が 1 となるよう、特 徴重要度の値を再度重み付けして計算します。

スケール目標の予測 スケール目標が [変数] タブで指定されている場合、

予測値が平均値または最近隣の中央地のどちらに基づいて計算されるか を指定します。

146 20 章

特徴

図 20-5

[最近隣分析: 特徴] タブ

[特徴] タブを使用すると、目標が [変数] タブで指定されている場合に、

特徴選択のオプションを要求および指定することができます。デフォルト では、特徴選択にすべての特徴が考慮されていますが、オプションで特徴 のサブセットを選択してモデルに強制することができます。

停止基準 各ステップで、モデルへの追加により誤差が最も小さくなる (カ テゴリ目標の誤差率およびスケール目標の誤差の平方和として計算) 特 徴がモデル セットに選択すると見なされます。変数増加法は、指定され た条件を満たすまで続行します。

„ 指定される特徴数 アルゴリズムでは、モデルに強制的に投入された特

徴に加え、固定された特徴数を追加します。正の整数を指定します。

選択する数値を減らすと、より節約的なモデルが作成され、重要な特 徴が欠損するというリスクがあります。選択する数値を増やすと、す

最近隣分析

べての重要な特徴を取得しますが、モデル誤差が増加する特徴を追加 するというリスクがあります。

„ 絶対誤差比の最小変化量 絶対誤差比の変化量が、これ以上特徴を追加

してもモデルが改善されないことを示す場合、アルゴリズムは停止し ます。正の数を指定します。最小変化量の値を小さくすると、より多 くの特徴を選択しますが、モデルに多くの値を追加しない特徴を選択 するというリスクがあります。最小変化量の値を大きくすると、より 多くの特徴を除外しますが、モデルに重要な特徴を失うというリスク があります。最小変化量の「最適な」値は、データおよびアプリケー ションによって異なります。どの特徴が最も重要か評価する方法につ いては、出力の特徴選択エラー ログを参照してください。詳細は、

p.161 特徴空間エラー ログ を参照してください。

分割

図 20-6

[最近隣分析: 分割] タブ

148

Mersenne Twister のシードを設定。 シードを設定すると、分析を複製すること

ができます。このコントロールを使用すると、アクティブ ジェネレータと して Mersenne Twister を設定し、[乱数ジェネレータ] ダイアログの固定開

最近隣分析

始ポイントを指定することと同様の設定ができますが、このダイアログで シードを設定すると、乱数ジェネレータの現在の状態を保持し、分析が完 了した後、その状態を復元します。

保存

図 20-7

[最近隣分析: 保存] タブ

保存する変数の名前 自動的な名前の生成によって、すべての作業を保存

することができます。ユーザー指定の名前によって、Data Editor で保存 された変数を最初に削除することなく、前回実行された結果を破棄ま たは置き換えることができます。

保存する変数

„ 予測値またはカテゴリ これにより、スケール目標に予測された値を保存

し、カテゴリ目標に予測カテゴリを保存します。

150 20 章

„ 予測確率カテゴリ目標の予測確率を保存します。各変数は、それぞれの 最初の n カテゴリに対して保存されます。この場合、 n は[カテゴリ目標 のために保存する最大カテゴリ数]コントロールで指定されます。

„ 学習/ホールドアウトの分割変数 ケースが [データ区分] タブで学習サン

プルおよびホールド アウトサンプルに無作為に割り当てられている

プルおよびホールド アウトサンプルに無作為に割り当てられている

In document IBM SPSS Statistics Base 19 (Pldal 153-167)