文本向导 - IBM SPSS Statistics

文本向导可以读取多种格式的文本数据文件：

制表符分隔文件

空格分隔文件

逗号分隔文件

固定字段格式的文件

对于分隔的文件，也可以将其他字符指定为值之间的分隔符，并且可以指定多个分隔符。

读取文本数据文件

E 从菜单中选择：

文件 > 读取文本数据...

E 在“打开数据”对话框中选择文本文件。

E 按照文本向导中的步骤来定义如何读取数据文件。

文本向导：第 1 步

图片 3-13

文本向导：第 1 步

文本文件显示在一个预览窗口中。可以应用预定义的格式（以前在文本向导中保存的），或者按照文本向导中的步骤来指定如何读取数据。

文本向导：第 2 步

图片 3-14

文本向导：第 2 步

此步骤提供变量的信息。变量类似于数据库中的字段。例如，问卷中的每一项都是一个变量。

变量是如何排列的？要正确读取您的数据，文本向导需要知道如何确定一个变量的数据

值结束且下一个变量的数据值开始的位置。变量的安排定义用于将一个变量与另一个变量区分开来的方法。

分隔。使用空格、逗号、制表符和其他字符分隔变量。变量为每个个案按照同样的顺序进行记录，但不一定在相同的列位置。

固定宽度。对于数据文件中的每个个案，每个变量都记录在同一个记录（行）上的相

同列位置。变量之间不需要分隔符。实际上，在许多由计算机程序生成的文本数据文件中，数据值可能显示为连在一起，互相之间甚至没有用空格分隔开。列位置确定要读取的是哪个变量。

变量名称是否包括在文件的顶部？如果数据文件的第一行包含每个变量的描述性标签，则

可以将这些标签用作变量名。不符合变量命名规则的值会转换为有效的变量名。

文本向导：第 3 步（分隔的文件）

图片 3-15

文本向导：第 3 步（对于分隔的文件）

这一步提供有关个案的信息。个案类似于数据库中的记录。例如，问卷的每个回答者都是一个个案。

第一个数据个案从哪个行号开始？(F)表示包含数据值的数据文件的第一行。如果数据文

件的顶行包含描述性标签或者包含不代表数据值的其他文本，这就不是第 1 行。

如何表示个案？控制文本向导如何确定每个个案结束、下一个个案开始的位置。

每一行表示一个个案。每一行仅包含一个个案。每个个案通常包含在一个单行中，即

使这一行对于有大量变量的数据文件会很长。如果不是所有的行都包含相同数量的数据值，则每个个案的变量数由数据值的个数最多的行决定。对于数据值较少的个案，多出来的变量指定为缺失值。

变量的特定编号表示一个个案。每个实例的指定变量数告诉文本向导在哪里停止读取

某个个案，并开始读取下一个个案。同一行可以包含多个个案，个案可以在一行的中间开始，并在下一行继续。文本向导按照读取的值的数量确定每个个案的结束，

不管有多少行。每个个案必须包含所有变量的数据值（或者由分隔符表示的缺失值），否则数据文件将无法正确读取。

您要导入多少个个案？您可以导入数据文件中的所有个案，可以导入前 n 个个案（n 是您指定的数字），也可以随机导入指定百分比的样本。因为随机抽样程序对每个个案都作出独立的假随机决策，所以选定的个案的百分比可能只与指定的百分比相近。数据文件中的个案越多，选定个案的百分比与指定百分比就越接近。

文本向导：第 3 步（固定宽度的文件）

图片 3-16

文本向导：第 3 步（对于固定宽度的文件）

这一步提供有关个案的信息。个案类似于数据库中的记录。例如，问卷中的每个回答者都是一个个案。

第一个数据个案从哪个行号开始？(F)表示包含数据值的数据文件的第一行。如果数据文

件的顶行包含描述性标签或者包含不代表数据值的其他文本，这就不是第 1 行。

多少行表示一个个案？(L)控制文本向导如何确定每个个案结束、下一个个案开始的位

置。每个变量由其个案内的行数及其列位置定义。需要指定每个个案的行数，才能正确读取数据。

您要导入多少个个案？您可以导入数据文件中的所有个案，可以导入前 n 个个案（n 是您

指定的数字），也可以随机导入指定百分比的样本。因为随机抽样程序对每个个案都作出独立的假随机决策，所以选定的个案的百分比可能只与指定的百分比相近。数据文件中的个案越多，选定个案的百分比与指定百分比就越接近。

文本向导：第 4 步（分隔的文件）

图片 3-17

文本向导：第 4 步（对于分隔的文件）

此步骤显示文本向导对于如何读取数据文件的最佳猜测，并使您可以修改文本向导从数据文件读取变量的方式。

变量之间有哪些分隔符？表示隔开数据的值的字符或符号。可以选择空格、逗号、分号、

制表符或其他字符的任意组合。中间没有插入数据值的多个连续的分隔符被视为缺失值。

文本限定符是什么？用于包括包含分隔符字符的值的字符。例如，如果逗号是分隔符，

包含逗号的值将读取错误，除非有文本限定符封装了该值，使值中的逗号不会被当作值之间的分隔符。从 Excel 导出的 CSV 格式的数据文件使用双引号 (“) 用作文本限定符。文本限定符出现在值的开头和结尾，封装了整个值。

文本向导：第 4 步（固定宽度的文件）

图片 3-18

文本向导：第 4 步（对于固定宽度的文件）

此步骤显示文本向导对于如何读取数据文件的最佳猜测，并使您可以修改文本向导从数据文件读取变量的方式。预览窗口中的垂直线表示文本向导当前认为每个变量在文件中开始的位置。

必要时插入、移动和删除变量换行符以分隔变量。如果每个个案使用多行，则数据将按每个个案一行的方式显示，后续行附加在行的末尾。

注意：

对于计算机生成的数据文件，其所生成的一连串连续的数据值没有插入空格或其他明显特征，这样就很难确定每个变量开始的位置。这样的数据文件通常依赖于数据定义文件或其他一些指定每个变量的行和列位置的书面说明。

文本向导：第 5 步

图片 3-19

文本向导：第 5 步

此步骤控制文本向导用于读取每个变量的变量名和数据格式，并制最终数据文件中将包括哪些变量。

变量名称。可以用自己的变量名覆盖缺省的变量名。如果从数据文件读取变量名，文

本向导将自动修改不符合变量命名规则的变量名。在预览窗口中选择一个变量，然后输入变量名。

数据格式。在预览窗口选择一个变量，然后从下拉列表选择一种格式。按住 Shift 单击

可以选择多个相邻的变量，或者按住 Ctrl 单击可以选择多个不相邻的变量。

缺省格式由前 250 行中的数据值确定。如果在前 250 行中有多种格式（例如，数值、日期、字符串等），则缺省格式设置为字符串。

文本向导格式选项

用文本向导读取变量的格式选项包括：

不导入。省略在导入的数据文件中选择的变量。

数值。有效值包括数字、前导加号或减号以及小数指示符。

字符串。有效值包括几乎任何键盘字符和嵌入的空格。对于分隔文件，可以指定值的字符数量，最多可以指定为 32,767 个。缺省情况下，文本向导将字符数量设置为选定的变量在文件前 250 行中遇到过的最长的字符串值。对于固定宽度的文件，字符串值的字符的数量由步骤 4 中的变量换行符的位置定义。

日期/时间。有效值包括常用的日期格式 dd-mm-yyyy、mm/dd/yyyy、dd.mm.yyyy、

yyyy/mm/dd、hh:mm:ss 以及其他各种日期和时间格式。月份可以用数字、罗马数字或三个字母的缩写形式表示，也可以使用全拼的格式。从列表中选择一个日期格式。

美元。有效值为数字，前导美元符号是可选的，作为千位分隔符的逗号也是可选的。

逗号。有效值包括将句点用作小数指示符和将逗号用作千位分隔符的数字。

点。有效值包括将逗号用作小数指示符和将句点用作千位分隔符的数字。

注意：包含对选定的格式无效的字符的值将视为缺失值。包含任何指定分隔符的值将视为多个值。

文本向导：第 6 步

图片 3-20

文本向导：第 6 步

这是文本向导的最后一步。可以将您的规格保存在文件中，以便在导入类似的文本数据文件时使用。也可以将文本向导生成的语法粘贴到语法窗口。然后就可以定制和／或保存语法，以便用于其他对话或生产作业中。

在本地缓存数据. 数据高速缓存是数据文件的完整副本，它存储在临时磁盘空间中。高速缓存数据文件可以改进性能。

In document IBM SPSS Statistics (Pldal 45-54)