• Nem Talált Eredményt

文本向导

In document IBM SPSS Statistics (Pldal 45-54)

文本向导可以读取多种格式的文本数据文件:

„ 制表符分隔文件

„ 空格分隔文件

„ 逗号分隔文件

„ 固定字段格式的文件

对于分隔的文件,也可以将其他字符指定为值之间的分隔符,并且可以指定多个分隔符。

读取文本数据文件

E 从菜单中选择:

文件 > 读取文本数据...

E 在“打开数据”对话框中选择文本文件。

E 按照文本向导中的步骤来定义如何读取数据文件。

文本向导:第 1 步

图片 3-13

文本向导:第 1 步

文本文件显示在一个预览窗口中。可以应用预定义的格式(以前在文本向导中保存 的),或者按照文本向导中的步骤来指定如何读取数据。

文本向导:第 2 步

图片 3-14

文本向导:第 2 步

此步骤提供变量的信息。变量类似于数据库中的字段。例如,问卷中的每一项都是一 个变量。

变量是如何排列的?要正确读取您的数据,文本向导需要知道如何确定一个变量的数据

值结束且下一个变量的数据值开始的位置。变量的安排定义用于将一个变量与另一个 变量区分开来的方法。

„ 分隔。使用空格、逗号、制表符和其他字符分隔变量。变量为每个个案按照同样的顺 序进行记录,但不一定在相同的列位置。

„ 固定宽度。对于数据文件中的每个个案,每个变量都记录在同一个记录(行)上的相

同列位置。变量之间不需要分隔符。实际上,在许多由计算机程序生成的文本数 据文件中,数据值可能显示为连在一起,互相之间甚至没有用空格分隔开。列位 置确定要读取的是哪个变量。

变量名称是否包括在文件的顶部?如果数据文件的第一行包含每个变量的描述性标签,则

可以将这些标签用作变量名。不符合变量命名规则的值会转换为有效的变量名。

文本向导:第 3 步(分隔的文件)

图片 3-15

文本向导:第 3 步(对于分隔的文件)

这一步提供有关个案的信息。个案类似于数据库中的记录。例如,问卷的每个回答 者都是一个个案。

第一个数据个案从哪个行号开始?(F)表示包含数据值的数据文件的第一行。如果数据文

件的顶行包含描述性标签或者包含不代表数据值的其他文本,这就不是第 1 行。

如何表示个案?控制文本向导如何确定每个个案结束、下一个个案开始的位置。

„ 每一行表示一个个案。每一行仅包含一个个案。每个个案通常包含在一个单行中,即

使这一行对于有大量变量的数据文件会很长。如果不是所有的行都包含相同数量的 数据值,则每个个案的变量数由数据值的个数最多的行决定。对于数据值较少的 个案,多出来的变量指定为缺失值。

„ 变量的特定编号表示一个个案。每个实例的指定变量数告诉文本向导在哪里停止读取

某个个案,并开始读取下一个个案。同一行可以包含多个个案,个案可以在一行的 中间开始,并在下一行继续。文本向导按照读取的值的数量确定每个个案的结束,

不管有多少行。每个个案必须包含所有变量的数据值(或者由分隔符表示的缺失 值),否则数据文件将无法正确读取。

您要导入多少个个案?您可以导入数据文件中的所有个案,可以导入前 n 个个案(n 是您 指定的数字),也可以随机导入指定百分比的样本。因为随机抽样程序对每个个案都作 出独立的假随机决策,所以选定的个案的百分比可能只与指定的百分比相近。数据文件 中的个案越多,选定个案的百分比与指定百分比就越接近。

文本向导:第 3 步(固定宽度的文件)

图片 3-16

文本向导:第 3 步(对于固定宽度的文件)

这一步提供有关个案的信息。个案类似于数据库中的记录。例如,问卷中的每个回答 者都是一个个案。

第一个数据个案从哪个行号开始?(F)表示包含数据值的数据文件的第一行。如果数据文

件的顶行包含描述性标签或者包含不代表数据值的其他文本,这就不是第 1 行。

多少行表示一个个案?(L)控制文本向导如何确定每个个案结束、下一个个案开始的位

置。每个变量由其个案内的行数及其列位置定义。需要指定每个个案的行数,才能正 确读取数据。

您要导入多少个个案?您可以导入数据文件中的所有个案,可以导入前 n 个个案(n 是您

指定的数字),也可以随机导入指定百分比的样本。因为随机抽样程序对每个个案都作 出独立的假随机决策,所以选定的个案的百分比可能只与指定的百分比相近。数据文件 中的个案越多,选定个案的百分比与指定百分比就越接近。

文本向导:第 4 步(分隔的文件)

图片 3-17

文本向导:第 4 步(对于分隔的文件)

此步骤显示文本向导对于如何读取数据文件的最佳猜测,并使您可以修改文本向导 从数据文件读取变量的方式。

变量之间有哪些分隔符?表示隔开数据的值的字符或符号。可以选择空格、逗号、分号、

制表符或其他字符的任意组合。中间没有插入数据值的多个连续的分隔符被视为缺失值。

文本限定符是什么?用于包括包含分隔符字符的值的字符。例如,如果逗号是分隔符,

包含逗号的值将读取错误,除非有文本限定符封装了该值,使值中的逗号不会被当作值 之间的分隔符。从 Excel 导出的 CSV 格式的数据文件使用双引号 (“) 用作文本限定 符。文本限定符出现在值的开头和结尾,封装了整个值。

文本向导:第 4 步(固定宽度的文件)

图片 3-18

文本向导:第 4 步(对于固定宽度的文件)

此步骤显示文本向导对于如何读取数据文件的最佳猜测,并使您可以修改文本向导从 数据文件读取变量的方式。预览窗口中的垂直线表示文本向导当前认为每个变量在文 件中开始的位置。

必要时插入、移动和删除变量换行符以分隔变量。如果每个个案使用多行,则数据将 按每个个案一行的方式显示,后续行附加在行的末尾。

注意:

对于计算机生成的数据文件,其所生成的一连串连续的数据值没有插入空格或其他明显 特征,这样就很难确定每个变量开始的位置。这样的数据文件通常依赖于数据定义文 件或其他一些指定每个变量的行和列位置的书面说明。

文本向导:第 5 步

图片 3-19

文本向导:第 5 步

此步骤控制文本向导用于读取每个变量的变量名和数据格式,并制最终数据文件中 将包括哪些变量。

变量名称。可以用自己的变量名覆盖缺省的变量名。如果从数据文件读取变量名,文

本向导将自动修改不符合变量命名规则的变量名。在预览窗口中选择一个变量,然后 输入变量名。

数据格式。在预览窗口选择一个变量,然后从下拉列表选择一种格式。按住 Shift 单击

可以选择多个相邻的变量,或者按住 Ctrl 单击可以选择多个不相邻的变量。

缺省格式由前 250 行中的数据值确定。如果在前 250 行中有多种格式(例如,数值、日 期、字符串等),则缺省格式设置为字符串。

文本向导格式选项

用文本向导读取变量的格式选项包括:

不导入。省略在导入的数据文件中选择的变量。

数值。有效值包括数字、前导加号或减号以及小数指示符。

字符串。有效值包括几乎任何键盘字符和嵌入的空格。对于分隔文件,可以指定值的字 符数量,最多可以指定为 32,767 个。缺省情况下,文本向导将字符数量设置为选定 的变量在文件前 250 行中遇到过的最长的字符串值。对于固定宽度的文件,字符串 值的字符的数量由步骤 4 中的变量换行符的位置定义。

日期/时间。有效值包括常用的日期格式 dd-mm-yyyy、mm/dd/yyyy、dd.mm.yyyy、

yyyy/mm/dd、hh:mm:ss 以及其他各种日期和时间格式。月份可以用数字、罗马数字或三 个字母的缩写形式表示,也可以使用全拼的格式。从列表中选择一个日期格式。

美元。有效值为数字,前导美元符号是可选的,作为千位分隔符的逗号也是可选的。

逗号。有效值包括将句点用作小数指示符和将逗号用作千位分隔符的数字。

点。有效值包括将逗号用作小数指示符和将句点用作千位分隔符的数字。

注意:包含对选定的格式无效的字符的值将视为缺失值。包含任何指定分隔符的值将 视为多个值。

文本向导:第 6 步

图片 3-20

文本向导:第 6 步

这是文本向导的最后一步。可以将您的规格保存在文件中,以便在导入类似的文本数据 文件时使用。也可以将文本向导生成的语法粘贴到语法窗口。然后就可以定制和/或保 存语法,以便用于其他对话或生产作业中。

在本地缓存数据. 数据高速缓存是数据文件的完整副本,它存储在临时磁盘空间中。高 速缓存数据文件可以改进性能。

In document IBM SPSS Statistics (Pldal 45-54)