1章.アンケート票に対応した、データ入力フォーマットの作成
データ入力は、何で行ってもいいが、一応Excelなど、スプレッド・シート・ソフトを使うこととしよう。データ入力方式は、1ケースのデータを「1列」に入力するのが便利であるが*、SASで読み込むときには、1行に1ケースのデータを収めるという形式にする。1ケースで、入力したいデータ項目数が256を超える時は、1つのワークシートに収めず、複数のシートに分けることになるが、その方法は後で述べる。
* Excelでは、あるセルにデータを入力してリターン・キーを押すと、アクティブ・セルは同一列の一行下に移動する。データ入力をする時は、したがって、列を単位に、縦に入力する方が便利である。このデータの行・列を変換するには、入力部分全体を選んで(反転させ)コピーを命じたあと、別のシートの適切な場所で、ツールバー・メニューから「編集」→「形式を選択して貼り付け」を選んだ後、「行列を入れ替える」をチェックしてから貼り付けを実行する。
1−1.入力するデータの種類
アンケート票のデータとして入力するデータ項目(変数)のデータ(変数値)の種類(属性)は、一般に次のようなものがある。
(1)選択肢として指定された数値や文字番号
あなたの性別は? → 1.男 2.女
などのようなものであり、アンケートのほとんどのデータ(変数値)はこれにあたる。選択肢の番号に文字(a.b.c や イ,ロ,ハ など)を使用することもあるだろうが、集計作業を円滑にするにはこれは数値コードに置き換えた方がよい。
(2)実数値:収入や支出などを実額や実数で回答を求めるもの。下の例では「F4」の「年齢」の設問がそれにあたる
(3)文字列:下記のアンケート票例では、問22で、被災した住所を文字で回答を求めている。
この例の場合、それを数値で表す地域コードに置き換えることができれば、その方がよいが、集計の仕方や目的によっては、そのまま文字データとして入力することもある。
データ(変数値)の属性は以上の通りであるが、データ項目(設問・変数)の性質としては更に次のように分けられる。
(4)サブ・クエスチョン(Sub Question)
特定の対象者にのみ、回答を求めるもので、下の例では問2-1は、通院・往診を受けている対象者にのみ回答を求めている。
(5)多重(複数)回答
選択肢などに対して1つだけの回答を求めるのではなく、「3つまで」とか、「いくつでも」というように回答を求めているもの。
1−2.種類別に設定する入力セル数など
上記(1)〜(5)のデータ(変数値)を入力するフォーマットのレイアウトは次のように行う。
(1)選択肢番号を入れるもの
「多重回答」でなければ、一般に1設問の回答を1セルに入力することになり、そのセルに入れる値は選択肢番号である。
(2)実数値
「多重回答」でなければ、一般に1設問を1セルに入力することになり、そのセルには実数値をそのまま入力する。下図で(R)を書き入れているものがそれにあたる。
(3)文字列を入れるもの
「多重回答」でなければ、一般に1設問を1セルに入力することになり、そのセルに入れる値は書き込まれた文字列である。下図で(C)を書き入れているものがそれにあたる。なお、文字列はExcelでは256バイトを超えてもよいが、他のアプリケーションで操作する時は超過分は無視される。また、SASでは通常指定では8バイトまでしか認識されない。文字列の中に半角の空白、半角のカンマは入れないこと。これを入れると、SASのデータ読み込み時に不都合が起きる。
(4)サブ・クエスチョン
「多重回答」でなければ1設問を1セルに入力することになる。下図で(S)を書き入れているものがそれにあたる。データ(変数値)の性質により(1)〜(3)に対応する値をセルに入力する。
(5)多重回答
1設問に対し複数のセルにデータ(変数値)を入力することになる。下図で(M)を書き入れているものがそれにあたる。選択肢を選ぶ方式の設問では、「無回答」も1つの選択肢であると考えて、選択肢数+1セルを入力セルにあてる。入力は選ばれた選択肢に対応するセルには「1」(その選択肢に"yes"を回答したとみなす)を、そうでないセルには「0」(その選択肢に"no"を回答したとみなす)を入れる。無回答はその対応セルに「1」を入れる。
「0か1」を入れるのは、SAS の TABULATE 集計をするときに都合がよいからそうするだけであり、論理的な理由によるものではない。なお、Excelのワークシート操作で、かなりの論理演算ができるユーザ、またマクロを組めるユーザは、選択肢番号を入力する方法を採用し入力シートに設定するセル数を節約することもできる。この方法の説明はここでは省略する。なお「0か1」を入力する方法を採用する場合も、「0」は入れずに空白のままにして、後で一括「置換」して空白を「0」にする方が入力時間は短縮できる。
1−3.入力シートのレイアウト例
阪神・淡路大震災復興公営住宅入居者 生活実態調査の入力シートのレイアウトは下のようになった。左右2段組みで表示しているが、実際は1段であり、それが最終的には行列の入れ替えをして、SAS読み込みデータとなっている
IDという設問は、調査票にはないが、回収調査票をナンバリングした数値を最初に入れている。これは、後でデータの入力ミスなどを点検する時など、絶対に必要となる付加情報である。
赤い線は、調査票の頁の区切りを表す。こんな線を入れるだけで、結構入力ミスが防げる。
ライトブルーや黄色のセルは、多重回答を表す。データ入力部も色づけしておくどと、上記と同様、カーソル移動の失敗による入力ミスが防げる。
001〜164までの番号は行番号ということになるが、変数総数が164だということがこれで明確になる。
多重回答の設問は、選択肢数+1のセルをとっているが、その選択肢の内容を表す言葉を3列目に入れている。わざわざ入れなくてもよいが、後で結構分かりやすくなる。
面倒なようだが、この行(列)にはどんなデータが入るか、ワークシートにはっきりと書き込んで置くのが、後々非常に役立つことになる。
図2.阪神・淡路大震災復興公営住宅入居者 生活実態調査の調査票に則した
入力フォーマットと欠損値などの入力方法