1章.アンケート票に対応した、データ入力フォーマットの作成


 データ入力は、何で行ってもいいが、一応Excelなど、スプレッド・シート・ソフトを使うこととしよう。データ入力方式は、1ケースのデータを「1列」に入力するのが便利であるが*、SASで読み込むときには、1行に1ケースのデータを収めるという形式にする。1ケースで、入力したいデータ項目数が256を超える時は、1つのワークシートに収めず、複数のシートに分けることになるが、その方法は後で述べる。
* Excelでは、あるセルにデータを入力してリターン・キーを押すと、アクティブ・セルは同一列の一行下に移動する。データ入力をする時は、したがって、列を単位に、縦に入力する方が便利である。このデータの行・列を変換するには、入力部分全体を選んで(反転させ)コピーを命じたあと、別のシートの適切な場所で、ツールバー・メニューから「編集」→「形式を選択して貼り付け」を選んだ後、「行列を入れ替える」をチェックしてから貼り付けを実行する。

1−1.入力するデータの種類

 アンケート票のデータとして入力するデータ項目(変数)のデータ(変数値)の種類(属性)は、一般に次のようなものがある。
(1)選択肢として指定された数値や文字番号
あなたの性別は? → 1.男  2.女
などのようなものであり、アンケートのほとんどのデータ(変数値)はこれにあたる。選択肢の番号に文字(a.b.c や イ,ロ,ハ など)を使用することもあるだろうが、集計作業を円滑にするにはこれは数値コードに置き換えた方がよい。
(2)実数値:収入や支出などを実額や実数で回答を求めるもの。下の例では「F4」の「年齢」の設問がそれにあたる
(3)文字列:下記のアンケート票例では、問22で、被災した住所を文字で回答を求めている。
この例の場合、それを数値で表す地域コードに置き換えることができれば、その方がよいが、集計の仕方や目的によっては、そのまま文字データとして入力することもある。
 データ(変数値)の属性は以上の通りであるが、データ項目(設問・変数)の性質としては更に次のように分けられる。 (4)サブ・クエスチョン(Sub Question) 特定の対象者にのみ、回答を求めるもので、下の例では問2-1は、通院・往診を受けている対象者にのみ回答を求めている。 (5)多重(複数)回答 選択肢などに対して1つだけの回答を求めるのではなく、「3つまで」とか、「いくつでも」というように回答を求めているもの。

1−2.種類別に設定する入力セル数など

 上記(1)〜(5)のデータ(変数値)を入力するフォーマットのレイアウトは次のように行う。
(1)選択肢番号を入れるもの 「多重回答」でなければ、一般に1設問の回答を1セルに入力することになり、そのセルに入れる値は選択肢番号である。 (2)実数値 「多重回答」でなければ、一般に1設問を1セルに入力することになり、そのセルには実数値をそのまま入力する。下図で(R)を書き入れているものがそれにあたる。 (3)文字列を入れるもの 「多重回答」でなければ、一般に1設問を1セルに入力することになり、そのセルに入れる値は書き込まれた文字列である。下図で(C)を書き入れているものがそれにあたる。なお、文字列はExcelでは256バイトを超えてもよいが、他のアプリケーションで操作する時は超過分は無視される。また、SASでは通常指定では8バイトまでしか認識されない。文字列の中に半角の空白、半角のカンマは入れないこと。これを入れると、SASのデータ読み込み時に不都合が起きる。 (4)サブ・クエスチョン 「多重回答」でなければ1設問を1セルに入力することになる。下図で(S)を書き入れているものがそれにあたる。データ(変数値)の性質により(1)〜(3)に対応する値をセルに入力する。 (5)多重回答 1設問に対し複数のセルにデータ(変数値)を入力することになる。下図で(M)を書き入れているものがそれにあたる。選択肢を選ぶ方式の設問では、「無回答」も1つの選択肢であると考えて、選択肢数+1セルを入力セルにあてる。入力は選ばれた選択肢に対応するセルには「1」(その選択肢に"yes"を回答したとみなす)を、そうでないセルには「0」(その選択肢に"no"を回答したとみなす)を入れる。無回答はその対応セルに「1」を入れる。 「0か1」を入れるのは、SAS の TABULATE 集計をするときに都合がよいからそうするだけであり、論理的な理由によるものではない。なお、Excelのワークシート操作で、かなりの論理演算ができるユーザ、またマクロを組めるユーザは、選択肢番号を入力する方法を採用し入力シートに設定するセル数を節約することもできる。この方法の説明はここでは省略する。なお「0か1」を入力する方法を採用する場合も、「0」は入れずに空白のままにして、後で一括「置換」して空白を「0」にする方が入力時間は短縮できる。

1−3.入力シートのレイアウト例

 阪神・淡路大震災復興公営住宅入居者 生活実態調査の入力シートのレイアウトは下のようになった。左右2段組みで表示しているが、実際は1段であり、それが最終的には行列の入れ替えをして、SAS読み込みデータとなっている
  • IDという設問は、調査票にはないが、回収調査票をナンバリングした数値を最初に入れている。これは、後でデータの入力ミスなどを点検する時など、絶対に必要となる付加情報である。
  • 赤い線は、調査票の頁の区切りを表す。こんな線を入れるだけで、結構入力ミスが防げる。
  • ライトブルーや黄色のセルは、多重回答を表す。データ入力部も色づけしておくどと、上記と同様、カーソル移動の失敗による入力ミスが防げる。
    001〜164までの番号は行番号ということになるが、変数総数が164だということがこれで明確になる。
  • 多重回答の設問は、選択肢数+1のセルをとっているが、その選択肢の内容を表す言葉を3列目に入れている。わざわざ入れなくてもよいが、後で結構分かりやすくなる。

  •  面倒なようだが、この行(列)にはどんなデータが入るか、ワークシートにはっきりと書き込んで置くのが、後々非常に役立つことになる。

    図2.阪神・淡路大震災復興公営住宅入居者 生活実態調査の調査票に則した
    入力フォーマットと欠損値などの入力方法
    入力フォーマット例・Excelファイルのダウンロード