\r\n\r\n
分類・集計
分類と集計は、どちらも統計学におけるデータの要約方法であり、そこから推論を導き出すために、データをさらに分析する方法である。今回は、データを要約する2つの方法について詳しく説明し、データの分類と集計を区別する。
データ分類とは何ですか?
統計学では、データセット中の属性を用いて、データをクラスやグループに分けることを分類といいます。例えば、あるクラスの数学のテストの点数を、性別を使って2つのグループに分けることができる。この分類は、生データを統計解析に適した形に圧縮し、複雑なデータパターンを排除して、生データの核となる表現を際立たせる。分類されると、比較や推論が可能になる。また、分類されたデータは、関係性や相関性のあるデータパターンを提供することができる。
生データは、地理的属性、年代的属性、質的属性、量的属性の4つの主要な特徴を用いて分類される。世界中の労働者の所得を分析する目的で収集されたデータセットを考えてみましょう。例えば、平均的な労働者の所得を、地理的条件を基準として、労働者の出身国別に分類することができる。また、年齢などの時間的な属性によって労働者を分類することも可能である。また、各労働者の職業は分類の質的基礎となり、賃金範囲は分類の量的基礎として用いることができる。
データシートとは何ですか?
統計学では、データを系統的に行と列に並べて要約する方法を表形式という。集計の目的は、調査の実施、比較、データの誤りや漏れの発見、一般的な傾向の調査、生データの簡素化、スペースの経済的利用、将来の参考資料としての利用などである。
一般に、統計表は次のような構成要素を持っている。
コンポーネント | 商品説明 |
タイトル | タイトルは、表に含まれる内容を短く明確に説明するものです |
フォーム番号 | 複数のテーブルが含まれる場合、識別しやすいようにテーブルに番号が振られます。 |
日付 | テーブルが作成された日付を指定する。 |
行名 | テーブルの各行には短い名前が付けられており、通常は最初の列で提供されます。このような名前は "スタブ" と呼ばれ、列は "スタブ列" と呼ばれます |
コラムの見出し | 各列に含まれる数字の性質を説明するために、各列には見出しが付けられており、これらの名称は「ヘディング」または「キャプション」と呼ばれている。 |
テーブルの本体 | データは本体に入力され、各データ項目が容易に識別できるように作成する必要がある。値は通常、昇順または降順に並べられる。 |
測定単位 | 表本体の数値の単位を示すこと。 |
ソース | これらの表には、表本体の下にデータの一次ソースと二次ソースを記載すること。 |
脚注・参考文献 | フォームの内容を明確にするための追加事項。 |
用途表により、大きく3つに分類されます。
分類と集計の違いは何ですか?
-分類では、すべての値に共通するデータ属性に従って、データを分離し、グループ化する。
-表で、特性/属性または指標に基づいてデータを列と行に並べる。