離散データと連続データの違いは何ですか?
離散的なデータは、特定の値を取ることしかできません。その値は潜在的に無限にあるかもしれませんが、それぞれが明確であり、その間にグレーゾーンはありません。離散データには、リンゴの数のような数値もあれば、赤か青か、男か女か、良いか悪いかのようなカテゴリー的なものもあります。
連続データは、定義された個別の値に限定されず、連続的な範囲の任意の値を占めることができます。任意の2つの連続データ値の間には、無限の数の他の値が存在する可能性があります。連続データは常に基本的に数値である。
一方のタイプの数値データを、他方のタイプの数値データとして扱うことが意味を持つことがあります。例えば、身長は連続的なデータですが、小さな差はあまり気にせず、いくつかの離散的なビンに分類することがよくあります。逆に、米粒、シロアリ、経済の小銭など、ある個別の存在を大量に数える場合、2,000,006と2,000,008を決定的に異なる値とは考えず、近似的な連続体上の近接した点と考えることができます。
また、数値データを「低体重」「普通」「肥満」などのようにカテゴリー的に扱うことも有効です。これは通常、ビン化の一種である。
カテゴリーデータを連続データとして扱うことはあまり意味がない。
データは常に離散的である。ある変数に n
個の値のサンプルが与えられたとき、その変数が取り得る個別の値の最大数は n
個に等しい。以下に引用します。
実際のサンプル空間はすべて離散的であり、観測可能なすべてのランダムな
変数は離散的な分布を持ちます。連続分布は 数学的な構造であり、数学的な取り扱いに適している。 しかし、実際には観測できません。E.J.G. Pitman (1979, p.1).
ある変数のデータは、通常、確率変数から引き出されると仮定されます。 確率変数は、範囲内の任意の2つの異なる点の間で変数が取り得る値が無限に存在する場合、その範囲で連続しています。 例えば、身長、体重、時間などが連続的であると想定されます。 もちろん、これらの変数の測定は、有限の精度であり、ある意味では離散的です。 離散的になります。
順序付けされた(つまり順序的な)変数、順序付けされていない(つまり名目的な)変数、そして二値の離散変数を区別することは有用です。 および二値の離散変数を区別するのに役立ちます。
入門書の中には、連続変数と数値変数を混同しているものがあります。 例えば、コンピュータゲームのスコアは、数字であっても離散的です。
入門書の中には、比率変数と連続変数を混同しているものがあります。カウント変数は比率変数ですが、連続変数ではありません。
実際には、十分に多くの異なる値を取ることができる場合、連続変数として扱われることが多い。
気温は連続しています。23度、23.1度、23.100004度となります。
性別は離散的です。あなたは男性か女性しかいません(いずれにせよ古典的な考え方では)。1、2などの整数で表すことができるもの
多くの統計やデータマイニングのアルゴリズムは、一方のタイプは扱えるが、もう一方のタイプは扱えないので、この違いは重要です。例えば、通常の回帰では、Yは連続でなければなりません。ロジスティック回帰では、Yは離散的です。