確率計算10.1 データ分析手法
基本的なデータ分析手法です。
孫子の兵法、「彼を知り、己を知れば、百戦して危うからず」
つまり、「情報を集めろ」という事・・・敵の情報も、そして自分自身の事も、調べつくした上で、「勝てる相手とだけ戦え」と言っています。
これは、オペレーション・リサーチの考え方で、現在のビジネスにも通用する思想です。もちろんパチンコにも通用します。
データの収集
データを集める目的はいろいろあります。
・反省のために使う
・攻略のために使う
・不正を見抜くために使う
などが考えられます。それぞれの目的に応じて集めるデータは違います。
精度の高いデータ分析を行うには、(恣意的でない)ランダムなデータの抽出であることが必須です。この前提が保証されれば、1000個程度のデータで、ほぼ母集団のデータが類推できます。
選挙の出口調査や、世論調査などは、新聞社や放送局が抽出方法を必ず公表し、ランダムな抽出を行ったことを示してます。このようなランダムな抽出が保証されているから、わずか1000個強のデータで、一億個以上の母集団の分布がほぼ完全に類推できます。
個人で集めるデータですから、1000個は無理としても、100個程度あればランダム抽出が保証されれば、多少の誤差はあってもある程度の精度の分析ができます。
数個程度のデータをもとにした、実践上100%の類のデータや、一日30回程度の当たりの回転数の報告などは、そこからは、何にも分かりませんので、そういった報告は、むしろ間違った判断を行うもとですので、自分は無視してます。
データの検定
データは集めただけでは無意味です、分かりやすい形で整理して、統計的に分析していくことで生きた使い方ができます。
基本的には、
・平均値に関するものはt検定
・分布に関するものはχ二乗検定
で処理します。
確率pの事象がn回目に起こる確率P(n)=(1-p)^(n-1)*pです。即ち、(n-1)回連続して失敗し、n回目に成功する確率です。
平均値はΣn*P(n)(n=1~∞)=1/p
標準偏差^2=Σn^2*P(n)(n=1~∞)-平均値^2=1/p^2-1/p
標準偏差/平均値=√(1-p)
トータルm回の試行で、s回成功した時の、T=ABS((平均値-m/s)/(標準偏差*√m))で
TDIST(T,m-1,TRUE)を求めれば、確率通りに起きているかどうか検定できます。
TDISTは統計値T、自由度m-1のt値を求めるEXCEL関数で、ABSは絶対値です。両方向分布ですので、T=0(観測値と確率が完全に一致した時)で最大値0.5となります。
危険度5%(即ち20回に1回の誤り)で検定する場合はこの値が、0.025以下だと確率通りに起きてないと言えます。
危険度1%(即ち100回に1回の誤り)で検定する場合はこの値が、0.005以下だと確率通りに起きてないと言えます。
例えば、あるセグが潜伏か通常かどうか分からないとき、高確率と通常確率でこの値を計算すれば決定できます。5%の危険度で行う場合10個程度のデータが必要です。
P(n)のnを1から順に計算した列と、実際に起きた列のCHITESTを計算すれば、分布の検定ができます。
また、離散値の複数パラメータの重回帰分析には数量化Ⅰ類、判別分析には数量化Ⅱ類を使用してます。
数量化Ⅰ類は大量のデータの中から規則を導き出す、データマイニングで使われていいる方法です。資本金とか色々のパラメータより、倒産する銀行の条件を出したものを見たことがあります。
但し、やみくもにデータを分析しても有効な結論は得られませんので、予めある程度パラメータを予測して、そのデータ収集して、分析していった方が効果的です。
« 確率計算9.2 波とオカルト | トップページ | 天童よしみの平安浪漫 »
コメント