ストレス研究memo
タニカワ久美子のストレス管理研究Vol.157ロバスト
2024年10月18日更新
こんにちは、けんこう総研のタニカワ久美子です。
日本ストレス学術総会に向けた私の研究の続報です。今日は、この研究で使用した検定方法についての備忘録です。
8日のブログから来る11月の日本ストレス学術総会での研究発表の備忘録を書いていきます。
8日のブログ(研究背景)はこちらです。
9日のブログ(研究結果と解釈)はこちらです。
10日のブログ(研究結果と解釈)はこちらです。
13日の検定結果はこちらです。
全貌を一目したい方はどうぞ日本ストレス学術総会11月3日にいらっしゃってください。お待ちしています。
ロバストとは
「ロバスト」とは、「頑健」や「強靭」を意味する言葉です。
データ分析や統計学、システム設計などの分野でよく使われます。外部からの影響や変動に対して安定した結果を保つ能力があることを指しています。
ロバストの意味の具体例
1. 統計学におけるロバスト性
統計分析で「ロバストな手法」とは、データの外れ値や異常値(例:極端に高い数値や低い数値)に対しても、結果が大きく影響されずに信頼性を保てる分析手法のことを言います。例えば、外れ値があっても、その影響を受けにくい平均値の計算方法や分布に頼らない手法が「ロバスト」です。
2. システムや製品設計におけるロバスト性
工業製品やシステム設計において「ロバスト」とは、設計されたシステムが外的な要因(温度変化、負荷変動、ノイズなど)に対しても安定して機能することを意味します。
ロバストの特徴
外れ値に強い
異常なデータや予期しない事態に直面しても、結果やパフォーマンスが大きく変わらない。
安定性が高い
複雑な環境や条件が変化しても、安定した結果や性能を発揮する。
再サンプリング手法のブーストラップ法
ブートストラップ法とは、データが少ない場合に、そのデータの信頼性を高めるための再サンプリング手法です。
例えば、
データが10人分しかないとします。このデータは少ないため、そのままでは結論を出すのが難しい場合があります。そこで、ブートストラップ法を使うと、データを何度も再利用して、より多くのサンプルを作り出すことができます。
具体的には、最初の10人のデータを何度もランダムに選び直し(重複を許して選ぶ)、新しい「仮のデータセット」をたくさん作ります。そして、そのデータセットを使って分析を繰り返し、平均的な結果やデータのバラツキを評価します。これにより、サンプルが少ない場合でも統計的に安定した結果を得られる可能性が高まります。
重要なポイントは、ブートストラップ法は元のデータを何度も再利用して、データが少ないことによる偏りを補正し、結果の信頼性を高めるための手法だということです。
ブートストラップ法についての重要なポイントは、「サンプルサイズが小さい」場合でも**データの信頼性を高めるための手法**であることです。初心者の方にも理解しやすいように、順を追って説明します。
なぜブートストラップ法では、1000回も繰り返すのか?
確かに「データをランダムに並べ替えても、合計や平均は同じでは?」と感じるかもしれません。
けれども、ブートストラップ法が行うのは、ただランダムに並べ替えるだけではなく、重複を許してランダムに「再サンプリング」を行うことです。
この再サンプリングをたくさん繰り返すことで、サンプルが持つ「データのばらつき」を評価し、結果にどれだけの不確実性があるのかを知ることができるのです。
ブートストラップ法の初心者向け説明
1. サンプルサイズが少ないと、不確かと判断される
10名のデータがあった場合、たまたまその10名のデータが全体の「本当の平均」を正確に反映しているとは限りません。データが少ないと、平均に大きく影響を与える可能性があります。そのため、そのデータが全体を代表しているかどうか不確かです。
2. だから、再サンプリングで新しいデータセットをたくさん作る
ブートストラップ法では、少数のデータしかない場合、ランダムに少数のデータをを再サンプリング(組み換え)しま*。重要なのは、重複を許す点です。つまり、ある人が2回、3回選ばれることもあります。これを1つの新しい「仮のデータセット」とします。
3. 複数回の再サンプリングを行う
この再サンプリングを何度も繰り返すことで、異なるデータセットをたくさん作り出すことができます。それぞれのサンプリング結果で、平均や分散を計算します。
4. 結果のばらつきや信頼性を評価する
1000回も再サンプリングを行うことで、「平均値がどの程度の範囲に分布しているか」がわかります。
つまり、データセットを再サンプリングするたびに平均値や分散値が少しずつ変わります。その変化の幅や傾向を調べることで、元のデータの信頼性や安定性を評価できるのです。
平均値の変化
毎回少し異なるデータセットから平均値を計算するため、わずかに異なる平均値が出ます。
信頼区間の計算
1000回の再サンプリングから得た結果を基に、信頼区間(例えば「この範囲に本当の平均が95%の確率で存在する」など)を算出できます。
簡単な例で考えてみましょう!
60, 70, 65, 75, 80, 85, 90, 95, 100, 105 といった10個の数字を持っているとします。
この10個の数字の平均は85です。ここで、ブートストラップ法を使って、何度もサンプリングします(重複を許すので、同じ数字が何度も選ばれることがあります)。
– 1回目のサンプリング:70, 70, 65, 100, 85, 80, 90, 105, 75, 75 → 平均:81.5
– 2回目のサンプリング:60, 85, 95, 90, 90, 105, 85, 80, 75, 65 → 平均:84
– 3回目のサンプリング:90, 105, 105, 100, 90, 75, 85, 65, 60, 65 → 平均:85
このように何度も再サンプリングを繰り返すことで、少しずつ異なる結果が出てきます。これをたくさん繰り返すと、結果のばらつき具合がわかり、元のデータの信頼度を評価することができるのです。
<まとめ
再サンプリングは、サンプルサイズが小さくても、元のデータセットから多様なサンプルを生成し、統計的な結果のばらつきを確認するための手法です。
1000回のブートストラップを行うことで、元のサンプルがどれだけ信頼性があるか、どの範囲に「本当の平均値」が存在するかを評価できます。
これは、データが少ない場合でも信頼できる結論を引き出す助けになります。
この手法を使うことで、サンプルサイズが少なくても、統計的な不確実性を最小化し、データの信頼性を高められます。