日本には「平均病」がまん延しています。
学生時代はテストの点数が平均点より上か下かで一喜一憂し、社会人になると自分の年収が平均年収を超えることを目指し、副業に挑戦される方もいます。そして、老後は、平均寿命を超えるべく運動し、食材にこだわり始めます。
このように平均値を常に意識しながら、平均値を少しでも上回るために努力し、平均値を超えるとなぜだか安心してしまうという民族性が日本人には少なからずあります。
他にも『消費税が8%から10%に上がるとなれば、平均的な家庭では○○円支出が増える』といったニュースを目にした方も多いのではないでしょうか。
こうしたニュースを見て、「ほうほう、消費税が上がると年間○○円も支出が上がるのか。よし、節約しよう!」といった感じで節約に精を出し始める家庭がどれほどあったことでしょうか。
このように日本人が愛してやまない「平均値」について、その数値を正しく読み取るために必要な視点を紹介していくことにします。
意味のある平均値と意味のない平均値
さて、平均値には意味のあるものと意味のないものがあることをご存じでしょうか。
平均値に関する概念を知るためによく用いられる質問があるので紹介します。
質問1.
血液型を調査して、「A型」を1、「B型」を2、「O型」を3、「AB型」を4としてデータ入力を行った。この数値データの平均値を計算したところ2.1となった。この平均値にどのような意味があるか。
さて、この質問1.で問われた血液型の平均値「2.1」には意味があるでしょうか。ないでしょうか。
ぜひ考えてみてください。
続いて、もう一つ平均値の意味に関する質問をします。
質問2.
質問2.ある調査の質問に「はい」、「いいえ」で回答してもらい、「はい」を 1、「いいえ」を 0 として データ入力を行った。この数値データの平均値を計算したところ 0.35 となった。この平均値にどのような意味があるか。
さてさて、この質問2. で問われた回答を平均値で表した「0.35」には意味があるのでしょうか。ないのでしょうか。
こちらもぜひ考えてみてください。
ということで、質問です。
質問1と質問2のどちらが意味のある平均値でしょうか。
どちらかは一方には意味があり、他方の平均値には意味がありません。
正解は…
質問2の平均値には意味がある。
です。つまり、質問1の平均値には意味がありません。
以下で、その理由について解説します。
平均値に意味があるかないかの見分け方
まずこちらの2つの質問は、京都大学大学院医学研究科臨床統計家育成コースの入試問題から引用してきた問題になります。
そして、質問1の血液型の平均値が意味のない根拠は、以下の通りです。
血液型は電話番号と同じで名義尺度(単に区別するために用いる尺度)の変数であり、番号(数値)の付け方によって平均値は変わるため、平均値が「2.1」であるという情報は、血液型を説明する要約となっていません。そのため、この平均値に意味はありません。
続いて、質問2のアンケート結果に対する平均値が意味を持つ根拠を示します。
2値データの場合、数値を当てはめて平均値を求めることで、各項目の割合が把握できます。特に、0と1でコーディングした場合、平均値は1を割り振った項目の割合を示すため、平均値が「0.35」であることは「はい」と答えた割合が35%であることを意味していることになります。
さて、この質問とその答えから何が分かったでしょうか。
ここで、平均値を扱う上で学んで欲しい考え方は、私たちが日常的に目にする平均値というデータのすべてに意味があるわけではないということです。
意味のない平均値を見て、右往左往する場面に出くわすこともあり、平均値の意味があるのか、ないのかを見抜く力は、平均値を扱う上で重要な能力であると言えます。
さらに、意味のある平均値であったとしても、その数字にどんな意味があるのかをしっかりと考える必要があります。
続いて、もっと身近にある平均値の問題点を具体的な事例を踏まえて紹介してみたいと思います。
日常に潜む平均値の罠
平均年収や平均寿命という数値を参考にすることは危険が潜んでいるので注意が必要です。
この話は別記事でも指摘しています。こちらもぜひ読んでみてください。
平均年収に潜む問題点
平均的な年収で、平均的な暮らしはできるのか?ここでは平均値を使ったレビュー(口コミ)を参考にするうえで知っておくべき視点について紹介します。
食べログの評価に潜む問題点
食べログの評価については、一時大きな話題となりました。
年会費を払えば評価を上げるとか上げないとか。
この年会費問題については多くの方が検証されているので、ここでの言及はしません。
ここで伝えたいことは、そもそもの食べログの評価方法に潜む問題についてです。
食べログでは以下のような星の数で店の評価を行っており、利用者はこの数字を見て店の良し悪しを判断しようとしています。
画像引用:https://tabelog.com/
だからこそ年会費の有無でこの星評価が変わることを指摘したツイートが大きな波紋を呼んだわけですが、それ以前にこの評価方法には問題が潜んでいます。
食べログの評価点に関しては、HP内で確認でき、明確な計算アルゴリズムについては「非公開」としながらも、次のような評価をしていることを示しています。
画像引用:https://tabelog.com/
つまり、食べログでは
- ユーザーの影響度=食べログで投稿を多くするユーザーの評価
を重視しているというわけです。
これは、食べログによく書き込んでいるユーザーの評価点は重く受け止め、大きく評価点に反映させていくけど、食べログにあまり書き込みしないユーザーの評価点はあまり評価しません、という仕組みになっているわけです。
このようなにデータに対して重みを付け、平均値を提示することは食べログ側の意図が少なからずく結果に反映されていると考えるべきではないでしょうか。
同様の問題は他のサイトでも起こっています。
Amazonの評価に潜む問題点
食べログと同じように、レビュー評価を平均値で示していないことをAmazonも認めています。
Amazonについては、カスタマーレビューを8000万件以上も解析したデータが公開され、ユーザーがどのように星をつけているのか、その傾向が明らかになっています。
ジャンル別の星の数の平均値も同記事内で解析・公表されています。
星の数が1~5つで評価をすることから評価の平均値は「3」であるように錯覚してしまいます。
しかし、この解析結果を見る限り「Digital Music(デジタルミュージック)」では評価平均が「4.6」に迫る値であることが分かります。
また、最も評価平均が低い「Cell Phone and Accessories(携帯電話とアクセサリー)」では「3.8」となっていることにも注意が必要で、仮に同じ評価「4.0」であったとしてもジャンルによってその評価が分かれることになります。
映画.comや価格.comの評価
こうした視点で映画.comや価格.comのレビューを見てみると、各個人の記した星の数の平均値が全体の評価値になっていないことが分かります。
こちらは、映画.com(https://eiga.com/)内で確認されたある映画の評価です。
実際9人のユーザーが出している星評価を平均すると「2.0」になるのに対し、表示されている全体の評価平均は「2.6」となっています。
このようにウェブ上で利用できるほとんどすべてのサイトでは、そのレビューが一見そのサービスを利用した人すべての評価のような表記をしていますが、実際は一部の評価に重みを付け、平均値として結果を表示しています。
その平均値、信用できますか?
平均値の求め方は小学生でも知っている公式なわけですが、その使い方や扱い方はなかなか難しいものがあります。
一口に平均値といっても、実は他にも沢山の計算方法で導く平均値が存在しており、場面場面で使う平均値の種類を使い分ける必要があります。
平均値には意味のあるものとないものがある。
目の前の平均値は本当に平均値なのか。
こうした視点を持った上で、その意味を正しく理解し、行動につなげられるようになれば 「平均大好き国日本」でこれからの時代も楽しく生きていけるかもしれません。
当サイトでは様々な日常現象を数学的な視点から読み解いています。
指数関数的に増加はどれほど恐ろしいのか
ドラえもんから学ぶ!指数関数の恐ろしさ新型コロナウィルスで話題の「指数関数的に増加」することの恐怖についても解説していますので、こちらもぜひ読んでみてください。