スターレーティング

まえがき

最近、スターレーティングについて扱う機会があったため、その話。

スターレーティングとは

評価の値を☆によって示すもの。非常に様々な領域で使われる、非常に一般的なものだ。

一般的には1〜5の値で示される。

スターレーティングの問題点

意味の不明瞭さだ。

私はAmazonのものについては詳しいので、Amazonによる位置づけを説明しよう。

Amazonでは1〜3が低評価、4〜5を高評価として扱う。意味としては

値	意味
1	極めて悪い。重大な問題がある
2	悪い。問題がある
3	良くない。問題があるわけではないが、良いところがない
4	良い。良好に機能し、品質にも問題ない
5	非常に良い。称賛すべきものである

となる。

なお、質問項目に関しては、この基準で評価不可能な値を問われることがあり、意味としての一貫性が保たれていない。

また、YouTubeの評価は選択後に理由を選択できるため、意味を確認できる。これは非常にわかりやすい。

値	意味
1	嫌悪感を感じる
2	不快
3	凡庸、期待外れ
4	楽しい、刺激になる

私はYouTubeのスターレーティングで5を選択したことがないため、5は不明である。

おおよそ3は「凡庸であり、良くない」が一般的な表現であるようだが、それを誰もが知っているとは言い難く、そしてそれが共通認識になっているとすら言い難い。 3を凡庸だとするのであれば、特段の問題がなければ4となる、というより、5は称賛の値であり、3は期待はずれであるという評価であるから、ほとんどの場合、4をつける以外ないということになる。だが、すべてのスターレーティングをつける場面で、サービス側はそのような意図であるのかは不明である。そして、それはほとんどの場合、ユーザー側に判断する方法がないという意味だ。

現実には、そもそもレーティングの意味自体がまともに理解されていないと思われる。よくある、「☆1もつけたくない」というのがそれだ。この発言は、「☆を与える」という感覚が前提になっているが、実際は単純に均一だとすれば☆1は0〜20点ということになる。つまり、☆1をつけるということは0点をつけるのとほぼ同じ意味なのだが、それすら伝わっていないのだ。ちゃんと理解しているのであれば、☆4のカバー範囲が広いため、両端にある☆1や☆5はより0点寄り/100点寄りであるという認識になるはずだが、そこからはほど遠い。

意味不明瞭は単に意図が伝わらないというだけでなく、ユーザー側がつけたスターに対して、ユーザーの意図ズレが発生し、集約したときに適切な評価にならないという問題もある。

結局、スターレーティングというのは普及しているにもかかわらず、その意図する機能が根本的に果たされる構造になっていない。

より良い代替案

Atlassianは同様に5段階評価だが、顔文字で評価するようになっている。正確なところは覚えていないが、だいたい

☹️🫤😐🙂😀

という感じだ。

真顔を「良好な評価」とする人は少ないだろうから、少なくともスターレーティングよりは解釈のブレは少ないだろう。

そもそもスターレーティングが求められる理由を考えると、評価をシンボリックに表現すること、そして集計可能な値にすることだろう。本質的にスターレーティングは評価の値であり、そのまま1〜5の値に換算できる。実際に平均値として換算して計算した値を提示したりするのだが、この場合は「1の意味」がより問題になる。

★☆☆☆☆が0点であるというのは理解できたとしても、「レート1.3とは100点満点にして7.5点である」と解釈するのは非常に困難だ。

スターレーティングを1〜5に換算するのは人間の直感に著しく反していて、それが0〜5ならまだ分かる、になってしまう。これは、値をシンボリックに表現すること自体失敗していると言える。

また、上の計算は1.0を0、5.0を100として計算したが、100点換算にする場合スターレーティングはレンジを持っていると解釈するのが正しく、解像度の違いから算出できないと考えるべきだ。

出発点からそもそも間違っているし、集計することを前提としたスコアであれば明らかにもっと適切な方法がある。仮に集計部分は割り切って、ユーザーの送信にフォーカスするとしても解釈がブレることが問題なわけだから、こうした方法をとるならば、ユーザーに問いかける部分とユーザーに提示する部分は全く異なったものにしたほうが合理的だろう。

私が考えるに、次のような提示により選択させるのが良いのではないか。

🤩 素晴らしい
😀 良い
🫤 微妙
☹️ 悪い
🤬 最悪

Unicodeの顔文字のバリエーションで振れ幅を大きくして、感情的なテキストを添えれば、ブレは大幅に抑制できるはずだ。

結局のところ設問としては0〜4だろうが、1〜5だろうが、内部的に5段階の数値に換算できれば良いので、聞き方はなんでも良い。スターレーティングに縛られる必要は全くない。

なお、提示するときに100点満点で提示したいのであれば、5段階の最大値を1.0とすれば簡単になる。最小値が0.0なのか0.2なのかはさじ加減だ。

本当は、これを平均に用いるべきではないはずのものではある。

より優れた方法

こういうことをしっかりと考えて作られているものといえばSteamだ。 Valveは本当にきちんと向き合ってやっている。

Steamの場合、評価は「オススメする」「オススメしない」の2つしかない。「良い」「悪い」ではなく、「推薦できるか否か」という選択肢になっていることで、ユーザーの判断軸がより具体的かつ明確になっている。ユーザーの想定を揃えるのは非常に大切なことだ。

ユーザーへの提示はこの比率を元に言葉で表現されている。

「圧倒的に好評」「非常に好評」「好評」「やや好評」「賛否両論」「やや不評」「不評」「非常に不評」「圧倒的に不評」で9段階、レビュー数不足を含め10ステートある。

あまり表には出ないが、ユーザーができる評価が2種類しかないことが重要な意味を持っている。

例えば、「やや好評」と提示されたときは、必ず「推薦する人と推薦しない人は拮抗しているが、推薦する人のほうがやや多い」という解釈になる。これがもし段階的な評価が可能であった場合、それ以外に「多くの人が中間的な評価をし、一部の人がやや良い評価をしている」や「中間的な評価に近い範囲で評価されているが、分布は高く評価した人のほうが少し多い」といったバリエーションが生じ、それにより意味合いがちょっと変わってきてしまう。それは、「意見が分かれている」のではなく、「みんながあまり刺激を受けなかった」という意味である可能性があるからだ。

ところが、「オススメするかしないか」ということを問われ、ユーザーは明確な決断を迫られる。これにより、ユーザーの中で曖昧な感情に白黒つける必要があり、「どう思っているか」をより明確に表現させることができるわけだ。ちなみに、評価だけしてレビューを書かないことはできるが、評価せずにレビューすることはできないため、その作品についての意見を表明するためには、必ず「オススメするかしないか」に白黒つける必要がある。

ここで賢明な人なら考えるだろう。「自分は気に入っているし楽しんでいるけれど、人には推薦できない、というタイトルもあるのではないか」と。

だが、これもよく考えると全く問題がない。この評価はストアページに表示される。つまり、基本的にそれを見るのはそのタイトルをまだ購入していない人であり、評価は購入の判断の補助である。そして、評価は「人の意見」だし、評価を気にする人は「人の意見を聞きたい人」だ。

もちろん、「どれだけの人が楽しんでいるか」という観点で気にすることもできるが、それはレビューの本文を見たほうが良い。合う合わないまで気にしているのであれば、サマリーだけでは不十分だ。

ここで提示されるサマリーとして、「みんながオススメだよと言っている」「みんながやめとけと言っている」「意見が割れている」は本質的にユーザーが得たい情報であり、プレイヤーが回答するときの見え方と、ユーザーが受け取るサマリーは全然違うものに見えるが、機能的には非常に正しい。

結局、回答と提示を揃えようとすること自体が無意味だし、もっと適切な方法があるはずなのに誰もが慣例に従っていて思考停止しているだけなのだ。

Steamがやっていることはその正しいやり方だが、それはSteamが自分のサービスの性質をちゃんと理解した上で正しいことをしたというだけのことであり、同じやり方を他者がそのまま利用できるというわけではない。

そもそも「評価して提示する」こと自体が必要なのかというところから、ちゃんと考えたほうがいいだろう。