えっちな統計学入門 〜性癖アンケートを統計で紐解く〜 Part.3 クラスタ分析編
注意:この記事にはR-18要素が存分に含まれます。(あくまで話題だけで画像とかは出ません)無理な人は自衛しましょう。
つぶグミはいいぞ。( @kirsch2293 )です。
2019年の大晦日に公開したGoogleフォーム「『性癖』に関する意識調査」。
このアンケートは、私のTwitterのタイムライン上で想像のはるか上を行く伸びを見せ、公開からたった6日間で139名からの回答を頂きました。協力してくださった皆さんには改めて顔射感謝いたします。現在修士論文の執筆に向けてアンケートの設計もやっておりますが、ここまで反響が大きく、なおかつ回答の質も高いアンケートは作れそうになく、「『性癖』を語ること」がオタクのアイデンティティに占める割合の大きさを感じさせてくれました。
ここまでの流れですが、2020年1月6日にアンケートを締め切り、それから2週間の間で立て続けに考察記事をアップロードしました(上にURL貼ってます)。Part.1では、「総論」と称して各性癖の人気ランキングや性癖ごとの相関を見てきました。Part.2では、「因子分析編」と称してそれなりに込み入った統計学の話をしながら、オタクの性癖傾向を調べる尺度として「8因子44性癖」からなる「性癖尺度」を開発してきました。
長らく間が空いてしまいましたが、Part.3となる今回は、因子分析と同じくマーケティングの分野でも大活躍する統計手法「クラスタ分析」を用いて、性癖傾向の似ている回答者をいくつかのクラスタに分類してみようと思います!
1 クラスタ分析とは?
クラスター分析とは、異なるものが混ざりあっている集団の中から互いに似たものを集めて集落(クラスター)を作り、対象を分類するという方法の総称です。(リサーチ会社のマクロミルより引用)
異なるもの(多種多様な性癖を持ったオタク)が混ざりあっている集団の中で、類似したもの(性癖の似通ったオタク)をまとめて分類する手法であることから、今回の分析にはぴったりの手法ですね。
ところで、 「総称」という表現に引っかかった方もいるのではないでしょうか。一口に「クラスタ分析」と言っても、大きく分けて2つの手法があります。「階層クラスタ分析」と「非階層クラスタ分析」ですね。
正直、説明するには画像がないと厳しいです。文章だけでこの概念を説明できるのは正岡子規か村上春樹くらいだと思うので、ここでグダグダ説明するよりも先ほど引用したマクロミルのサイトを読むのが一番早いんじゃないかと思います(丸投げ)
こちらです↓↓↓
https://www.macromill.com/service/data_analysis/cluster-analysis.html
詳しいことは全部リンク先に乗ってるのでめちゃくちゃ雑に説明すると、集団の分類を小さな単位から攻めていくのが「階層」で、全体像から攻めていくのが「非階層」って感じですね。だからデータ数が多くなると個別に計算を行う必要のある階層は不利になり、非階層が優位性を示してきます。
今回は139名のアンケート回答者を分類するのですが、この物量だと「非階層」が適切な手法のようです。
ただし「非階層」で分析を行う上で最も難しいのが、クラスタ数をこちらで設定してからではないと分析ができない点にあります。つまりクラスタ数を設定する段階でどうあがいても分析者の恣意的な操作が入ってしまうんですよね。というわけでこの分析結果を客観的な証拠として使うことはできません! あくまで解釈の結果として使いましょう。
2 実際の分析プロセス
前回に引き続き、Excel上で動作するフリー統計プログラムのHADを使って分析を進めていきましょう。この画面の下部にある「因子分析」「クラスタ分析」…というラジオボタンで「クラスタ分析」を選択すればOKです。今回は非階層クラスター分析を行うので、「分類方法」から「非階層的」を選択。非階層の代表的な手法である「K-means法」を利用して分析を進めます。簡単に言うと、
- データが配置された散布図の中にいくつかの点を置く*2
- それぞれのデータが最も近い点を中心とするクラスタを構成する
- クラスタ内で重心を定め、その重心を新たな点とする
- 3で点の更新、2でクラスタの更新…を繰り返す
- 更新が行われなくなったら終了
という流れになっています。まあ、計算はHADくんが全自動でやってくれるので、我々は「分析実行」ボタンを押して腕組んで待ってればOKです。
今回は10個のクラスタ*3にオタクを分類してみようと思います!
~~~注意~~~
この先の項ではクラスタ分析の結果と各クラスタの特徴の考察を行っていきますが、最初に出力された結果があまり芳しくなかった(クラスタごとの特徴がかなり平均化されてしまっていて、各クラスタ固有の特徴を論じるのが非常に難しくなっていました)ために、統計学的に「正しい」方法から少々手を加えたもの(具体的には、K-means法で得られた結果に対して、各クラスタの平均値との相関係数を基に手動で再計算を行っている点が該当します)を結果として紹介しています。そのため、全く同じ手法は論文など「分析方法そのものの正確性」が求められる場所では使うことができないのでご注意ください。因子分析に比べて全体的に感覚的な要素が多いのがクラスタ分析の特徴です。その分統計素人に対してもそれなりに目を引くデータになるので、企画書通すためのデータ集めくらいなら使えると思いますよ。
~~~~~~
3 分析の結果とその解釈
それでは、10個のクラスタそれぞれの特徴を考察していきましょう!
表の見方ですが、AからJまでの10個のクラスタが、Part.2で示した各因子*4に対してどれだけ好意的な回答をしたかを表しています*5。つまり、クラスタCは「濃厚系」が(相対的に)好きで、クラスタDは「姉妹系」が(相対的に)嫌い、そういう解釈でOKです。「総合」は44性癖全てへの好感度の平均点を示すため、高ければ雑食で性欲強め、低ければそもそもR18があまり好きじゃないかな?って感じですかね。
大学生に分かりやすいよう、偏差値に変換すると「+1.000」が「偏差値60」、「±.000」が「偏差値50」、「-1.000」が「偏差値40」にあたります。
クラスタ同士の相関関係も見てみましょう。全体的に正の相関よりも負の相関が目立ってますね。例えばクラスタBとクラスタFの相関係数は脅威の-.826。あっちを勃てればこっちが勃たず、ほぼ真逆と言ってもいいでしょう。赤く示されているクラスタ間では絶対性癖の会話しちゃダメです。確実に戦争になります。
では、ここからは各クラスタの特徴を見ていきましょう!
3-1 クラスタA:ただのロリコン
三次元依存度 -.574
ベスト5性癖
+1.237 女子小学生(1~3年生)
+.973 園児
+.913 女子小学生(4~6年生)
+.900 貧乳
+.643 女子中学生
ワースト5性癖
-.860 人妻
-.752 陰毛剛毛
-.621 ぽっちゃり
-.517 爆乳
-.497 熟女
19名(13.7%)が該当。今回の調査対象者の中では最大勢力を占めます。もはや考えるまでもないですよね。ロリコンです。
なんと上位を「幼女系」性癖が独占、下位を「濃厚系」性癖が独占という、ここまで分かりやすい結果が出るかというほどに分かりやすい結果になりました。ちなみに三次元依存度も10クラスタ中最も低く、「二次元愛好家」かつ「幼女が大好き」という、リアルの方は完全に諦めたか、あるいはしっかり線引きのできた紳士たちが集まるクラスタになりました。
クラスタE(雑食系サディスト)とは仲が悪いようです。
3-2 クラスタB:天邪鬼な正直者
三次元依存度 -.013
ベスト5性癖
+.815 男の娘(中身はホモ)
+.676 男の娘(中身はノンケ)
+.588 浣腸
+.494 嘔吐
+.236 肥満
ワースト5性癖
-1.384 対面座位
-1.355 正常位
-1.345 中出し
-1.250 騎乗位
-1.105 後背位
16名(11.5%)が該当。傾向としては「幻想系」に加えて、全体の平均点が低かった性癖を好み、「定番系」をかなり強烈に嫌っているという、世間に対して一石を投じる、やべーやつクラスタになりました。
とはいえ、こういったクラスタがはっきり現れたのはこのアンケートの功績だと思ってまして、普通こういった性癖って堂々と公言できないじゃないですか。統計のメリットは個々のデータを特定不可能に処理することができる点で、仮にこの調査に何らかの個人情報入力欄があったとしたら絶対に得られなかった結果だと思います。そして、正直に回答してくれたオタク、ありがとう!!!でも性癖には賛同しかねます
クラスタC(つゆだく酒池肉林)とソリが合い、クラスタE(雑食系サディスト)、クラスタF(優しい人だよね)、クラスタI(やっぱり僕は王道を往く)とは仲が悪いみたいです。
3-3 クラスタC:つゆだく酒池肉林
三次元依存度 -.446
ベスト5性癖
+1.380 嘔吐
+1.337 肥満
+1.242 浣腸
+1.230 熟女
+1.198 ぽっちゃり
ワースト5性癖
-1.071 パイパン
-.741 パイズリ
-.623 幼馴染
-.436 素股
-.368 貧乳
10名(7.2%)が該当。「濃厚系」「体液系」を非常に好む方々です。クラスタBと似ていますが、こちらは別にそこまで「定番系」を嫌っていないのが特徴。この性癖なら「パイズリ」好きそうなものですが、まさかのワースト2。筆者はここの住人ではないので、「なぜ熟女やぽっちゃり好きはパイズリには興奮しないのか」ということについて心当たりのある方は連絡ください。「受動系」に対する好感度が全体的に低かったため、ここのクラスタはムチムチで汁だくのお姉さんの群れに自分から飛び込んでいきたいタイプの人たち、と解釈しましょうか。
クラスタB(天邪鬼な正直者)とソリが合い、クラスタF(優しい人だよね)とは仲が悪いみたいです。
3-4 クラスタD:AV視聴者層
三次元依存度 +1.056
ベスト5性癖
+.543 正常位
+.294 対面座位
+.207 素人
+.140 フェラ
+.056 パイパン
ワースト5性癖
-1.691 実姉
-1.645 姉妹姦
-1.444 義妹
-1.360 女子中学生
-1.200 女子小学生(4~6年生)
12名(8.6%)が該当。三次元依存度がずば抜けて高いことと、総合値の低さから分かることは、普段オーソドックスなAVにお世話になっている方々ということですね。ベスト5性癖についても決して高い得点だとはいえず、これらは消去法で上がってきたものだと言えるでしょう。今回は調査対象がオタクだったため彼らは少数派のようになってしまいましたが、実際のところは日本人の最多勢力なんじゃないかなと勝手に思っています。アダルトサイトの調査結果も、このアンケートも、調査の母数が「そういう人たち」に偏ってますからね。
ところで、妹もののAV、ど定番だと思うんですが???
多少の好き嫌いはあれど、極端に仲違いするクラスタはないようです。
3-5 クラスタE:雑食系サディスト
三次元依存度 +.455
ベスト5性癖
+1.260 人妻
+1.130 爆乳
+1.073 寝取られ
+1.070 陰毛剛毛
+1.045 3P(男2人・女1人)
ワースト5性癖
-.692 園児
-.618 浣腸
-.495 男の娘(中身はノンケ)
-.477 男の娘(中身はホモ)
-.475 女子小学生(4~6年生)
10名(7.2%)が該当。クラスタDに次ぐ三次元依存度なので、主にAVを利用している方々だと思いますが、際立つのは「凌辱系」の高さ。それだけでなく、全体の3/4の性癖でプラス得点(つまり、全体平均よりも高い点数)で、なおかつ総合点トップを叩き出しています。「幼女系」「幻想系」「体液系」が低いですが、それ以外は全体的にかなり高得点であり、概ね雑食といえるでしょう。
クラスタF(優しい人だよね)やクラスタG(過激派サディスト)と割とソリが合い、クラスタA(ただのロリコン)やクラスタB(天邪鬼な正直者)とは仲が悪いみたいです。FとGは直接はあまり仲良くないので、Eの人たちが仲を取り持つ立場になりそうです。
3-6 クラスタF:優しい人だよね
三次元依存度 +.160
ベスト5性癖
+.617 幼馴染
+.520 義妹
+.483 正常位
+.476 姉妹姦
+.403 騎乗位
ワースト5性癖
-.928 男の娘(中身はホモ)
-.844 爆乳
-.835 凌辱
-.795 熟女
-.756 浣腸
16名(11.5%)が該当。点数の高い「定番系」「姉妹系」「受動系」に共通するのが、ひたすら和姦なんですよね。その対極にある「凌辱系」「濃厚系」が低く、「可哀想なのは抜けない」を体現するクラスタになっています。女の子が痛そう・辛そうなものが軒並み低いあたり、女の子を大切に思っている紳士の方々ですね。健全です。ただし健全過ぎてこれ以上書くことがありません。きっと女の子たちからは「優しい人だよね」と評価されていることでしょう。以上!
クラスタE(雑食系サディスト)やクラスタI(やっぱり僕は王道を往く)とソリが合い、クラスタB(天邪鬼な正直者)やクラスタC(つゆだく酒池肉林)とは非常に仲が悪いみたいです。
3-7 クラスタG:過激派サディスト
三次元依存度 -.215
ベスト5性癖
+.812 輪姦
+.799 寝取り
+.725 寝取られ
+.717 凌辱
+.698 援助交際
ワースト5性癖
-.618 貧乳
-.616 ケモナー
-.611 対面座位
-.464 ぽっちゃり
-.464 熟女
18名(12.9%)が該当。「凌辱系」の7性癖だけが突出して高く、8位以降が一気に落ちるという非常に分かりやすい性癖をしています。さっきとはうって変わって、可哀想じゃないと抜けない方々です。寝取ったり囲んだり犯したり、何でもありですね。まさに弱肉強食、世紀末の世界。ちなみに、「凌辱系」の7性癖についてはその全てでクラスタEの方が高得点を叩き出しており、雑食系の強さがよく分かります。
クラスタE(雑食系サディスト)と割とソリが合い、クラスタJ(やさしさに包まれたなら)とは非常に仲が悪いみたいです。
3-8 クラスタH:絶対特権主張します
三次元依存度 +.054
ベスト5性癖
+.829 種付けプレス
+.813 後背位
+.776 レイプ
+.728 パイパン
+.717 凌辱
ワースト5性癖
-.966 パイズリ
-.742 足コキ
-.682 ぽっちゃり
-.630 素股
-.529 フェラ
9名(6.5%)が該当。最小勢力です。「受動系」が低く、「凌辱系」がまあまあ高いことから、致すときは絶対に自分が主導権を握っていたい方々だといえます。とはいえ、相手が若くなりすぎると良くないみたいで、パイパンこそ大好きでもロリコンではないみたいです。多分ですけど、ここでのパイパン性癖、自分で女の子のやつ剃ろうとしてませんかね???
一番好きな体位が後背位というあたりも、全体的に一貫性を感じます。良いと思います。このように、特定の因子には関わらないタイプの性癖傾向も見ることができて面白いですね。
多少の好き嫌いはあれど、極端に仲違いするクラスタはないようです。
3-9 クラスタI:やっぱり僕は王道を往く
三次元依存度 +.247
ベスト5性癖
+.887 後背位
+.876 素人
+.876 おもらし
+.852 義妹
+.834 中出し
ワースト5性癖
-.985 男の娘(中身はノンケ)
-.554 3P(男2人・女1人)
-.541 男の娘(中身はホモ)
-.378 ケモナー
-.208 寝取られ
12名(8.6%)が該当。「定番系」が高く、「幻想系」が低いため、リアル志向の方々なのかな?と思ったのですが、3位におもらし。リアリストではありませんでした! とはいえ、AVならよく見るシチュエーションですよね。オーソドックスなAV視聴者ということならクラスタDと似ていそうなのですが、そこまで三次元依存度は高くないですし、実際は「可哀想なのは抜けない」クラスタFの仲間のようです。基本は王道系の作品を好みながら、ある程度リアリティがあれば変わった作品でも消費できる、割と臨機応変な方々です。
クラスタF(優しい人だよね)と割とソリが合い、クラスタB(天邪鬼な正直者)とは仲が悪いみたいです。
3-10 クラスタJ:やさしさに包まれたなら
三次元依存度 -.222
ベスト5性癖
+.867 肥満
+.749 ぽっちゃり
+.674 爆乳
+.624 熟女
+.463 対面座位
ワースト5性癖
-1.063 レイプ
-.976 凌辱
-.869 寝取られ
-.854 輪姦
-.637 寝取り
17名(12.2%)が該当。「濃厚系」が高く、「凌辱系」は10クラスタ中最低点を記録しています。これまでの考察からも、「濃厚系」と「体液系」は全体の得点分布は似ているものの、前者と後者では「凌辱系」に対する好感度が大きく異なることが明らかになっていますが、このクラスタはまさにそれを象徴する結果になりましたね。豊満な女性に魅力を感じる方々は、心まで豊満になるようです。「膣内射精感謝(おかえりなさい)」とか、包容力に満ちてますもんね。
クラスタG(過激派サディスト)とは非常に仲が悪いみたいです。
4 まとめ
ここまで、クラスタ同士の中の善し悪しがかなり複雑だったので、図にしてみました。傾向として負の相関の方が強いため、「正の相関は+.400」「負の相関は-.500」よりそれぞれ絶対値の大きなものを矢印として表示しました。こうしてみるとやはりBの多方面ヘイトぶりがよく分かりますが、嫌われ上手は好かれ上手でもあるわけで、内輪では結構強固なつながりができているのではないかと思います。
創作者も消費者も、自分がどのクラスタに属しているのか公言した上で活動するようになれば、お互いが余計な地雷を踏まずに平和に生きられるのではないかと考えています。そうした観点から、前々から申し上げております通りこの調査はノーベル平和賞受賞に値するものなのではないかと自負しています。
~~~
最後に、筆者はどこのクラスタに属しているのか調べてみたところ、
-.046 クラスタB(天邪鬼な正直者)
-.414 クラスタC(つゆだく酒池肉林)
-.079 クラスタD(AV視聴者層)
-.086 クラスタE(雑食系サディスト)
+.446 クラスタF(優しい人だよね)
-.033 クラスタG(過激派サディスト)
+.075 クラスタH(絶対特権主張します)
+.019 クラスタI(やっぱり僕は王道を往く)
-.143 クラスタJ(やさしさに包まれたなら)
ということで、クラスタF(優しい人だよね)に属していることが判明いたしました。クラスタC(つゆだく酒池肉林)とは相性が良くないそうです。
残念ながら高度なプログラミング技術を持ち合わせていないため、このクラスタを自動で診断するサービスを作ることはできませんが、44項目の性癖尺度への回答さえあれば任意のオタクの性癖クラスタを調べることができるので、反響次第ですがまたGoogleフォームを開いてみようかなと思っています(アンケートの最後にTwitterの垢名でも書いてもらって、そこにあとで手動で計算した結果をリプライする形にでもしようかな)。
尺度が変われば当然クラスタ構成も変わります。協力次第ではありますが、何度もブラッシュアップして精度の高い尺度が作れれば面白いですね!
それでは、こんなご時世ですので、家に引きこもって自分を慰めててください。
つぶグミはいいぞ。( @kirsch2293 )
謝辞
前述したように、この記事を書くにあたり分析のためのソフトウェアとしてHADを用いました。こんなことに使ってしまい大変申し訳ございませんでした。修士論文でもお世話になりますが、そちらではもっと社会貢献に資する用途で用いますのでよろしくお願いいたします。
*1:クラスタでもクラスターでもどっちの表記もOKです。ここでは原文ママで引用していますが、このブログ内では「クラスタ」に統一します。
*2:いくつかの、っていくつだよ! って思うでしょうが、この数はデータの傾向を基に自分で決めないといけないんですよね。ここが先述した「クラスタ数をこちらで設定してからではないと分析ができない」難しさです
*3:クラスタ数を変えて分析しながら一番記事が書きやすそうだと感じたクラスタ数が10個でした。ここさらっと書いてますが割と試行錯誤してます
*4:①定番系:「対面座位」「正常位」「後背位」「騎乗位」「パイパン」「中出し」「種付けプレス」「幼馴染」「素人」
②受動系:「パイズリ」「足コキ」「フェラ」「素股」「手コキ」「射精管理」
③凌辱系:「レイプ」「輪姦」「凌辱」「寝取られ」「寝取り」「3P(男2人・女1人)」「援助交際」
④姉妹系:「姉妹姦」「実姉」「義妹」
⑤幼女系:「女子小学生(1~3年生)」「女子小学生(4~6年生)」「女子中学生」「園児」「貧乳」
⑥濃厚系:「ぽっちゃり」「熟女」「肥満」「人妻」「爆乳」「陰毛剛毛」
⑦体液系:「おもらし」「唾液」「飲尿(させる側)」「嘔吐」「浣腸」
⑧幻想系:「男の娘(中身はノンケ)」「男の娘(中身はホモ)」「ケモナー」