児童虐待の専門職が 心理学や統計学を語るブログ

心理学や、心理学研究における統計解析の話など

描画テスト(HTP)って正しい根拠あるの? ⇒検証してみた

描画テストって、なぜか日本では(●●県の児童相談所だけ?)よく使用されていますが、そもそもこれってちゃんとした検査なんでしょうか。

個人的に描画や「私の経験」でアセスメントする(ピーーー)県の児童相談所の先輩心理司の指導に吐くほど馴染めなかったため、自分でアセスメントスタイルetcを作り上げていった悲しい過去があったりします。

とまあ、私個人のくだらない黒歴史は横にして、今回はその描画テストの正しさとか、説明責任に耐えうるものなのかとか、そういったことを検討していきたいと思います。

 

日本における文献レビューでは、佐渡忠洋・坂本佳織・伊藤宗親(2010),日本におけるバウムテスト研究の変遷 において、描画テストの数量的エビデンスの乏しさについて以下のように言及しています。

バウムテストにおける数量的な研究は,バウムを形態基準,即ち,「一線枝」や「一線幹」などの指標を用いて数量化して検討する方法が主流であると考えられた.しかしながら,論文を吟味すると,指標の基準や数が不明瞭な論文が多かった…その有用性は十分検証されてはおらず,それらの指標が選抜された理論的根拠が不明瞭である.…<印象評定>も SD 用形容詞対がいくつも報告されており,<空間配置>も空間の分割方法が研究で異なるなど,統一の基準の作成には至っていない.

10年前のレビューの時点の話ではありますが、なんだか泣けてくる記述です。

 

G Groth-Marnat, L Roberts(1998),Human Figure Drawings and House Tree Person Drawings as Indicators of Self-Esteem: A Quantitative Approachからは、自尊心についての評価がHTPの評価と関連していないことが示されています。

 

また、最近の研究で、描画テストの有効性について検討された研究があります。Guifang Yang, Liping Zhao, and Lijuan Sheng(2019),Association of Synthetic House-Tree-Person Drawing Test and Depression in Cancer Patientsでは、がん患者のうつ病に対するS-HTP描画テストの結果(一部のサイン)とSDSスケール(自己評価うつ病スケール:自己表記)の結果と正の相関が示されています。具体的には、装飾のない家、シンプルな人物画、無表情、などです。

例えば、装飾のない家の記述統計では

    計       うつ      非うつ     χ二乗 p

あり       136(81.4)        51(81.0)          85(81.7)          0.016     0.900

なし       31(18.6)          12(19.0)          19(18.3)

となっています。

装飾のない家を描いた人は全体の8割強。これはうつのあるなしは関係がありませんでした。

小さいサイズだと

    計       うつ      非うつ     χ二乗 p 

あり       46(27.5)          27(47.4)          19(17.3)          17.039   <0.001

なし       121(72.5)        30(52.6)          91(82.7)

となっています。

小さいサイズを描く人は全体の3割以下で、うつの人の方が有意に小さいサイズを描きやすい、というもの。

 

うつ病の予測におけるS-HTP描画特性の役割を調べるロジスティック回帰分析(部分抜粋+和訳)。

f:id:romancingsame:20200711135223g:plain

 

上の結果より、SDS(うつ病グループを1に設定し、うつ病のないグループを0に設定)の結果を従属変数としたロジスティック回帰モデルは以下のように示されています。

ロジット(P)= -2.997 + 1.345 * (サイズ小) + 0.919 * (弱い線) + 2.044 * (簡略図)-0.888 * (装飾図)-0.944 * (歪線・非結合) + 1.439 * (装飾家) + 2.106 * (小さいドア) + 0.679 * (枯れ木) + 1.148 * (丁寧な顔)

この回帰式をがん患者に適用した結果、がん患者32人にうつ病があり、正解率は56.1%(32/57)でした。同時に、うつ病のないがん患者110人を対象にロジスティック回帰方程式を実行したところ、98人のがん患者にうつ病がなく、正しい率は89.1%(98/110)でした。つまり、うつ病的中率は半分…要はコイントスとそう変わらないということです。でも、うつ病が無い人への的中率は高いですね。

 

さて、この指標を高橋依子著「描画テスト」と照らし合わせてみましょう。

サイズ小、弱い線、簡略図、枯れ木については抑うつ系のサインである旨の記載がありますが、他のサインではそれはありません。

歪線、非結合(-)は外側からの影響を受けやすく、無力感、自己不確実感、不安、小心などを表す。小さいドア(+)は積極的な人間関係を好まず、他者の接近を避けようとしたり、無力感を表すとあります。丁寧な顔(+)は外見や人間関係への関心が強かったり、不適切な感情を抑圧していることが考えられるとあります。

うつ病得点に-に働く歪線・非結合は抑うつサインはないもののそれに近い状態のサインであり、+に働くはずの他のサインは抑圧傾向に関わるサインではありません。HTPとS-HTPの差異のためかもしれんので断定的なことは言えませんが、この本と先述の研究結果の間には解離がありそうです。

そもそもこのサインの記述、バーナム効果の起こりやすい、捜査一課の田宮さん画像の状況になりかねないやつで、アセスメント道具としてどうなんだろうという思いが強いです。

 

児童相談所の現場で右向け右的に使用され、某児童相談所所長(心理出身)なんて描画やってないと定例会議でなんか言ってくるくらいに高い地位を獲得している描画テストで、現場の心理司さんは、この高橋依子著「描画テスト」と参考に解釈をしたり、所見の根拠に用いたりしています。

先述の少ない先行研究だけで言ってはいけないかもしれませんが、いずれにせよこの高橋依子著「描画テスト」、もしくは描画テスト自体がエビデンスに乏しいものである可能性は否定できません。もっと複数の論文からメタってみたら、より深いところまで検討できるんじゃないかなと思います。

 

 

追記(2020/7/12)

6年前と古いデータですが、バウムテストと自尊感情尺度、外向性尺度(big-five)の調査結果を用いて分析してみました。

分析方法はIRT(項目反応理論)。これをMCMCにより事後分布を出しました。

尺度得点は、便宜的に1,2を0、他を1などとして、自尊感情高得点群・低得点群、外向群、内向群、みたいに分けてデータをセットしなおしました。尺度得点の平均値を用いると、項目が「サイン+得点」の2つとなって結果がうまく出ないので、項目ごとの得点1つずつをデータにセットしました。

IRTは1次元尺度でないと使用不可なので、「自尊高+描画大」のように、セットになる概念+描写と1つずつ、計4つの分析を行いました。

バウムの統計が載っている本に、本研究で用いたサインのデータがなかったため、事前分布は適当に設定しています。

 

コードは↓

data {

  int<lower=1> J; // 被験者

  int<lower=1> K; // 項目(項目数の異なるデータセットがあるので複数コードを作成)

  int y[J,K]; // 観測数

}

parameters {

  real theta[J];//被験者パラメータ

  vector<lower=0>[K] a;//識別度

  vector[K] b;//困難度

}

model {

  theta ~ normal(0,1);//被験者パラメータは平均0、SD1と仮設定

  a ~ cauchy(0,1);

  b ~ normal(0,1);

    for (j in 1:J){

    for(k in 1:K){

      y[j,k] ~ bernoulli_logit(a[k]*(theta[j]-b[k]));

    }

  }

}

以下結果(表)

f:id:romancingsame:20200712114859g:plain

識別度については>0の値で設定してあります。結論から言うと、いずれも識別度は高いとは言えず、各心的概念をよく識別するサインであるとは言い難い結果になりました。

困難度についてはいずれも平均値が正の値を示しました。いわゆる、平均以下の特性(自尊心とか)でもヒットする率が高いサイン、みたいな結果にはなりませんでした。

まとめると、自尊心ボロボロの人が大きい樹木を描くみたいなエラーは出づらいが、そもそもこのサイン(大きさ、位置)で自尊心のような心的概念を識別できているとは言い難い、という感じでしょうか。

先行研究だけで描画をディスるのもアンフェアかな、と思って自ら分析してみましたが、それでも描画を支持する結果は得られなかったなというのが正直なところです。

 

ただ、IRTにハマる形で、かつ事前分布の利用も視野に入れたデータ収集を試みたら、また違う結果になる可能性はあります。なので今後はそういった研究もやってみたいなと思うところです。