統失治験薬の有効性の見方＆有効性データ例

はじめに
ルマテペロン42mgのフェーズ3の結果
プラセボとの差＆スコア平均減少幅
ｐ値
効果量
95%信頼区間
各有効性のデータをどう用いるか
KarXTの有効性データ（具体例）
終わりに

はじめに

KarXTやHTL16878やCVL-231などの抗精神病薬は、治験(臨床試験)の時、PANSS(パンス)という尺度を使って、有効性が測られたりする。

PANSSについては、この記事を参考にしてもらいたい。
PANSS 陽性陰性症状評価尺度（有効性測定に使われる尺度）改訂版

治験では、参加者のPANSSのスコアを測り、プラセボのスコアと比べるなどして、「プラセボとの差」「ｐ値」「効果量」「95%信頼区間」の４つの有効性の値などが算出される。

この記事では、この４つの値について、いくらか説明する。加えて、プラセボのスコアと比べる前の値「スコア平均減少幅」についても書く。

また、いろいろな抗精神病薬の有効性の値がだいたいどれくらいか、具体例もなるべく多く書く。それらは、これから出る新薬の有効性を見る時の目安になると思う。

※この記事は、４つの記事に分けて書こうと思ったものを縮減して１つにまとめたので、わかり辛くなりました。すみません。気が向いたら書き直します。

ルマテペロン42mgのフェーズ3の結果

まずは、具体的に治験(臨床試験)で４つの有効性の値(+スコア平均減少幅)がどのように出たのか、ルマテペロンのフェーズ３の例を、下の表でみてもらいたい。

		ルマテペロン	プラセボ
(２行目)	薬投与前のPANSS合計スコアの平均値	89.8	89.8
(３行目)	投与２８日後のPANSS合計スコア平均値	74.2	77.4
(４行目)	PANSS合計スコアの平均減少幅	-15.6	-12.4
(５行目)	PANSS合計スコアの(調整後の)平均減少幅	-14.5	-10.3
	プラセボとの差	-4.2
	９５％信頼区間	（-7.8～-0.6）
	効果量	-0.30
	ｐ値	0.02

ルマテペロン42mgのPANSS合計スコアの「平均減少幅」は-14.5、「プラセボとの差」は-4.2、「95％信頼区間」は（-7.8～-0.6）、「効果量」は-0.30、「ｐ値」は0.02、となっている。

※元の表現では、「薬投与前平均値」は「ベースライン平均値」、「減少幅」は「変化量」などとなっている。わかりやすいように多少表現を変えている。

プラセボとの差＆スコア平均減少幅

治験データが算出されるプロセス

上の表のようなルマテペロンの治験データは、かなり簡略化して説明すると、だいたい次のようにして算出された。

まず、ルマテペロン42mgを投与される患者と、プラセボを投与される患者、各150人位が選ばれた。

それから、両グループのPANSS合計スコアの薬投与前平均値が測定された。ルマテペロン投与グループとプラセボ投与グループの、その値の平均値は、両方とも、89.8点となっている。（表2行目）

		ルマテペロン	プラセボ
(２行目)	薬投与前のPANSS合計スコアの平均値	89.8	89.8

そして、薬投与開始から28日後に、再びそれぞれのグループのPANSS合計スコア平均値が測定された。順に、74.2点、77.4点と出た。（表３行目）

		ルマテペロン	プラセボ
(３行目)	投与２８日後のPANSS合計スコア平均値	74.2	77.4

つまり、薬投与による28日後のPANSS合計スコアの平均減少幅は、ルマテペロンで-15.6 ( 89.8-74.2 )、プラセボで-12.4 ( 89.8-77.4 )、という事になる。（表4行目）

		ルマテペロン	プラセボ
(４行目)	PANSS合計スコアの平均減少幅	-15.6	-12.4

この-15.6と-12.4という値は、それぞれの薬を服用した患者の、算術平均されたPANSS合計スコアの減少幅となっている。

平均と言ってもいろいろと種類があり、通常に知られるものは、この算術平均だが、他にも、中央平均や最小二乗平均などというものもある。治験では最小二乗平均が用いられる。

最小二乗平均は調整済み平均とも言われ、算術平均に少し複雑な操作を加えて調整し、算出される。

その最小二乗平均(調整済み平均)の減少幅は、ルマテペロンで-14.5、プラセボで-10.3、となっている。（表５行目）

		ルマテペロン	プラセボ
(５行目)	PANSS合計スコアの(調整後の)平均減少幅	-14.5	-10.3

まず１つ目に、このルマテペロンの-14.5という値が重要。これは、ルマテペロン42mgを投与された約150人の患者の、PANSS合計スコアの平均減少幅となっている。

PANSS合計スコアの平均減少幅

繰り返すと、ルマテペロンを投与されたグループは、平均してPANSS合計スコアが-14.5減少(改善)した。「スコア平均減少幅」が大きい程、有効性が高いと評価される。

例えば、他の抗精神病薬のPANSS合計スコアの平均減少幅(改善幅)を見てみると、次のようになっている。

	スコア平均減少幅
ラツーダ	-19.3
CVL-231	-18.7
KarXT	-17.4
ウロタロント	-17.2
ルマテペロン	-14.5

驚くべき事に、「スコア平均減少幅」を見た時には、ラツーダが-19.3で一番有効性が高いという結果になっている。

けれども、「スコア平均減少幅」は参考にはなるが、「プラセボとの差」の方が、有効性のエビデンスとして高い。

「プラセボとの差」とは、治験薬の「スコア平均減少幅」とプラセボ薬(偽薬)の「スコア平均減少幅」との差の事。

「プラセボとの差」は、プラセボ効果を取り除いた有効性の値になっている。

そこで２つ目に「プラセボとの差」について見てみる。

プラセボとの差

ラツーダの-19.3というスコア平均減少幅と、プラセボのスコア平均減少幅の差を見てみる。

ラツーダの治験の時、プラセボを投与された患者のPANSS合計スコアの平均減少幅は、-12.7もあるので、「プラセボとの差」は-6.6(19.3-12.7)という事なる。

これは他の薬と比べても有効性が高いとされる方の値ではない。PANSSスコアの平均減少幅が大きくても、プラセボのスコア平均減少幅が大きく出た場合、「プラセボとの差」は小さくなる事がある。

ルマテペロンはどうかと言うと、「プラセボとの差」が-4.2で、さらに有効性は低いという結果だった。

ルマテペロンの場合、プラセボのスコア平均減少幅は並程度だが、PANSSスコアの平均減少幅がだいぶ低いので、「プラセボとの差」も小さくなった。

他の抗精神病薬の「プラセボとの差」を書くと、次のようになっている。

	プラセボとの差
CVL-231	-11.9
KarXT	-11.6
ウロタロント	-7.5
ラツーダ	-6.6
ルマテペロン	-4.2

これらの値を見る限りでは、やはり、KarXTやCVL-231などのムスカリン作動薬が、有効性が高いという結果が出ているようだ。

ｐ値

「プラセボとの差」が、いくらかあるだけでは、統計的に考えて有効性があるかないかは判断できない。

偶然性によって良くなっただけかもしれないし、値のバラつきが大き過ぎて効果が表れない人が多くあり過ぎてもいけない。

そこで３つ目に「ｐ値」を見る必要がある。ルマテペロンのｐ値は0.02となっていたのだった。「ｐ値」は、「プラセボとの差」「薬服用者数」「標準偏差」などから計算される。

詳しい事は省くが、ｐ値が0.05以下であれば、その薬は「プラセボと比べて統計的に有意な改善」があるとされ、確かにその薬には有効性があるとされる。

「プラセボと比べて統計的に有意な改善」があるかないかは、薬の販売の承認が得られるかどうかを決める主な要素となる。

もちろん、ルマテペロンのｐ値は0.02で、0.05以下なので「プラセボと比べて統計的に有意な改善がある」とされ、販売は承認された。

もしｐ=0.07やｐ=0.10など、ｐ＞0.05だった場合は、治験薬に有効性はないとはされないが、今回の治験では有効性は示されなかったとされる。販売の承認はおりないだろう。

一応、ルマテペロンの他にPANSS合計のｐ値の具体例を書いておく。

CVL-231がｐ=0.014、ラツーダがｐ＝0.001、ウロタロントがｐ=0.001、KarXTがｐ=0.0001となっている。全てｐ値は0.05以下になっているので、成功した治験となっている。

ロルペリドンという陰性症状治療薬は、フェーズ3臨床試験でPANSS陰性マーダースコアという尺度を使って有効性が測られた。が、ｐ値がｐ≦0.064ということだったので、FDAから販売の承認が得られていない。

「ｐ値」は、0.05以下か、0.05以上かを見る。0.05以下なら「プラセボと比べて統計的に有意な改善(差)」があるとされ、販売の承認に近づく。（承認のためには他にも安全性なども確かめられなければいけない。）

効果量

しかし、ｐ値の大きさからは、有効性の大きさの度合いは分からない。ｐ値は、0.05以下か以上かによって、有効性があるかないかの２値的な判断しかできない。

そこで４つ目に、有効性の度合いをよく見るために、「効果量」が算出される。「プラセボとの差」を標準偏差で割り算したものが「効果量」になっている。(「コーエンのｄ」とも呼ばれる。)

「プラセボとの差」を見ても有効性の度合いが、いくらかわかるかもしれないが、「効果量」を算出すれば、メタ分析と言われる手法で算出された「効果量」との比較もできるようになる。過去の多くの抗精神病薬との比較ができやすくなる。

メタ分析について詳しいことは省くが、とりあえず2019年にMaximilian Huhnらによって行われたメタ分析のデータを下に示す。

いくつかの抗精神病薬のPANSS合計の効果量を下の表に載せる。絶対値が大きい程有効性が高いとされる。

PANSS合計	効果量
クロザピン	0.89	ハロペリドール	0.47	シクレスト	0.39
ソリアン	0.73	クロルプロマジン	0.44	ラツーダ	0.36
オランザピン	0.56	セロクエル	0.42	カリプラジン	0.34
リスパダール	0.55	エビリファイ	0.41	イロペリドン	0.33
インヴェガ	0.49	ジプラシドン	0.41	レキサルティ	0.26
ドグマチール	0.48	セルチンドール	0.40

表を見てみると、クロザピンが0.89で、ダントツで効果量が大きく有効性が高い。ソリアンも0.73で、かなり有効性が高い。

ルマテペロンの効果量を思い出してもらうと、(-)0.30という結果だった。イロペリドンの0.33とレキサルティの0.26の間位になっている。フェーズ３試験だけからすると、ルマテペロンはあまり有効性がないグループに入るとなっている。

その他の表にない新しい薬のPANSS合計の効果量をあげてみる。KarXTは0.75、CVL-231は0.64、ウロタロントは0.45、という治験結果が出た事がある。

KarXTは0.75で、クロザピン程ではないが、ソリアンよりも少し有効性が高いとなっている。

CVL-231は0.64で、ソリアンには及ばないが、ジプレキサより高い有効性となっている。

ウロタロントは0.45で、真ん中あたりのグループでドグマチールやクロルプロマジンと同じくらいと結果が出た。意外に低いと出た。

このブログでは、特に「効果量」の値に注目して、新薬の有効性を比較してみたい。PANSS合計スコアだけでなく、陽性スコアや陰性スコアの「効果量」も個別の記事で書く予定。

ただし注意すべき事は、１回の治験(臨床試験)結果だけでは、有効性のエビデンスとしては低い。それと反する結果も後(のち)に出たりする。

メタ分析のデータの場合、何百という臨床試験結果の統合となっているのでエビデンスとしてより高いものとなっている。

95%信頼区間

最後に５つ目として「95%信頼区間」について書く。

「プラセボとの差」には「95%信頼区間」というものが付記(ふき)されている事がある。「プラセボとの差」を真ん中として、両側に同じ長さだけ「95%信頼区間」というものが拡がっている。

例えば、ルマテペロンの「プラセボとの差」は-4.2で、その「95%信頼区間」は（-7.8～-0.6）となっている。

とりあえずその意味は、かなり簡略化して、こう言ってしまってもいいらしい。

「もし、病者であるあなたが、ルマテペロンを服用した時、有効性(プラセボとの差)は良くて-7.8出る可能性があり、悪くて-0.6しか出ない可能性もある。でも一番ありそうなのは、そのちょうど中間の-4.2程度だろう。-7.8や-0.6に近づくほど可能性は減っていく。」

他の薬で具体例を挙げてみる。「プラセボとの差」の「95%信頼区間」が分かっている抗精神病薬はルマテペロンも含めて４つある。

	プラセボとの差	９５％信頼区間
ウロタロント	-7.5	（-11.9～-3.0）
ラツーダ	-6.6	（-9.7～-3.5）
ルマテペロン	-4.2	（-7.8～-0.6）
KarXT	-11.6	（-16.1～-7.1）

繰り返すと、例えば、ウロタロントを服用した時、有効性(プラセボとの差)は大きくて-11.9である可能性があり、小さくて-3.0である可能性がある。ただ一番ありそうなのは、そのちょうど中間の-7.5で、-11.9や-3.0に近づくほどその可能性は減っていく。

また、これらを見てみると、ウロタロントの方がラツーダより、平均的には有効性が高いのだろうが、ウロタロントの方が「95%信頼区間」が広いので、ラツーダより有効性が低い事も結構あると言えるだろう。（例えば、ウロタロントの有効性が-3.0しか出ない場合など。）

このように幅を持って評価できる「95%信頼区間」は、「ｐ値」や「プラセボとの差」だけより、よりリアルに薬剤効果を記述できるとも言われているし、臨床の場面において実用的であるともいわれる。

また、重要な事だが、「95%信頼区間」の下限が0をまたぐ治験薬の場合、その薬は同時にｐ値が0.05より大きな値になってしまう。「プラセボと比べて統計的に有意な改善(差)」は見られないということになる。

上の４つの薬の「95%信頼区間」は、0をまたいでいない事に注目して欲しい。ルマテペロンなども下限が-0.6で、ギリギリマイナスの値にとどまっていて、０をまたいでいない。

これらの薬は「プラセボと比べて統計的に有意な改善」があるとされる。

95%信頼区間は、真の「プラセボとの差」が存在する可能性がとても高い範囲のこと(95%の確率)。

また、「95%信頼区間」の範囲が、0をまたいでしまう薬の場合、プラセボ薬の方が改善幅が大きくなる可能性が増す。ｐ値は0.05より大きくなり、「統計的に有意な改善がある」とは言えなくなる。

各有効性のデータをどう用いるか

有効性の比較は、「効果量」でするのが１番いい。

でも、「効果量」のデータが出ていない時もあるので、「プラセボとの差」も見る。

長期的な有効性を見るときは、プラセボ薬が使われないので、「スコア平均減少幅」を見る。

「ｐ値」からは、統計的に見て有効性があるかないかが判断できる。ｐ値は、治験が成功か失敗か、販売が承認されるかどうかを左右する。0.05以下であれば良い。

「９５％信頼区間」から、有効性の度合いの大体の幅がわかる。また、0をまたぐかどうかで、統計的に有意な改善(差)があるかどうかも判断できる。

KarXTの有効性データ（具体例）

ここで、記事を終わりにしようとしたが、もう１つだけ具体例を書いてみる。有効性のデータに、より慣れてもらいたい。

例えば、KarXTのフェーズ２試験で、次のようなPANSS合計スコアのデータが出されたが、どう見ればいいだろうか？

スコア平均減少幅	-17.4
プラセボとの差	-11.6
９５％信頼区間	（-16.1～-7.1）
ｐ値	0.0001
効果量	0.75

スコア平均減少幅

まず、「スコア平均減少幅」が、-17.4になっている。これはあまりパッとしない値かもしれない。他の薬のスコア平均減少幅は、次のようになっている。

	スコア平均減少幅
ラツーダ	-19.3
CVL-231	-18.7
KarXT	-17.4
ウロタロント	-17.2
ルマテペロン	-14.5

ウロタロントと同程度になっている。ルマテペロンよりは大きいが、ラツーダ、CVL-231よりも小さいという結果が出た。

プラセボとの差

だが、有効性を見るためには、「プラセボとの差」の方がより重要。KarXTの「プラセボとの差」は、-11.6となっている。

KarXTの治験の時のプラセボ薬の「スコア平均減少幅」が小さいので、結果的に「プラセボとの差」は、大きくなっている。

他の薬とともに表に載せると次のようになっている。

	プラセボとの差
CVL-231	-11.9
KarXT	-11.6
ウロタロント	-7.5
ラツーダ	-6.6
ルマテペロン	-4.2

KarXTの「プラセボとの差」は、CVL-231とともに大きい値になっている。

９５％信頼区間

KarXTの、「プラセボとの差」の「９５％信頼区間」を見てみると、（-16.1～-7.1）となっている。大きくて-16.1も、プラセボとの差(有効性)が出ることもあるし、小さくて-7.1しか出ない時もある。

他の薬の９５％信頼区間は次のようになっている。

	プラセボとの差	９５％信頼区間
ウロタロント	-7.5	（-11.9～-3.0）
ラツーダ	-6.6	（-9.7～-3.5）
ルマテペロン	-4.2	（-7.8～-0.6）
KarXT	-11.6	（-16.1～-7.1）

ウロタロントと同じで幅がやや大きいかもしれない。

ｐ値

KarXTの「ｐ値」は、0.0001となっている。0.05以下なので、「プラセボと比べて統計的に有意な改善がある」となっている。

治験は成功したようだ。

効果量

KarXTの「効果量」は、0.75となっている。メタ分析の効果量の表を下に載せる。

PANSS合計	効果量
クロザピン	0.89	ハロペリドール	0.47	シクレスト	0.39
ソリアン	0.73	クロルプロマジン	0.44	ラツーダ	0.36
オランザピン	0.56	セロクエル	0.42	カリプラジン	0.34
リスパダール	0.55	エビリファイ	0.41	イロペリドン	0.33
インヴェガ	0.49	ジプラシドン	0.41	レキサルティ	0.26
ドグマチール	0.48	セルチンドール	0.40

KarXTは、有効性が一番高い抗精神病薬であるクロザピンの0.89に次(つ)いで、大きい値であるという結果が出た。ソリアンの0.73より大きく、有効性が高いという結果が出た。

終わりに

今後、KarXT、CVL-231、HTL16878などの抗精神病薬の治験結果が出た時に、これらの有効性のデータを報告する。どれ位の有効性があるかなど、考えてみてもらいたい。

[democracy id=”49″]

はじめに

ルマテペロン42mgのフェーズ3の結果

プラセボとの差 ＆ スコア平均減少幅

治験データが算出されるプロセス

PANSS合計スコアの平均減少幅

プラセボとの差

ｐ値

効果量

95%信頼区間

各有効性のデータをどう用いるか

KarXTの有効性データ（具体例）

スコア平均減少幅

プラセボとの差

９５％信頼区間

ｐ値

効果量

終わりに

プラセボとの差＆スコア平均減少幅