モバイル『芦田の毎日』

mobile ver1.0

大森コメントへの感想 from Xさん ― その後の 「インターフェロンベータ1bは日本人の再発寛解型MS患者において有効である:ランダム化された多施設研究」論文(2009-11-12 01:27:50)へのコメント

< ページ移動: 1 2 >

by 大森(2009-11-12 17:38:55)

芦田さん

こんにちは。
私の投稿について勉強になるコメントがいただけてうれしく思います。それについてのコメントです。

またまた長くなってしまったし、あまりにも話が細かくなってきたので、投稿した方が良いのか、芦田さん個人宛のメールにしようか迷ったのですが、どうしましょう?

迷惑でなければいいのですが。芦田さんにお任せします。

以下本文。
---------------------------------------------------------------------------
もう一人の別の研究者の方(芦田さんにならって、Xさんとお呼びしますね)のコメントについて、コメントしたいと思います。一部、Xさんの意見に反論しているように見えるところもありますが、目的は反論というよりも、芦田さんの理解が深まればいいなあと思って書いています。Xさん、どうか気を悪くしないで下さい。

以下、この研究、あるいはこの論文とは、「インターフェロンベータ1bは日本人の再発寛解型MS患者において有効である:ランダム化された多施設研究」そのもの、あるいは発表された論文を指すことにします。

■「まず要旨の以下の部分についてですが」から、その数行後の「という読み方にも無理があります」までの部分と、【疑問点2】について、について述べます。

まず、確認しておきたいのですが、
「サンプル数が少ないために統計学的有意ではなかったものの、サブグループ解析ではOSMS とCMS における本治療効果の程度や方向性が“異なる”ことが示唆された」
あるいは
「OSMS とCMSとでは、治療効果がちがっていた。この違いが統計学的に有意かどうかを調べるために検定したが、残念ながら有意差はなかった。これはサンプルサイズが小さいためと考えることが出来る」
という私の文章は、

Subgroup analyses suggested that the magnitude and direction of treatment effect in patients with OS-MS and C-MS was similar, albeit not significant due to small sample size
(Pさんの訳では「サンプル数が少ないために統計学的有意ではなかったものの、サブグループ解析ではOSMS とCMS における本治療効果の程度や方向性が同等であることが示唆された」。以下、部分Aと略します)

という文章の解釈(読み方)を書いたわけではありません。

この読み方には「無理」がある、どころか、100%間違っています。

私が言いたかったのは、部分Aが、薬の効果を比較した臨床研究の要旨としては、不自然な文章であると言うことです。

「サンプルサイズが小さかったから有意にはならなかったけれど、治療の効果が同等であることが示唆された」のだとすれば、「サンプルサイズを大きくすれば治療の効果が同等であると統計学的に有意に言える」のでしょうか? どういう検定を使って???

もちろん、論文の著者が言いたかったことは、本文を読めば分かります。Xさんの言うとおりで、「どちらもサンプルサイズが小さいので、治療効果の有意性を示すほどではなかった」です。なるほど、グラフを見れば、これが言いたかったのだなって分かります。でも、部分Aにはそうは書いていない。

いちゃもんかな? あるいは、有意差や検定の意味に敏感(過敏かな)でなければ気にせずスルーしてしまうのかもしれませんね。

さてここからが大事なのですが、
サブグループ解析において、この研究がやった検定(の結果とその解釈)は、

1. OSMSの患者さんについて、50μg群と250μg群の再発率を比較した。250μg群のほうが再発率は低かった。検定をしたらP値は0.093で、有意差とは言えなかった。解釈として、サンプルサイズが小さいからと考えた。
2. CMSの患者さんについて、50μg群と250μg群の再発率を比較した。P値は0.106で有意差とは言えなかった。この解釈として、サンプルサイズが小さいからと考えた。
の二つだけです。

もちろん、グラフを見るとわかりますが、OSMSの患者さんでも、CMSの患者さんでも、250μg群のほうが再発率は低くなっています。グラフの見た目は確かに効果が似通っています。

では、ここで、見た目だけではなくて、統計学的にも本当に似通っていると言えるのか検討しているのか? 

効果が似通っていることの検定はやっていないのです。

同等性の検定、あるいは非劣性性の検定という検定の方法がありますが、私は詳しく知りませんし、この研究のデザインでは出来ないのではないかと思います。

サンプルサイズが大きい、小さいの話は、50μg群と250μg群の再発率の比較についての話なのです。OSMS群とCMS群の比較についての話ではないのです。

部分Aにも、本文にも、「サブグループ解析では、OSMS群とCMS群のどちらにおいても、再発率が低かったが、サンプルサイズが小さい統計学的に有意ではなかった」とだけ書いてあれば、誤解がないのです。ところが、インターフェロンがCMSに効くのと“同じくらい“ OSMSにも効くのだと思わせるような書き方をしているのが問題だと思います。

あるいは「検定はしていないし、グラフを視覚的に見ての判断だが、OSMS とCMS における本治療効果の程度や方向性が同等であることが示唆された」と書いてあるならいいかな。

え?細かすぎるって? 
うーん、そうかもしれません。自分でもいちゃもんのような気がしてきた。この問題についてはこれ以上難癖をつける?のはやめにしますね。

■【疑問点1】について、について

この部分については、おおむね納得していただけたようで安心しました。 

p値について、追加説明させてください。きっとXさんは全ておわかりになっているのだと思います。ちゃんと説明するとあまりにも長くなるので、ごく簡単な説明にとどめておられるのだと思います。ですから、Xさんへの反論ではなくて、あくまで芦田さんのための追加の説明です。

「どのような統計にせよ、p=0.047という値は、250μG 投与群の方が50μG 投与群に比して年間再発率を押さえる効果に関して有意差があるが、あるといってもその程度のものだ、という理解をすべきです」のところです。

この説明だけだと、1年前の私のような初学者は誤解してしまうかもしれないので補足します。

p値は、大まかに言うと、治療効果の差の大きさだけではなくて、サンプルサイズ、効果の指標によっては、効果のばらつきに規定されます。効果のばらつきというのは治療効果の個人差のことです。「とても効く人もいればあまり効かない人がいる薬」よりも、「誰にも同じくらいの効果を持つ薬」のほうが、効果のばらつきが小さいと言えます。

治療効果の差が大きければ、当然p値は小さくなります。しかし、サンプルサイズが大きくなっても、p値は小さくなります。効果のばらつきが小さい場合も、p値は小さくなります。

うんと効果に差が小さくても、サンプルサイズが大きくなるほどp値は小さくなりますし、効果の差が大きくてもサンプルサイズが小さければp値は大きくなります(ですから、医学研究では、p値よりも、効果の指標の点推定とその信頼区間を提示することのほうが好ましいと言われています)。

ですから、p=0.047 という数字だけでは、効果の大きさ(効果の差)がどの程度のものかを評価することは出来ません。

少し別の角度から説明してみます。

この研究のようなタイプの「理想的な医学臨床研究」では、p値は0.05(を少し下回るくらい)になります。(ここまでで、私が何を言いたいか分かった人はどうぞ、この部分は読み飛ばしてください。あるいは、こいつが、あれをどうやって説明するつもりかとはらはらしながら見ていてください)。

p値は、この研究のようなデザインの研究の場合、治療効果の差とサンプルサイズに規定されます。有意差を出したいわけですから、そのために、医学臨床研究者は、計画をたてる段階で、先行研究から見積もった(予想した)治療効果の差と、統計解析でどの程度のレベルをもって有意とするかを規定する数字(採用するp値(アルファエラー)やベータエラー)から、複雑な計算をして(といってもエクセルで出来るくらいですが)、有意差を出すために必要なサンプルサイズを決定します。研究に参加してもらう患者さんの人数を決めるのです。

医学臨床研究ではサンプルサイズは小さすぎても大きすぎてもいけません。

サンプルサイズが小さすぎれば、本当は効果に差があるのに、検定しても統計学的には有意にならなくなってしまう。

サンプルサイズが大きすぎるときの問題は二つあります。

一つ目。本当は臨床的に意味がある効果ではないのに、統計的には有意になってしまうということです。たとえばサンプルサイズがどんどん大きくすれば、再発率を50%から49.9%に下げる治療でも有意差を出すことが出来ます(この場合、各群4万人ずつくらいいれば)。前述しましたが、p値はサンプルサイズにも規定されるからです。統計学的には有意な差ですが、常識的にはどうでしょうか?

二つ目は、医学臨床研究は人体実験であるということです。効果が本当にあるかどうか分からない、もしかしたら副作用があるかもしれない、そういう未知の薬を患者さんに使ってもらうのです。あるいは、本当に効果がある(ことがいずれ分かる)薬を使うのなら、対照群としてプラセボを飲む羽目になった患者さんは気の毒です。そういう意味でサンプルサイズは小さいにこしたことはない。
また、医学臨床研究には果てしないお金と時間と人手がかかります。参加してもらう患者さんが少なければそれらも安くてすみます。

小さすぎもしない、大きすぎもしないサンプルサイズ、検定の結果、ちょうどp値が0.05 を少し下回ることが予想されるサンプルサイズを設定するのです。少し、というのがどのくらい少しなのかは意見が分かれるのだろうと思いますが。

ですから、医学臨床研究で理想的な研究というのは、結果の解析で得たp値が0.05を少し下回るくらいの研究を言います(基礎研究では違うのかもしれませんね)。

この研究では有意差が出なかったのですからサンプルサイズが小さかったのでしょう。あるいは、、もしp値が、0.05をはるかに下回るような結果がだったらそれは、サンプルサイズの設定に問題があった(大きすぎた)、と言うことになります。

また、理想的な研究であれば、p値が0.47くらいになるように(0.05を少し下回るように)サンプルサイズを設定しているのですから、p値から、治療の効果の差はこの程度であると評価することは、理想的な研究では不可能なのです。

初学者の方は、以上の議論をふまえた上で、Xさんの説明「どのような統計にせよ、p=0.047という値は、250μG 投与群の方が50μG 投与群に比して年間再発率を押さえる効果に関して有意差があるが、あるといってもその程度のものだ、という理解をすべきです」を理解されるのがいいと思います。

■【疑問点3】についてもXさんには納得していただけたようなので書きませんが、芦田さんはどうでしょうか?

■【疑問点4】について

この研究のような研究に患者さんが参加するときには、契約書を交わします。脱落の理由について論文などのかたちで報告することについても同意が得られています。ですから、落の理由について追及することについては、プライバシーの問題はないし、不可能なことでもありません。

コンソート声明という、治療効果に関する医学臨床研究の報告のあり方について説明した国際的な取り決めがありますが、この中でも脱落とその理由についてはきちんと報告するよう求めていますし、医学臨床研究の評価のガイドブックの一つである、コクランハンドブックでも、脱落とその理由の報告の有無、内容についてきちんと評価すると定めています。つまり、治療効果に関する医学臨床研究の世界では、脱落とその理由については、きちんと報告することになっているのです。

臨床研究に研究者として参加されたことのある方なら(参加したことがなくても臨床研究の評価に興味がある人なら)、コンソート声明もコクランハンドブックもご存じだと思いますし、いまや、コンソート声明を意識しない治療効果についての臨床研究計画はあり得ないと思います(生命医学の基礎研究についても、そのあり方を規定した取り決めがあるのではないのでしょうか。もちろん、私は知らないのですが)。

副作用や脱落の評価がとても重要視されているということです。

なぜか。副作用がない薬はないからです。そして副作用はしばしば重篤なものになりうるからです。治療の効果とは、症状の改善と副作用をあわせて評価するものであって、副作用を評価しない臨床研究はあり得ません。脱落率や、副作用による脱落率を、研究の第一の評価項目にしている研究も実際にたくさんあります。

副作用や脱落についてきちんと記載することの重要性について説明したのですが、うまく伝わったでしょうか。

また、実は、この研究ではきちんと脱落やその理由を報告しているのです。論文中の図を見れば分かりますが、妊娠したので参加を途中で取りやめた人が一人いることすら報告しています。脱落例について、その理由をすべて追及することは、患者さんのプライバシーの問題もあったとしても可能であること(少なくともこの研究では可能であったこと)をまずは論文をお読みになってご確認いただければありがたいです。

しかし、私の指摘した問題点は、実は、Xさんのコメントの先にあります。

この研究で治療初期に取りやめた人たちについては、取りやめた理由がなにかという情報がないことだけを問題にしているわけではなく、そもそも、取りやめたのがどういうタイプの患者さんなのか(OSMSの患者さんなのかCMSの患者さんなのか)、その人たちがどちらのグループだったか(50μg群なのか250μg群なのか)についてもまったく報告されていません。このことが問題ではないかと思うのです。

インターフェロンの副作用が治療開始後、どういうタイミングで出現するのか、私は知らないのですが、この研究では、インターフェロンを少量から初めて少しずつ増やしていくという方法をとっているのですから、治療初期に出ることもあるのでしょう。治療初期に副作用が出る人(つまり副作用が出やすい人)を解析から除外して、副作用に強い人だけを解析するということは、治療の価値を過剰評価すると言うことです。これが問題です。

■「まとめますと」以下について。

Xさんは『「大森さん」という方の論文の読み方には、「この論文はアヤシイ」という結論ありきの傾向が感じられます』とお書きになりました。

ありがとうございます! その通り!! むしろ、それ以上です。結論ありきの傾向、どころではありません。

私は論文を読むとき、まず、この論文はインチキにちがいない、と思って読みはじめます。アヤシイなんて中途半端なことは思いません。
さまざまなポイントをチェックして、なるほどこれは真っ黒けのインチキではない、多少問題はあるけれど、この論文には意義がある、と思えた論文、あるいはそれ以上の論文だけ控えめに参考にします。

なぜか。

治療がタダなら、良いのです。副作用がないなら良いのです。副作用がなくて、タダならば、他によい治療法がないの場合には効果が確立されていない治療法であっても、患者さんにその治療を紹介することは許されるでしょう。

しかし、治療には必ず副作用があります。また、治療は(薬は)タダではありません。副作用があるし、お金もかかるけれど、それを上回る効果があるから、患者さんはお金を払って、我慢して薬を飲む(注射を受ける、手術を受ける)のです。

これまで、さまざまな治療が発明されました。一部は有効な治療として現在も残っています。しかし、多くは予想していた効果がないことが分かり使われなくなり、一部は、有害であることが分かり、使用が禁止されました。

ですから、医者は常に新しい治療に懐疑的です。懐疑的であるべきだと思います。ですから、臨床医は論文を疑って読みます(正直言うと、みんながみんなそうかと言われると多分そうではなくて、実は少数派なのだろうと思うのですが)。

この論文についてもそうです。要旨を読んだとき、私の印象は真っ黒でした。そして予想通り、本文を読むと確かに怪しいことが分かったと言うことです。

基礎の研究者の論文の読み方とは少し違うのかもしれませんね。どうでしょう?

■ただし、この論文はともかく、この研究そのものには大きな意義があると思います。

治療の価値を一つの研究だけで証明することは困難です。むしろ、今後、一つの研究だけでその価値を決定できるほどの、劇的な効果を持ち、副作用も少ない薬はそうそうあらわれないのではないでしょうか。

ですから、世界中で行われた、同じようなデザインの臨床研究を集め、それを総合的に評価することで、治療の評価は決まっていくのだと思います。ですから、この研究そのものは、MSの患者さんのインターフェロン治療の有効性についての基礎データとなりうる、有意義な研究だと思っています。総合的な解析の結果、インターフェロンが効くという結論になるか、効かないという結論になるかはともかくとして。

私が怪しいと結論したのは、あくまで、この論文で採用された解析や結果提示の仕方です。また、この論文だけで(要旨を読んだだけで)、OMSにもインターフェロンが効くという自分の信念に「お墨付き」をもらったと思う医者がいるとしたら、あるいはそういう風に宣伝している製薬会社があるとしたら、それが問題だと思うのです。


< ページ移動: 1 2 >
コメント投稿
記事へ戻る