「芦田の毎日」について twitter 私の推薦商品 今日のニュース 写真ブログ 芦田へメールする

 大森コメントへの感想 from Xさん ― その後の 「インターフェロンベータ1bは日本人の再発寛解型MS患者において有効である:ランダム化された多施設研究」論文 2009年11月12日

もう一人別の研究者から「大森」さんへの感想をいただきました。ありがたいことです。実名と所属を私に示されていますが、伏せてご紹介します。

芦田様

奥様の件は大変にお気の毒なことと拝察致します。
本日アップされました「大森さん」なる方のコメント、および先ほど追加されました「Pさん」のコメントを拝見し、またNeurology 2005の論文を読みました上での私見を下記に記します。

まず、私自身は基礎研究者であり、神経内科の臨床的な経験はありません。

論文についてのコメントは、あくまで、生命科学系一般的な立場でのものとお考え下さい。

まず要旨の以下の部分についてですが
Subgroup analyses suggested that the magnitude and direction of treatment effect in patients with OS-MS and C-MS was similar, albeit not significant due to small sample size.

ここの部分で「similar」なのは「OS-MSグループにおける治療効果の傾向」と「C-MSグループにおける治療効果の傾向」です。

ただし、どちらもサンプルサイズが小さい(≒患者数が少ない)ので、治療効果の有意性を示すほどではなかった、という内容に私には読めます。

大森さんのコメントにある「サンプル数が少ないために統計学的有意ではなかったものの、サブグループ解析ではOSMS とCMS における本治療効果の程度や方向性が“異なる”ことが示唆された」という読み方も「OSMS とCMSとでは、治療効果がちがっていた。この違いが統計学的に有意かどうかを調べるために検定したが、残念ながら有意差はなかった。これはサンプルサイズが小さいためと考えることが出来る」という読み方にも無理があります。


【疑問点1】について
まずFig.1に示されるように、スタートの治験患者数が208人で、安全性について解析できた方が192名、それらを2つのサブグループに分けて効果を解析し、最後まで追跡できた人数が50μG 投与群93名、250μG 投与群95名
という例数(サンプルサイズ)です。

【疑問点1】についての「大森さん」の主張は概ね納得ができます。

どのような統計にせよ、p=0.047という値は、250μG 投与群の方が50μG 投与群に比して年間再発率を押さえる効果に関して有意差があるが、あるといってもその程度のものだ、という理解をすべきです。

なお、検定方法の問題については、生物統計の専門家ではないので、
今回の解析手法の妥当性については意見できません。

ただし、その他の点について、再発期間の中間値に関して、250μG 投与群で7.11日、50μG 投与群で16.43日となっていて、p=0.030で有意差があることが示されています。

再発しなかった方は250μG 投与群が44.2%、50μG 投与群で34.4%で前者が多いですが、これは有意差が付いていません。(この部分は【疑問点3】に含まれますが)


【疑問点2】について
サブグループ解析とは、例えば250μG 投与群の中でのOS-MS例が18例 (19.4%)、50μG 投与群の中でのOS-MS例が22 (23.2%)例あり、それらについて解析を行ったものになります。これらの残りがC-MS例です。

さすがに、このくらいの例数(サンプルサイズ)になると、動物実験と異なり、遺伝的背景も経験もばらばらな被検者のデータで、有意差が付くような統計結果が得られることは希ですが、それは分かった上で、せっかく患者さんのご協力のもとに得られた貴重なデータなので、サブグループに分けた解析も行ってみた、ということだと思われます。

で、上述のように250μG 投与群の方が再発率に対する有効性が高かったのですが、その効果は、C-MS例(0.746)とOS-MS例(0.608)では同様の傾向。ただし、例数が少ないので有意差は付きません。

したがって、「要旨には「OSMS とCMS における本治療効果の程度や方向性が同等であることが示唆された」なんて書いてありますが、そんな比較検討なんてはじめからしていないのです。」という大森さんの主張は間違っています。


【疑問点3】について
すでに上記で触れたように、単純な再発しなかった方の数や割合については、250μG 投与群の方が多いですが、有意差は付きません。その他の点についても、250μG 投与の方が良い効果がありますが、それは高い効果とは言えません。


【疑問点4】について
最初の集団からの脱落する例数については、さまざまな理由がありえます。

芦田さんの奥様のように重篤な副作用により投与を中断したいと望んだ方があれば、最後までの検証を行うことはできません。

ドクターホッピングをする患者さんなどもあるでしょう。脱落例について、その理由をすべて追及することは、患者さんのプライバシーの問題もありますから、ほぼ不可能であり、論文に記載しなければいけない事項とは思えません。

逆に言うと、多くの治験研究や疫学調査においては、最後まで検証できるサンプルを集めるのは並大抵のことではありません。治験や調査に関わる医師や研究者と患者さんの信頼関係も重要でしょう。

まとめますと、「大森さん」という方の論文の読み方には、「この論文はアヤシイ」という結論ありきの傾向が感じられます。

この2005年の論文の意義については、その後に掲載されたPさんのコメントにある「Editorialのコメント」が非常に役立つと思われます。

However, neurologists who care for patients with optic-spinal MS/NMO should be reluctant to accept these results as definitive proof of efficacy in this subgroup.

の部分ですが、「しかしながら、OSMS/NMOの患者を抱える神経内科医が、得られた結果をこのサブグループ(OSMS)における確実な証拠とは受容しかねるのも無理はない。」というPさんの訳と微妙なニュアンスの違いですが、私ならshould be reluctantのところを次のように訳します。

「しかしながら、OSMS/NMOの患者を抱える神経内科医は、本研究により得られた結果をこのサブグループ(OSMS)における確実な証拠として受け入れるには無理があるだろう(そうすべきではない)」

つまり、一応「慎重に扱うべき」という意見です。

私は、この論文が日本におけるMSのインターフェロン治療に関してどのように影響したのかについては不案内ですが、論文をどのように読むか、その価値や意義はどうなのかについて、私なりの解釈を申し上げた次第です。

末筆ながら、芦田様の精力的な発信には敬服致します。

また、奥様のご病状が少しでも快方に向かわれるような治療法が開発されることを願っております。→「にほんブログ村」

(Version 4..0)

にほんブログ村 教育ブログへ ※このブログの現在のブログランキングを知りたい方は上記「教育ブログ」アイコンをクリック、開いて「大学」「専門学校教育」を選択していただければ現在のランキングがわかります)

投稿者 : ashida1670  /  この記事の訪問者数 :
トラックバック

この記事へのトラックバックURL:
http://www.ashida.info/blog/mt-tb.cgi/1177

感想欄

芦田さん

こんにちは。
私の投稿について勉強になるコメントがいただけてうれしく思います。それについてのコメントです。

またまた長くなってしまったし、あまりにも話が細かくなってきたので、投稿した方が良いのか、芦田さん個人宛のメールにしようか迷ったのですが、どうしましょう?

迷惑でなければいいのですが。芦田さんにお任せします。

以下本文。
---------------------------------------------------------------------------
もう一人の別の研究者の方(芦田さんにならって、Xさんとお呼びしますね)のコメントについて、コメントしたいと思います。一部、Xさんの意見に反論しているように見えるところもありますが、目的は反論というよりも、芦田さんの理解が深まればいいなあと思って書いています。Xさん、どうか気を悪くしないで下さい。

以下、この研究、あるいはこの論文とは、「インターフェロンベータ1bは日本人の再発寛解型MS患者において有効である:ランダム化された多施設研究」そのもの、あるいは発表された論文を指すことにします。

■「まず要旨の以下の部分についてですが」から、その数行後の「という読み方にも無理があります」までの部分と、【疑問点2】について、について述べます。

まず、確認しておきたいのですが、
「サンプル数が少ないために統計学的有意ではなかったものの、サブグループ解析ではOSMS とCMS における本治療効果の程度や方向性が“異なる”ことが示唆された」
あるいは
「OSMS とCMSとでは、治療効果がちがっていた。この違いが統計学的に有意かどうかを調べるために検定したが、残念ながら有意差はなかった。これはサンプルサイズが小さいためと考えることが出来る」
という私の文章は、

Subgroup analyses suggested that the magnitude and direction of treatment effect in patients with OS-MS and C-MS was similar, albeit not significant due to small sample size
(Pさんの訳では「サンプル数が少ないために統計学的有意ではなかったものの、サブグループ解析ではOSMS とCMS における本治療効果の程度や方向性が同等であることが示唆された」。以下、部分Aと略します)

という文章の解釈(読み方)を書いたわけではありません。

この読み方には「無理」がある、どころか、100%間違っています。

私が言いたかったのは、部分Aが、薬の効果を比較した臨床研究の要旨としては、不自然な文章であると言うことです。

「サンプルサイズが小さかったから有意にはならなかったけれど、治療の効果が同等であることが示唆された」のだとすれば、「サンプルサイズを大きくすれば治療の効果が同等であると統計学的に有意に言える」のでしょうか? どういう検定を使って???

もちろん、論文の著者が言いたかったことは、本文を読めば分かります。Xさんの言うとおりで、「どちらもサンプルサイズが小さいので、治療効果の有意性を示すほどではなかった」です。なるほど、グラフを見れば、これが言いたかったのだなって分かります。でも、部分Aにはそうは書いていない。

いちゃもんかな? あるいは、有意差や検定の意味に敏感(過敏かな)でなければ気にせずスルーしてしまうのかもしれませんね。

さてここからが大事なのですが、
サブグループ解析において、この研究がやった検定(の結果とその解釈)は、

1. OSMSの患者さんについて、50μg群と250μg群の再発率を比較した。250μg群のほうが再発率は低かった。検定をしたらP値は0.093で、有意差とは言えなかった。解釈として、サンプルサイズが小さいからと考えた。
2. CMSの患者さんについて、50μg群と250μg群の再発率を比較した。P値は0.106で有意差とは言えなかった。この解釈として、サンプルサイズが小さいからと考えた。
の二つだけです。

もちろん、グラフを見るとわかりますが、OSMSの患者さんでも、CMSの患者さんでも、250μg群のほうが再発率は低くなっています。グラフの見た目は確かに効果が似通っています。

では、ここで、見た目だけではなくて、統計学的にも本当に似通っていると言えるのか検討しているのか? 

効果が似通っていることの検定はやっていないのです。

同等性の検定、あるいは非劣性性の検定という検定の方法がありますが、私は詳しく知りませんし、この研究のデザインでは出来ないのではないかと思います。

サンプルサイズが大きい、小さいの話は、50μg群と250μg群の再発率の比較についての話なのです。OSMS群とCMS群の比較についての話ではないのです。

部分Aにも、本文にも、「サブグループ解析では、OSMS群とCMS群のどちらにおいても、再発率が低かったが、サンプルサイズが小さい統計学的に有意ではなかった」とだけ書いてあれば、誤解がないのです。ところが、インターフェロンがCMSに効くのと“同じくらい“ OSMSにも効くのだと思わせるような書き方をしているのが問題だと思います。

あるいは「検定はしていないし、グラフを視覚的に見ての判断だが、OSMS とCMS における本治療効果の程度や方向性が同等であることが示唆された」と書いてあるならいいかな。

え?細かすぎるって? 
うーん、そうかもしれません。自分でもいちゃもんのような気がしてきた。この問題についてはこれ以上難癖をつける?のはやめにしますね。

■【疑問点1】について、について

この部分については、おおむね納得していただけたようで安心しました。 

p値について、追加説明させてください。きっとXさんは全ておわかりになっているのだと思います。ちゃんと説明するとあまりにも長くなるので、ごく簡単な説明にとどめておられるのだと思います。ですから、Xさんへの反論ではなくて、あくまで芦田さんのための追加の説明です。

「どのような統計にせよ、p=0.047という値は、250μG 投与群の方が50μG 投与群に比して年間再発率を押さえる効果に関して有意差があるが、あるといってもその程度のものだ、という理解をすべきです」のところです。

この説明だけだと、1年前の私のような初学者は誤解してしまうかもしれないので補足します。

p値は、大まかに言うと、治療効果の差の大きさだけではなくて、サンプルサイズ、効果の指標によっては、効果のばらつきに規定されます。効果のばらつきというのは治療効果の個人差のことです。「とても効く人もいればあまり効かない人がいる薬」よりも、「誰にも同じくらいの効果を持つ薬」のほうが、効果のばらつきが小さいと言えます。

治療効果の差が大きければ、当然p値は小さくなります。しかし、サンプルサイズが大きくなっても、p値は小さくなります。効果のばらつきが小さい場合も、p値は小さくなります。

うんと効果に差が小さくても、サンプルサイズが大きくなるほどp値は小さくなりますし、効果の差が大きくてもサンプルサイズが小さければp値は大きくなります(ですから、医学研究では、p値よりも、効果の指標の点推定とその信頼区間を提示することのほうが好ましいと言われています)。

ですから、p=0.047 という数字だけでは、効果の大きさ(効果の差)がどの程度のものかを評価することは出来ません。

少し別の角度から説明してみます。

この研究のようなタイプの「理想的な医学臨床研究」では、p値は0.05(を少し下回るくらい)になります。(ここまでで、私が何を言いたいか分かった人はどうぞ、この部分は読み飛ばしてください。あるいは、こいつが、あれをどうやって説明するつもりかとはらはらしながら見ていてください)。

p値は、この研究のようなデザインの研究の場合、治療効果の差とサンプルサイズに規定されます。有意差を出したいわけですから、そのために、医学臨床研究者は、計画をたてる段階で、先行研究から見積もった(予想した)治療効果の差と、統計解析でどの程度のレベルをもって有意とするかを規定する数字(採用するp値(アルファエラー)やベータエラー)から、複雑な計算をして(といってもエクセルで出来るくらいですが)、有意差を出すために必要なサンプルサイズを決定します。研究に参加してもらう患者さんの人数を決めるのです。

医学臨床研究ではサンプルサイズは小さすぎても大きすぎてもいけません。

サンプルサイズが小さすぎれば、本当は効果に差があるのに、検定しても統計学的には有意にならなくなってしまう。

サンプルサイズが大きすぎるときの問題は二つあります。

一つ目。本当は臨床的に意味がある効果ではないのに、統計的には有意になってしまうということです。たとえばサンプルサイズがどんどん大きくすれば、再発率を50%から49.9%に下げる治療でも有意差を出すことが出来ます(この場合、各群4万人ずつくらいいれば)。前述しましたが、p値はサンプルサイズにも規定されるからです。統計学的には有意な差ですが、常識的にはどうでしょうか?

二つ目は、医学臨床研究は人体実験であるということです。効果が本当にあるかどうか分からない、もしかしたら副作用があるかもしれない、そういう未知の薬を患者さんに使ってもらうのです。あるいは、本当に効果がある(ことがいずれ分かる)薬を使うのなら、対照群としてプラセボを飲む羽目になった患者さんは気の毒です。そういう意味でサンプルサイズは小さいにこしたことはない。
また、医学臨床研究には果てしないお金と時間と人手がかかります。参加してもらう患者さんが少なければそれらも安くてすみます。

小さすぎもしない、大きすぎもしないサンプルサイズ、検定の結果、ちょうどp値が0.05 を少し下回ることが予想されるサンプルサイズを設定するのです。少し、というのがどのくらい少しなのかは意見が分かれるのだろうと思いますが。

ですから、医学臨床研究で理想的な研究というのは、結果の解析で得たp値が0.05を少し下回るくらいの研究を言います(基礎研究では違うのかもしれませんね)。

この研究では有意差が出なかったのですからサンプルサイズが小さかったのでしょう。あるいは、、もしp値が、0.05をはるかに下回るような結果がだったらそれは、サンプルサイズの設定に問題があった(大きすぎた)、と言うことになります。

また、理想的な研究であれば、p値が0.47くらいになるように(0.05を少し下回るように)サンプルサイズを設定しているのですから、p値から、治療の効果の差はこの程度であると評価することは、理想的な研究では不可能なのです。

初学者の方は、以上の議論をふまえた上で、Xさんの説明「どのような統計にせよ、p=0.047という値は、250μG 投与群の方が50μG 投与群に比して年間再発率を押さえる効果に関して有意差があるが、あるといってもその程度のものだ、という理解をすべきです」を理解されるのがいいと思います。

■【疑問点3】についてもXさんには納得していただけたようなので書きませんが、芦田さんはどうでしょうか?

■【疑問点4】について

この研究のような研究に患者さんが参加するときには、契約書を交わします。脱落の理由について論文などのかたちで報告することについても同意が得られています。ですから、落の理由について追及することについては、プライバシーの問題はないし、不可能なことでもありません。

コンソート声明という、治療効果に関する医学臨床研究の報告のあり方について説明した国際的な取り決めがありますが、この中でも脱落とその理由についてはきちんと報告するよう求めていますし、医学臨床研究の評価のガイドブックの一つである、コクランハンドブックでも、脱落とその理由の報告の有無、内容についてきちんと評価すると定めています。つまり、治療効果に関する医学臨床研究の世界では、脱落とその理由については、きちんと報告することになっているのです。

臨床研究に研究者として参加されたことのある方なら(参加したことがなくても臨床研究の評価に興味がある人なら)、コンソート声明もコクランハンドブックもご存じだと思いますし、いまや、コンソート声明を意識しない治療効果についての臨床研究計画はあり得ないと思います(生命医学の基礎研究についても、そのあり方を規定した取り決めがあるのではないのでしょうか。もちろん、私は知らないのですが)。

副作用や脱落の評価がとても重要視されているということです。

なぜか。副作用がない薬はないからです。そして副作用はしばしば重篤なものになりうるからです。治療の効果とは、症状の改善と副作用をあわせて評価するものであって、副作用を評価しない臨床研究はあり得ません。脱落率や、副作用による脱落率を、研究の第一の評価項目にしている研究も実際にたくさんあります。

副作用や脱落についてきちんと記載することの重要性について説明したのですが、うまく伝わったでしょうか。

また、実は、この研究ではきちんと脱落やその理由を報告しているのです。論文中の図を見れば分かりますが、妊娠したので参加を途中で取りやめた人が一人いることすら報告しています。脱落例について、その理由をすべて追及することは、患者さんのプライバシーの問題もあったとしても可能であること(少なくともこの研究では可能であったこと)をまずは論文をお読みになってご確認いただければありがたいです。

しかし、私の指摘した問題点は、実は、Xさんのコメントの先にあります。

この研究で治療初期に取りやめた人たちについては、取りやめた理由がなにかという情報がないことだけを問題にしているわけではなく、そもそも、取りやめたのがどういうタイプの患者さんなのか(OSMSの患者さんなのかCMSの患者さんなのか)、その人たちがどちらのグループだったか(50μg群なのか250μg群なのか)についてもまったく報告されていません。このことが問題ではないかと思うのです。

インターフェロンの副作用が治療開始後、どういうタイミングで出現するのか、私は知らないのですが、この研究では、インターフェロンを少量から初めて少しずつ増やしていくという方法をとっているのですから、治療初期に出ることもあるのでしょう。治療初期に副作用が出る人(つまり副作用が出やすい人)を解析から除外して、副作用に強い人だけを解析するということは、治療の価値を過剰評価すると言うことです。これが問題です。

■「まとめますと」以下について。

Xさんは『「大森さん」という方の論文の読み方には、「この論文はアヤシイ」という結論ありきの傾向が感じられます』とお書きになりました。

ありがとうございます! その通り!! むしろ、それ以上です。結論ありきの傾向、どころではありません。

私は論文を読むとき、まず、この論文はインチキにちがいない、と思って読みはじめます。アヤシイなんて中途半端なことは思いません。
さまざまなポイントをチェックして、なるほどこれは真っ黒けのインチキではない、多少問題はあるけれど、この論文には意義がある、と思えた論文、あるいはそれ以上の論文だけ控えめに参考にします。

なぜか。

治療がタダなら、良いのです。副作用がないなら良いのです。副作用がなくて、タダならば、他によい治療法がないの場合には効果が確立されていない治療法であっても、患者さんにその治療を紹介することは許されるでしょう。

しかし、治療には必ず副作用があります。また、治療は(薬は)タダではありません。副作用があるし、お金もかかるけれど、それを上回る効果があるから、患者さんはお金を払って、我慢して薬を飲む(注射を受ける、手術を受ける)のです。

これまで、さまざまな治療が発明されました。一部は有効な治療として現在も残っています。しかし、多くは予想していた効果がないことが分かり使われなくなり、一部は、有害であることが分かり、使用が禁止されました。

ですから、医者は常に新しい治療に懐疑的です。懐疑的であるべきだと思います。ですから、臨床医は論文を疑って読みます(正直言うと、みんながみんなそうかと言われると多分そうではなくて、実は少数派なのだろうと思うのですが)。

この論文についてもそうです。要旨を読んだとき、私の印象は真っ黒でした。そして予想通り、本文を読むと確かに怪しいことが分かったと言うことです。

基礎の研究者の論文の読み方とは少し違うのかもしれませんね。どうでしょう?

■ただし、この論文はともかく、この研究そのものには大きな意義があると思います。

治療の価値を一つの研究だけで証明することは困難です。むしろ、今後、一つの研究だけでその価値を決定できるほどの、劇的な効果を持ち、副作用も少ない薬はそうそうあらわれないのではないでしょうか。

ですから、世界中で行われた、同じようなデザインの臨床研究を集め、それを総合的に評価することで、治療の評価は決まっていくのだと思います。ですから、この研究そのものは、MSの患者さんのインターフェロン治療の有効性についての基礎データとなりうる、有意義な研究だと思っています。総合的な解析の結果、インターフェロンが効くという結論になるか、効かないという結論になるかはともかくとして。

私が怪しいと結論したのは、あくまで、この論文で採用された解析や結果提示の仕方です。また、この論文だけで(要旨を読んだだけで)、OMSにもインターフェロンが効くという自分の信念に「お墨付き」をもらったと思う医者がいるとしたら、あるいはそういう風に宣伝している製薬会社があるとしたら、それが問題だと思うのです。

投稿者 大森 : 2009年11月12日 17:38
感想を書く




保存しますか?