抗血栓トライアルデータベース
home
解説
テキストサイズ 
INDEX

臨床試験論文の読み方 ─臨床上有用である指標

富山大学大学院医学薬学研究部バイオ統計学・臨床疫学 折笠秀樹

EBMで重視すべき臨床論文

 EBMで重視している臨床論文とはランダム化比較試験(RCT)とメタアナリシス(meta-analysis:MA)である1)。臨床研究の重要なポイントのひとつはランダム割付け(random allocation)をしていることであり,もうひとつは効果サイズ(effect size)が十分なことである。小規模で効果サイズも不十分な臨床研究は,それほど重要でないことが多い。そこで,ここでは臨床論文を読むときに有用と思われる概念および指標について解説する。

無作為(ランダム)割付け(random allocation)の重要性・意義

 母集団(population)から標本(sample)を選ぶときには,恣意の入らぬように無作為に行う。無作為とは作為を入れないというよりは,確率的に選ぶという意味であり,こうした確率的に標本を選ぶ操作のことを「無作為抽出(random sampling)」と呼ぶ。臨床試験では条件に合致した症例は漏らさずすべて組み入れるのが原則であるため,この操作は臨床試験ではほとんど用いられない。しかし,臨床試験でも別の意味での無作為化は用いられる。たとえば,3つの治療法を比較する場合,それぞれ3分の1の確率でどれかに当たるよう標本を分ける。確率を用いて(つまり無作為に)比較群へ割り当てることである。この割当てのことを臨床試験では特別に「割付け」と呼び,この操作を「無作為(ランダム)割付け(random allocation)」と呼ぶ。これは,ランダム化,ランダマイゼーション,無作為化などとも呼ばれ,無作為割付けを伴う臨床試験のことを,無作為(ランダム)化比較試験(RCT:randomized controlled trials)と呼ぶ。

メタアナリシス(MA)─手法と限界

 MAとは,いわばanalysis of analysesであり,個々の臨床試験の結果をさらに分析する解析法であり,それぞれ独立した研究結果を統計的手法で併合する解析法ともいえる。たとえば,本書でとりあげているAPTやATTでは多くの抗血栓療法とコントロールとの比較試験を対象としている。それぞれに抗血栓療法による血管イベントのリスク減少率が示され,数値は試験によって異なっているが,全体として抗血栓療法が優れているのかどうかを解析している。こうしたMAにより臨床的意義が証明されれば,治療ガイドラインなどにも「推奨治療」として採用される傾向が強い。

 一方,MAは悪くいえば寄せ集めデータの解析であり,何でもかんでも集めて解析すればよいということではないという反論もきかれる。それぞれの研究デザインは完全に同じということはなく,それらを併合することへの反発もあるようである。さらに,併合する対象は公表論文が多いが,公表論文はポジティブデータが多いため,MAの結果もポジティブ方向へバイアスがかかるといった懸念もある。しかし,そうした違いを許容したうえで,バイアスに気をつけながら,治療法などの総合評価を行うことが大切である。

評価指標の解釈性

 ATTによる最新結果2)を表にまとめた。これは,ハイリスク患者を対象にした195試験によるメタアナリシスの結果である。比較は抗血小板療法とそれ以外(コントロール)であり,エンドポイントは血管イベントである。

表 ATTの結果を例にした臨床効果の指標
評価項目 抗血小板療法群 コントロール群 RRR ARR NNT
血管イベント 7,705/71,912(10.7%) 9,582/72,139(13.2%) 22% 2.5% 40人

 本メタアナリシスは195試験を含む14万人を超える対象で解析している。この平均的患者背景を読むことが第一であり,ここでは血管系へのリスクが高い対象となる。次は何の効果を読むかであるが,ここでは抗血小板療法の有効性であり,加えて,比較対照群はプラセボではなく抗血小板薬を使わないコントロール群である。最後にエンドポイントであるが,これは血管系イベントである。

相対リスク低下(RRR)

 上の表のように血管イベントに関して,まず2群別にイベント率を求める。抗血小板療法群のイベント発生率は10.7%であり,これをEER(experimental event rate)と呼ぶ。コントロール群のイベント発生率はCER(control event rates)と呼び,この場合は13.2%である。

 次に,臨床論文でしばしばとりあげられるのがRRR(relative risk reduction)という指標である。相対リスク低下と呼んだりする。目安にすぎないが,RRRが20%以上の数値の場合,臨床的にも有用な治療法であることが多い。このRRRは予後因子で調整された結果として示されることも多いが,単純には(13.2−10.7)÷13.2=0.19(コントロール群のイベント発生率で割ることに注意),つまり19%と計算できる。表のRRR数値は22%であり,単純計算の結果とは多少異なっているが,これは予後因子で調整したためと考えられる。あるいは,論文ではオッズ比を示しており,単純計算ではリスク比を求めたせいかもしれない。

 本書においては,論文中にすでにRRR(および信頼区間)が示されているときには,われわれの単純計算値よりもそちらを引用することとした。さらに,オッズ比,ハザード比などの場合はその旨を明示した。

オッズ比とハザード比

 臨床試験のエンドポイントにはさまざまなものがある。特にイベント(死亡,急性心筋梗塞など)のときには,治療効果の指標として特別のものが使われる場合がある。2群間の比較を考えると,まずオッズ比(odds ratio)という指標があり,オッズ比が1であれば同等,1より小さいと試験群で効果あり,1より大きいと薬害があることを示す。このオッズ比は2年以内死亡など,2値で表されるエンドポイントに使われる。一方,生存率解析のように「いつ死亡したか」まで考慮する場合には,死亡率の代わりにハザードという指標が用いられる。これは危険性の程度を示しており,治療法間の比のことをハザード比(hazard ratio)という。ハザード比の数値の解釈はオッズ比と同様であるが,少し専門用語すぎるため,論文によってはリスク比(risk ratio)または相対リスク(relative risk)と呼ぶ場合もある。

p値と信頼区間

 臨床試験だけではないが,よく検定を行ってp値を求め,それで統計学的に有意かどうかを論文に示す。p値が5%未満をもって統計学的有意と判定している。最近の臨床試験論文では,このp値が5%未満(p<0.05)という記述だけでは不十分とし,もっと正確なp値(たとえばp=0.002など)を示すことが要求される。それにより,結論がどれだけ強固であるかを見抜けるからである。p<0.05だけでは,すれすれのp値であるのか,極小p値であるか判別不可能である。

 それに加えて1980年代から,主要な結果については,効果の大きさに関する95%信頼区間(95%CI)も示すよう義務づけられてきた。95%にした理由は,5%で有意とする検定に対応させたからである。信頼区間をみれば,どの程度の効果サイズかがみてとれる。たとえば,リスク低下20%(95%CI 3〜40%,p=0.018)であれば,信頼区間が0%を含まないので5%水準で統計学的に有意ということは自明である。

絶対リスク低下(ARR)と治療必要数(NNT)および有害必要数(NNH)

 RRRは論文で頻繁に目にするのに対し,ARR(absolute risk reduction)はあまり現れない。しかし,こちらのほうがEBMでは重視される。なぜなら,RRRは因果関係の程度を示すのに対し,ARRは患者を何人救えるかの程度を示すからである。RRRと違い,ARRでは意味のある大きさの目安はない。患者数に依存するためである。

 このARRの計算は簡単であり,13.2−10.7=2.5%とイベント発生率の差をとるだけである。これは100人あたり2.5人救える結果である。この逆数,1÷ARR=1÷0.025=40人がNNT(number needed to treat)と呼ばれる,EBMで象徴的に使われる指標である。これについても何人以下であれば臨床的に有用かという目安はないが,小さいほうが治療効果は大きいことになる。例におけるNNT=40人ということは,抗血小板療法の導入により40人に1人を余計に救えることを意味する。この『余計に』という点が重要である。一方,NNTがマイナスになる場合もあり,これは当然,EERのほうがCERより高いためである。つまり,有効性ではなく危険性を示唆する研究である。たとえばNNTが−100人であれば,それは試験群のほうがコントロール群よりも100人に1人の割合で『余計に』有害例を出すことを示す。このときにはNNH(number needed to harm),すなわち有害必要数と呼ぶ。マイナス記号を削って,NNH=100人という。

 本書では,各試験の平均追跡期間を考慮した。上の例での平均追跡期間が2年であれば,1年NNTは80人となる。1年目に80人に1人を救い,2年目も同じく80人に1人を救うので,2年間では80人に2人(40人に1人)救う勘定になる。逆に,平均追跡期間が6ヵ月なら,1年NNTは20人と半減する。本書におけるNNTおよびNNHは,6ヵ月以上の慢性期治療では1年,急性期治療は1ヵ月で換算した。また,追跡期間15日間までの超急性期の場合は換算は行わなかった。

NNTおよびNNHの臨床応用─リスク評価の必要性

 NNTの数値を臨床応用する際に,次のことを念頭においていただきたい。それは,当該臨床試験の患者背景と目の前にいる患者さんのリスクを評価することである。仮に,臨床試験では総コレステロール平均値270mg/dL,リスクファクターも平均3つあり,今いる患者さんは平均230mg/dL,リスクファクターも1つであったとする。そうすると,心臓発作を発症するリスクにも違いが生じると思われ,この相違を臨床現場では考慮して欲しい。つまり,本書のNNT数値を鵜呑みにしないでもらいたいのである。

 このリスクの違いをF(fraction)として表現することがある。臨床試験より0.5倍のリスクと考えれば,F=0.5と設定し,NNT÷Fで判断すべきなのである。上の例では40÷0.5=80人となり,軽症の人ほど効果サイズは小さくなることがわかる。NNTは大きいほど効果は小さいことに注意を払い,さらに,臨床応用では患者の希望(preference or values)も考慮して治療法を決定すべきである。

臨床試験デザインの重要性─吟味におけるポイント

 臨床試験デザインにおける重要な用語を解説し,臨床試験論文の吟味におけるポイントを示す。

二重盲検試験とオープン試験

 実施している治療法,薬物治療の場合はどの薬剤を投与しているかを医療関係者も患者も知っている(オープンになっている)臨床試験をオープン試験,一方,どの薬剤が投与されているかを両者ともわからないものを二重盲検(ダブルブラインド)試験と呼び,方法を二重盲検法という。当然のことながら,オープン試験では先入観や思いこみが入りやすいため,正しい評価を与えがちなのは二重盲検試験である。また,二重盲検試験は必ず比較を伴っているが,オープン試験では比較試験のこともあるがそうでないこともある。

クロスオーバー試験とパラレル試験

 RCTは大別するとクロスオーバーとパラレル試験になる。パラレル試験とは並行群間比較試験とも呼ばれ,いくつかの治療法を並行的に比較し,すべての被験者はいずれか1つの治療法しか受けない。一方,クロスオーバー試験では,すべての被験者はすべての治療法を受ける。2群比較の場合は,治療法Aを受けてから治療法Bを受ける群と,治療法Bを受けてから治療法Aを受ける群に分けられ,治療法同士を線で結ぶと交差(クロス)するためこう呼ぶ。

 パラレル試験では個人間比較が前提となるのに対し,クロスオーバー試験では第1期(先)または第2期(後)で別の治療を受けることになるため,被験者という個人内で2つの治療法を比較できる。この個人内比較によって個人差を抹殺できる点がクロスオーバー試験の最大のメリットであるが,デメリットとして,先の治療法の効果が残る可能性,第2期に入る前に脱落してしまうことが挙げられる。

プロスペクティブとレトロスペクティブ

 プロスペクティブとは前向き,レトロスペクティブとは後ろ向きのことであり,それぞれ前向き研究または後ろ向き研究ともいう。前向きとは,現時点から時間軸に対して前向きという意味であり,現在から将来に向けてデータなどの情報を収集し,観察項目や観察時期を決定して行う研究法がプロスペクティブ研究である。一方,現在から過去にさかのぼってデータを収集する方法をレトロスペクティブ研究という。ここでは,過去の情報について調査するため,記憶が薄れてしまうなど情報の正確性が損なわれる可能性があり,レトロスペクティブよりもプロスペクティブ研究のほうが高い質だとされている。プロスペクティブ研究には,RCT,コホート研究が知られ,レトロスペクティブ研究では,後ろ向きコホート研究,ケースコントロール研究が知られている。

PROBE

 PROBE(Prospective,Randomized,Open,Blinded-Endpoint)試験とは,高血圧の臨床試験ではじめて提唱された試験デザインの略称であり,前向き(現時点より将来に向けて研究する),ランダム化(確率的に割り付ける),オープン(どちらの治療法かは盲検にしない),エンドポイントの評価は盲検で実施するデザインを示す。日常現場ではプラセボを用いた二重盲検試験の実施は難しく,そこでオープン試験がなされているが,治療法が何かを知っているために評価にバイアスが入るとされている。その欠陥を解消すべく提唱されたのが,このPROBE試験デザインである。エンドポイントの評価はそれを知らない第三者が行うことで,バイアスを伴った評価の回避を可能とした。

サロゲート/トゥルーエンドポイント(評価項目)

 臨床試験デザインの3本柱は,対象,介入内容,評価である。この評価の項目をエンドポイント(endpoint)という。臨床試験における評価項目は1つだけでなく,多くの項目をみている場合が多い。このエンドポイントをトゥルー(真実)とサロゲート(代替)に区別することがある。トゥルーとは患者が本当に期待しているものであり,サロゲートはその代わりとして期待しているものである。サロゲートの条件としては,1)トゥルーと関連が強いこと,2)トゥルーへ行く経路にあることである。例を挙げると,高血圧患者の治療評価において,トゥルーは脳卒中の発症であり,サロゲートは血圧値などが考えられる。

ITT解析とPPB解析

 臨床試験データを統計解析する際にはITT(intention-to-treat)とPPB(per protocol based)の2つの方法がある。ITTでは治療実施を計画した全例を解析対象とし,プロトコール逸脱例も解析に含める。一方,PPBではプロトコール通りに実施された症例のみを解析する方針である。本来ならば,事前に作成されたプロトコール通りに行われた症例だけを解析すればよいと考えがちであるが,多くの臨床試験ではITTの方針をメインにする傾向がある。その理由として,安易に解析除外を行うことは危険である,つまりランダム割付けにより比較性を保証したため,その通りに全例を解析するのはもっともであり,除外することはランダム割付けが無為になることが挙げられる。

 PPBは研究的試験で主に用いられており,確かに治療法の真の実力を比較した結果が得られる一方,ITTではむしろ治療方針の比較を行っている点に注目すべきである。途中で治療法が変更されたとしても,初期の治療方針としてどちらが優れているのかを問うているためである。もちろん,ITTではコンプライアンスの悪い症例まで含めているため,比較群間の差が薄まってしまう傾向を考慮すべきである。

不完全例(脱落例)の取り扱い

 臨床試験ではプロトコール通りにすべて行われることはまれである。追跡期間が1年であっても,途中の半年で消息不明になることもある。禁止された併用薬が途中で使われてしまうこともある。RCTでは,最初にランダム割付けというものを実施している。これは,比較を妥当にするために実施したのである。確かに,ランダム割付けをすると両群とも背景はよく似てくる。それにもかかわらず,適格基準違反だから除く,併用薬違反だから除くということをすると,せっかく確保された比較性が崩れてしまいかねない。そこで,一般的にはランダム割付けされた症例はすべて解析対象に含めて,解析除外はしないというのが原則になっている。これがITT原理というものである。

 しかし,薬剤試験であれば1回も投与しなかったとか,同意が取得されていなかったとか,実際には高血圧ではないのに高血圧として誤って登録されてしまった,などのように大きな違反である場合には,それらの症例は解析から除外することもある。ただし,軽微なプロトコール違反の場合には不完全例であっても解析除外しないほうがよい。途中で脱落した症例の場合でも途中までの情報は使えるので,それを考慮して解析対象から除外しないことが多い。脱落時点までにはイベントはなく,その後は不明(つまりセンサリング)として解析できるのである。検査値のような場合には,1年追跡の計画が半年で脱落したとして,半年時点での検査値を1年時の値とみなして解析することがある。このようなアプローチのことを,last observation carried forward(LOCF)と呼んでいる。このように,RCTでは不完全例であったとしても,何とか方策を講じて解析除外しない方向で扱うのが好ましいといえよう。

文献

  1. 折笠秀樹. EBM実践にさいして必要な統計学−ランダム化比較試験とメタアナリシス論文の読み方を中心に. 三田村秀雄・山科 章・川名正敏・桑島 巌(編). EBM循環器の治療. 東京:中外医学社;2001, p1-20.
  2. Antithrombotic Trialists' Collaboration. Collaborative meta-analysis of randomized trials of antiplatelet therapy for prevention of death, myocardial infarction, and stroke in high risk patients. Br Med J 2002; 324: 471-486.

参考文献

  1. 折笠秀樹(監訳). 臨床試験とは何か. 東京:南江堂,1998.
  2. 折笠秀樹(監訳). はじめて学ぶ医療統計学. 東京:総合医学社,2003.
  3. 折笠秀樹(監訳). 一歩進んだ医療統計学. 東京:総合医学社,2002.