Cox regressionで多変量解析
Cox regressionは時間が関係するアウトカム(生存率、再発率など)に関する多変量解析の方法です。今回はそのデータの集め方を説明します。
Kaplan-Meier曲線を描くのに必要な用語(復習)
Kaplan-Meier曲線は例えば癌の生存率曲線などを描くときに必要です。
その際に必要なデータは何か?一人につき最低2つの情報が必要です。
生死、そして期間です。
イベントEvent (生死)
まずは、患者さんが生存しているかどうかというデータです。
通常は死亡しているとイベントEventといい、たとえばEZRでは1を割り当てます*1
生存しているか、情報が不明の場合は0です。
期間
それと手術から死亡日までの日数、または生存が確認されている最終日までの日数が必要です。
手術日と最終生存確認日(または死亡日)の二つのデータを引き算してもよいでしょう。
打ち切り
例えば引越しなどである時期までは生存していて、その後不明というときには
最終生存確認日をいれて、それまでは生きていたというデータにします。これを打ち切りといいます。
Kaplan-Meierカーブのためのデータをエクセルで集める
Case No |
Months from surgery |
Event |
1 |
5 |
0 |
2 |
12 |
1 |
3 |
14 |
0 |
4 |
14 |
1 |
5 |
24 |
1 |
6 |
30 |
0 |
7 |
60 |
0 |
1人目は経過5ヶ月で生存中
2人目は経過12ヶ月で死亡
3人目は14ヶ月に外来にきてその後引っ越して状況不明と行った場合もEventは0です
これをRで読み込んでsurvival packageを使えばタダでKMカーブがかけます。
もっと簡単にはEZRでかけます。
英語の説明はhttp://www.jichi.ac.jp/saitama-sct/SaitamaHP.files/manual.html
Cox regression testのためのデータをExcelで集める
ここからはいろいろな予後に関係しそうなFactorを入力します。
今回の場合にはSex、Smokingの列(column)を用意します。
それぞれの単変量はLog-rank testを行えば有意差検定が行えます。
easystats.hatenablog.com
この前提としてはHazard性が保たれていることが必要条件ですが、通常がんなどのsurvival dataではKaplan-MeierとLog-rank testを用いることが許されています。
そして多変量を行うのがCox regressionです。
Case No |
Sex |
Smoking |
Months from surgery |
Event |
1 |
0 |
1 |
5 |
0 |
2 |
1 |
0 |
12 |
1 |
3 |
0 |
1 |
14 |
0 |
4 |
1 |
1 |
14 |
1 |
5 |
1 |
0 |
24 |
1 |
6 |
1 |
0 |
30 |
0 |
7 |
0 |
1 |
60 |
0 |
Cox-regressionもRを使えばできますが、簡単にはEZRでしょう。