ある産婦人科医の備忘録

産婦人科医(医師6年目)の臨床、研究、考えについて

アウトカムが連続変数かつ説明変数も連続変数のときに、説明変数にカットオフ値を設けるには?

アウトカムが連続変数かつ説明変数も連続変数のときに、説明変数にカットオフ値を設けるにはどうしたらいいんだろう?と数年前に悩んだことがあったので記録しておく.

 

例えば、

・アウトカム 出血量 (連続変数)

・説明変数 体重 (連続変数)

この2変数で散布図を書いたときに,きれいな線形性の関係がなく

ある体重の値の前後で明らかに出血量が違いそうな場合

(やっつけ図↓)

 

カットオフの決め方

図からだいたいのこの値だろう! とするのは恣意的であり問題.

 

そんなときは,体重(説明変数)をカテゴリーする

このカテゴリー化も恣意性を無くすために等間隔 10kg毎に分割などとする

 

そして説明変数がカテゴリー化できたら分散分析を行う.

カットオフで有意ならそれを提示することができる.

 

 

他には非線形な回帰を行う方法もあるが,これはカットオフを提示するものではないし,

説明可能性が下がることもある.

 

 

まとめ:

アウトカムが連続変数かつ説明変数も連続変数のときに、説明変数にカットオフ値を設けるにはどうしたらいいんだろう?

→ 説明変数をカテゴリー化して分散分析を行う!

 

臨床研究において欠損値(NA)と非統計家が孤独に戦うには

欠損処理と聞いて苦手意識を持つ人は多いと思う.

欠損が問題になるのはわかるけど,具体的にどうしたらいいかわからない.

そんな人と自分の備忘録として記す.

 

まず欠損がなぜ問題なのかと、その対策法を理解するために

欠損のメカニズムの理解が必要である.

 

・欠損メカニズム

 → MCAR、MAR、MNAR

 まずこれらの違いを学んで欲しい.

 ググれば素晴らしい解説がたくさん出てくるのでアウトソーシングする.

 しかし,それら解説を読んでも分からない人に足りない知識はおそらく

 DAG(Directed Acyclic Graph:非巡回有向グラフ)の理解だと思う.

 DAGについても素晴らしい記事がたくさんあるのでググってください.

 

さて欠損メカニズムを理解したらそれらに対する対処法である.

めちゃくちゃざっくり言うと

多くの観察研究では欠損をMARと捉えて多重代入法をするしかない.ことが多い(怒られそう)

 

MCAR(欠損が問題にならないパターン)であることは少ない 

 というか示すのも難しい.

MNARだと多重代入法でも対処できないし,じゃあ諦めるのかというと

(MARとの明確な区別もできないので,MARとして扱うしかないことも)

 

よって,MARと考えて多重代入法をすることになる.

 

多重代入法とは?

① 代入フェーズ

欠損値を,他の観察できている因子(たくさんある方がいい)から予測(シュミレーション)

する. 

この予測を1回だけで終わらすのではなく,たくさん(20~100回)やる.

そうすると20-100個の欠損が埋められたデータセットを作ることができる.

 

② 解析フェーズ

このたくさんのデータセットそれぞれで

もともとやりたかった解析(重回帰やロジスティックス回帰や傾向スコアマッチングなど)をやる.

つまり,解析は作ったデータセットの数だけ(20-100回)やることになる,

よって解析結果も20-100個できる.

 

③ 統合フェーズ

最後の段階で

このたくさんある解析結果を統合して1つの結果にする. 終了

 

 

たくさん代入フェーズにおける欠損予測のアルゴリズムはいくつか開発され,

それぞれ違いがあるが,明確な正解もないはずなので,

非統計家はそこに拘らなくてもよいだろし,論文を投稿して突っ込まれることも

ほぼないだろう.(たぶん 現時点では)

 

 

多重代入法を実装するに私はRを使っている.参考書も豊富である.

計算が重いのである程度のパソコンの性能がないと難しいのでそちらも考慮してほしい.

 

下記の教科書を参考にして私は実装することができた.

 

欠損に特化した参考書.

読むにはちょっとした数理的理解とRの理解が必要.

でも必要なこと.

www.kyoritsu-pub.co.jp

 

因果推論に関わる話が網羅的に書かれている.

Rの実装にも役立ち非常に素晴らしい本.

www.kyoritsu-pub.co.jp

 

 

 

 

 

 

 

 

2022年 抱負など 産婦人科専門医取得後の道

2022年

 

まだコロナは社会に強く影響している.

これから感染者数が増えることに全国が不安を抱いている.

 

個人としての状況としては,専門医取得後どのようなキャリアを築くかが最大の問題である.

 

臨床医としては

産婦人科医 - 周産期

        婦人科

                          生殖

       女性医学

と枝分かれし、更にその中でも細分化される.

その中でも,手術・腹腔鏡・超音波・遺伝などが横断的かつメインの領域だろう.

しかし,私の境遇ではあと数年は専門性の高い領域に従事することは不可能である.

来るべき数年後のために現在できる範囲での準備をするというのがわりと平凡な?やり方だろう.

しかし,私は性格的に冒険をしたくなってしまうのでそうではない道を選びたいと思う.

臨床研究を行う能力に特化しようと思う.

 

なかなか荊の道になるし,失敗すれば他者と比較したときに遅れをとりそうだが

レバレッジをかけて投資をしてみたいと思う.

産婦人科専門医試験に合格していましたという報告

2021年 産婦人科専門医試験に合格しておりました! やったね

 

通知されたのは2021/12/14でした.
 (レトロにみるとこの日のPVが外れ値w)

試験自体は8月だったので,だいぶ通達までに空きましたね.

コロナの影響で東京では面接時期を遅らせた影響だとか.

 

専門医いるいらない論もありますが,
私は臨床を続くていくなら持っていたほうがいいと思います.
(高次施設では言うまでもないですが)

理由は信頼度を測る上で重要な要素となるからです.

そして,将来的に専門医の有無で業務等で更なる制限が発生するリスクもありますしね.
(専門医をとるインセンティブのために)

 

専門医に必要な症例の経験と試験知識は臨床をやる上で必要最低限だと思います.
そこを到達することができない場合はかなりキツイと思います.

 

試験勉強法については別の記事があります↓ 

obstetrician.hatenablog.com

 

 

 

さて,私は今後何を目指していくのか...
いずれにせよ身につけたスキルを社会に還元していきたいと思います!

 

信念がない奴はダメ 目的と方法の混同 という話

山口周氏のインタビューを元に(間違っていたらすみません)

ちょっと考えをまとめてみる.

 

世界経済はGDPを指標としているが,それは米国のルールに乗ることになる.

中国はGDPという指標を重視する路線を降りた.

日本は既に人口ボーナスは無く,GDPを指標として経済成長を目指すのは

辞めるべきではないか.

GDPを増やすことが目標なのではなく,国民のwell-beingを向上させることが目標である.

目的と方法が混同しがちである.これは社会に蔓延している問題である.

金を稼ぐこと,地位や名誉を上げることが目的なのか?

何か自分の興味や幸せを感じるWork,Businessを通じて,

結果として地位や名誉を上がるというのが自然である.

 

さて,自分はどうだ?

何の為に論文を書くのか.

何の為に臨床力を向上させるのか.

それは,自分の働きにより救われる人がいるというやりがいドリブンである.

結果としてそれが評価されればよい.

論文のための論文はダメだ.

現場のpracticeを改善させるインパクトのあるものを生み出すことを目的とすべきだ.

小手先ではなく,しっかり真のある論文を書きたい.

私は論文の執筆が好きだ.

 

 

 

第一回データサイエンティスト検定 リテラシーレベル 受かっていたよという話

f:id:obstetrician:20210929150606p:plain

 

 

f:id:obstetrician:20211102235656p:plain

 

 

無事 データサイエンティスト検定 リテラシーレベル 合格でした.

 

勉強したおかげでSQLとかはちょっと復習すれば理解できるくらにはなっている.

機械学習系の本もだいたい何が言いたいのかはわかる(初級者レベルですが).

 

第一歩として勉強する価値はあると思います.

 

勉強法は↓

obstetrician.hatenablog.com

データサイエンティスト検定™ リテラシーレベル 社会人初学者が3週間で90%超えられた学習法

一般社団法人 データサイエンティスト協会 が主催する

データサイエンティスト検定™ リテラシーレベル の第一回がこの度行われた.

社会人(医師)でデータサイエンティスト業務の経験がない私が 

フルタイムの仕事をしながら,3週間の準備期間で得点率90%を超えることができたので

その学習法についてまとめます.(2021/09/26現時点では合否は不明)

 

↓私の点数です.

 

前提として私のプロフィールは
・20代後半
・本業はフルタイム勤務の医師
・データサイエンティスト業務の経験がない
(簡単な統計解析をする論文あり:人力でカルテデータをExcelに取得し,統計ソフトEZR使用)
・統計検定2級取得済
機械学習,プログラミング,エンジニアリング,ビジネスの知識はほぼ皆無

 

私が学習した教材は以下です.

公式リファレンスブック

 これは網羅性に優れるものでした.
 公式が出しているだけあってマストだと思います.
 注意点として,簡素にまとまっておりますが,これのみでは説明不足な部分ありです.
 これを元にして,わからない部分をググるなり,他の教材で補完する
 使用法がよいでしょう.
 また,今回第一回で過去問がなかったため,巻末の練習問題は役立ちました.

② DS検定リテラシーレベル対応 データサイエンティスト基礎講座 | スキルアップAI | AI人材育成・開発組織の構築支援

 スキルアップAIが提供する無料の講座動画も全て視聴しました.
 有料版もあるようですが,私は無料部分のみ使用しました.
 内容はリファレンスブックに被る部分もありますが,より深く学べる部分もあり,
 単純に試験対策以外で勉強になりました.
 リファレンスブックの補完として使用できますが,
 これも網羅性重視なので,数理(微分,線形代数,統計)に関しては初学者は厳しいかも?

③ 図解即戦力 ビッグデータ分析のシステムと開発がこれ1冊でしっかりわかる教科書

 私はエンジニアリング知識が全くなかったのでこの本で保管しました.
 しかし,これは試験内容を超える部分も多分にあるので通読はしておりません.

④  線形代数については↓

 ⅰ 線形代数キャンパス・ゼミ (マセマ)
 ⅱ youtube ヨビノリ動画
 ⅲ おぐえもん.com | たぶん今すぐ使えるテクニックから、きっと全く使えない豆知識まで。

 私は線形代数に関して学習したことがなかったので上記のものを組み合わせて
 学習しました. 最近は無料の動画,ホームページで学習できるのでありがたい.

SQL → youtube動画

 SQLも全く知らなかったので,youtubeチャンネル
 ⅰ だれでもエンジニア
 ⅱ キノコード
 で学習させていただきました. どちらも非常にわかりやすいです.

 

私は統計検定2級を取得していたので統計分野に関しては簡単に復習するだけで足りましたが,統計初学者は十分に時間を設けるべきだと思います.

統計学の時間 | 統計WEB こちらのサイトが非常に参考になります.

 

ビジネス分野は,理論的に考えればわかるようなものが多いです.
ビジネスに携わってない人でも高得点が狙えると思います.

 

検定試験を受けて

・90問 90分 CBT方式 でしたが,全問解き終えて30分以上余りました.
 時間的には余裕があると思います.
 計算を要する問題もありますが,数は少なかったです.

・内容的にはリテラシーレベルだけあって,初学者であっても十分に対応できるものです. データサイエンスの勉強を始めるための準備程度のものだと思います.