跳到主要内容
工程的博客

臨床デ,タによる腫瘍学の知見抽出にNLPを活用

分享这篇文章

このブログで参照しているソリュ,ションアクセラレ,タのノ,トブックは,オンラ@ @ンでご参照いただくか,ノ,トブックをダウンロ,ドしてお使いの数据库アカウントにンポトすることで,すぐにご利用いただけます。

米国における死亡原因および疾病原因の第1位は悪性腫瘍(がん)です。その数は驚がん患者は約200万人になると予想されています。また,米国における医療費は,悪性腫瘍(がん)に関連するものが大部分を占めており,その額は,2020年2000年で億ドルを超えると推定されています。このため,バaaplオ医薬品業界では,がん治療のための創薬に特に注力しています。2019年,2020年だけでも,fdaによっておよそ40種類の新たな抗がん剤が承認されており,1300種類以上の新薬,ワクチンが臨床開発段階にあります。

患者に適切な治療を提供するためには,腫瘍治療の効果を計測が重要となります。オンコロジー(腫瘍学)データとそれに関連するリアルワールドのエビデンスは,臨床研究,臨床試験のデザイン,規制上の意思決定,安全性の評価,治療計画などに情報を提供するポテンシャルを持っています。しかし,腫瘍治療の高度な専門性から,疾患の基準やエンドポイントは多くのケースで構造化されたフォーマットでは利用できず,データサイロに閉じ込められたままとなっており,集約や分析を困難なものにしています。

腫瘍学の分野においては,病理学のレポート(ほとんどの場合PDFフォーマットであり,EMRシステムのサイロに格納される)には,腫瘍のサイズ,グレード,ステージ,組織構造などの重要な情報が含まれています。自然言語処理(NLP)システムによって抽出された変数は,疾患のコホートの定義,疾患の重症度の評価,病状進行のベースラインを作成に活用でき,前述した臨床試験のマッチングや治療計画などのユースケースに適用できます。しかし,構造化されていない診療テキストデータから情報を抽出することが,データチームにとって極めて大きな課題となる場合があります。

ヘルスケアNLPのリーダーであるジョン・スノー・ラボと砖は,この問題に正面から取り組み,ヘルスケアエコシステムにおける多くのお客様と協業し,構造化されていない腫瘍学データを実用的なエビデンスに変換しています。

数据とジョン·スノ·ラボによる大規模な医療自然言語処理

このソリューションの基盤は,データ管理、性能などのデータウェアハウスの優れた要素と,クラウドデータレイクの低コスト,柔軟性,スケーラビリティを兼ね備えたモダンなデータプラットフォームであるDatabricksのレ. cerクハウスプラットフォ. cerムです。この,ヘルスケアシステムを有用にする新たなシンプルなア,キテクチャは,構造化データ(EHRデータベースにおける診断/プロシージャコード),半構造化データ(HL7, FHIRメッセージ),非構造化データ(フリーテキストのメモや画像)といったあらゆるデータを単一の高性能なプラットフォームに統合し,従来の分析とデータサイエンス両方に対応します。

砖のレイクハウスプラットフォームとジョン・スノー・ラボの連携でヘルスケアNLP(自然言語処理)の力を引き出す

砖のレイクハウスプラットフォームには,データレイクに性能(Apache火花™を通じて),信頼性,ガバナンスをもたらす,オープンソースストレージレイヤーの三角洲湖が中核にあります。ヘルスケア機関は、未加工の診断書、放射線医学レポート、PDF の病理レポートなど、あらゆるデータを Delta Lake に格納できます。これにより、データ変換を実行する前に、信頼できる唯一のソースを保持できます。一方、従来のデータウェアハウスでは、変換はデータを読み込む前に実行されます。そのため、非構造化テキストから抽出された全ての構造化変数は、ネイティブのテキストから切り離された状態になります。

このレ电子邮箱クハウスの基盤上に,ジョン·スノ·ラボによる医療·ヘルスケアのためのSpark NLPが構築されています。これは,ヘルスケア·ラ最も広く使用されているNLPラNLPブラリです。砖上で動作するようにPython, Java, Scalaに対応している唯一のネイティブ分散オープンソーステキスト処理ライブラリであり,全ての火花NLPパイプラインは火花毫升パイプラインであるため,統合されたNLP,機械学習パイプラインの構築に特に適しています。引发NLPは,従来のNLPライブラリ(斯坦福CoreNLP宽大的,nltk开放NLPなど)の機能に加え,スペルチェック,感情分析,文書分類などの追加機能を備えたPython, Java, Scalaのラ@ @ブラリを提供します。砖とジョン・スノー・ラボのジョイントソリューションの詳細に関しては,以前のブログ記事“医療分野におけるnlp(自然言語処理)の大規模な活用方法とは”をご参照ください。

リアルワ,ルドの腫瘍学デ,タを抽出

砖とジョン・スノー・ラボによるソリューションの成果を実証するために,オンコロジーレポートからリアルワールドデータ(RWD)を抽出するソリュ,ションアクセラレ,タを作成しました。このソリューションアクセラレータには,ダウンストリーム分析およびリアルワールドのエビデンスのためのオンコロジーレポートの取り込み,準備に関するステップバイステップの手順ソリュ,ションは数据中心ノ,トブックとして実行できるようになっています。いますぐご利用できるように,以下にソリュ,ションの簡単な手順を解説します。

砖とジョン・スノー・ラボによるソリューションアクセラレータには,ダウンストリーム分析およびリアルワールドのエビデンスのためのオンコロジーレポートの取り込み,準備するためのエンドツーエンドの自然言語処理のワークフローを提供します。

本ソリュ,ションにおいては,Mt肿瘤学笔记デ,タセットを使用しました。これには,主に医療専門家によって書き起こされた医療記録のサンプルと,医療記録の一部を構成する特定のセクション,例えば,物理的検査(体检)あるいはPE、システムレビュー(审查系统)あるいはROSといったセクションにおける医療単語,フレーズの書き起こし,研究データ,精神状態の試験などから構成されています。

ここでは,非構造化テキストのソースとして太肿瘤学笔记データセットから匿名化された50のオンコロジーレポートを選択し,三角洲湖のブロンズレイヤーに未加工のテキストデータを取り込みました。デモのため,サンプル数を50に限定していますが,

このアクセラレータの最初のステップは,固有表現抽出(命名实体识别:尼珥)のさまざまなモデルを用いて変数を抽出することです。このために,最初にNLPパaaplプラaaplンをセットアップします。これには,特にヘルスケア関係の尼珥向けにトレーニングされたdocumentAssembler, sentenceDetector,记号赋予器のような注释器が含まれます。以下の例では,医療nerモデルであるbionlp_nerと医療単語向けにトレニングされたディプnerモデルであるjsl_nerを組み合わせました。中皮腫(间皮瘤)の患者には,咳などの症状があることがわかります。

砖とジョン・スノー・ラボによるアクセラレータで,事前トレーニング済みの名前付きエンティティ認識(尼珥)モデルを使用して患者の症状を抽出する方法を示した例。

テキストからの固有表現の抽出は,aiアシストetlの素晴らしい例となります。学習済みのディープラーニング(DL)モデルによって、ダウンストリームの医療分析で活用できるように非構造化データを構造化フォーマットに変換することができます。

症状を抽出することで,メディケアリスクの調整のためのコ,ディング精度を改善し,分级条件分类(HCC)コ,ディングを自動化するために使用されるicd -コ,ドにマッピングできます。治療のパターンを分析し,症状と腫瘍学エンティティとの関係性を分析するために,このデータを活用できます。

医療デ,タセットにおいてコ,ド化された症状に対する平均リスク。
図1:医療デ,タセットにおいてコ,ド化された症状に対する平均リスク
デ,タセットにおいて頻出している条件と病状の可視化。
図2:デ,タセットにおいて頻出している条件と病状の可視化

さらに,これらの症状の有無,あるいは,例えば家族など他の誰かと関連しているなどといった患者による訴えの状態を研究するためのチャートを作成できます。

砖とジョン・スノー・ラボのオンコロジーNLPソリューションアクセラレータの視覚化機能では,症状の有無,あるいは,例えば家族など他の誰かと関連しているなどといった患者の主訴を研究するためのチャートを作成できます。

同じノートデータセットに対して,最も一般的な腫瘍学エンティティと患者の主訴を重ね合わせることで,解説的かつビジュアルな統計処理を実行できます。

砖とジョン・スノー・ラボのオンコロジーNLPソリューションアクセラレータによる一般的な症状の主訴を視覚化した例。
図3:最も一般的な症状に対する主訴

次に,投薬の頻度,期間を含む治療を見ていきます。これは,がん腫瘍治療の基礎となります。以下は投薬治療と期間に関する情報を抽出するソリューションノートブックに含まれているNLPモデルのスクリーンショットです。

砖とジョン・スノー・ラボのオンコロジーNLPソリューションアクセラレータによる投薬の頻度や期間など,治療に関するテキスト分析の例。

これにより,治療に関連する症状や,再発などの疾患の状態を信頼スコアと関連付けることができます。

砖とジョン・スノー・ラボのオンコロジーNLPソリューションアクセラレータによる治療に関連する症状や,再発などの疾患の状態を信頼スコアと関連付けする例。

これらのデータは,個々の患者ケアの品質保証と,人工レベルの研究において重要なものであり,リアルワールドにおける介入の効果と安全性を判断するのに役立ちます。

砖のレイクハウスプラットフォームを用いることで,状態,症状,治療,そして構造化されていないノートから抽出された他の適切な情報を含むデータベースを容易に構築することができ,ダウンストリームでの分析,医療上の意思決定サポート,研究に活用できるようになります。

砖のレイクハウスプラットフォームを利�用することで,状態,症状,治療,そして構造化されていない記録から抽出された他の適切な情報を含むデータベースを容易に構築することができ,ダウンストリームでの分析や研究に活用できるようになります。

このソリューションアクセラレータにより,砖とジョン・スノー・ラボは,リアルワールドのエビデンス生成に求められる品質で大規模な腫瘍学データから情報を抽出できるようになりました。

NLPを活用したオンコロジ,レポ,トからのRWDの抽出

このソリュ,ションは,オンラ▪▪ンのノ▪▪トブックを参照いただくか,またはノ,トブックをダウンロ,ドしてお使いの数据库アカウントにンポトすることですぐにご利用いただけます。このノートブックには,ジョン・スノー・ラボの関連するNLPライブラリやライセンスキーをインストールするためのガイダンスが含まれています。

ヘルスケアラ▪▪フサ▪▪エンス業界向けのソリュ,ションは,Webペ,ジでもご覧いただけます。

数据库無料トラ电子词典アル
看到所有エンジニアリングのブログ的帖子