【論文まとめ】医師国家試験問題自動生成AI

2018-12-20(Thu) - Posted by 秋山 in 技術ブログ

Contents

以下の論文を軽く紹介。

Shen S, Li Y, Du N, Wu X, Xie Y, Ge S, et al. On the Generation of Medical Question-Answer Pairs. arXiv. 2018. http://arxiv.org/abs/1811.00681

概要

Tensent Mediacal AI lab Internからの論文。
Deep learning技術により質問文に対して回答するAI (question answering, QA)が発展している。しかし、QAを医療に応用するためにはAIを学習させるためのデータが不足している。そこで質問文と解答のペアを自動生成するモデルを提案した。

手法

Key Phrase Detector

質問文の各フレーズが解答の決め手となるキーフレーズであるかを評価する。キーフレーズであるかどうかは特定の解答に対して高頻度で質問文に出現するフレーズがキーフレーズであるとしてdetectorを学習させる。例えば「日本脳炎」が解答である場合「項部硬直」などがキーフレーズとなる。

Conditional Variational Autoencoder (CVAE)

キーフレーズは維持しつつ、それ以外のフレーズを生成モデルCVAEによって言い換える。これによって答が同じな新たな質問文が作られる。

データ

中国医師国家試験18,798問
中国のWikipedia風医療サイト ([http://xywy.com/])
医学辞書19冊
医学論文2,130,128本
医学専門書518冊

実験結果

アルゴリズムによる評価、人間による評価ともにベースラインを上回った。

読んだ感想

生成された問題文の例が載ってないのですごいのかよくわからなかった。データの量はすごい。

2025
8/8	[Blog]	CodeQUEEN 2025に参加しました！
2024
10/16	[News]	富本がICPC 2024 World Finalsへ出場
8/16	[Blog]	CodeQUEEN2024
3/4	[Blog]	single cell解析における遺伝子発現量の可視化
2023
10/31	[News]	富本が全国6位：日本最強プログラマー学生選手権決勝
10/27	[News]	非公認団体に復帰のお知らせ
10/23	[Blog]	5年次研究留学 @ ハーバード大学
8/16	[Blog]	MatterGPT: Mattermostで動作するChatGPT連携チャットボット

大阪大学医学部 Python会

概要

手法

Key Phrase Detector

Conditional Variational Autoencoder (CVAE)

データ

実験結果

読んだ感想