第2回GCLSプレゼンコンペ受賞者寄稿 伊藤慶さん
第2回GCLSプレゼンコンペティションでソーシャルICT賞(最優秀賞)を受賞された伊藤慶さんに研究紹介の記事を寄稿いただきました。
自己紹介
東京大学大学院薬学系研究科、博士課程1年の伊藤慶と申します。学部4年生から北川大樹先生のもと細胞生物学の研究に従事し、修士課程2年次からは情報理工学系研究科の鶴岡慶雅先生にもご指導を賜って、機械学習による実験計画システムを開発しております。
私の専門である細胞生物学は世界中で研究がなされており、これまでに1000万報以上の論文が出版されています。しかし、研究者がその全ての論文を読み切ることは不可能です。そこで、自然言語処理の技術を用いて大量の論文を処理すれば、研究者以上に質の高い自動研究ができるのではないかと考え、研究をはじめました。
プレゼンの概要
日本では年々高齢化が進んでおり、医療費の増加や労働力の減少などの様々な社会的課題が発生しています。今後、明るい未来を実現するためには、医学研究の進歩が重要です。私は、研究の全自動化によって医学研究を加速したいという思いから、特に倫理的問題が少ない基礎医学研究=細胞生物学の分野において、研究自動化を目指す研究を行いました。
近年の細胞生物学では、ロボットを用いた実験操作の自動化が可能となってきています。しかし、「何の実験を行うか」は研究者が決定しなければならないため、完全な実験自動化は実現していません。そこで本研究では、過去の文献で実施された実験の流れを学習させることによって、研究者の代わりに実験を計画する機械学習システムを開発しました。
実験提案システムを学習するため、まず、およそ300万報の医学論文から、深層学習モデルのbio-BERTを用いて記載された実験の情報を網羅的に収集しました。続いて、収集した実験の前後関係と遺伝子データベースの情報を複合的に学習させることで、次の実験で調べるべき遺伝子を提案する機械学習モデルを構築しました (図1)。
2010年から2018年の論文に記載された実験を訓練データとして使用し、2020年に記載された実験が提案できるかを評価しました。提案された遺伝子の妥当性を評価するためにMean average precision (MAP)を計算したところ、広く使われている関連手法STRINGのMAP値が0.310であったのに対し、開発したLEXASのMAP値は0.369となり、有意に高い提案性能を示しました (図2)。
構築したモデルは「実験提案システム」として、収集した実験を検索できる「実験検索システム」とともにWebアプリケーションの形で公開しています (https://lexas.f.u-tokyo.ac.jp) (図3)。今後、提案された実験を実施して概念実証を行い、将来的には実験操作ロボットと組み合わせて、全自動実験を実現したいと考えております。
受賞の感想
前回研究奨励賞を頂けたのに引き続き、この度はソーシャルICT賞に選出していただき、誠にありがとうございました。審査員の皆様方に感謝申しあげます。今回の受賞を励みに、今まで以上に頑張ってまいりたいと思っております。
フィードバックへの返答
審査員の皆様、建設的なフィードバックをまことにありがとうございました。この場をお借りして、返答させていただきます。
- この研究によって、生物学者はAIによってなくなる職業の一つになるのでしょうか。それとも、生物学の研究がこれまでとは変わった形になっていくのでしょうか。
- 細胞生物学の実験は、定石に従って行う単純な実験と、独創的な実験との2つに大別できます。私は、開発したシステムを発展させることで、前者のルーチン実験を全自動化したいと考えています。将来の生物学者が独創的な実験の実施や考察に多くの時間をさけるようになることで、画期的な発見にもつながっていくと期待しています。
- 皆が同じ実験に取り組むことになりませんか?
- 単純な実験は、「細胞分裂の異常があれば微小管や動原体を観察する」など、どの研究者も似たような定石に従っています。過去の論文と同じような単純な実験は機械に任せて、研究者は独創的な実験や考察に専念することが理想だと考えています。
- 「成功の可能性が低い順に実験を100個やってみる」というのも面白いかも。
- ご指摘ありがとうございます。今後の概念実証では、可能性が高い順に試すことを検討していましたが、低い順という発想はありませんでした。試してみたいと思います。
- どのような研究者を対象とするのか(習熟した研究者、学生など)によっても使い方が異なってくるような気がしました。
- ありがとうございます。習熟した研究者の場合は提案された実験対象の遺伝子の意外性を判断できるので、見覚えのない未知の遺伝子に着目して実験するといった使い方ができると思います。一方、未熟な学生は順位の高い遺伝子に着目して実験を行えば、過去の論文の内容に沿った妥当な実験ができると考えています。
プレゼンの工夫
今回のプレゼンでは、「私の研究が未来を変える」というテーマに合わせて、社会課題に関する説明に時間をかけました。また、細かい機械学習モデルの説明は省略し、今回の研究で何ができるようになったのか、現状でどのように社会貢献できるのかというWebアプリケーション実装の説明も行いました。今後、まずは研究者の方々にWebアプリケーションを使っていただき、研究の加速という形で未来社会に貢献できればいいなと思います。
副賞の活用
副賞につきましては、学会参加の旅費や必要機材の購入費に活用させていだきたいと考えております。改めて感謝申し上げます。ありがとうございました。
寄稿:伊藤慶