学術系クラウドファンディングサイト「academist(アカデミスト)」
JP | EN

深層学習によるテキストマイニングで、投資をもっと身近に

シェア ツイート
SUCCESS
伊藤友貴
東京大学、博士課程3年
支援総額: 387,000 円
目標金額: 300,000 円
達成率
129 %
サポーター
26
残り時間
終了
募集期間は終了しました

目標金額を達成しました!

クラウドファンディング、皆様のお陰で達成することができました。
たくさんのお力添え、本当にありがとうございます。
この御恩には必ず「研究成果を出す」という形で返させて頂きます。
今後ともよろしくお願い致します。

academist スタッフからの一言
読みにくい金融専門文書から投資に重要な情報を抽出

田中奈穂美

貯蓄から投資へという社会背景があるなか、実際に投資をするとなると躊躇される方も多いのではないでしょうか。伊藤さんは、その要因のひとつとして、投資判断に必要な企業情報が含まれる決算短信などの金融専門文書が読みにくいことがあると考えました。そこで、深層学習によるテキストマイニングを用いて、この難解な文書から投資に重要な情報を抽出し、可視化する技術の開発を目指します。金融専門文書や投資をより身近に感じ、誰もが投資判断に必要な情報を気軽に手にできる世の中を実現したいという伊藤さんに応援をよろしくお願いします!

投資に躊躇する要因のひとつは金融専門文書の難解さ

近年、公的年金制度をはじめとする日本の社会保障制度がほころび始めていることを背景に、得た財産を今までのように貯蓄するだけではなく、投資による資産形成も必要になることが予想されます。実際、NISA(少額投資非課税制度)など、投資による資産形成を支援する制度も整ってきており、この機運は今後高まるでしょう。しかし実際に投資をするとなると、躊躇する方も多いのではないでしょうか?

その理由のひとつは、金融専門文書の読みにくさであると考えています。投資というと、企業の事業内容や業績状況に関する情報を集めるため、企業の決算発表内容をまとめた決算短信や有価証券報告書などの、金融専門文書を読み解く必要があるというイメージをお持ちの方も多いと思います。しかし投資初心者の方が、これらの文書を読み解くことは容易ではありません。文書内には文字が多く、専門用語が多数使われ、見やすい文書であるとは言い難いからです。実際に投資をしようとする忙しいビジネスパーソンが、これらの文書を仕事の合間に読んで情報収集することは、かなりハードルが高いのではないかと思います。

そこで、本プロジェクトではこの問題を解決するため、テキストマイニングの技術を用いて、投資判断に有用な情報を、金融専門文書から抽出する手法の考案と、抽出した情報を用いて、非専門家にもわかりやすい情報可視化システムの構築に取り組みます。

テキストマイニングで金融専門文書から重要情報を抽出

テキストマイニングとは、文書から重要な情報を取り出す技術のことで、身近な例ではGoogle検索のような検索エンジンなどに用いられています。金融業界でもこの技術は使われており、ある証券会社では、テキストマイニング技術を用いた景気動向指数の構築なども行っています。

他のテキストマイニングの金融専門文書への適用例として「手がかり表現からの因果関係抽出」(※)などの先行研究が挙げられます。この方法では、文書から「〜ために」や「〜の結果」のような「原因と結果」に関する表現を手がかりに、「AのためにBが起きる」や「Aの結果Bが起きる」といった「原因と結果」に起因する重要情報を得ることができます。たとえば、原因「安定的なローンの積み上げのため」に対する結果として「堅調な業績の拡大が見込まれる」や、原因「株式市場の影響を大きく受けるため」に対する結果「予想は困難である」のような業績予想に関する情報を抽出できます。

しかしこの手法では、投資を行う際に重要なその他の情報、たとえばどの事業でいくら収益が出たかなどの「売上情報」や、各社がどのような事業を行っているかを示す「セグメント情報」は、得ることができません。これらの情報は多くの場合、「〜ために」や「〜の結果」のような、「原因と結果」に関する表現を手がかりに抽出することができないからです。つまり、この先行研究の技術では、金融専門文書から投資初心者が欲しい情報すべてを得ることができない、いわば「かゆいところに手が届かない」状態なのです。

(※)坂地泰紀,酒井浩之,増山繁,決算短信PDFからの原因・結果表現の抽出,電子情報通信学会論文誌D, Vol.J98-D, No. 5, pp. 811--822, 2015.

投資判断に必要な情報を、気軽に手に入れられる世の中に

この状況を打破するべく、本研究ではかゆいところにも手が届く、金融専門文書からの重要情報抽出手法の開発に取り組みます。さらに手法の開発に留まらず、たとえば企業名を打ち込むと事業概要とその収益状況を得ることができるWebサービスを立ち上げるなど、本手法を用いて「非専門家にもわかりやすい情報可視化システムの構築」を行います。これにより、金融専門文書を身近に感じる社会、そしてより投資を身近に感じる社会をつくることへの貢献を目指します。

企業におけるビジネスを意識した研究とは異なり、上記のような「社会貢献」という理念のもと、大学にて本研究を行うため、開発したシステムは基本的には公開し、誰でもアクセス可能な状態にする予定です。このような研究を通して、誰もが投資判断に必要な情報を気軽に手にすることができる世の中を実現したいと考えています。

金融専門文書をわかりやすくするための4ステップ

具体的な研究は、大きく次の4ステップの作業で進めます。
1. 重要情報の定義
金融専門文書のうち、初心者が投資に必要な情報を得るという目的を達成するために、どの情報が重要なのかを定義する。

2. データセット作り(アノテーション)
金融専門文書をテキストデータに変換し、人力で重要情報を識別してタグをつける。

3. 重要情報抽出モデルの作成
データセットを元に、深層学習を用いてモデルを作成。

4. 可視化システムの構築
モデルを用いて、金融専門文書から重要情報のみを抽出。非専門家でもわかるような情報として可視化する。

本プロジェクトでは金融専門文書のうち、決算短信を対象にこの作業を行う予定です。現在は手始めに「決算短信からのセグメント名およびそのコンテンツの抽出」を重要情報として、上記の1〜3ステップについて研究を進めており、2019年度人工知能学会全国大会にて成果を発表予定です。この研究を行うなかで培った技術をベースに、今後はセグメント名以外の売上情報など、さらなる重要情報の抽出に取り組んでいきます。

研究費サポートのお願い

深層学習を用いてモデルを作成するには、大規模なデータセットが必要です。このようなデータセットは、基本的には人力で作る必要があり、その労力は多大です。そこで近年クラウドソーシングを用いて、このようなデータセット構築を行う場合が増えています。しかし当然ながらクラウドソーシングを利用するにはお金がかかります。

クラウドファンディング以外にも、企業との共同研究などで研究費を調達する方法もあります。ただしこの場合には、利益を度外視したシステムの無償公開をすることは困難であるため、本研究の理念である「より金融専門文書を身近に感じる社会をつくること」、そして「より投資を身近に感じる社会をつくること」にはつながりません。そこで今回は、クラウドファンディングを用いて資金調達を行うことに決めました。研究費は、主にデータセットを作るためのクラウドソーシング利用費用に当てる予定です。

私たちの理念に共感した方、研究内容にちょっとでも興味を持った方、どなたでも歓迎です。よろしければぜひ協力して頂けると幸いです。

挑戦者の自己紹介

伊藤友貴

はじめまして、伊藤友貴 (いとうともき)と申します。現在は東京大学工学系研究科の博士後期課程に在籍し、解釈可能なニューラルネットワークモデルの構築とその金融テキスト可視化に関する研究をしています。趣味はサッカーで、研究室の仲間と共に週1回程度ですがボールを蹴っています。

研究計画

時期 計画
2019年6月 クラウドファンディング挑戦
2019年9月 データセット構築
2020年1月 重要情報抽出手法構築
2020年3月 重要情情報可視化システム構築
  • 国内学会(人工知能学会金融情報学研究会・言語処理学会) にて発表
2020年3月 国内学会(人工知能学会金融情報学研究会・言語処理学会) にて発表
2020年 主要国際会議 (査読あり)にて発表

リターンの説明

リターンの金額に加え、追加支援をすることができます。追加支援分には消費税がかかりません。
1,100 円 (税込)
注目のリターン : 研究報告レポート(PDF版)

研究の詳細な進捗などをレポートにまとめてお送りします。応援よろしくお願いいたします!

リターン内容

研究報告レポート(PDF版)

5人のサポーターが支援しています (数量制限なし)

3,300 円 (税込)
注目のリターン : Webサイトにお名前掲載

個人Webサイト( https://www.tomokiito.net/ )にお名前を掲載いたします。応援よろしくお願いいたします。

リターン内容

Webサイトにお名前掲載 / 研究報告レポート(PDF版)

6人のサポーターが支援しています (数量制限なし)

5,500 円 (税込)
注目のリターン : 学会発表資料の謝辞にお名前掲載

2019年3月の国内学会にて本研究に関する発表をする際、謝辞にお名前を掲載させていただきます。また、発表資料(電子版)を送付いたします。お力をお貸しください。応援よろしくお願いいたします!※学会発表が叶わなかった場合、その後の学会発表資料の謝辞にお名前を掲載いたします。

リターン内容

学会発表資料の謝辞にお名前掲載 / Webサイトにお名前掲載 / 研究報告レポート(PDF版)

5人のサポーターが支援しています (数量制限なし)

11,000 円 (税込)
注目のリターン : ペーパーの限定公開

研究成果をまとめた論文が、査読あり国際会議・または査読あり論文誌に通った場合、その草稿を限定で公開いたします。国際会議のProceedingsや論文誌は有料である場合が多く、その内容を無料で見られることは貴重な機会です。

リターン内容

ペーパーの限定公開 / 学会発表資料の謝辞にお名前掲載 / Webサイトにお名前掲載 / 研究報告レポート(PDF版)

3人のサポーターが支援しています (数量制限なし)

22,000 円 (税込)
注目のリターン : 構築した予測モデルの公開と簡単なプログラムの先行公開

本プロジェクトにて構築した重要表現の予測モデル、及びそれを用いた簡単な重要情報抽出プログラムを公開いたします。本モデル、そしてプログラムを使うことで、皆様が各自でお持ちの金融専門文書についても、今回のプロジェクトで構築した重要情報抽出手法をお気軽に試すことができます。

リターン内容

構築した予測モデルの公開と簡単なプログラムの先行公開 / ペーパーの限定公開 / 学会発表資料の謝辞にお名前掲載 / Webサイトにお名前掲載 / 研究報告レポート(PDF版)

4人のサポーターが支援しています (数量制限なし)

33,000 円 (税込)
注目のリターン : 論文謝辞にお名前掲載

本研究成果を発表する際の謝辞にお名前を掲載させていただきます。※研究成果をまとめられるよう努力いたしますが、論文の掲載に至らない可能性もございますこと、ご承知おきいただけますと幸いです。

リターン内容

論文謝辞にお名前掲載 / 構築した予測モデルの公開と簡単なプログラムの先行公開 / ペーパーの限定公開 / 学会発表資料の謝辞にお名前掲載 / Webサイトにお名前掲載 / 研究報告レポート(PDF版)

1人のサポーターが支援しています (数量制限なし)

55,000 円 (税込)
注目のリターン : 今回の研究で作成したWebサービスの先行使用権

本プロジェクトが成功した場合、本プロジェクトにて作成した決算短信からの重要情報可視化システムのURLを、一般公開する前にお送りいたします。

リターン内容

今回の研究で作成したWebサービスの先行使用権 / 論文謝辞にお名前掲載 / 構築した予測モデルの公開と簡単なプログラムの先行公開 / ペーパーの限定公開 / 学会発表資料の謝辞にお名前掲載 / Webサイトにお名前掲載 / 研究報告レポート(PDF版)

2人のサポーターが支援しています (数量制限なし)

このプロジェクトは、 2019年06月05日(水) 09時00分 から 2019年07月26日(金) 19時00分 までの間に目標金額300,000円を達成した場合のみ、決済が確定します。
お支払について
お支払にはクレジットカード(VISA, Mastercard)、銀行振込、コンビニ決済、Pay-easy、PayPalをご利用頂けます。
追加支援について
リターンの金額に加え、追加支援をすることができます。追加支援分には消費税がかかりません。
セキュリティについて

当サイトは SSL 暗号化通信に対応しております。入力した情報は安全に送信されます。

1,100 円(税込)

研究報告レポート(PDF版)

5 人 が支援しています。
(数量制限なし)

3,300 円(税込)

Webサイトにお名前掲載

6 人 が支援しています。
(数量制限なし)

5,500 円(税込)

学会発表資料の謝辞にお名前掲載

5 人 が支援しています。
(数量制限なし)

11,000 円(税込)

ペーパーの限定公開

3 人 が支援しています。
(数量制限なし)

22,000 円(税込)

構築した予測モデルの公開と簡単なプログラムの先行公開

4 人 が支援しています。
(数量制限なし)

33,000 円(税込)

論文謝辞にお名前掲載

1 人 が支援しています。
(数量制限なし)

55,000 円(税込)

今回の研究で作成したWebサービスの先行使用権

2 人 が支援しています。
(数量制限なし)

注目のプロジェクト一覧
Copyright © academist, Inc. All rights Reserved.