頻出単語調査アプリ

OVERVIEW

英文中の頻出単語を、棒グラフで表示するアプリ。また、棒グラフをクリックすると、その単語の wikipedia のページに飛ぶ。

製作理由:

大学4年になり、論文を読む機会が増えた。論文中の頻出単語(大事な単語)をすぐにチェックできるアプリがあれば良いなと思ったから。

制作期間:

2021 年 6 月〜 現在

主要機能:

  • 頻出単語を棒グラフで表示する機能
  • 棒グラフをクリックすると、その頻出単語に関する wikipedia のページへ飛ぶ。

デモ:

https://docs.google.com/presentation/d/1Peql6QT0IIopoivFA3UyUG_c7eDizi1Em7HkXYtPYsE/edit#slide=id.p

リンク:


https://com-word-app-ver-2.herokuapp.com/


使用ツール:

Python, Django(REST Framework),  HTML, CSS, Vue.js, chart.js, docker-compose, NLTK, wikipedia API, Heroku

  • NLTK を、頻出単語の抽出に使用した理由

単語の正規化・ノイズ除去が簡単にできるため。

  • Python で開発した理由

頻出単語を抽出する際に、NLTK を使いたいと思っていた。NLTK は Python のパッケージであったため、Python で開発するのが都合が良いと思ったから。

  • Django REST Framework で開発した理由

頻出単語の棒グラフを表示させる時に chart.js を使った。JSON に統一した方が、chart.js との連携がうまくいくと思ったので、Django REST Framework を選んだ。

  • Vue.js で開発した理由

Vuetify を使って、手軽に綺麗な web ページを作りたかったから。

GitHub:

https://github.com/mayukorin/com_word_app_ver_2

工夫した点:

頻出単語を表示させる時に、正規表現やノイズ除去を行った点。

https://github.com/mayukorin/com_word_app_ver_2/blob/main/com_word_app/views.py#L24-L41

課題点:

  • 頻出単語は一般名詞が表示されることが多く、論文中の「重要な単語」を抽出できているとは言えない気がする。

-> 固有名詞だけを頻出単語として抽出するようにする。

  • 論文の最初の「Index Terms 」で、既に重要な単語が示されている。                                 

-> 「Index Terms」以外にも、「よく出てくるけど意味がよく分からない」単語は あると思う。そのような単語を効果的に抽出することができれば。