製作理由:
大学4年になり、論文を読む機会が増えた。論文中の頻出単語(大事な単語)をすぐにチェックできるアプリがあれば良いなと思ったから。
制作期間:
2021 年 6 月〜 現在
主要機能:
- 頻出単語を棒グラフで表示する機能
- 棒グラフをクリックすると、その頻出単語に関する wikipedia のページへ飛ぶ。
デモ:
https://docs.google.com/presentation/d/1Peql6QT0IIopoivFA3UyUG_c7eDizi1Em7HkXYtPYsE/edit#slide=id.p
リンク:
https://com-word-app-ver-2.herokuapp.com/
使用ツール:
Python, Django(REST Framework), HTML, CSS, Vue.js, chart.js, docker-compose, NLTK, wikipedia API, Heroku
- NLTK を、頻出単語の抽出に使用した理由
単語の正規化・ノイズ除去が簡単にできるため。
- Python で開発した理由
頻出単語を抽出する際に、NLTK を使いたいと思っていた。NLTK は Python のパッケージであったため、Python で開発するのが都合が良いと思ったから。
- Django REST Framework で開発した理由
頻出単語の棒グラフを表示させる時に chart.js を使った。JSON に統一した方が、chart.js との連携がうまくいくと思ったので、Django REST Framework を選んだ。
- Vue.js で開発した理由
Vuetify を使って、手軽に綺麗な web ページを作りたかったから。
GitHub:
https://github.com/mayukorin/com_word_app_ver_2
工夫した点:
頻出単語を表示させる時に、正規表現やノイズ除去を行った点。
https://github.com/mayukorin/com_word_app_ver_2/blob/main/com_word_app/views.py#L24-L41
課題点:
- 頻出単語は一般名詞が表示されることが多く、論文中の「重要な単語」を抽出できているとは言えない気がする。
-> 固有名詞だけを頻出単語として抽出するようにする。
- 論文の最初の「Index Terms 」で、既に重要な単語が示されている。
-> 「Index Terms」以外にも、「よく出てくるけど意味がよく分からない」単語は あると思う。そのような単語を効果的に抽出することができれば。