【スクレイピング】東京の大学情報を自動で収集するツール
OVERVIEW
特定のWEBサイトから大学情報を抽出し、それをExcelファイルに自動で転記するツールを作成しました。
クライアントの要望
・指定のWEBサイトから東京の大学情報を集めてほしい。できれば校種別に情報を集め、件数等も明示してほしい。
成果物
・Pythonを使用し、クライアント指定のWEBサイトより必要な情報を抽出するスクレイピング・ツールを作成しました。
※下記画像は、抽出したデータの一部になります。
作成におけるポイント
1. 抽出した情報をカテゴリー別に転記
上記画像のように、抽出された情報は、「件数」、「大学名」、「サイト内詳細URL」とカテゴリーごとに自動でExcelファイルに転記されます。
2. 校種によるシートの振り分け
クライアントの要望通り、校種ごとにシートを分けて情報を転記するように設定しています。
3. 情報収集の最適化
プログラムを実行すると、指定パスに、上記処理を行った完成品のファイルが自動で作成されます。後はファイルを開き、大学名の横のURLをクリックすれば、お望みの詳細ページに直接ジャンプして頂けます。
※最後に、コードの一部分を掲載しておきます。