【スクレイピング】東京の大学情報を自動で収集するツール

OVERVIEW

特定のWEBサイトから大学情報を抽出し、それをExcelファイルに自動で転記するツールを作成しました。

YEAR 2022

クライアントの要望

・指定のWEBサイトから東京の大学情報を集めてほしい。できれば校種別に情報を集め、件数等も明示してほしい。

成果物

Pythonを使用し、クライアント指定のWEBサイトより必要な情報を抽出するスクレイピング・ツールを作成しました。

※下記画像は、抽出したデータの一部になります。

作成におけるポイント

1. 抽出した情報をカテゴリー別に転記

上記画像のように、抽出された情報は、「件数」、「大学名」、「サイト内詳細URL」とカテゴリーごとに自動でExcelファイルに転記されます。


2. 校種によるシートの振り分け

クライアントの要望通り、校種ごとにシートを分けて情報を転記するように設定しています。


3. 情報収集の最適化

プログラムを実行すると、指定パスに、上記処理を行った完成品のファイルが自動で作成されます。後はファイルを開き、大学名の横のURLをクリックすれば、お望みの詳細ページに直接ジャンプして頂けます。


※最後に、コードの一部分を掲載しておきます。