Data Processing and Analysis Project
日本の自治体人口データ処理と分析
https://github.com/FukaOno/Japanese-Municipal-Population-Data-Processing-and-Analysis
- 母集団データのクリーニング、加工、可視化を行い、分析を促進し、洞察を導き出しました。
1. データのクリーニングと準備:
- 67行8列のExcelファイルから人口データをインポートし、処理。
- 一貫性と明瞭性のため、列名を英語および数値形式に統一。
- データの整合性を確保するため、機能しない行を削除し、欠損値を効果的に処理。
- 日本語と英語の市区町村名を別々の列に分け、読みやすくし、分析。
2. データの変換:
- データ変換:市町村名を市、町、村、郡に分類する新しい列を追加。
- 数値の正確性を保つため、人口関連の列を整数データ型に変換。
- さらなる分析のために、データの列を再編成し、構造と読みやすさを改善。
3. データの可視化:
- SeabornとMatplotlibライブラリを利用して、人口データの分布と傾向を強調するビジュアライゼーションを作成。
- 市町村数を示すカウントプロットを作成。
- 異なる市町村分類の人口規模を比較するためのストリッププロットの作成
ツールとテクノロジー:
Python: データ操作のためのPandas、データ可視化のためのSeabornとMatplotlib
初期データ処理と検証のためのExcel
- Conducted data cleaning, processing, and visualization on population data to facilitate analysis and derive insights
Key Achievements:
1. Data Cleaning and Preparation:
- Imported and processed population data from an Excel file with 67 rows and 8 columns
- Standardized column names to English and numeric formats for consistency and clarity
- Removed non-functional rows and handled missing values effectively, ensuring data integrity
- Separated combined Japanese and English city names into distinct columns for better readability and analysis
2. Data Transformation:
- Added a new column to classify municipalities as City, Town, Village, or County based on their names
- Converted population-related columns to integer data types to maintain numerical accuracy
- Reorganized data columns to improve structure and readability for further analysis
3. Data Visualization:
- Utilized Seaborn and Matplotlib libraries to create visualizations, highlighting the distribution and trends in population data
- Developed count plots to show the number of cities, towns, and villages
- Created strip plots to compare population sizes across different municipal classifications
Tools and Technologies:
Python: Pandas for data manipulation, Seaborn and Matplotlib for data visualization
Excel for initial data handling and verification