nyatla@hatena blog

オフラインで経緯度から住所地名(そこまで正確でなくともよい)に変換するシステムを作るための調査記録。

2023年度のものを使用する。

提供されているのは都道府県別のZipファイルで、圧縮後のファイルサイズはそれぞれ1M～11MB、合計で132MB。
各Zipにはデータ形式を説明するテキスト文章と街区データのCSVファイルがある。

展開後のCSVファイルは8～215MB、合計1.96GBになる。

CSVにはヘッダに続いて以下の項目が格納されている。詳細は同梱されているHtmlで確認できる。

地名、および座標2を対象に分析する。座標1は座標2から計算により算出できる。
緯度経度と平面直角座標の相互変換をPythonで実装する #Python - Qiita

解像度を知るために、各項目のユニーク値、及び複合ユニーク値の数を調べる。
最初はデータベースに格納してから分析しようとしたが、効率よく処理できなかったので、pandasで直接処理することにした。（とてもはやい）

都道府県単位で処理し、最後にすべて結合した全国の値を調べた。

列名は変な英語になっているが以下の通り

列の意味は以下の通り。

他は全国版と同一

recordは愛知、千葉、埼玉、茨木がやたらと多い。東京、大阪は意外と少ない。徳島、福井が少ない。東京と大阪が少ないのは区画整理の影響？愛知県はもう少し頑張っていただきたい。
cityは統一感がある。平成の大合併の効果だろうか。
blockは都市部に多く、地方ほど少ない。愛知県は何故か多い。
unitは地方に多く、都市部に少ない。愛知県は何故か多い。
parcelは地方都市に多い。
lat,lot,locationは大都市を持つ都道府県に多い。

locationは解像度を落として圧縮できる可能性がある。初期解像度は0.000001度(だいたい10cm以下)なので、100倍くらいにして再調査してみてもよい。
lat,lon,locationの数値が一致しない場所は、地番の異なる複数のレコードが直線的に並んでいる。分布をみるとデータ作成時の偏りが見えるかもしれない。
locationとrecordの割合から、各都道府県の測量事業に対する積極性がわかるかもしれない。
RDB化する場合、ユニーク数が一番多い項目でデータサイズが概ね決まるので、locationかdistrictを削減する必要がある。
愛知県は都会と地方両方の性質をあわせ持つ。

CSVを置いておくのでご自由にお取りください。
gist.github.com