Webスクレイピングで営業リストを作成する(5)

2021年2月4日

スクリプト実行結果

実行結果を手作業で整形していきます。

結果ファイル
No 対象 内容 対応方針
1 シート全体 エラーデータの削除 Excelで手動対応
2 シート全体 重複データの削除 Excelで手動対応
3 シート全体 A列にNoを振る Excelで手動対応
4 シート全体 B列に各裁判所ページのURLを出力 Seleniumで対応
5 裁判所名 不要文言除去『の所在地』 Excelで手動対応
6 裁判所名 不要文言除去『(※)』 Excelで手動対応
7 郵便番号 不要文言除去『〒』 Excelで手動対応
8 郵便番号 文言置換「ー(長音)」→「-」 Excelで手動対応
9 郵便番号 郵便番号が2個以上の場合、行を増やす Seleniumで対応
10 郵便番号 大阪地裁・簡裁の取得時に、郵便番号・住所を分割 Seleniumで対応
11 住所 F,G列(住所1、住所2)追加 Excel(数式)で対応
12 住所 住所とアクセス方法を分割 Excel(数式)で対応
13 電話番号 I~K列(窓口、番号、注意書き)追加 Excel(数式)で対応
14 電話番号 電話番号と、それ以外の情報の分割 Excel(数式)で対応
15 電話番号 電話番号が2個以上の場合、列を増やす Seleniumで対応

残りはExcelで手作業です。

Webスクレイピングで営業リストを作成する(2)を参考に実施します。

下準備

不要行の削除

余分な行を削除します。

不要データを削除

フィルタの設定

先頭行にフィルタを適用します。

フィルタ設定

エラーデータの削除

C列からエラーデータを抽出して、削除します。

エラーデータを抽出

知財高裁のデータは、東京高裁経由で取得しているので、エラー行を削除します。

行を削除

重複データの削除

続いて重複データを消します。

A列にNoを振る

Excelのオートフィル機能を利用して、A列にNoを記入します。

不要文言の削除・置換

『の所在地』を削除

裁判所名(C列)から『の所在地』を削除します。
『の所在地』以降の文字を削除するので、ワイルドカードを指定します。

C列を選択

【の所在地*(アスタリスク)】を置換

『(※)』を削除

裁判所名(C列)から『(※)』を削除します。

『〒』の除去

郵便番号(D列)から『〒』を削除します。

「ー(長音)」を「-」に置換

郵便番号(D列)の「ー(長音)」を「-」に置換します。

D列を選択

完成シート

ようやく完成です。

なお、電話番号が取得できていないデータが63件あります。それらについては、手動で取得する必要があります。