Webスクレイピングで営業リストを作成する(5)
スクリプト実行結果
実行結果を手作業で整形していきます。
結果ファイル
No | 対象 | 内容 | 対応方針 |
---|---|---|---|
1 | シート全体 | エラーデータの削除 | Excelで手動対応 |
2 | シート全体 | 重複データの削除 | Excelで手動対応 |
3 | シート全体 | A列にNoを振る | Excelで手動対応 |
4 | シート全体 | B列に各裁判所ページのURLを出力 | Seleniumで対応 |
5 | 裁判所名 | 不要文言除去『の所在地』 | Excelで手動対応 |
6 | 裁判所名 | 不要文言除去『(※)』 | Excelで手動対応 |
7 | 郵便番号 | 不要文言除去『〒』 | Excelで手動対応 |
8 | 郵便番号 | 文言置換「ー(長音)」→「-」 | Excelで手動対応 |
9 | 郵便番号 | 郵便番号が2個以上の場合、行を増やす | Seleniumで対応 |
10 | 郵便番号 | 大阪地裁・簡裁の取得時に、郵便番号・住所を分割 | Seleniumで対応 |
11 | 住所 | F,G列(住所1、住所2)追加 | Excel(数式)で対応 |
12 | 住所 | 住所とアクセス方法を分割 | Excel(数式)で対応 |
13 | 電話番号 | I~K列(窓口、番号、注意書き)追加 | Excel(数式)で対応 |
14 | 電話番号 | 電話番号と、それ以外の情報の分割 | Excel(数式)で対応 |
15 | 電話番号 | 電話番号が2個以上の場合、列を増やす | Seleniumで対応 |
残りはExcelで手作業です。
Webスクレイピングで営業リストを作成する(2)を参考に実施します。
下準備
不要行の削除
余分な行を削除します。
不要データを削除
フィルタの設定
先頭行にフィルタを適用します。
エラーデータの削除
C列からエラーデータを抽出して、削除します。
知財高裁のデータは、東京高裁経由で取得しているので、エラー行を削除します。
重複データの削除
続いて重複データを消します。
A列にNoを振る
Excelのオートフィル機能を利用して、A列にNoを記入します。
不要文言の削除・置換
『の所在地』を削除
裁判所名(C列)から『の所在地』を削除します。
『の所在地』以降の文字を削除するので、ワイルドカードを指定します。
C列を選択
【の所在地*(アスタリスク)】を置換
『(※)』を削除
裁判所名(C列)から『(※)』を削除します。
『〒』の除去
郵便番号(D列)から『〒』を削除します。
「ー(長音)」を「-」に置換
郵便番号(D列)の「ー(長音)」を「-」に置換します。
D列を選択
完成シート
ようやく完成です。
なお、電話番号が取得できていないデータが63件あります。それらについては、手動で取得する必要があります。
ディスカッション
コメント一覧
まだ、コメントがありません