CLOSE

webスクレイピングの方法と注意点

2019年5月3日
2020年3月12日
Javascript
javascript

目次

1 Webスクレイピングとは
2 ライブラリ
3 注意
4 著作権法でスクレイピングは許可されている

Webスクレイピングとは

サイトにアクセスし、HTMLを取得する技術のこと。
サイトの情報を取得し、データを抜き取り、自社サイトへ表示するなどの手法が用いられる。
ただし、著作権や、相手サイトへ損害を与えた場合など、訴えられることもあるので注意が必要。

ライブラリ

Goutte
- こっちのがメモリ消費量が少なくていいらしい
- which php の場所におく（include_pathのとこ）
- mv goutte.phar /Applications/MAMP/bin/php/php5.6.2/lib/php/
- crawlerのメソッド説明
  - http://docs.symfony.gr.jp/symfony2/components/dom_crawler.html
Simple HTML DOM Parser
- こっちがメジャー？

注意

相手側サーバに負荷をかけてはいけない
- 頻度を減らさなければ？
- サーバアクセスの間隔を1秒以上空ける？
Pragma:No-cacheメタタグが設定されているページはダウンロードしない。
rel=”nofollow”が設定されているリンクはクローラーで辿らない
アクセスのたびにスクレイピングをすると、相手サイトが仕様変更した際にページが正しく表示できなくなる
著作権の問題
- スクレイピングする情報はダウンロードしてもいいものなのか
その他
- スクレイピングはグレーなので、やるなら私的利用
- 会社によってはスクレイピングを禁止しているところもある
  また、スクレイピングによって、会社に損益を与えると、損害賠償などの話にもなり得ますので、ご注意。

著作権法でスクレイピングは許可されている

制限付きだけど
- Web検索サービス提供目的ならOK
- 情報解析目的ならOK
著作権？
- 私的利用ならOKだけど、外部に公開するとだめ
引用すればOK?
- 公表された著作物は、引用して利用することができる
- 自分のオリジナルの文章が多くを占め、自分の文章の説明や補強として、他人の文章を利用する（引いてくる）というのが引用
引用の条件は？
- 公表された著作物
- 引用するものとの区別ができている
- どこから引用されたのかが明確
- 利用サイトが主、引用されたものが従の関係ができている
引用の条件2
- 利用目的
- 利用方法、形態
- 著作物の種類、性質
- 著作権者への影響