教材の内容に関係のない質問や教材とは異なる環境・バージョンで進めている場合のエラーなど、教材に関係しない質問は推奨していないため回答できない場合がございます。
その場合、teratailなどの外部サイトを利用して質問することをおすすめします。教材の誤字脱字や追記・改善の要望は「文章の間違いや改善点の指摘」からお願いします。
このパートではスクレイピングについて解説します。クローリングとの違いやマナーについて学びましょう。
英単語のScrape(表面をこする、こすり落とす)から来ており、もとは(書いたものを)ナイフで削り取るという意味があります。
転じてプログラミング言語を使ってWebサーバーへアクセスし、そこから得たコンテンツに対し(主にHTML)自分たちの欲しい情報を取捨選択し抽出することをスクレイピングと呼びます。
スクレイピングを行うことで、WebAPIが公開されていないページからでも効率的にデータを取得・収集することができます。複数のページから情報を収集し新たな表現をすることも可能です。
クローリングとはWebページのリンクをたどって複数のWebサイトを巡回しページの情報をデータベースに複製・登録することです。クローリングを行うプログラムをクローラーと呼びます。英単語のCrawlから来ており水泳のクロールと同様にインターネットの海を進んでいくという意味があります。
つまり
となります。
複数のWebページから情報を抽出する場合はスクレイピング機能に加えて、クローリング機能も必要になります。
スクレイピングに関しては著作権法、不正アクセス防止法について気にする必要があります。
Webページの情報を複製するため、著作権法に抵触する場合があります。また、対象ページのコンピューターに過度な負荷をかけたり、許容されていないアクセスを行うと不正アクセス防止法に抵触することもあります。
著作物の利用に関しては文化庁からガイドラインが示されているのでひととおり読んでおきましょう。
これで今回のパートは終了です。おつかれさまでした。
これからプログラミングのパートに入っていきます。この教材ではスクレイピング対象のWebページを用意していますが、ほかのページに対して行う場合は利用規約などを確認し自己責任で行ってください。