カテゴリー
サインイン 新規登録

間違いや改善の指摘

内容の技術的な誤り・誤字脱字やミスのご報告・解説やトピックの追記/改善のご要望は教材をさらに良くしていく上でとても貴重なご意見になります。

少しでも気になった点があれば、ご遠慮なく投稿いただけると幸いです🙏

実際には誤りではなく勘違いであっても、ご報告いただけることで教材のブラッシュアップにつながります。

質問ポリシー①

教材受講者みなさんのスムーズな問題解決のために、心がけていただきたいことがあります。

教材の内容に関する質問を投稿しましょう

教材の内容に関係のない質問や教材とは異なる環境・バージョンで進めている場合のエラーなど、教材に関係しない質問は推奨していないため回答できない場合がございます。

その場合、teratailなどの外部サイトを利用して質問することをおすすめします。教材の誤字脱字や追記・改善の要望は「文章の間違いや改善点の指摘」からお願いします。

0-3

スクレイピングとは

このパートではスクレイピングについて解説します。クローリングとの違いやマナーについて学びましょう。

スクレイピングとは

英単語のScrape(表面をこする、こすり落とす)から来ており、もとは(書いたものを)ナイフで削り取るという意味があります。
転じてプログラミング言語を使ってWebサーバーへアクセスし、そこから得たコンテンツに対し(主にHTML)自分たちの欲しい情報を取捨選択し抽出することをスクレイピングと呼びます。

スクレイピングを行うことで、WebAPIが公開されていないページからでも効率的にデータを取得・収集することができます。複数のページから情報を収集し新たな表現をすることも可能です。

クローリングとはどうちがう?

クローリングとはWebページのリンクをたどって複数のWebサイトを巡回しページの情報をデータベースに複製・登録することです。クローリングを行うプログラムをクローラーと呼びます。英単語のCrawlから来ており水泳のクロールと同様にインターネットの海を進んでいくという意味があります。

つまり

  • スクレイピングはWebページから情報を抽出すること
  • クローリングは複数のWebページのリンクをたどること

となります。

複数のWebページから情報を抽出する場合はスクレイピング機能に加えて、クローリング機能も必要になります。

スクレイピングのマナー

スクレイピングに関しては著作権法、不正アクセス防止法について気にする必要があります。
Webページの情報を複製するため、著作権法に抵触する場合があります。また、対象ページのコンピューターに過度な負荷をかけたり、許容されていないアクセスを行うと不正アクセス防止法に抵触することもあります。

著作物の利用に関しては文化庁からガイドラインが示されているのでひととおり読んでおきましょう。

おわりに

これで今回のパートは終了です。おつかれさまでした。

これからプログラミングのパートに入っていきます。この教材ではスクレイピング対象のWebページを用意していますが、ほかのページに対して行う場合は利用規約などを確認し自己責任で行ってください。

現在のパート (0)
全パート (4)
みんなで助け合おう!
現在のパートのディスカッション 全0件