Google Apps Script(GAS)

GASを利用してWebスクレイピングをやってみよう

Webスクレイピングとは

スクレイピングとはデータを収集し、使いやすく抽出や加工することで欲しいデータを効率よく取得することを言います。

スクレイピングを行うにはスクレイピングサービスを利用したりプログラムを作成したりなど色々方法があります。

今回はGASを使用した方法でなるべく簡単にスクレイピングを行う方法を紹介したいと思います。

スクレイピングをする際の注意点

スクレイピングはやみくもにやって良いものではなく、主に官公庁などのパブリックデータを活用するためなどに利用されます。

他社のサービスを利用して自社の商用に利用したり、他社のサーバーに不可をかけたりしてしまうと法に触れる可能性がございます。

そちらを念頭に置いた上で利用しましょう。

※今回の記事からスクレイピングをおこなった際の問題には責任を追いかねますのでご了承ください。


ライブラリのインストール

GASにはライブラリというものを使用することでより簡単にプログラムを利用できるようになります。

今回はスクレイピングを利用するためにParserライブラリをインストールします。

①プロジェクトのライブラリの+部分をクリックします。

②スクリプトIDに以下のコードを入力しましょう。

1Mc8BthYthXx6CoIz90-JiSzSafVnT6U3t0z_W3hLTAX5ek4w0G_EIrNw

③【検索】をクリックし、【追加】をクリックします。

④myfunction関数にコードを入力します。

  let response = UrlFetchApp.fetch("https://ex-ture.com/");
  let content = response.getContentText("utf-8");

これらでURLを入力したWebページを変数contentにコードベースで取得しています。

今回は弊社のサイトを利用しているため、URL部分は実際にスクレイピングしたいWebサイトを対象にしましょう。

次に以下のコードを追加しましょう。

var text = Parser.data(content).from('<small>').to('</small>').iterate();

console.log(text)

このコードによって、取得したHTMLコードからfrom〜toでタグを指定した範囲を全て取得してくれます。

今回は<small>タグで囲われている文字部分を出力させます。

関数を実行させてみると下の項目に対象部分が出力されることがわかります。


今回はGASで行うWebスクレイピングとして最初の簡単な説明をさせていただきました。

次回では更に、取得したデータを整理してみようと思います。

エクスチュアでは様々な企業様の基本的な悩みから高度な悩みまで丁寧にお手伝いいたします。

是非お気軽にお問合せください。

ピックアップ記事

  1. 最速で理解したい人のためのIT用語集

関連記事

  1. Google Apps Script(GAS)

    Google App ScriptとGoogleスプレッドシートを連携させる

    こんにちは。エクスチュアの岩川です。前回はGASを使ってWe…

  2. Google Apps Script(GAS)

    文字列置換アプリを作成しました

    こんにちは、エクスチュアの岩川です。突然ですがテキストツール…

  3. Google Apps Script(GAS)

    GoogleスプレッドシートのデータをGASで整理する【getRange編】

    こんにちは。エクスチュアの岩川です。今までGASの基本的な操…

  4. Google Apps Script(GAS)

    GASを利用してWebスクレイピングをやってみよう②

    エクスチュアの岩川です。前回 スクレイピングの初歩的なやり方…

  5. Google Apps Script(GAS)

    Google App ScriptでWebアプリを作る

    こんにちは。エクスチュアの岩川です。前回Google App…

  6. Google Apps Script(GAS)

    GoogleスプレッドシートのデータをGASで整理する【setValue・setValues編】

    こんにちは。エクスチュアの岩川です。前回のgetRangeの…

最近の記事

  1. 【UAとは違う!?】GA4で変更された”イベント…
  2. 【DBエンジニアが語るSnowflake】②このロールがすご…
  3. LookerStudioを知る。
  4. Google Analytics4 を知る。
  5. 過去取れていたリファラ情報が上手く取れなくなっている問題
  1. Adobe Analytics

    Adobe新タグ登場って本当?AEP Web SDKって何だ?
  2. Adobe Analytics

    Adobe Summit 2020レポート: Customer Journey …
  3. Amazon Web Services

    System Managerを利用したVPC内Redshiftへの接続
  4. Adobe Analytics

    Adobe Analytics:マーケティングチャネルの設定方法 全流入経路を1…
  5. 海外情報

    【TC19ブログ】Tableau Conference 2019 3日目レポート…
PAGE TOP