Google Cloud Platform

Node.js+GAE: 日本語自然文を形態素解析してネガポジ判定をする

こんにちは、エクスチュアの権泳東(コン・ヨンドン)です。

今回は、これまた需要がないであろうというプログラミングネタです。
日本語文章をネガポジ判定するプログラムをGoogle AppEngineスタンダード環境で動かすという小技です。

世の中は便利なもので、Node.jsで形態素解析するライブラリも、ネガポジ判定するライブラリも存在するので、これらを使います。

形態素解析: kuromojin
ネガポジ判定: negaposi-analyzer-ja

いずれもnpmでインストール出来ます。
これらのライブラリを使うことで、東京工業大学 奥村・高村研究室が公開している単語感情極性対応表に記載されてる単語別のスコアを使ったネガポジ判定が可能になります。
今回はWebフォームから入力された文字列を、この仕組みでネガポジ判定するWebアプリを作ります。

バックエンド部分

まずは実際に処理を行うバックエンドをNode.jsで作ります。
フォームからPOSTされて来たJSONを受け取って、negaposi-analyzer-jaの結果をこれまたJSONで戻すだけです。
GETに対してはダミーのレスポンスを返してます。

const express = require('express');
const bodyParser = require('body-parser');
const kuromojin = require('kuromojin');
const analyze = require('negaposi-analyzer-ja');
const app = express();

app.use('/static', express.static('public'));
app.use(bodyParser.json());
app.use(bodyParser.urlencoded({ extended: false }));
app.post('/api', function(req, res) {
    let input = req.body.source;
    kuromojin(input).then(tokens => {
        const score = analyze(tokens);
        res.json({
            message:score
        });
    });
});
app.get('/', (req, res) => {
    res.json({
        message:"/"
    });
});

const server = app.listen(8080, () => {
  const host = server.address().address;
  const port = server.address().port;
  console.log(`app listening at port: ${port}`);
});

expressとbody-parserというパッケージも使うので、これらもnpmでインストールしておきます。

Web入力フォーム

publicというフォルダを作り、その中にform.htmlを作成します。
AjaxでJSONデータをPOSTして、結果を取得するだけです。
Javascript部分のみ抜粋するとこうなってます。

$('#analyze').click(function(){
  let button = $(this);
  button.attr('disabled', true);
  let data = {
      source: $('#source').val()
  };
  $.ajax({
      url: "/api",
      type: "post",
      data: JSON.stringify(data),
      contentType: "application/json",
      dataType: "json",
      success: function(json_data) {
          $('#result').val(json_data.message);
      },
      error: function() {
          $('#result').val('Server error. Try again.');
      },
      complete: function() {
          button.attr('disabled', false);
      }
  });
});

app.yaml

GAEの設定ファイルであるapp.yamlはこうです。
メモリをやや食うので、インスタンスタイプはF4を使います。
GAEスタンダードのインスタンスタイプ一覧はこちらに記載されてます

runtime: nodejs8
instance_class: F4

デモ環境

さて、出来上がったネガポジ判定フォームがこれです。

日本語自然文 ネガポジ判定 | Exture

デザインは一切考慮してません、てのは置いときます。
上のボックスに適当な日本語自然文を入力して、[判定する]ボタンをクリックすると下のボックスに結果が表示されます。

試しに以下のような一文を入れて判定します。
私の大好きな「鬼平犯科帳」の中の一文です。

「人間というやつ、遊びながらはたらく生きものさ。善事をおこないつつ、知らぬうちに悪事をやってのける。悪事をはたらきつつ、知らず識らず善事をたのしむ。これが人間だわさ。」

判定結果は 0.03413231966246302 点でした。
つまりポジティブです。

では、もう一文。これまた鬼平。

「人というものは、はじめから悪の道を知っているわけではない。何かの拍子で、小さな悪事を起こしてしまい、それを世間の目にふれさせぬため、また、つぎの悪事をする。そして、これを隠そうとして、さらに大きな悪の道へ踏み込んで行くものなのだ。」

結果は -0.010137118057947923 点。
ネガティブです。

まとめ

今回は、Node.jsとGAEを使って、日本語自然文ネガポジ判定Webアプリを作成する方法について説明しました。
既存のライブラリをそのまま流用しましたが、我こそはという言う方は任意の形態素解析・構文解析を行った上で、独自の辞書と採点ロジックでネガポジ判定してみましょう。

弊社はGoogle Cloud Platformのサービスパートナーです。
たまにこうやってWebアプリを作ってGAEで動かしてます。
お問い合わせはこちらからどうぞ。

ブログへの記事リクエストはこちらまで

関連記事

  1. Adobe Analytics

    Adobe AnalyticsからDWHレポートをGoogle Cloud Storageにアップロ…

    こんにちは、エクスチュアCTOの権です。以前、AdobeAna…

  2. Google BigQuery

    GCP: 今月のGCP課金額をslackに自動的に書き込む

    こんにちは、エクスチュアCTOの権です。今回はGCPの課金額を…

  3. Adobe Analytics

    Adobe AnaltyicsとGoogle Analytics の「生Webビーコン」をBigQu…

    こんにちは、エクスチュアの権泳東(コン・ヨンドン)です。今回は…

  4. Google Cloud Platform

    Looker: LookerbotをGoogle Cloud Platformで動かす

    こんにちは、エクスチュアの権泳東(コン・ヨンドン)です。今回は…

  5. Google Cloud Platform

    GoogleNext 2019レポート:2日目

    こんにちは、エクスチュアの権泳東(コン・ヨンドン)です。Googl…

  6. Google BigQuery

    BigQuery BI Engine解説

    こんにちは、エクスチュア渡部です。2019/4/9-4/11に行わ…

最近の記事

  1. Databricks: Delta Lakeを使ってみる
  2. Adobe Analytics:計算指標でevents変数を…
  3. Databricks: Spark DataFramesをJ…
  4. Databricks: Spark RDDで使う主なメソッド…
  5. GCPのBQMLを使ってKaggleコンペに挑んでみた(その…
  1. Adobe Analytics

    Adobe AnalyticsからDWHレポートをGoogle Cloud St…
  2. Google Cloud Platform

    GoogleNext 2019レポート:2日目
  3. Adobe Analytics

    Adobe Analytics: データフィードをGoogle BigQuery…
  4. ObservePoint

    ObservePoint TagDebuggerでページに埋まっているタグを無…
  5. Adobe Analytics

    AdobeAnalytics:WordPressやHTML5内の動画を計測する
PAGE TOP