マッピング精度が向上しました②

今回はノイズの削減に取り組みました。

駅名が一般名詞のようなケース(例えば北海道の昆布駅、兵庫県の二郎駅など)に対して、検索方法を見直しを実施し、関係のない情報が混入しにくいようにしました。

マッピング見直しの結果

twitterAPIによるキーワード検索結果に対して、現在ルールベースのフィルタリングを実施しています。

具体的には、住所表記をベースに異なる地域の同一地名が混在しないようなルールと、人名が混在しないようなルールを設定しています。

今回、フィルタリングの前後でどのくらい検索結果が絞り込まれているか調べてみました。

【実験条件】9307ヶ所の駅名に対して「テイクアウト」を含むツイートを取得(1ヶ所につき最大100ツイート、過去7日分 ※twitterAPIの仕様による)

5/6 フィルタリング前:67365→後:53850 (79.94%)

5/7 フィルタリング前:66487→後:53175 (79.98%)

おおむね20%程度をノイズとして除外していることがわかりました。

一方、地名が一般名詞のようなケースでは、上記のルールでは対応できず、次のような検索結果が得られてしまいます(ちなみに、昆布は北海道、二郎は兵庫県に存在する駅です)。

ここから先は自然言語解析に基づくフィルタリングを検討する必要がありそうです。

マッピング精度が向上しました

当サイトでは、twitter APIを利用したツイートのキーワード検索を実施しておりますが、検索結果を地図にマッピングする際のマッピング方法を見直しました。

今回の見直しにより、同一の地名に対するマッピング精度が向上しました(例:福島県の福島駅と大阪府の福島駅、東京都世田谷区若林と宮城県仙台市若林区、など)。

まだ不十分なところはありますが、マッピング方法に関しては今後も随時見直しを図っていきます。

大阪市福島区の福島駅に対する検索結果(5/7時点)
左:福島駅の位置、中央:従来、右:見直し後
東京都世田谷区の若林駅に対する検索結果(5/7時点)
左:若林駅の位置、中央:従来、右:見直し後