今回はノイズの削減に取り組みました。
駅名が一般名詞のようなケース(例えば北海道の昆布駅、兵庫県の二郎駅など)に対して、検索方法を見直しを実施し、関係のない情報が混入しにくいようにしました。
今回はノイズの削減に取り組みました。
駅名が一般名詞のようなケース(例えば北海道の昆布駅、兵庫県の二郎駅など)に対して、検索方法を見直しを実施し、関係のない情報が混入しにくいようにしました。
twitterAPIによるキーワード検索結果に対して、現在ルールベースのフィルタリングを実施しています。
具体的には、住所表記をベースに異なる地域の同一地名が混在しないようなルールと、人名が混在しないようなルールを設定しています。
今回、フィルタリングの前後でどのくらい検索結果が絞り込まれているか調べてみました。
【実験条件】9307ヶ所の駅名に対して「テイクアウト」を含むツイートを取得(1ヶ所につき最大100ツイート、過去7日分 ※twitterAPIの仕様による)
5/6 フィルタリング前:67365→後:53850 (79.94%)
5/7 フィルタリング前:66487→後:53175 (79.98%)
おおむね20%程度をノイズとして除外していることがわかりました。
一方、地名が一般名詞のようなケースでは、上記のルールでは対応できず、次のような検索結果が得られてしまいます(ちなみに、昆布は北海道、二郎は兵庫県に存在する駅です)。
ここから先は自然言語解析に基づくフィルタリングを検討する必要がありそうです。
当サイトでは、twitter APIを利用したツイートのキーワード検索を実施しておりますが、検索結果を地図にマッピングする際のマッピング方法を見直しました。
今回の見直しにより、同一の地名に対するマッピング精度が向上しました(例:福島県の福島駅と大阪府の福島駅、東京都世田谷区若林と宮城県仙台市若林区、など)。
まだ不十分なところはありますが、マッピング方法に関しては今後も随時見直しを図っていきます。
テイクアウトに関するツイートは54000件台で推移しています。
また、テイクアウトマップに関するツイートは2000件を超えました。
テイクアウトに関するツイートの掲載数が54000件を超えました!
また、テイクアウトマップに関しては検索キーワードを見直し、より多くの地域のマップ情報が取得できるようになりました。
取得結果については、こちらからご覧ください。
テイクアウトに関するツイートの掲載数が2日連続で52000件を超えました!
ツイートが確認された地点数も、6日連続で4000ヶ所超えで推移しています。
5月に入り初夏を思わせる日差しです。外出自粛が続きますがテイクアウトで美味しく乗り切りましょう。
テイクアウトに関するツイートの掲載数が52000件を超えました!
ツイートが確認された地点数も、5日連続で4000ヶ所超えで推移しています。
4月最終日、テイクアウトで充実したおうち時間をお過ごしください。
テイクアウトに関するツイートの掲載数が51000件を超えました!
ツイートが確認された地点数も、4000ヶ所超えで推移しています。
本日もテイクアウトでおうち時間を充実させてまいりましょう。よい1日をお過ごしください。
テイクアウトに関するツイートが3日連続で50000件を超えています。
また、ツイートが確認された地点数も、同じく3日連続で4000ヶ所を超えています。
ぜひテイクアウトでレストランの味をご自宅で。
テイクアウトに関するツイートが2日連続で50000件を超えています。
また、ツイートが確認された地点数も、同じく2日連続で4000ヶ所を超えています。
本日もテイクアウトでおうち時間を充実させてまいりましょう。