twitterAPIによるキーワード検索結果に対して、現在ルールベースのフィルタリングを実施しています。
具体的には、住所表記をベースに異なる地域の同一地名が混在しないようなルールと、人名が混在しないようなルールを設定しています。
今回、フィルタリングの前後でどのくらい検索結果が絞り込まれているか調べてみました。
【実験条件】9307ヶ所の駅名に対して「テイクアウト」を含むツイートを取得(1ヶ所につき最大100ツイート、過去7日分 ※twitterAPIの仕様による)
5/6 フィルタリング前:67365→後:53850 (79.94%)
5/7 フィルタリング前:66487→後:53175 (79.98%)
おおむね20%程度をノイズとして除外していることがわかりました。
一方、地名が一般名詞のようなケースでは、上記のルールでは対応できず、次のような検索結果が得られてしまいます(ちなみに、昆布は北海道、二郎は兵庫県に存在する駅です)。
ここから先は自然言語解析に基づくフィルタリングを検討する必要がありそうです。