かわみのメモ帳

趣味に関するメモを書いていきます。

Wikipediaでページごとのアクセス数データが欲しい

おはようございます。かわみです。
突然ですが、Wikipediaってご存知ですか。ご存知ですよね。 誰が書いてるのかよく分からない記事が意味不明なくらいの量のある、このサイトです。
普通に暮らしてると、Wikipediaのページごとのアクセス数データが欲しいな~~」って思うこと、よくありますよね。ありますよね。 そんなWikipediaではページのデータほか、アクセス数データも公開されています。嬉しい!
この記事では、このデータの置いてある場所や日本語版の取得方法について書いていきます。

Wikipediaの公開データ

まずWikipediaでは様々なデータが公開されていてダウンロードできます。
ページのダンプデータがここに上がってます。
このデータはそれ用のパーザが転がってるので、それで解析してもらうとして……
問題なのはその量です。すこぶる多い。

一般的な文章の解析や単語の取得に、マニアックな記事は要らないのです。 そこで、アクセス数を使ってマニアックな記事は切り捨てることにしましょう。

Wikipediaのアクセス数データ

ここWikipediaのアクセス数データが公開されています。
ページのダンプデータは、ご丁寧に、英語版、日本語版……など言語ごとに分かれていましたが、 アクセス数データは全言語のページごとのアクセス数データがまとめて公開されています! そしてWikipediaだけではなく、WikibooksとかWikinewsとか、プロジェクト全部が入っちゃってます。こんなにいらない。 20個余りのファイルがgz形式で圧縮されていますが、すべて解凍すると合計8GB以上になります!やったね!
ちなみに2016年12月現在では、なぜか2016年8月5日でデータの更新がストップしてます。
何があったのか。

アクセス数データを使ってみる

全言語版のページごとのアクセス数が記録されていますが、ご安心ください。
公式の説明で、以下のようにカラムの説明が書いてあります。

domain_code page_title count_views total_response_size

上記から分かるように、行頭にホスト名が書いてあり、日本語版であれば「ja」で始まるものだけを選べば良いのです。 なお、たとえば英語版なら「en」、フランス語版なら「fr」になっています。 ただしページ名はURLエンコードされており、デコードする必要があります。そのまま読めるなら別にいいけど。
普通にデコードできるデコーダなら構いませんが、たとえばJavaでこれを読むとなると標準のデコーダでは全然機能してくれません。 おとなしくApache Commonsを使いましょう。
ちなみにこの問題に関してはこのデータ特有のものではないですね、たぶん。

注意点

この8GB以上のデータ、1時間ごとに分かれています。したがって、すべて使ってしまうと、 「ページ名が重複してる!?」などという誤った解釈につながりかねません。私は一時つながってしまいました。

さあ、あなたもWikipediaのアクセス数データで日常生活をエンジョイしましょう。