かわみのメモ帳

趣味に関するメモを書いていきます。

ある単語が既に使われていた年代を青空文庫から特定する

おはようございます。かわみです。
今年は例年と比較してインフルエンザが大流行していますが、皆さんは大丈夫でしょうか。
私は昔、当時の新型インフルエンザに罹り、40度以上の体温を記録したことがあります。一周回ってハイでしたが、かつて問題となった奇行は起こしませんでした。安心してください。

さて、そんな「インフルエンザ」は、かつて「流行性感冒」との呼び方が一般的だったのではないでしょうか。 しかしながら「インフルエンザ」ということば、100年以上前の1908年(明治41年)には既に使われていたようです。 というのも、1908年に連載されていた、夏目漱石先生の「三四郎」に登場するのです。図らずも、前回に引き続き夏目漱石先生にご登場いただく形となりました。

ということで、意外にも昔から使われていたことばを青空文庫より抽出します。

青空文庫から取得できるデータ

青空文庫 Aozora Bunko

青空文庫は皆さんご存知の通り、著作権の消滅した作品を有志がまとめて掲載しているサイトです。
自然言語処理の実験台としてもしばしば用いられるほどで、各作品が自由にダウンロードできます。
各小説のページから個別にダウンロードしてもいいのですが、さすがに大変です。
というわけで、既に手動でまとめてくださった先人の努力を享受しましょう。

ch.nicovideo.jp

昔の作品が多いので、旧仮名遣ひと新仮名使いの両方が収録されています。今回は新仮名使いのデータのみを使います。

また作品の本文データのほか、作品や作者のメタデータも配布されています。

公開中 作家リスト:全て

こちらの"→「公開中 作家別作品一覧拡充版:全て(CSV形式、UTF-8、zip圧縮)」をダウンロード"より、UTF-8形式で様々な情報が含まれたCSVデータをダウンロードできます。
今回は本文データとメタデータの両方を用いて、ある単語が既に使われていた年代を特定します。

手法

メタデータに記載されているある作品の初版の西暦と、その作品の本文中の単語より、青空文庫の中で任意の単語が初出した作品とその年を特定します。 メタデータを見ると、"初版"の欄に記載がある作品とない作品があります。 初版が分からなければ登場した単語の青空文庫中の初出年が分からないので、初版情報のない作品は残念ながら除外します。無念。

作品の本文中からの単語抽出には形態素解析器「Sudachi」を用い、単語の正規化をして取得します。

実装した

今回は覚えたてのPythonで実装し、最終的に 単語・それが初出した年・青空文庫内での作品ID をCSVに書き出してみました。
この実装と結果のCSVファイルをgithubに公開いたします。プログラムの詳細については以下をご覧ください。

github.com

なお、今回はデータを扱いやすくするため、メタデータより取得した作品情報と作品データのファイル名を一旦MongoDBに登録したうえで、単語の抽出・初出年の特定処理をおこないました。
また実装を見ていただければ分かりますが、今回は名詞単語に限定しました。
それでは意外に昔から使われていた単語をいくつか見ていきまーしょう!(cv.ミライアカリ)

結果

実際に動かしてみましたが、まずは言い訳からです。

Sudachiの正規化について

Sudachiの正規化処理についてですが、"ガアル"や"シチウ"などのような昔のカタカナ語の表記までは苦しかったようです。 そのため、同一の意味を有する単語が実質的に重複して記録されている例がありました。 ただし、どの時点で現代風に表記が変わったのか観測できると思えば、この点も含めて結果を楽しめることでしょう。

意外に昔から使われていた単語例

さて、ここから実際に、意外に昔から使われていたカタカナ語について紹介します。 固有名詞やモノの名前はそのように表記するしかない場合もあるでしょうから、一般的な単語に限定します。
ちなみに読み込んだ作品は、1872年(明治5年)~1986年(昭和61年)のものでした。

ゲーム

1916年(大正5年)には既に使われていたようです。こちらに登場しています。
確かに"試合"と表現するよりも適している気がします。

リアル

1920年(大正9年)には既に使われていたようです。こちらに登場しています。
なお大衆向けの作品ではなさそうです。

ヒント

1911年(明治44年)には既に使われていたようです。こちらに登場しています。

プライベート

1923年(大正12年)には既に使われていたようです。こちらに登場しています。
なお表記自体は「プライヴェート」です。

ビジネス

1906年(明治39年)には既に使われていたようです。夏目漱石先生の有名なこちらの作品に登場しています。
なお"ビジネス・マン"という単語として登場しています。

スタイル

1915年(大正4年)には既に使われていたようです。こちらも夏目漱石先生の作品に登場しています。
容貌といった意味で使用されています。

ドラマ

1911年(明治44年)には既に使われていたようです。こちらに登場しています。
さすが森鷗外先生。カタカナ語以外にも、本文中は英語だらけです。

キス

1892年(明治25年)には既に使われていたようです。こちらに登場しています。
19世紀の日本にカタカナ語として既に存在しているとは。

サラリーマン

1928年(昭和3年)には既に使われていたようです。こちらに登場しています。
本文から、おそらくこの時代にある程度浸透していたと読み取れます。有名な和製英語ですね。

アフレコ

これは戦後になりますが、1946年(昭和21年)には既に使われていたようです。こちらに登場しています。
これもまた有名な和製英語ですね。

なお以上に紹介した単語は現代でも同じ意味で用いられている単語であり、結果の中には現代の一般的な意味とは異なって使用されている単語もありました。
また形態素解析の処理において単語の途中で分割されてしまう例もありました(たとえば"リスク"の初出小説を見てみたら"ニコリスク"だったりした)。 皆さんもこの結果データを見る際にはご注意ください。

おわりに

結果より単語を調べている途中に、たとえば"ベース"のような意味に曖昧性のある単語は抽出時に分類する必要があるのではないかと気づきました。
ただしこれは形態素解析器の性能と機能に依存し、たとえ単語の意味カテゴリが取得できるものに変えたところで曖昧性は消滅しないため、非常に難題であるという点にも気づいてしまいました。 単語の使われ方にも着目をした特定方法を考える必要がありそうですが、実装も公開したのであとは誰かが改善してくださるでしょう。そこのあなた、期待しています。

この記事の目的について今更ながら説明すると、

  • あることばが使われ始める前、人々の間で共通認識として存在したその概念をなんということばで表現していたか想像してニヤニヤする
  • およそ100年前にタイムスリップした際、どのような語彙を用いて当時の人々と会話をするか想像してニヤニヤする

などが考えられます。とにかくニヤニヤしてください。

最後に、本記事はあくまでも日本の文学作品に初出した単語に着目をしたまでであり、当時その単語が一般的であったと断定するものではありません。 (読み手を考えるとおそらくそうだったのではないかと期待しているところです)

余談

「コーラ」という単語を調べると、夏目漱石先生の草枕に登場しているようで、日本での流通前に一般単語として使用されていたのかと思ったら、

「コーラッ」と叱りつける源さんの声が、じゃらんじゃらんと共に余の冥想を破る。

と本文中に。飲み物のほうだと仮定すれば先見の明が物凄いし、斬新なセリフ。