かわみのメモ帳

趣味に関するメモを書いていきます。

ある単語が既に使われていた年代を青空文庫から特定する

おはようございます。かわみです。
今年は例年と比較してインフルエンザが大流行していますが、皆さんは大丈夫でしょうか。
私は昔、当時の新型インフルエンザに罹り、40度以上の体温を記録したことがあります。一周回ってハイでしたが、かつて問題となった奇行は起こしませんでした。安心してください。

さて、そんな「インフルエンザ」は、かつて「流行性感冒」との呼び方が一般的だったのではないでしょうか。 しかしながら「インフルエンザ」ということば、100年以上前の1908年(明治41年)には既に使われていたようです。 というのも、1908年に連載されていた、夏目漱石先生の「三四郎」に登場するのです。図らずも、前回に引き続き夏目漱石先生にご登場いただく形となりました。

ということで、意外にも昔から使われていたことばを青空文庫より抽出します。

続きを読む

アニメの名台詞を夏目漱石風に自動変換させてみた

おはようございます。かわみです。
先日の記事でCDHACの取り組みについて述べましたが、当記事はその番外編になります。箸休めもいいところ。
記事中にもありましたが、CDHACの副産物として、文章に特徴づけるモジュール(ver.1.0)が出来上がりました。
ということで、はじめは夏目漱石先生にハリー・ポッターのあらすじを書いていただこうとしていたのですが、実際、あまり面白くなかったため、趣旨を変更して漫画やアニメの名台詞を書いていただきました。

続きを読む

天海春香会話bot開発チャレンジ開催

おはようございます。かわみです。
2018年も始まり、「THE IDOLM@STER ニューイヤーライブ!! 初星宴舞」が新年早々開催されましたね。観に行ってはないんだけど。
久々の765単独ライブだったそうですが、相変わらずのクオリティで最高だった(おそらく毎回)との感想を多く目にします。
そんな765プロのセンターが、天海春香さん。
何故彼女がセンターであるのか、その理由に関しては地獄のミサワ先生が分かりやすく熱弁されていたりするので、そちらをご覧いただくとして。
ゲーム内ではコミュ等で彼女が話しかけてきますが、こちらからことばを自由に使って思いを届けてそのレスポンスを貰うことができません。技術および費用対効果の生み出す壁。

そんな彼女ともしも会話ができたら、なんて素敵なことではないでしょうか。

そこで「天海春香会話bot開発チャレンジ(The Challenge to Develop Haruka Amami Chatbot - CDHAC)」を(私一人で勝手に)開催することといたしました。
ただし実は(?)既に同様の試みがなされているのをご存知でしょうか。

続きを読む

形態素解析器「Sudachi」をJavaで使ってみた

おはようございます。かわみです。
いやー、今年もこの時期になると非常に体が冷えます。

まもなく冬至ですが、ゆず湯なんて良いですよね。
柚といえば、アイド柑橘類。柑橘類には他にみかんなどがありますが、その中でもすだちとかぼすを混同してしまうのが私です。

ということで、本日はすだちのほうを紹介します。
といっても、果物ではなく形態素解析器なので、果物のすだちを知りたい方はWikipediaへどうぞ。

続きを読む

Javaで文字列から絵文字を取り除く方法について

おはようございます、かわみです。
本当にメモ帳的な更新となりますがご了承ください。

さて、趣味でジャバジャバしてたらとあるところで躓きました。
Javaにおける絵文字の正規表現です。
とりあえず動く実装方法が見たい方は一番下までスクロールしてください。

続きを読む

普通の文章から川柳を自動で見つけよう その3(実行結果編)

おはようございます。かわみです。
実際に川柳の自動検出器を実装して、試してみました。その結果報告です。
というわけで川柳の自動検出ですが、この章で一旦区切りとなります。かわみ先生の次回作にご期待ください。

では早速実行結果を見ていきましょう、といきたいところですがまずは新たなルールの説明から。

続きを読む

普通の文章から川柳を自動で見つけよう その2(細かい設計編)

おはようございます。かわみです。
川柳探索のその2です。誰か見てる人はいるのだろうか。
どのように川柳を見つけるか、具体的に細かい部分の設計をしていく章です。
しかし書き終えて気づいたけど、実は前回で大方の設計が完了していたのである。

続きを読む