ライティングラボ by Shodo

執筆・ライティングについてのノウハウを共有するブログです。 ブログや本の執筆、コンテンツマーケティングにお役立てください!

「子供」と「子ども」、どっちの表記が多いかをWikipediaの全文(16億文字)から解析した結果

f:id:hirokiky:20220318110126p:plain

「子供」と「子ども」、どちらの使い分けが良いのでしょうか?

文化的な背景だけでなく、ビッグデータを解析することで「子供」と「子ども」のどちらの表記が多かったかを調べてみましょう! 今回は日本語Wikipediaの全文(16億文字)を解析して、「子供」と「子ども」、さらに他の表記ゆれの数を調査します。

一般的な答えは?:どちらでも良いが、少し長い話がある

一般的には、「子供」、「子ども」のどちらでも良いそうです。調べてみたところ、以下のことが分かりました:

「子供」という字には「お供」の漢字が使われており、子供に対して差別的だという見解もあるようです。それを文科省は2013年から否定し、「子供」という字で統一するようになったという話でした(しかしあまり統一や周知が進んでいないという問題があるそう)。

ともあれ文化的な面でみると「両方とも問題ない」ということです。記事や媒体ごとに統一されていれば、私もどちらでも良いと思います。理解したうえで使い分ける分には、日本語の豊かさを感じて良いと思います。

テクノロジーからの視点もあれば良いのにな?と感じましたので、Wikipediaの文章を解析することで、どちらのほうが一般的に使われているかを調べてみましょう。

Wikipediaから解析してみよう!

ここでビッグデータの力を使って、どちらの表記が多いかを調べてみましょう。
今回はWikipediaの全から解析します:

Wikipediaには表記統一のルールなどがありませんし、一般的な人が好きに編集します。ですので 「どの表記が使われやすいか」の情報源として使えるのではないかと判断しました。今回は日本語のWikipediaから表記ゆれを調査しますが、今後も他のオープンデータなどを試そうと思っています。

単純にテキストから文字を検索するのでなく、記事の本文を抜き出して、日本語として解釈したうえで回数を数えます。解析にはMeCabという形態素解析エンジンと、UniDicという辞書を用いています。

Wikipediaの文章はクリエイティブコモンズライセンス(CC BY-SA 3.0)のもとに配布されています。この記事では単語の出現頻度を数えた値のみを公開しています。

解析の結果

日本語Wikipediaの全文(アーカイブ)を利用し、解析しました。2021年8月30日時点のデータを利用しています(手元にあったので)。

結果は以下になりました

  • 子供:115,469回
  • 子ども:26,903回
  • こども:9,078回
  • コドモ:405回
  • 子共:149回
  • 小供:8回

「子供」の表記のほうが「子ども」よりも4.3倍ほど多いという結果になりました。最近は「子ども」の表記も使われている印象もあるので、案外少ないと思われたかもしれません。

解析した文字数は以下です。日本語の文のみを抽出して解析していますので、マークアップ用の記号などは含まれていません:

  • 文字数:1,630,786,279文字
  • 単語数:965,966,008単語

おわりに

Wikipediaを用いて「子供」か「子ども」、どちらの表記が多いかを解析しました。
今回は「子供」が多いという結果になりましたが、また色々な情報源や他の表記ゆれなどを調べていきます。

もし表記ゆれや統一、AI文章校正に興味があれば、ぜひShodoをご利用ください。
Shodoであれば表記ゆれの設定をして、執筆中に「子供」か「子ども」の統一ができます。

shodo.ink

執筆:Kiyohara Hiroki (@hirokiky)
Shodoで執筆されました