スキップしてメイン コンテンツに移動

「書籍において全単語の90%は20ページ目までに出てくる」のか? その2 -品詞の比率-

 前エントリの「書籍において全単語の90%は20ページ目までに出てくる」のか?と同じ小説の文章を使って品詞の比率は作品ごとに特徴はあるのかを確認してみる。
 近年のWeb小説やライトノベルは一般的な小説に比べて下に見られやすいが、それを構成する単語の成分に違いはあるのだろうか。それとも印象論からの言いがかりに過ぎないのだろうか。前エントリでは単語のバリエーションに関しては大きな差がなく、新しい小説も古い小説もページ数が増えれば増えるだけユニークな単語数が増えていくことは分かった。このエントリでは作品ごとの構成する品詞の比率について違いはないのか見てみる。

 小説の新作と旧作だけではサンプルの幅がないので、現代の実用的な文章のサンプルとして新聞社のWeb配信ニュースを比較対象として加えた。小説と新聞とでは読む感じはかなり違うが、小説で身につけた読解力は新聞に通用するのか、その逆もどうなのかという疑問から追加した。

品詞の構成比率グラフ

 まずはユニークな単語数の比率から。例えば助詞の「の」や助動詞の「だ」は各作品で1,000回は使われるが、1,000回使われようが1個として数えている。
 聞きなれないフィラーという品詞は「ええと」「あの」「まあ」といった間に挟む言葉。

 新聞は小説に比べて名詞のバリエーションが豊富になっている。記事ごとに全く別の事柄を幅広く扱うために名詞のバリエーションが多くなるようである。逆に副詞の種類が少ない。形容詞の種類も少なめである。小説の中では幼女戦記が若干新聞よりの品詞比率になっている。他はだいたい似た傾向を示している。

 次いで単語の延べ数の比率で見てみる。こちらは助詞の「の」が1,000回使われていたら1,000個と数える。文中で何度も繰り返し使われる助詞や助動詞は比率が名詞並みに高くなる。
 これも新聞だけが大きく異なる。新聞の文章は延べの数の上でも名詞の比率がかなり高いことが分かる。文章が名詞中心に構成されているようである。この名詞の中には数詞も入っており、具体的な数値が文章中にあることも名詞比率増加の一因である。また、副詞の比率が目立って低い。文章の修飾は少なくなるように書かれているようだ。動詞は若干少なめである。
 他には私本太平記で接頭詞の比率が高いことが目立つ。

小説ごとの品詞比率の集計


細雪上巻

品詞ユニーク延べ
名詞4,566(65.5%)27,061(31.3%)
動詞1,397(20.1%)14,180(16.4%)
副詞458(6.6%)2,817(3.3%)
形容詞222(3.2%)1,504(1.7%)
助詞106(1.5%)29,297(33.9%)
接続詞58(0.8%)543(0.6%)
接頭詞57(0.8%)678(0.8%)
感動詞40(0.6%)243(0.3%)
助動詞28(0.4%)9,073(10.5%)
連体詞27(0.4%)887(1.0%)
フィラー8(0.1%)50(0.1%)
合計6,96786,333
細雪は比較対照中、副詞の比率が最も高く、多様。接続詞、感動詞はユニーク、延べとも最小。フィラー多め。

私本太平記 第一巻

品詞ユニーク延べ
名詞5,484(65.5%)23,995(34.9%)
動詞1,783(21.3%)9,482(13.8%)
副詞464(5.5%)2,066(3.0%)
形容詞251(3.0%)1,102(1.6%)
助詞107(1.3%)21,928(31.9%)
接頭詞91(1.1%)1,198(1.7%)
接続詞66(0.8%)902(1.3%)
感動詞54(0.6%)231(0.3%)
連体詞40(0.5%)804(1.2%)
助動詞29(0.3%)6,933(10.1%)
フィラー5(0.1%)32(0.0%)
合計8,37468,673
助詞のバリエーションが少なめ。接続詞もバリエーションが少なめだが使用比率は高め。接頭詞の比率がユニーク、延べとも最大。

幼女戦記(Web版) 1-10話

品詞ユニーク延べ
名詞4,030(69.4%)19,249(37.3%)
動詞1,017(17.5%)7,313(14.2%)
副詞302(5.2%)1,479(2.9%)
形容詞155(2.7%)927(1.8%)
助詞90(1.6%)15,529(30.1%)
接続詞64(1.1%)628(1.2%)
接頭詞48(0.8%)253(0.5%)
感動詞38(0.7%)230(0.4%)
連体詞34(0.6%)441(0.9%)
助動詞22(0.4%)5,616(10.9%)
フィラー5(0.1%)7(0.0%)
合計5,80551,672
小説の中では名詞の比率がユニーク、延べとも最大。

Re:ゼロから始める異世界生活(なろう版) 第一章

品詞ユニーク延べ
名詞4,637(61.9%)26,458(33.6%)
動詞1,776(23.7%)13,212(16.8%)
副詞414(5.5%)1,800(2.3%)
形容詞266(3.6%)1,589(2.0%)
助詞116(1.5%)25,866(32.8%)
感動詞76(1.0%)292(0.4%)
接続詞76(1.0%)668(0.8%)
接頭詞58(0.8%)397(0.5%)
連体詞31(0.4%)1,109(1.4%)
助動詞29(0.4%)7,356(9.3%)
フィラー10(0.1%)42(0.1%)
合計7,48978,789
動詞の比率がユニーク、延べとも最大。形容詞の比率もユニーク、延べとも最大。

読売新聞 2017年7月14日トップページにリンクがあった87本の記事

品詞ユニーク延べ
名詞3,827(80.0%)13,877(52.5%)
動詞603(12.6%)3,059(11.6%)
副詞110(2.3%)223(0.8%)
形容詞79(1.7%)280(1.1%)
助詞72(1.5%)7,058(26.7%)
接頭詞46(1.0%)229(0.9%)
接続詞20(0.4%)64(0.2%)
助動詞13(0.3%)1,549(5.9%)
連体詞12(0.3%)68(0.3%)
フィラー1(0.0%)1(0.0%)
合計4,78326,408
 2017年7月14日の18時から19時台にかけて読売新聞のニュースサイトにタイトルがリストされていただいたいの記事を取得して分析を行った。
 新聞にはストレートニュース的な記事と論説的な記事、暮らしのお役立ち情報的な記事など混在している。ストレートニュースは品詞の構成比率が他と異なり、副詞の種類や比率がより少なくなるし、社説などは若干情緒的になり小説に近づくようである。

 新聞と小説は品詞の比率に大きな差があった。小説4作は大体似た傾向だったが、小説の中で詳しく見ると細雪とRe:ゼロから始める異世界生活、私本太平記と幼女戦記が似たような構成比率となっていた。

課題

 何かを結論付けるにはサンプル数が少ない。分析する小説数を増やしてみたいところ。
 ライトノベルに特徴的な品詞といえばオノマトペ(ここでは副詞の一部としてカウント)ではないだろうか。各作品の品詞を副詞に絞って比較してみたい。

コメント