スキップしてメイン コンテンツに移動

投稿

2017の投稿を表示しています

「書籍において全単語の90%は20ページ目までに出てくる」のか? その2の参考 -副詞など品詞ごとの頻出単語-

  その2 で品詞の比率を見たが、各品詞で具体的にどういう単語が使われているかを確認する。 その2 を見て具体的にどんな単語が使われているんだ?と疑問に感じた人用のデータ。特に何か結論があるわけではないが、どの作品でもよく使われる副詞や助詞が同じなのか、異なっているのか確認できる。  よく使われる副詞を眺めてみると、その作品の空気が割と再現されている気がする。 頻出する副詞 細雪 上巻 私本太平記 幼女戦記 Re:ゼロ 読売新聞 単語 度数 単語 度数 単語 度数 単語 度数 単語 度数 そう 316 まだ 87 そう 78 そう 114 さらに 11 又 114 もう 83 実に 48 どう 59 初めて 10 もう 97 すぐ 69 どう 44 まだ 45 どう 8 どう 85 そう 62 なにしろ 39 もう 40 いつも 7 まだ 76 又 56 本当に 32 ちょっと 35 次々 7 よく 69 やがて 49 まあ 31 初めて 32 特に 7 ちょっと 67 どう 45 何故 28 かなり 29 よく 6 いつも 55 よく 43 全く 28 さらに 24 まず 5 こう 48 ふと 33 当然 24 なんで 20 最も 5 まあ 45 つい 32 要するに 24 わずか 20 あまり 4 ああ 30 もし 30 すでに 22 思わず 20 かなり 4 きっと 25 すでに 29 はっきり 20 たぶん 19 しっかり 4 つい 24 こう 24 極めて 20 げに 18 そう 4 却って 24 なぜ 23 ともかく 19 どうにか 17 ちょっと 4 暫く 24 ついに 21 まだ 17 そろそろ 16 もう 4 決して 24 きっと 19 あまりに 16 とりあえず 16 少し 4 少し 23 さらに 19 最も

「書籍において全単語の90%は20ページ目までに出てくる」のか? その4 -小説間に共通して出現する単語の割合-

 1冊の本の何ページ目まで読めば見覚えのある単語ばかりになって以後楽に読むことができるのかという疑問から始めた検証だったが、ある1冊の本を読み終えたらまた別の本を紐解いた時に前の本で見知った単語ばかりになって楽に読めるのだろうか? それともそこにはまた別の知らない単語ばかりが並んでいて1から努力のやり直しになるのだろうか?  それを調べるために小説の作品間で共通する単語はどれくらいあるかという基準で比べてみた。ついでに新聞と小説でどれくらい共通しているのかもみてみる。 比較元小説に比較先小説に存在する単語が含まれる割合 比較元\比較先 細雪 上巻 私本太平記 かんかん虫 幼女戦記 Re:ゼロ 読売新聞 細雪上巻 37% 34% 27% 35% 21% 私本太平記 第一巻 31% 31% 24% 30% 17% かんかん虫は唄う 38% 42% 28% 36% 21% 幼女戦記 1-10話 33% 34% 30% 47% 30% Re:ゼロから始める異世界生活 第一章 32% 34% 30% 36% 23% 読売新聞 Web版2017年7月14日 31% 30% 27% 37% 37%  どの小説間でも共通する単語は20%〜50%である。1冊の単語をすべて理解したとしても別の本に臨むときは知らない単語に出くわす覚悟が必要そうである。  書かれた時代が近い作品は共通する単語が増え、時代が異なる作品では共通する単語が若干少なめとなったがサンプル数が少ないので結論は出せない。  新聞は新し目の2作品との間で共通する単語が若干多い。  同一作者の作品間でどうなっているかを見るために吉川英治の「かんかん虫は唄う」を比較対象として追加した。同作者の「私本太平記」との間で共通する単語の割合は少し高めとなった。

「書籍において全単語の90%は20ページ目までに出てくる」のか? その3 -品詞ごとの増加傾向-

 前々エントリの 「書籍において全単語の90%は20ページ目までに出てくる」のか? で新出単語の増加のしかたを見たが、これはどの品詞でも同じように増えるのだろうか。品詞ごとに増加割合に違いがあって動詞や形容詞は早い段階で頭打ちになり、後半は名詞だけが増えるような状態になるのではないだろうかという気がした。もしそうなら書籍の前半数十ページに出てくる動詞や形容詞を完全に掌握することで、それ以後の読解を簡単にすることができるはずである。  前のエントリと同じ小説の文章を使って調べてみた。  結果、多少の違いはあるが、名詞も動詞も形容詞も副詞も小説全編に渡って新しいものが出続けることがわかった。副詞は比較的早いページでカバー率が上がりがちである。 品詞ごとのユニーク単語出現割合推移 細雪は副詞のみが先行してカバー率を上げる。 私本太平記は副詞に加え形容詞も早めにカバー率が上がる。 幼女戦記は10話あたりに新出の形容詞がたくさんあるようだ。 Re:ゼロから始める異世界生活も1章の終わりあたりに新出形容詞が多いようだ。100ページ目くらいまではどの品詞も同じようなペース。 読売新聞のサンプルデータは前半が事件、政治などのストレートニュース。社説などのコラムを挟んで文化面的な記事をくっつけてある。前半のストレートニュースは副詞が極端に少なく、中盤以降のコラムでは多用される。多くの記者のいろんな文体が混ざっているためグラフが素直な形になっていない。

「書籍において全単語の90%は20ページ目までに出てくる」のか? その2 -品詞の比率-

 前エントリの 「書籍において全単語の90%は20ページ目までに出てくる」のか? と同じ小説の文章を使って品詞の比率は作品ごとに特徴はあるのかを確認してみる。  近年のWeb小説やライトノベルは一般的な小説に比べて下に見られやすいが、それを構成する単語の成分に違いはあるのだろうか。それとも印象論からの言いがかりに過ぎないのだろうか。前エントリでは単語のバリエーションに関しては大きな差がなく、新しい小説も古い小説もページ数が増えれば増えるだけユニークな単語数が増えていくことは分かった。このエントリでは作品ごとの構成する品詞の比率について違いはないのか見てみる。  小説の新作と旧作だけではサンプルの幅がないので、現代の実用的な文章のサンプルとして新聞社のWeb配信ニュースを比較対象として加えた。小説と新聞とでは読む感じはかなり違うが、小説で身につけた読解力は新聞に通用するのか、その逆もどうなのかという疑問から追加した。 品詞の構成比率グラフ  まずはユニークな単語数の比率から。例えば助詞の「の」や助動詞の「だ」は各作品で1,000回は使われるが、1,000回使われようが1個として数えている。  聞きなれないフィラーという品詞は「ええと」「あの」「まあ」といった間に挟む言葉。  新聞は小説に比べて名詞のバリエーションが豊富になっている。記事ごとに全く別の事柄を幅広く扱うために名詞のバリエーションが多くなるようである。逆に副詞の種類が少ない。形容詞の種類も少なめである。小説の中では幼女戦記が若干新聞よりの品詞比率になっている。他はだいたい似た傾向を示している。  次いで単語の延べ数の比率で見てみる。こちらは助詞の「の」が1,000回使われていたら1,000個と数える。文中で何度も繰り返し使われる助詞や助動詞は比率が名詞並みに高くなる。  これも新聞だけが大きく異なる。新聞の文章は延べの数の上でも名詞の比率がかなり高いことが分かる。文章が名詞中心に構成されているようである。この名詞の中には数詞も入っており、具体的な数値が文章中にあることも名詞比率増加の一因である。また、副詞の比率が目立って低い。文章の修飾は少なくなるように書かれているようだ。動詞は若干少なめである。  他には私本太平記で接頭詞の比率が高いことが目立つ。 小説ごとの品詞比率の集計 細

「書籍において全単語の90%は20ページ目までに出てくる」のか?

 Hacker Newsでこんな記事を見かけた。 Do 20 pages of a book give you 90% of its words? - Vocapouch  その書籍に含まれる単語の90%は最初の20ページまでに出てくるから、そこまで頑張って読めばそれ以降は楽に読めるよというアドバイスを英語教師からこの記事の筆者は受けたそうだ。それが正しいかどうか検証してみようという記事。どこで見かけたかは忘れたけれど、日本語の本についても似たような主張を見た覚えがある。日本語でも同じ法則が成り立っているのか検証してみた。  元の記事では アガサ・クリスティー著 「秘密機関」 マーク・トゥエイン著 「Eve's Diary」 ジェームズ・ロイス著 「ユリシーズ」 について調べられている。https://blog.vocapouch.com/do-20-pages-of-a-book-gives-you-90-of-its-words-795a405afe70から確認できる。 検証  元の記事では単語の出現の仕方については2種類のカウント方法を採用している。ひとつはUnique words、重複を除いた全単語の内、そのページまでに何%の単語が出現したかをみる。「20ページ目までに単語の90%」と見たとき自分はこっちの方法をイメージした。  もうひとつはAll words、こちらは重複を考慮しない。例えば1000単語中100個を占める単語があったとすると、その単語が初めて出現したページでパーセンテージは10%ポンと上がる。1000単語中1回しか出ない単語が出現したページでは0.1%だけ上がるという数え方である。直感的なイメージには反する気がするが、ページ内で見覚えがある単語の率を示すという意味ではより正しいのかもしれない。  日本語での検証には青空文庫収録作品とWeb小説の中から次の4作品を使わせてもらった。 谷崎 潤一郎著 「細雪」上巻 吉川 英治著 「私本太平記」第一巻 カルロ・ゼン著 「幼女戦記」Web版 1~10話 鼠色猫/長月 達平著 「Re:ゼロから始める異世界生活」小説家になろう版 第一章  半世紀ほど前の重めの小説と軽めの小説、最近のライトノベルから選んでみたつもり。  青空文庫などのデータからペー