🌟真理の扉

鏡子 (きょうこ)

文字の大きさ
上 下
3,866 / 4,110
第182章 ハンターズハロウィンマイクロブルームーン

インターネット・コーパス

しおりを挟む


Japanese frequency lists (tokenisation, lemmatisation and POS tagging by ChaSen)
lemmas from the Internet corpus
word forms from the Internet corpus
POS frequencies from the Internet corpus
Portuguese frequency lists (tokenisation, lemmatisation and POS tagging by TreeTagger)
lemmas from the Internet corpus
word forms from the Internet corpus
POS frequencies from the Internet corpus
Spanish frequency lists (tokenisation, lemmatisation and POS tagging by TreeTagger)
lemmas from the Internet corpus
word forms from the Internet corpus
POS frequencies from the Internet corpus
There is also a frequency list of Georgian produced by Garold Shmaltsel and Givi Nozadze.

The structure of the lists follows the template of the lemmatised BNC lists produced by Adam Kilgariff, namely:

[word rank] [normalised frequency] [lemma, word form or POS]
Note that the frequency has been normalised to ipm: the number of instances of an individual word or POS tag per million words in respective corpora. Normalisation makes it possible to compare frequencies in the BNC against the Internet corpus. If you want to know the actual number of occurrences of a word listed there, multiply the frequency by the corpus size in million words (the size of a corpus is shown at the top of its frequency list). For instance, browser is used about 8556 times in the English Internet Corpus (47.17*181.376).

Finally, we have lists of distributionally similar words for English, German and Russian (words are said to be distributionally similar, if they share a significant amount of collocates in the corpus). The lists have been produced by Reinhard Rapp using Singular Value Decomposition (SVD).

The lists are distributed under the Creative Commons (CC BY) Attribution license.


Google翻訳


日本語の頻度リスト(ChaSenによるトークン化、レンマ化、品詞タグ付け)
インターネットコーパスからの見出語
インターネットコーパスからの単語形式
インターネットコーパスからのPOS頻度
ポルトガル語の頻度リスト(TreeTaggerによるトークン化、レンマ化、POSタグ付け)
インターネットコーパスからの見出語
インターネットコーパスからの単語形式
インターネットコーパスからのPOS頻度
スペイン語の頻度リスト(TreeTaggerによるトークン化、レンマ化、POSタグ付け)
インターネットコーパスからの見出語
インターネットコーパスからの単語形式
インターネットコーパスからのPOS頻度
GaroldShmaltselとGiviNozadzeによって作成されたグルジア語の頻度リストもあります。

リストの構造は、AdamKilgariffによって作成されたレンマ化されたBNCリストのテンプレートに従います。

[単語ランク] [正規化された頻度] [見出語、単語形式、またはPOS]
頻度はipmに正規化されていることに注意してください。つまり、それぞれのコーパスの100万語あたりの個々の単語またはPOSタグのインスタンスの数です。正規化により、BNCの周波数をインターネットコーパスと比較することができます。そこにリストされている単語の実際の出現回数を知りたい場合は、頻度に100万語単位のコーパスサイズを掛けます(コーパスのサイズは頻度リストの上部に表示されます)。たとえば、ブラウザは英語のインターネットコーパス(47.17 * 181.376)で約8556回使用されています。

最後に、英語、ドイツ語、ロシア語の分布的に類似した単語のリストがあります(コーパス内でかなりの量の連語を共有している場合、単語は分布的に類似していると言われます)。リストは、特異値分解(SVD)を使用してReinhardRappによって作成されました。

リストは、クリエイティブ・コモンズ(CC BY)帰属ライセンスの下で配布されます










●リストは、クリエイティブ・コモンズ(CC BY)帰属ライセンスの下で配布

クリエイティブ・コモンズなら知ってる。


ウィキペディアの下の段に、常に解説がしてあるから。
しおりを挟む

あなたにおすすめの小説

校長室のソファの染みを知っていますか?

フルーツパフェ
大衆娯楽
校長室ならば必ず置かれている黒いソファ。 しかしそれが何のために置かれているのか、考えたことはあるだろうか。 座面にこびりついた幾つもの染みが、その真実を物語る

後悔と快感の中で

なつき
エッセイ・ノンフィクション
後悔してる私 快感に溺れてしまってる私 なつきの体験談かも知れないです もしもあの人達がこれを読んだらどうしよう もっと後悔して もっと溺れてしまうかも ※感想を聞かせてもらえたらうれしいです

若妻の穴を堪能する夫の話

かめのこたろう
現代文学
内容は題名の通りです。

お嬢様、お仕置の時間です。

moa
恋愛
私は御門 凛(みかど りん)、御門財閥の長女として産まれた。 両親は跡継ぎの息子が欲しかったようで女として産まれた私のことをよく思っていなかった。 私の世話は執事とメイド達がしてくれていた。 私が2歳になったとき、弟の御門 新(みかど あらた)が産まれた。 両親は念願の息子が産まれたことで私を執事とメイド達に渡し、新を連れて家を出ていってしまった。 新しい屋敷を建ててそこで暮らしているそうだが、必要な費用を送ってくれている以外は何も教えてくれてくれなかった。 私が小さい頃から執事としてずっと一緒にいる氷川 海(ひかわ かい)が身の回りの世話や勉強など色々してくれていた。 海は普段は優しくなんでもこなしてしまう完璧な執事。 しかし厳しいときは厳しくて怒らせるとすごく怖い。 海は執事としてずっと一緒にいると思っていたのにある日、私の中で何か特別な感情がある事に気付く。 しかし、愛を知らずに育ってきた私が愛と知るのは、まだ先の話。

勝負に勝ったので委員長におっぱいを見せてもらった

矢木羽研
青春
優等生の委員長と「勝ったほうが言うことを聞く」という賭けをしたので、「おっぱい見せて」と頼んでみたら……青春寸止めストーリー。

我慢できないっ

滴石雫
大衆娯楽
我慢できないショートなお話

【R-18】クリしつけ

蛙鳴蝉噪
恋愛
男尊女卑な社会で女の子がクリトリスを使って淫らに教育されていく日常の一コマ。クリ責め。クリリード。なんでもありでアブノーマルな内容なので、精神ともに18歳以上でなんでも許せる方のみどうぞ。

★ ❷頬杖をつく女 2017.5.23 〜 四

鏡子 (きょうこ)
エッセイ・ノンフィクション
フェルメール絵画『眠る女』が目覚める時、それは今 ~ ※今まで書いていた、ブログを小説風にまとめます。 フェルメール絵画に『眠る女』という絵画が存在します。 『眠る女』は眠っていません。 恋しい人を想い、メランコリックに頬杖をついている女性の絵です。 何百年の時を経て 『眠る女』は、今目覚めます。 ※ 一時期【前世からの誘い】というタイトルで、でブログを書いていました。そちらをアレンジして、こちらに投稿します。

処理中です...