144 / 183
神様、仏様、閻魔様、レオナルド・ダ・ヴィンチ様
ロシア語インターネットコーパス?
しおりを挟むEnglish
I-EN, a corpus of about 160 million words. This corpus has been compiled automatically from the Internet in 2005 along with other Internet corpora (for Chinese, French, German, Italian, Spanish, Polish and Russian).
I-EN-CC, a corpus of about 160 million words consisting of pages labeled with a Creative Commons (CC BY) License. This means that the collection can be downloaded and reused according to the terms of conditions set by the authors.
The British National Corpus (BNC), a classic collection of samples of modern British English, 100 million words.
the Reuters corpus, a collection of newswires from Reuters for one year from 1996-08-20 to 1997-08-19, 90 million words.
A corpus of British News, a collection of newsstories from 2004 from each of the four major British newspapers: Guardian/Observer, Independent, Telegraph and Times, 200 million words.
Russian
The Russian National Corpus, a collection of texts comparable to the BNC in its design, its pilot version has 100 million words (a more elaborated description of the project is available in Russian from "http://ruscorpora.ru)
Russian Internet Corpus, a corpus of about 90 million words. This corpus has been compiled automatically from the Internet in February-April 2005 along with other Internet corpora.
a corpus of Russian newspapers, 78 million words (Izvestia, Trud and Strana.ru).
the Russian Standard, a corpus of modern Russian fiction with manual disambiguation of morphological categories, 1.6 million words.
The interface to Russian corpora is available from http://corpus.leeds.ac.uk/ruscorpora.html
Chinese
Chinese Internet Corpus, a corpus of about 90 million words. This corpus has been compiled automatically from the Internet in February-April 2005 along with other Internet corpora.
a fragment of LDC Chinese Gigaword corpus, 35 million words, tokenised and lemmatised using the NEUCSP tool from NLP Lab, North-Eastern University, China; the selection includes newswires for one year (2001); this makes it comparable to the Reuters corpus.
Guo Jin's Chinese PH corpus, which is based on XINHUA news from 1990; segmentation done by Chris Brew and Julia Hockenmaier, 2,5 million words.
Lancaster Corpus of Mandarin Chinese, a corpus of about 1 mln words, which is comparable in its design to Brown and LOB type corpora. Created by Tony McEnery and Richard Xiao, distributed by the European Language Resources Association (Cat. No ELRA-W0039) and the Oxford Text Archive (Cat. No 2474).
英語
I-EN、約1億6000万語のコーパス。このコーパスは、他のインターネットコーパス(中国語、フランス語、ドイツ語、イタリア語、スペイン語、ポーランド語、ロシア語)とともに、2005年にインターネットから自動的にコンパイルされました。
I-EN-CC、クリエイティブ・コモンズ(CC BY)ライセンスでラベル付けされたページで構成される約1億6000万語のコーパス。これは、著者が設定した条件に従ってコレクションをダウンロードして再利用できることを意味します。
現代イギリス英語のサンプルの古典的なコレクションであるBritishNational Corpus(BNC)、1億語。
ロイターコーパス、1996-08-20から1997-08-19までの1年間のロイターからのニュースワイヤーのコレクション、9千万語。
英国のニュースのコーパス、4つの主要な英国の新聞のそれぞれからの2004年からのニュース記事のコレクション:ガーディアン/オブザーバー、インディペンデント、テレグラフアンドタイムズ、2億語。
ロシア
ロシア国立コーパスは、その設計においてBNCに匹敵するテキストのコレクションであり、そのパイロットバージョンには1億語が含まれています(プロジェクトのより詳細な説明は、ロシア語で「http://ruscorpora.ru」から入手できます)。
ロシア語インターネットコーパス、約9000万語のコーパス。このコーパスは、他のインターネットコーパスとともに、2005年2月から4月にインターネットから自動的にコンパイルされました。
ロシアの新聞のコーパス、7800万語(イズベスチヤ、トラッド、Strana.ru)。
ロシア語標準、形態学的カテゴリーの手動による曖昧性解消を備えた現代ロシア小説のコーパス、160万語。
ロシアのコーパスへのインターフェースはhttp://corpus.leeds.ac.uk/ruscorpora.htmlから入手できます。
中国語
中国語インターネットコーパス、約9000万語のコーパス。このコーパスは、他のインターネットコーパスとともに、2005年2月から4月にインターネットから自動的にコンパイルされました。
中国東北大学のNLPラボのNEUCSPツールを使用してトークン化および語彙化されたLDC中国語ギガワードコーパスのフラグメント、3500万語。選択には、1年間(2001年)のニュースワイヤーが含まれます。これにより、ロイターコーパスに匹敵します。
1990年の新華社のニュースに基づいた郭金の中国PHコーパス。クリス・ブリュとジュリア・ホッケンマイヤーによるセグメンテーション、250万語。
北京語のランカスターコーパス。約100万語のコーパスで、デザインはブラウンやLOBタイプのコーパスに匹敵します。 TonyMcEneryとRichardXiaoによって作成され、European Language Resources Association(Cat。NoELRA-W0039)とOxford Text Archive(Cat。No2474)によって配布されました。
0
お気に入りに追加
5
あなたにおすすめの小説
校長室のソファの染みを知っていますか?
フルーツパフェ
大衆娯楽
校長室ならば必ず置かれている黒いソファ。
しかしそれが何のために置かれているのか、考えたことはあるだろうか。
座面にこびりついた幾つもの染みが、その真実を物語る
寝室から喘ぎ声が聞こえてきて震える私・・・ベッドの上で激しく絡む浮気女に復讐したい
白崎アイド
大衆娯楽
カチャッ。
私は静かに玄関のドアを開けて、足音を立てずに夫が寝ている寝室に向かって入っていく。
「あの人、私が
隣の人妻としているいけないこと
ヘロディア
恋愛
主人公は、隣人である人妻と浮気している。単なる隣人に過ぎなかったのが、いつからか惹かれ、見事に関係を築いてしまったのだ。
そして、人妻と付き合うスリル、その妖艶な容姿を自分のものにした優越感を得て、彼が自惚れるには十分だった。
しかし、そんな日々もいつかは終わる。ある日、ホテルで彼女と二人きりで行為を進める中、主人公は彼女の着物にGPSを発見する。
彼女の夫がしかけたものと思われ…
妊娠したのね・・・子供を身篭った私だけど複雑な気持ちに包まれる理由は愛する夫に女の影が見えるから
白崎アイド
大衆娯楽
急に吐き気に包まれた私。
まさかと思い、薬局で妊娠検査薬を買ってきて、自宅のトイレで検査したところ、妊娠していることがわかった。
でも、どこか心から喜べない私・・・ああ、どうしましょう。
ユーザ登録のメリット
- 毎日¥0対象作品が毎日1話無料!
- お気に入り登録で最新話を見逃さない!
- しおり機能で小説の続きが読みやすい!
1~3分で完了!
無料でユーザ登録する
すでにユーザの方はログイン
閉じる