精度はGoogle翻訳を越える… 無料の国産「TexTra」が地味にスゴイ

サイト「みんなの自動翻訳@TexTra」より
サイト「みんなの自動翻訳@TexTra」より

 英文などを自動翻訳したいとき、アメリカのグーグルが開発した「Google翻訳」を利用するという人は多いだろうが、今は、世界一高精度な自動翻訳ツールはドイツのDeepL GmbHが開発した「DeepL」だといわれている。

 だが、日本が開発したある自動翻訳ツールもかなり優秀だという。6月にあるTwitterユーザーが呟いた投稿が多くの“いいね!”を集めるなど話題を呼んでいた。それによると、無料の「みんなの自動翻訳TexTra(テキストラ)」(以下、TexTra)という自動翻訳サイトがDeepLに勝るとも劣らない性能を誇り、しかも開発したのは日本の国立研究開発法人情報通信研究機構(NICT(エヌアイシーティー))なのだという。

 

 

 しかし、このツイートで注目を集めたTexTraだが、DeepLの1日の閲覧数が数百万回といわれているのに対し、TexTraは1日のサイトログイン数が3000人ほどと圧倒的に少ない。

 そこで今回は、TexTraを開発したNICTに所属し、8月19日に著書『AI翻訳革命 ―あなたの仕事に英語学習はもういらない』(朝日新聞出版)を上梓した隅田英一郎氏に、TexTraの実態について聞いた。

TexTraは商用目的ではなく、技術見本のサイトとして誕生

 そもそも自動翻訳とはどういう仕組みなのか。

「自動翻訳とはAI(人工知能)が翻訳を行うツールのことですが、そのAIがデータの特徴や構造を自ら学習・解釈・分類する機械学習の手法である深層学習をベースとしています。深層学習はディープラーニングとも呼ばれています。

 そのAIに日々翻訳データを追加してどんどん学習させることで、精度の高い翻訳を行っているわけです。ですから蓄積させる翻訳データのクオリティが低いと、質の悪い翻訳ばかりになってしまうので、自動翻訳のAIは良質の翻訳データをたくさん集めることがとても重要なのです」(隅田氏)

 では、TexTraはどういったものなのか。

「そもそも私が所属しているNICTは、情報通信分野を専門とする日本唯一の公的研究機関で、AI、脳情報科学、量子ICTから電磁波まで、さまざまな技術を研究する組織です。目的は研究とそこから発展した開発であり、開発した技術を民間の業者に卸しています。

 そんな研究の一環としてTexTraを作ったわけですが、目的は我々の研究で生まれた自動翻訳の性能をみなさんに知っていただくことであり、TexTraはある種の実験サイトともいえます。NICTという組織がどのような技術を持っているのかをご覧いただくための、いわば見本品で、ビジネスとして運用しているわけではないんです」(同)

誕生の経緯が異なるTexTraとDeepLは単純比較できない?

 では、DeepLとTexTraの違いはなんなのだろうか。

「DeepLの優れている点は、やはりシンプルに翻訳の質が高いことではないでしょうか。DeepLはGoogle翻訳より高性能だと、翻訳エンジンを作っている多くの開発チームが言っていますからね。高い翻訳力の鍵はやはり学習データの質と量が関係してきますが、DeepLは学習データについて一切公表していないので、なぜあそこまでの高いクオリティの翻訳ができるのかはDeepL外の者にはわかりません。

 DeepLは民間企業が開発したツールで、TexTraは公的機関であるNICTが開発したものなので、根本的な役割から違います。次に利用面で比べると、DeepLにユーザーログインは必要ありませんが、TexTraはログインが必要です。ログインにはアカウントが必要なので、アカウント作成やログインを面倒に感じてTexTraを利用していない方もいることでしょう。