2019年3月18日、大阪メトロの公式サイトの外国語ページで複数の誤訳が見つかったという理由で、外国語ページが全面非公開に追い込まれるという事態が発生しました。
増え続けるインバウンド旅行客の利便性を向上させるつもりが、全く伝わらないどころか、笑いのタネにすらされてしまいました。
今回は、そもそも機械翻訳ソフトはどのような仕組みで訳文を作り出しているのか、「機械翻訳ソフト」が「苦手なこと」は何か、インバウンドで成功するためにはどのように「多言語翻訳」に向き合えばよいのかを解説していきます。
インバウンドの最新情報をお届け!訪日ラボのメールマガジンに登録する(無料)
大阪メトロの外国人向けWebサイトで起きた「機械翻訳ソフト」による誤訳
大阪メトロの公式サイト(英語版)の事例では、「堺筋線」が「Sakai Muscle line(サカイマッスルライン)」、「天下茶屋」が「World Tea house(世界のティーハウス)」、「3両目付近」が「near three Eyes(三ツ目の近く)」などと誤訳されていました。
また、中国語サイトでは、「あべの橋」が「安倍晉三的橋(安倍晋三の橋)」、「三宅中」が「在三宅一生(イッセイ ミヤケ、ここにあり?)」など訳されており、まさに珍訳のオンパレードといった事態を呈しています。
こうした珍訳の数々により、大阪メトロは当時の世間を意図せずに盛り上げてしまいました。Twitterでは「破壊力がやばい」「こんなん笑う」「これは良い誤訳」などの投稿が相次ぎ、「サカイマッスル」はいち早くトレンドを獲得します。
公式アカウントで取り上げて悪乗りする企業が続出したり、Tシャツが発売されたり、人気番組の笑点でもネタにされてしまったり。そして、挙げ句の果てには英国BBCニュースでも放送され、「大阪メトロ」の名前は地球の反対側にまで知れ渡ってしまったのです。
この出来事、もちろん大阪メトロが特上のボケをかまして日本人を元気にしようと、意図してやったことではありません。実はくだんの外国語サイトには、MicrosoftのBing翻訳という「機械翻訳ソフト」が使われており、ソフトウェアが出力した訳文を人間がチェックしないまま公開したことが原因でした。
おそらくは、少しでもコストを削減しようという涙ぐましい企業努力の結果だとは思いますが、公共の交通機関としてはあまりにお粗末な情報発信をしてしまったのです。
インバウンドの多言語対応は改善されている?
ここ日本では、インバウンド市場が大きな盛り上がりを見せています。2019年には3,119万人と過去最高を更新しました。
それに伴い、言語の壁を少しでも低くするため、Webサイト、パンフレット、ガイドブック、飲食店のメニューなどを外国語で準備しようとする動きが加速しています。
観光庁(JNTO)がこれまでに訪日旅行者を対象に実施した受入環境に関するアンケート調査によると、「多言語対応」が最大の問題点ではあるものの、以前に比べて改善されていると感じるリピーターが着実に増えています。
2019年3月20日に同庁が公表した、以下の最新のアンケート結果によると、「多言語表示」「コミュニケーションツール」とも、1~2年前と比較して、合わせて7割を超える訪日旅行者が「かなり改善している」「多少改善している」と回答しました。
訪日旅行者と接する機会の多い施設が、多言語対応を自分たちの弱点と認め、真摯に対応している様子が見て取れます。
「多言語対応」を推進している企業の多くが「機械翻訳ソフト」を利用しているようです。中には、「機械翻訳ソフト」の特性を理解し、ソフトウェアが出力した訳文を人間がきちんとリライトしてから公開しているケースもありますが、人の目をほとんど通さないまま公開されるケースも多い状況のようです。
その結果、報道はされないものの、大阪メトロの外国語サイトのような珍訳・誤訳が大量に発生している可能性が高いでしょう。
もちろん、技術は日進月歩で進歩しており、「機械翻訳ソフト」の品質は向上しています。とはいえ、現在のところ「機械翻訳」には明らかな限界があり、「得意なこと」と「苦手なこと」が存在します。
機械翻訳ソフトの仕組み
そもそも「機械翻訳ソフト」とは何でしょうか。どのような仕組みで訳文を作り出しているのでしょうか。この点を理解するためには、機械翻訳の発展の歴史を簡単にひもとく必要があります。
Wikipediaによると「機械翻訳」とは、ある自然言語を別の自然言語に翻訳する変換を、コンピューターを利用してすべて(または可能な限りすべて)自動的に行おうとすることです。
そして初期の機械翻訳では、大きく分けて、2つの仕組みが使われてきました。
- ルールベース機械翻訳(RMT)
- 統計的機械翻訳(SMT)
ルールベース機械翻訳(RMT)とは?
「ルールベース機械翻訳」とは、
- 各言語の文法を「アルゴリズム」の形でソフトウェア(機械翻訳エンジン)に学習させ、
- 一方で単語や文節ごとの対訳用語集(コーパス)のデータベースを作成しておく。
- その上で、機械翻訳エンジンが原文を「アルゴリズム」に沿って単語や文節といったパーツに切り分ける。
- 切り分けたパーツに該当する訳を「コーパス」から探しだし、それらを文章としてつなぎ合わせて訳文を作成する。
といった方法です。
この方式では、訳文の質はアルゴリズムがどの程度優れているか、または「コーパス」がどの程度充実しているかに比例するという特徴があります。
ルールベース機械翻訳(RMT)の課題
単なる「ルールベース機械翻訳」の場合、原文の単語や文節と、コーパスに登録された訳文とがぴったり一致しないと、翻訳エンジンはその両者の関連性を正しく認識できません。
この課題から、結果的に翻訳エラーとなり、全く意味の通らない訳文が出力されることが多かったのです。そこで「統計的機械翻訳」が導入され、機械翻訳エンジンにある程度の「判断の幅」を持たせることができるようになりました。
統計的機械翻訳(SMT)とは
「統計的機械翻訳(SMT)」は、前述のルールベース機械翻訳の課題を解決すべくうまれました。
つまり、原文の単語や文節とぴったり同じでなくても、よく似たものがコーパス内にすでに登録されていれば、統計的な計算手法を適用して両者が同じようなものと翻訳エンジンに判断させることにしたのです。これにより、意味の通る訳文を出力させることができるようになったわけです。
統計的機械翻訳(SMT)の課題
とはいえ、この方法では「コーパス」を永遠に充実させ続けなければ翻訳の品質は向上しません。
「統計的に見て」コーパスに登録された訳文と似ていると判断できない原文に出会ったとき、翻訳エンジンはどうすればよいか分からなくなってしまうからです。
最新の翻訳手法 ニューラル機械翻訳(NMT)の登場
そこで登場したのが「ニューラル機械翻訳(NMT)」です。「ニューラル」とは「ニューラルネットワーク」のことで、人間の脳の神経細胞の仕組みに着想を得たコンピューター上の数学モデルを指します。
その仕組みは以下の通りです。
- まず、翻訳エンジンとしてニューラルネットワーク型のAI(人工知能)を使用する
- そしてこの人工知能に、「深層学習(ディープラーニング)」という別途開発された機械学習システムを使って、原文と訳文の対訳データを大量に読み込ませる
- 翻訳エンジンは、人間の脳細胞を模したモデルで各データを処理するため、対訳データを読み込めば読み込むほど、その2つの言語の特性をいわば「学習」することができる
- 結果として、対訳データに完全に一致しない原文に出会っても、よく似た複数の対訳データを比較検討し、それなりに自然な訳文を出力できる
少々、乱暴な説明ですが、「ニューラル機械翻訳」の仕組みを簡単に説明するとこのようになります。
機械翻訳ソフトが「苦手なこと」
「ニューラル機械翻訳」を最初に導入したのはGoogleです。2016年9月に中国語から英語への機械翻訳に導入しましたが、11月15日に日本語を含む8言語へと適用範囲を広げました。
これにより、従来の機械翻訳に比べて翻訳精度が大幅に向上しました。特に、流暢で自然な訳文を作成する面で劇的な飛躍を遂げました。
とはいえ、まだまだ発展途上であり、訳文をそのまま使えないケースが圧倒的に多いです。それでは、Google翻訳が「苦手なこと」をいくつか挙げてみましょう。
1. 訴求力を重視した長い文章、修飾の多い文章、定型でない文章の翻訳は苦手
例えば、東京を紹介する以下の英文を日本語に訳した場合を見てみます。
「Megacity Tokyo fully engages the senses with its mix of modern bustle and traditional tranquility. But before jetting off to Kyoto or further afield, allow yourself to discover Kanto's hot spring resorts, unspoiled mountain gorges, pristine beaches, UNESCO World Heritage sites and cultural treasures.」
東京の魅力を説明する文章のため、文章はいきおい長くなりますし、修飾も多くなります。また、マニュアルなどのような定型文でもありません。
これをGoogle翻訳にかけると、以下の訳文が出力されます。
「巨大都市東京は、その混合の現代の大騒ぎおよび伝統的な静穏を持つ感覚を完全に引きつける。しかし、オフ 京都までの またはさらにに家から離れて噴射する前に、自身に、関東の温泉リゾート、損なわれていない山峡谷、純粋なビーチ、UNESCO世界遺産サイト、および文化的な宝物を発見することを許しなさい。」
何となく意味は分かりますが、かなりぎこちない訳文です。英文の構造を正しく読み取れていないため、訳が一部間違っていますし、「さらにに」のようにタイポも残っています。
人間がかなりリライトしないと公表できるレベルではありません。
2. 訳語や文章表記(長音、中黒点、スペース)などが統一されない
Google翻訳は、これまでに学習した対訳データベースを比較して、最適と判断する訳語を、最適と判断する語順や表記で出力します。
そのため、そもそもデータベースに登録されている単語/表記が統一されていないと、統一的な出力ができません。
データベースには、いろいろな人の訳文が入り交じって登録されており、いまこの瞬間にもGoogleはそれを元に学習しています。データベースそのものの表記をリアルタイムで統一することは不可能に近いのです。
3. 訳抜けや誤訳が突然発生する
従来の「統計的機械翻訳」の場合、統計的に見て原文全体の翻訳が終了したと判断した時点で翻訳終了になるため、訳抜けは生じにくかったといえます。
ところがニューラル翻訳では、自然な訳文とするための文章の流れを重視する傾向が強いです。そのため、原文が表現している「流れ」が、翻訳エンジンが学習した「流れ」に入っていない場合、その部分を抜かして翻訳し、自身が理解する「流れ」上、この訳が一番よさそうなので翻訳終了!と判断するため、訳抜けがたびたび生じます。
言語処理学会が2019年3月に発表した論文によると、時事的な内容の英文3000を解析したところ、50%以上の訳抜けと判断された文章が全体の2%(約50文)でした。半分以上訳が足りない文章でもこれだけあります。50%以下の訳抜けや軽微な訳抜けは、相当な数に上ることが想像されます。
インバウンドで成功するための多言語対応とは?
以上のように考えると、「機械翻訳」は進歩しているが「実用レベルか?」と問われると、なかなか回答が難しいです。現在のところ、以下のような分野や内容であれば、かなり実用レベルに近いと言えます。
- 原文が文法規則に沿ってしっかりと書かれている。
- ITマニュアルや特許の出願書、リーガル関連の文章など、定型的な文章が多い。
逆に以下のような分野や内容の場合、かなりのリライトが必要か、熟練した翻訳者が最初から訳した方がよいでしょう。
- 必ずしも文法規則に沿った書き方ではなく、筆者の感性や個性が濃厚に表れた文章。詩や小説など。
- 読み手の心に刺さる、訴求力を重視した文章。観光の説明やマーケティング資料、Webサイトのサービス・製品紹介など。
- 専門用語や、地名や人名などの固有名詞を数多く含む文書(この種の文書は、「統計的機械翻訳」で「対訳用語集」をしっかり作り込んだ方が正確に翻訳できる場合が多い)。
冒頭にも述べたように、他の技術同様「機械翻訳」も日進月歩で進歩しており、上記の弱点の解消も少しずつ進んではいます。
しかし、現状では「機械翻訳」に過度に頼るのではなく、あくまでも「補助ツール」として活用するのが無難です。
特に、インバウンド担当者が多言語化を検討する資料は、Webサイトやパンフレットなど、その会社やサービスの「顔」となる大切な資料である場合が少なくないでしょう。
言うまでもなく「顔」に大小さまざまな傷が付いていると、読者に与える印象もよくはありません。プロモーションを目的とした資料なのに、かえって不信感と不安をあおる結果となりかねません。だからこそ、インバウンドの多言語対応で成功するためには、「よい翻訳会社」とタッグを組むことは欠かせません。
キーとなる「翻訳会社」各社得意分野がある
翻訳会社にも、守備範囲や得意分野が存在します。取扱説明書やカタログのような「かちっ」とした資料の翻訳専門の会社もあれば、投資家やユーザー、訪日観光客向けの「読ませる」翻訳を得意とする会社もあります。
また、英語は得意だけど、中国語や韓国語、東南アジア言語は不得意な会社も多いでしょう。
インバウンドの多言語化で成功は、インバウンド翻訳の適性と経験を積んだ「よい翻訳会社」の選択に左右されると言っても過言ではありません。翻訳会社がインバウンド市場での企業イメージに与える影響は、大きく見積もっても見積もりすぎることはないでしょう。
中国SNS「RED(小紅書)」最新情報セミナー:訪日ラボ社内勉強会の内容を特別に公開します【訪日ラボ トレンドLIVE! Vol.6】
短時間でインバウンドが学べる「訪日ラボ トレンドLIVE!」シリーズの第6弾を今月も開催します!訪日ラボとして取材や情報収集を行う中で、「これだけは把握しておきたい」という情報をまとめてお伝えするセミナーとなっています。
今年も残りわずかとなりましたが、インバウンド需要はまだまだ好調をキープしている状況です。来年の春節や桜シーズンなど、訪日客が集まる時期に向けて対策を練っていきたいという方も多いでしょう。
今回もインバウンド業界最大級メディア「訪日ラボ」副編集長が、10〜11月のインバウンドトレンド情報についてお話ししていきますので、ご興味のある方はぜひご覧ください。
詳しくはこちらをご覧ください。
→中国SNS「RED(小紅書)」最新情報セミナー:訪日ラボ社内勉強会の内容を特別に公開します【訪日ラボ トレンドLIVE! Vol.6】
【インバウンド情報まとめ 2024年11月前編】UberEats ロボット配達開始、万博需要見すえ大阪で ほか
訪日ラボを運営する株式会社movでは、観光業界やインバウンドの動向をまとめたレポート【インバウンド情報まとめ】を毎月発行しています。
この記事では、主に11月前半のインバウンド最新ニュースを厳選してお届けします。最新情報の把握やマーケティングのヒントに、本レポートをぜひご活用ください。
※本レポートの内容は、原則当時の情報です。最新情報とは異なる場合もございますので、ご了承ください。
※口コミアカデミーにご登録いただくと、レポートの全容を無料にてご覧いただけます。
詳しくはこちらをご覧ください。
→UberEats ロボット配達開始、万博需要見すえ大阪で:インバウンド情報まとめ【2024年11月前編】
今こそインバウンドを基礎から学び直す!ここでしか読めない「インバウンドの教科書」
スマホ最適化で、通勤途中や仕込みの合間など、いつでもどこでも完全無料で学べるオンラインスクール「口コミアカデミー」では、訪日ラボがまとめた「インバウンドの教科書」を公開しています。
「インバウンドの教科書」では、国別・都道府県別のデータや、インバウンドの基礎を学びなおせる充実のカリキュラムを用意しています!その他、インバウンド対策で欠かせない中国最大の口コミサイト「大衆点評」の徹底解説や、近年注目をあつめる「Google Map」を活用した集客方法など専門家の監修つきの信頼性の高い役立つコンテンツが盛りだくさん!