Tanya Cushman レビュアー レビュアーの名前 私はカリカ バリです。
私は訓練を受けた言語学者であり、職業的には技術者です。
私は 20 年以上、学術界、新興企業、中小企業、多国籍企業で働き、言語テクノロジー システムの研究と構築を行ってきました。
私の夢は、テクノロジーが言語の壁を越えて機能するのを見ることです。
私は Microsoft Research Labs India の研究者として、自然言語テクノロジーと音声テクノロジーの分野で働いています。
そして、話す言語に関係なく、人々がテクノロジーにアクセスできるようにするにはどうすればよいかを心配しています。
自然言語処理、人工知能、音声テクノロジー、これらは非常に重要な言葉であり、現在バズワードとなっています。
誰もが彼らについて話しています。
NLP または自然言語処理とは正確には何ですか?
非常に簡単に言うと、これは、人間が話す言語である自然言語を機械に処理、理解させ、生成させるコンピューター サイエンス エンジニアリングの部分です。
電車の切符や航空券を予約しようとするボットと対話するとき、携帯電話の音声ベースのデジタル アシスタントと話すとき、それを機能させるテクノロジー全体を支えるのは自然言語処理です。
わかりました?
しかし、これはどのように機能するのでしょうか?
NLPはどのように機能するのでしょうか?
非常に基本的な意味で言えば、それはデータに関するものです。
そのため、人間が実際にどのように言語を使用しているのかに関する膨大な量のデータが、機械に人間の自然言語のパターンを学習させる特定のアルゴリズムと技術によって処理されます。
右?
最近、よく耳にするもう 1 つのバズワードは、ディープ ニューラル ネットワークです。
これらは、現在行われている NLP の多くを支える高度なテクニックです。
それがどのように機能するかについては詳しく説明しませんが、本当に理解し、心に留めておかなければならないのは、これらすべてには膨大な量のデータ、つまり自然言語データが必要であるということです。
グジャラート語で会話できる音声システムが必要な場合、最初に必要となるのは、グジャラート人がそれぞれの言語で話している大量のデータです。
そこでマイクロソフトは 2017 年に、人間よりも上手に音声をテキストに書き写すことができる音声認識システムを開発しました。
そしてこのシステムは、転写された 1 億語を対象にトレーニングされました。
2018 年、英語から中国語への機械翻訳システムは、人間のバイリンガルと同様に英語から中国語への翻訳が可能になりました。
そして、これは 1,800 万のバイリンガル文ペアでトレーニングされました。
今は、自然言語処理やテクノロジーそのものにおいて、非常に刺激的な時代です。
ご存知のとおり、私たちは読んだり見たりしてきた SF が目の前で現実になっているのを見ています。
私たちは目の前でSFを見ているのです。
私たちは技術の進歩において大きな飛躍を遂げています。
しかし、このような大きな飛躍は、ごく少数の言語に限定されています。
モノジ・チョードリーは、私のとても良い友人であり同僚のような人ですが、彼はこれについてある程度詳しく研究し、世界中の言語間のリソースの分布を調べました。
そして、これらはいわゆるべき乗則分布に従っていると彼は言います。これは本質的に、利用可能なリソースが最大量あるのが 4 つの言語 (アラビア語、中国語、英語、スペイン語) であることを意味します。
現在利用可能なリソースとテクノロジーから恩恵を受けることができる言語が他にもいくつかあります。
しかし、世界の言語の 90% には、リソースがないか、利用できるリソースがほとんどありません。
私たちが話しているこの革命は、本質的に世界の 5,000 の言語を回避し、失いました。
さて、これが意味するのは、リソースが豊富な言語にはその言語用に構築されたテクノロジがあるため、研究者や技術者はそれらに惹かれるということです。
彼らは自分たちのためにさらなるテクノロジーを構築します。
彼らは彼らのためにさらに多くのリソースを作成します。
つまり、金持ちになり、さらに金持ちになるという一種のサイクルのようなものです。
そして、リソースに乏しい言語は貧弱なままです。
彼らには技術がありません。
誰も彼らのために働きません。
そして、この溝、つまり言語間のデジタル格差は拡大し続けており、暗黙的には言語間の溝でもあります。
これらの言語を話すコミュニティ間の溝も拡大しています。
そこで Microsoft と Project Elora では、このギャップを埋めることを目指しています。
私たちは、どうすれば革新的な方法でより多くのデータを作成できるか、多くのリソースを持たずにテクノロジーを構築するためのより多くの技術を手に入れることができるか、そしてこれらのコミュニティに真の利益をもたらすことができるアプリケーションは何なのかを模索しています。
現時点では、これは非常に理論的であるように思えるかもしれません。彼女が話しているのは、データとテクニックとテクノロジーについてです。
そこで、ここで非常に具体的な例を示しましょう。
私は根っからの言語学者です。
私は言語が大好きで、それについて話すのが大好きです。
それでは、多くの人が知らないかもしれない言語、ゴンディについてお話しましょう。
ゴンディ語は中南部のドラヴィダ語です。
インドの 5 つの州で 300 万人が話しています。
簡単に言うと、インドの 5 つの州で 300 万人が話している言語です。
簡単に言うと、インドの 5 つの州で 300 万人が話している言語です。
簡単に言うと、インドの 5 つの州で 300 万人が話している言語です。
簡単に言うと、インドの 5 つの州で 300 万人が話している言語です。
簡単に言うと、インドの 5 つの州で 300 万人が話している言語です。
これをある種の観点から見ると、ノルウェー語は 500 万人に話されており、ウェールズ語は 100 万人弱の人に話されています。
つまり、ゴンディは実際にはインドのゴンド部族の非常に堅牢でかなり大きなコミュニティです。
しかし、ユネスコの「危機にある言語アトラス」では、ゴンディは脆弱な立場に指定されている。
現在、CGNetswara は、データにアクセスする市民の権利を提供し、データにアクセスする市民の権利を提供する NGO です。モバイルを通じて地元の記事にアクセスできるようにすることで、ゴンド コミュニティのための市民ジャーナリズム ポータルを提供します。電話。
Gondi に対する技術サポートはまったくありません。
Gondi に関して利用可能なデータも、Gondi に関して利用可能なリソースもありません。
したがって、コンテンツの作成、管理、編集はすべて手動で行われます。
さて、プロジェクト エローラの下で私たちがやったことは、CGNetswara のような NGO、IIIT ナヤリットのような学術機関、プラサム ブックスのような非営利の児童書出版社、そしてほとんどの関係者を結集させたことです。重要なのは、コミュニティのスピーカーです。
ゴンド族自身もこの活動に参加し、初めてゴンド語で児童書の編集と翻訳を行いました。
私たちはゴンディで初めて 200 冊の本を出版することができ、子供たちが母国語で物語や本にアクセスできるようになりました。
これのもう 1 つの拡張が Adivasi Radio で、これは Microsoft Research で構築および開発したアプリのようなものでした。
そして、ヒンディー語のテキスト読み上げシステムを利用して、CGNetswara が提供するニュースや記事をゴンディー語で読み上げることができるように、関係者とともに公開します。
ユーザーはこのアプリを使用して、自分の言語でテキストや音声を通じてニュースを読んだり、視聴したり、あらゆる情報にアクセスしたりできるようになりました。
非常に興味深いのは、このアプリが現在、コミュニティによってヒンディー語からゴンディー語にテキストを翻訳するために使用されているということです。
その結果、大量の並列データ (並列データと呼ばれます) が生成され、これによって Gondi 用の機械翻訳システムを構築できるようになり、Gond コミュニティに世界への窓が真に開かれることになります。
そしてさらに重要なことは、これを行う方法がわかったことです。
私たちはパイプライン全体を持っています。
そして、これをどの言語やどの言語コミュニティでも再現することができ、ゴンド部族と同様の状況にあります。
さて、それでは教育です、はい。
情報へのアクセス、そうです。
しかし、生計を立てることはどうでしょうか?
最近では私たち全員が当たり前のように使っているデジタル ツールを使って、これらの人々に生計を立ててもらうにはどうすればよいでしょうか?
MSR のもう一人の研究者であるヴィヴェク・シャシャドリ氏と彼の共同研究者マヌ・チョプラ氏は、十分なサービスを受けていないコミュニティにデジタルのマイクロタスクを提供するための Karya と呼ばれるプラットフォームを設計しました。
彼の目的は基本的に、この国の国民、農村部の人々、そして都市部の貧しい人々に尊厳ある労働の手段を提供する方法を見つけることでした。
彼らは、私たち全員が毎日何も考えずに使用しているデジタルプラットフォームにアクセスしたり、使用するための知識を持っていませんよね?
しかし、ここには働きたいと思っている読み書きできる人口が大勢いますよね?
そして、どうすれば彼らのためにそれを可能にできるでしょうか?
つまり、カリヤは、この人々がデジタル世界にアクセスし、それを通じて仕事を見つけ、お金を稼ぐことができるタスクを実行できる、そのような方法の 1 つです。
それで私たちはこれを見て、ああ、これは素晴らしいと思いました。
おそらくこれをデータ収集にも使用できるでしょう。
それで私たちはアンマに行きました。アンマは大きな大きな会社ですよね?
アンマって、すごく大きな会社ですよね?
アンマって、すごく大きな会社ですよね?
アンマって、すごく大きな会社ですよね?
アンマって、すごく大きな会社ですよね?
マハーラーシュトラ州ワダ地区にある人口 200 人の小さな村であるアンメは、マラーティー語データを収集するためにカルヤを使用することにしました。
さて、皆さんが何を考えているかはわかります。
聴衆にはマラーティー語を話す人もたくさんいると思います。
しかし、マラーティー語はリソースが少ない言語ではありません。
マラーティー語は間違いなくこの国の主流言語です。
しかし、言語技術に関する限り、マラーティー語はリソースが少ない言語です。
そこで私たちはこの村に行き、データ収集旅行は大成功に終わりました。
そしてこの村はとても辺鄙なところにあります。
彼らにはテレビがありません。
彼らには電気がありません。
携帯電話の信号がありません。
携帯電話を使って誰かに電話をかけたい場合は、丘に登って携帯電話を振りかざさなければなりません。
彼らは私たちにこれらすべてのデータを提供してくれましたが、それ以上に、人生における非常に貴重な教訓を私たちに与えてくれました。
一つは自分の言語に対する誇りです。
アムルの人々は、これを行うことで自分たちの言語を進歩させているので、これを行うことに興奮していました。
2つ目はコミュニティの価値です。
これはすぐに村のコミュニティの取り組みになりました。
人々はタスクに集まり、グループとして一緒にこれを実行します。
そして3つ目は、ストーリーテリングの重要性です。
アムレの人々はあまりにも内容に飢えていたため、朝、日中はカイラスで物語の録音をし、夕方には村全体を集めて村全体にこれらの物語を語り、語りました。
科学者として、私たちは自分たちが行っていることの科学技術の部分に夢中になり、次善のモデルは何か、システムの精度をどうやって向上させることができるか、次善のシステムを構築するにはどうすればよいかなどです。 、なぜこれをしているのかを忘れてしまうということです。
人々。
そして、成功したテクノロジーはすべて、人々とユーザーを最前線で中心的な存在に保つものです。
そして、それをやり始めると、テクノロジーがおそらくこの問題のごく一部にすぎないことにも気づきます。
そして、この話には他にもいろいろなことがあります。
おそらく、テクノロジーと同じくらい必要とされる社会的、文化的、政策的な介入があるかもしれません。
そこで私は少し前に、インド中部のヒンディー語を話す農民が農業を検索できるようにする「Video Kheti」というプロジェクトに取り組みました。彼らは電話ベースのアプリに話しかけることで農業ビデオを見つけることができました。
そこで私たちはこのためのデータを収集するためにマディヤ プラデーシュ州に行き、戻ってきてモデルをトレーニングしていましたが、非常に悪い結果が得られていることがわかりました。
これは機能しません。
それで、私たちは非常に混乱しました、なぜこんなことが起こるのですか?
そこで私たちはデータをさらに深く調べたところ、そうです、夕方の非常に静かで静かな村だと思われていた場所からデータを収集したことがわかりました。
しかし、私たちがこの活動をしている間、私たちが知らなかったのは、私たちが見つけることができなかった文化が存在するということでした。
そして、夜の虫の音が絶え間なく聞こえました。
そのため、録音中ずっと虫の羽音が聞こえ、それが実際に私たちの会話を歪めていました。
2つ目は、私と非常に評判の高いデザイン研究者である同僚のインドラーニ・メディと一緒に村でアプリをテストするために村に行ったとき、女性たちは私たちが知っているサンスクリット語の単語を発音できないことに気づきました。一部の検索語について。
これは化学農薬の用語のようなものです。
右?
なぜなら、これらの条件は農業普及センターから得たものであり、女性たちは農業をしているにもかかわらず、そのセンターとはまったく交流がないからです。
男性もそうです。
おそらく女性たちはもっと単純なことを使っているでしょう。つまり、基本的には害虫を薬で殺すことを意味します。
右?
それで、私が旅を通じて学んだこと、そして今までにあなたに伝えたいことは、あなたが私に答えてくれたことを願っていますが、世界の言語の大多数は、リソースを作成するために集中的な投資を必要とするということです。言語テクノロジーの恩恵を受けることができます。
そして、これが非常に迅速かつ効率的に起こる可能性は低いです。
そのため、言語技術分野で私たちが行っているあらゆる活動からコミュニティが最大限の利益を得られるようにすることが、私たちにとって非常に重要です。
そして、これを実行し、これらのコミュニティにポジティブな社会的影響を与えるために、私たちは修正 4D デザイン思考方法論と呼ぶものに従います。
つまり、4D は発見、設計、開発、展開を意味します。
そこで、言語テクノロジーが特定の言語コミュニティに対して解決できる問題を発見してください。
この観察主導のアプローチは、最も必要な場所にリソースを割り当てるのに役立ちます。
ユーザーとユーザーの言語に合わせてデザインします。
世界の言語特性と言語の多様性を理解します。
そして、「これは英語用に作られているのに、どうすればマラーティー語やゴンディ語に適応できるだろうか」などと考えないでください。
右?
迅速に開発し、頻繁にデプロイします。
これは反復的なプロセスであり、早期に失敗するのに役立ち、初期の失敗は最終的には成功につながります。
大切なのは粘り強く続けることです。
あきらめないでください。
そしてここで私は、オーストラリアのアボリジニの二人の女性、パトリシア・オコナーとイソベラ・ベストの話を思い出します。
90 年代半ば、彼らはクイーンズランド大学に通い、ウガンベ語と呼ばれる自分たちの言語を学びたいと考えていました。
そして、彼らは非常に率直に言われました、あなたの言語は死んだ、それは30年間死んだ、あなたはこれに取り組むことはできません、何か新しいものを見つけてください。
そして彼らは、「これはできない、これに取り組むことはできない、別のことに取り組むべきことを見つけなさい」と言われました。
彼らは諦めませんでした。
彼らはコミュニティに行き、口頭記憶、口頭伝承、口頭文学を掘り起こし、言語とそのコミュニティにとって最も重要な文化的および言語的センターとなったウガンベ博物館を設立しました。
彼らには技術がありませんでした。
彼らには意志の力しかありませんでした。
今ではテクノロジーの力により、次のページがフィンランドのサーミ語、カナダのリルワット、インドのムンダリ語で書かれることを保証できます。
コメント