【TED】AI はあなたが思っているほど賢いわけではありませんが、そうかもしれません【日本語訳】

科学/技術

転写:ESO、翻訳: — こんにちは、ジェフです。

私は Google で AI 研究とヘルスケアを指揮しています。

私が Google に入社したのは 20 年以上前で、当時はパロアルトのダウンタウンにある現在の T-Mobile ストアの上にある小さなオフィス スペースに全員が詰め込まれていました。

私はその間、多くのコンピューティングの変革を見てきました。

そして過去 10 年間、私たちは AI が驚くべきことを実行できるようになってきました。

しかし、私たちは依然として多くの点で間違ったことを行っています。

今日はそれについて話したいと思います。

その前に、AI で何ができるかについて話しましょう。

この 10 年間で、コンピューターがこれまで以上に認識し、言語を理解し、音声を理解できるよう AI がどのように支援できるかについて、大きな進歩が見られました。

以前はできなかったことが、今ではできるようになりました。

コンピューター ビジョンだけを考えてみると、この 10 年間だけで、コンピューターは見る能力を効果的に発達させてきました。

10年前、彼らは目が見えませんでした。

今では彼らは見ることができます。

これがコンピューティングでできることに変革的な影響を与えることは想像できるでしょう。

それでは、これらの新機能によって実現されるいくつかの優れたアプリケーションを見てみましょう。

機械学習を使用することで、洪水をより正確に予測し、全員の安全を守ることができます。

私たちは 100 以上の言語を翻訳できるので、誰もがよりよくコミュニケーションできるようになります。

そして、病気をより適切に予測し、診断できるようになり、誰もが必要な治療を受けられるようになります。

それでは、今日の AI システムの進歩の基礎となる 2 つの主要なコンポーネントを見てみましょう。

1 つ目はニューラル ネットワークです。これは、これらの困難な問題のいくつかを解決するための画期的なアプローチであり、過去 15 年間で実際に実証されましたが、新しいアイデアではありません。

そして2つ目は計算能力です。

実際、ニューラル ネットワークが本当に歌うことができるようにするには多くの計算能力が必要ですが、過去 15 年間でそれが可能になり、それが部分的にはこの進歩を可能にしたのです。

しかし同時に、私たちはいくつか間違ったことをしているとも思います。それが講演の最後にお話したいことです。

まず、ちょっとした歴史の勉強から。

そのため、何十年もの間、ほぼコンピューティングの始まり以来、人々は、見て、言語を理解し、音声を理解できるコンピューターを構築できるようにしたいと考えてきました。

これに対する初期のアプローチでは、一般的に、人々はこれらの困難なタスクを達成するために必要なすべてのアルゴリズムを手作業でコーディングしようとしていましたが、それがあまりうまく機能しないことが判明しました。

しかし、過去 15 年間で、単一のアプローチにより、これらのさまざまな問題領域がすべて一度に予想外に進歩しました。

ニューラルネットワーク。

したがって、ニューラル ネットワークは新しいアイデアではありません。

これらは、実際の神経システムにあるプロパティの一部に大まかに基づいています。

そして、ニューラル ネットワークの背後にあるアイデアの多くは 1960 年代から 70 年代にかけて存在していました。

ニューラル ネットワークとは、その名の通り、実際のニューロンの特性を大まかにエミュレートする相互接続された一連の人工ニューロンです。

これらのシステムの 1 つにおける個々のニューロンには一連の入力があり、それぞれに重みが関連付けられており、ニューロンの出力はそれらの入力と重みを乗算した関数になります。

非常にシンプルですが、これらの多くが連携して複雑なことを学習します。

では、実際にニューラルネットワークでどのように学習するのでしょうか?

学習プロセスは、重みの値に小さな調整を繰り返し、あるものの影響を強めたり、他のものの影響を弱めたりすることで構成されていることがわかりました。

システム全体を望ましい動作に向けて駆動することで、これらのシステムは、ある言語から別の言語に翻訳したり、写真に写っているオブジェクトの種類を検出したり、あらゆる種類の複雑なことを実行するようにトレーニングできます。

私が初めてニューラル ネットワークに興味を持ったのは、1990 年に学部でニューラル ネットワークに関する授業を受講したときでした。

当時、ニューラル ネットワークは小さな問題に対して目覚ましい結果を示しましたが、実際には現実世界の重要なタスクを実行するように拡張することはできませんでした。

でも、とても興奮しました。

おそらくもっと多くの計算能力が必要だと感じたのですが、ミネソタ大学には 32 個のプロセッサを搭載したマシンがありました。

もっと計算能力があれば、ニューラル ネットワークを本当に歌うことができるのではないかと思いました。

そこで私は、ニューラル ネットワークの並列トレーニング、つまりコンピューターまたはコンピューター システム内で多数のプロセッサを使用して、すべて同じタスク、つまりニューラル ネットワークのトレーニングに向けて作業を行うというアイデアについて卒業論文を書くことにしました。

32 個のプロセッサー、すごい、これで素晴らしいことができるに違いありません。

しかし、私は間違っていました。

実際にニューラル ネットワークで素晴らしいことを実行できるようになるまでには、1990 年当時の約 100 万倍の計算能力が必要であることが判明しました。

しかし、2005 年頃から、ムーアの法則によるコンピューティングの進歩のおかげで、私たちは実際にそれだけのコンピューティング能力を持ち始めました。

そして、世界中のいくつかの大学の研究者は、さまざまな種類のタスクにニューラル ネットワークを使用することで成功を収め始めました。

私と Google の他の数名はこれについて聞き、私と Google の他の数名はこれらの成功について聞き、非常に大規模なニューラル ネットワークをトレーニングするプロジェクトを開始することにしました。

私たちがトレーニングした 1 つのシステムでは、YouTube 動画からランダムに選択された 1,000 万のフレームを使用してトレーニングしました。

このシステムは、あらゆる種類の異なるオブジェクトを認識する機能を開発しました。

もちろん YouTube のおかげで、猫を認識する能力も発達しました。

YouTubeは猫だらけでした。

しかし、それが非常に注目に値するのは、システムが猫が何であるかを決して知らされていなかったことです。

したがって、パターンとデータだけを使用して、システムは独自に猫の概念に焦点を当てました。

これらすべては、Google などでさまざまなタスクにニューラル ネットワークを使用した 10 年にわたる一連の成功の始まりとして起こりました。

ご存知のとおり、これらのものの多くは毎日使用されます。

携帯電話の音声認識の向上、検索品質の向上のためのクエリとドキュメントの理解の向上、地図を改善するための地理情報の理解などです。

その頃、私たちはニューラル ネットワークが実行したい計算の種類に合わせてより適切に調整されたハードウェアを構築するにはどうすればよいかについても興奮していました。

そして、ニューラル ネットワークの計算には 2 つの特別な特性があることが判明しました。

1 つ目は、精度の低下に対する耐性が非常に高いことです。

有効数字数桁。

6つも7つも必要ありません。

そして 2 つ目は、すべてのアルゴリズムが通常、さまざまな種類の行列演算とベクトル演算のシーケンスで構成されていることです。

したがって、低精度の行列演算とベクトル演算は得意だが、それ以外はあまりできないコンピューターを構築できれば、他の多くの用途には使用できなくても、ニューラル ネットワークの計算には最適になります。もの。

そして、そのようなものを構築すれば、人々はそれらの驚くべき用途を見つけるでしょう。

これは私たちが最初に構築した TPUv1 です。

TPU は Tensor Processing Unit の略です。

これらは、あらゆる Google 検索の背後で翻訳のために長年使用されてきました。

これらは DeepMind AlphaGo の試合で使用されていたため、イ・セドルとコジは気付かなかったかもしれませんが、彼らは TPU カードのラックと対戦していました。

そして、私たちはさらに優れた、よりエキサイティングな TPU の後続バージョンを多数構築してきました。

しかし、これらすべての成功にもかかわらず、私たちはまだ多くの間違ったことをしていると思います。私たちが間違っている 3 つの重要な点と、それらをどのように修正するかをお話しします。

1 つ目は、今日のほとんどのニューラル ネットワークは、1 つのことだけを実行するように訓練されているということです。

あなたが深く関心を持っているかもしれない特定のタスクのためにそれを訓練します。

しかし、それはかなり重量のあるアクティビティです。

データセットを厳選する必要があり、この問題にどのようなニューラル ネットワーク アーキテクチャを使用するかを決定する必要があり、ランダムな値で重みを初期化し、重みを調整するために計算を実行する必要があります。最終的に、運が良ければ、関心のあるタスクに非常に優れたモデルを手に入れることができます。

しかし、これを何度も繰り返すと、最終的には何千もの個別のモデルが作成され、それぞれのモデルはおそらく非常に機能的ですが、関心のあるさまざまなタスクごとに別々になります。

しかし、人々がどのように学習するかを考えてみましょう。

昨年、私たちの多くがたくさんの新しいスキルを習得したと思います。

私は縦型水耕栽培を試しながら、ガーデニングのスキルを磨いています。

そのために、植物についてすでに知っているすべてを学び直す必要はありませんでした。

私は、植物を穴に入れる方法、水を注ぐ方法、植物には太陽が必要であることを知り、それをこの新しいスキルの学習に活用することができました。

コンピューターも同じように動作しますが、現在はそうではありません。

ニューラル ネットワークをゼロからトレーニングする場合、何か新しいことをしようとするたびに、事実上、教育全体を忘れているようなものです。

これはクレイジーですよね?

したがって、代わりに、何千、何百万もの異なるタスクを実行できるマルチタスク モデルをトレーニングできるし、そうすべきだと思います。

そのモデルの各部分は、さまざまな種類のことに特化します。

そして、1000 のことを実行できるモデルがあり、1000 で最初のものが登場した場合、関連する種類のことですでに持っている専門知識を活用して、より迅速に実行できるようになります。この新しいタスク。

あなたと同じように。

新しい問題に直面した場合、その問題を解決するのに役立つ、すでに知っている 17 の事柄をすぐに特定します。

2 番目の問題は、今日のほとんどのモデルが単一のデータ モダリティのみを処理していることです。

画像、テキスト、音声を扱いますが、これらすべてを一度に扱うわけではありません。

しかし、自分が世界とどのように付き合っていくかを考えてみましょう。

あなたは、世界でどのような種類の行動をとりたいかを学び、反応し、理解するためにすべての感覚を使い続けています。

そうすることは非常に合理的であり、同じ方法でモデルを構築できます。

入力データ、テキスト、画像、音声などのさまざまな種類のモダリティをすべて取り込み、それらを融合するモデルを構築できます。これにより、モデルがヒョウという単語を見たか、ヒョウのビデオを見たか、誰かの言葉を聞いたかに関係なく、 leopard という単語に対して、同じ応答がモデル内でトリガーされます。

ヒョウの概念は、画像、テキスト、ビデオだけでなく、遺伝子配列、点の 3D 原因など人間以外の種類の入力も含め、さまざまな種類の入力データを処理できます。

3 番目の問題は、今日のモデルが高密度であることです。

モデルは1つあります。

モデルは、本当に単純なことでも、本当に複雑なことでも、達成したいすべてのタスクまたはすべての例に対して完全にアクティブ化されます。

私たちが行っていることは、私たち自身の脳の働きとは異なります。

私たちの脳には、さまざまなことを得意とするさまざまな部分があり、目の前のタスクに関連する部分を継続的に呼び出しています。

たとえば、ゴミ収集車が自分の車に向かってバックしてくるのを緊張しながら見ているとします。

シェイクスピアのソネットについて考える脳の部分はおそらく活動していません。

AI モデルも同様に機能します。

密なモデルの代わりに、まばらにアクティブ化されたモデルを使用して、特定の異なるタスクに対してモデルの異なる部分を呼び出すことができます。

モデルはトレーニング中に、どの部分がどのことを得意としているかを学習することもできるため、新しいタスクを達成するためにどの部分を呼び出す必要があるかを継続的に特定できます。

この利点は、非常に大容量のモデルを使用できることですが、特定のタスクに必要な部分のみを呼び出すため、非常に効率的です。

したがって、これら 3 つを修正することで、より強力な AI システムが実現できると思います。

何千もの個別のモデルの代わりに、何千または何百万ものことを実行できる少数の汎用モデルをトレーニングします。

単一のモダリティを扱うのではなく、すべてのモダリティを扱い、それらを融合できるようにしてください。

そして、密なモデルの代わりに、必要に応じて関連するビットを呼び出す、疎な大容量モデルを使用します。

私たちはこのようなアプローチを可能にするシステムを構築しており、このシステムを Pathways と呼んでいます。

つまり、このモデルは何千、何百万もの異なるタスクを実行できるようになり、新しいタスクを段階的に追加できるようになり、すべてのモダリティを一度に処理できるようになり、必要に応じて新しいタスクを段階的に学習して、さまざまな例やタスクに対応するモデルの関連部分。

そして私たちはこれにとても興奮しています。

これは AI システムの構築方法において前進となると考えています。

しかし、責任ある AI についても触れたいと思います。

私たちは、この強力な AI システムのビジョンがすべての人に利益をもたらすようにする必要があることは明らかです。

この種のモデルは、すべてのユーザーに対する公平性、解釈可能性、プライバシー、セキュリティを念頭に置いてモデルを構築する方法について、重要な新たな疑問を引き起こします。

たとえば、これらのモデルを数千または数百万のタスクでトレーニングする場合は、明らかに大量のデータでモデルをトレーニングできる必要があります。

そして、そのデータが慎重に収集され、世界中のさまざまなコミュニティや状況を代表するものであることを確認する必要があります。

そして、データに関する懸念は、責任ある AI の 1 つの側面にすぎません。

ここでやるべきことはたくさんあります。

そこで 2018 年、Google は、この種のテクノロジーの開発について考えるための一連の AI 原則を発表しました。

これらは、この分野での研究方法や製品での AI の使用方法の指針として役立ちました。

そして、これは、社会で AI をどのように活用すべきかという、この種の深く複雑な問題をどのように考えるかについて、非常に役立つ重要な枠組みだと思います。

さらに詳しい情報が得られ次第、引き続き更新していきます。

この種の原理の多くは活発な研究分野であり、非常に重要な分野です。

したがって、データのパターンを認識するような単一目的のシステムから、世界をより深く理解するこの種の汎用インテリジェンス システムに移行することで、人類が直面する最大の問題のいくつかに実際に取り組むことができるようになります。

たとえば、より多くの病気を診断できるようになります。

これらのモデルに化学と物理学の知識を注入することで、より優れた医薬品を開発できるようになります。

より個別化された個別指導を提供し、人々が新しくより良い方法で学習できるようにすることで、教育システムを進化させることができるでしょう。

私たちは、気候変動、おそらくクリーン エネルギー ソリューションのエンジニアリングなど、非常に複雑な問題に取り組むことができるようになります。

実際、この種のシステムはすべて、世界中の人々の学際的な専門知識を必要とすることになります。

したがって、進歩を遂げるために、AI をあらゆる分野に接続します。

私は、コンピューティングにおける多くの進歩と、過去数十年にわたるコンピューティングが、何百万人もの人々が自分たちの周囲の世界をより深く理解するのにどのように実際に役立ったかを見てきました。

そして今日の AI は、何十億もの人々を助ける可能性を秘めています。

私たちは本当にエキサイティングな時代に生きています。

ありがとう。

ありがとう。

ありがとう。

ありがとう。

ありがとう。

ありがとう。

ありがとう。

ありがとう。

どうもありがとう。

いくつかのことについてフォローアップしたいと思います。

それで、進捗状況、これが私が聞いた話です。

ほとんどの人が AI について伝統的にイメージしているのは、コンピューターは情報のパターンを認識し、少し機械学習を加えることで、人間よりも優れた能力を身につけることができる、というものです。

あなたが言いたいのは、これらの情報パターンはもはや AI が扱う原子ではないということです。

これは、たとえばヒョウを構成するあらゆる種類のものを含む、より豊かな階層構造の概念です。

それで、それは何をもたらすのでしょうか?

AI が機能する例を教えてください。

今後 5 年または 10 年で世界で何が起こって、あなたを興奮させると思いますか?

AI における大きな課題は、すでにやり方を知っている一連のタスクを、できるだけ簡単かつ楽に新しいタスクに一般化する方法だと思います。

そして、すべてに対して個別のモデルをトレーニングするという現在のアプローチは、世界とその問題についてすべてをゼロから効果的に学ぼうとするため、その特定の問題について大量のデータが必要になることを意味します。

しかし、何千、何百万ものタスクの実行方法がすでに組み込まれたシステムを構築できれば、比較的少ない例で新しいことを実行する方法を効果的に教えることができます。

そして、それが本当の希望だと思います。関心のあるものの 5 つの例を与えるだけで、システムがその新しいタスクの実行方法を学習するシステムができることです。

驚くほど少ないシーディングに基づいて、ほぼ自己教師あり学習でそれを行うことができます。

そうですね、世の中のすべてを理解するには 10,000 または 100,000 の例が必要なのとは対照的に。

そこから恐ろしい予期せぬ結果が起こる可能性はないでしょうか?

まあ、これらのシステムを実際にどのように適用するかによると思いますね?

AI が良い方向に強力なシステムになる可能性があることは明らかですが、それほど優れていない方法で AI を適用すると、マイナスの結果になる可能性があります。

だからこそ、AI の潜在的な用途を検討し、アプリケーションをどのように検討するかを注意深く熟慮するための一連の原則を持つことが非常に重要であると私は思います。

人々が最も心配していることの 1 つは、AI が現状の世界から学習するのが非常に得意で、現時点では実際には正しくない世界の側面をそのまま将来の世界に引き継いでしまうのではないかということです。

そして、最近 Google でそれについて大きな論争があったことは明らかです。

AI 開発のこれらの原則のいくつかは、実際には遵守していないのではないかという疑問に直面することがあります。

特定の事件に関するコメントを聞きたいわけではありませんが、実際にどのように取り組んでいますか?

あなたがこれらの原則を遵守していることをどのようにして確認できますか?

それは単なるPRですか、それともあなたの日常の中心にある本当のことですか?

いいえ、それは絶対に本当です。

同様に、これらの研究課題の多くはそれ自体が研究テーマであるため、文字通り何百人もの人員がこれらの関連する研究課題の多くに取り組んでいます。

おそらくありのままの世界ではなく、私たちが望む世界ではない現実世界からデータをどのように取得し、それを使用して機械学習モデルをトレーニングし、そのデータを適応させるにはどうすればよいでしょうか。世の中で見られる値ではなく、システムが持つべき値をより適切に反映できるように、データを追加のデータで拡張しますか?

カオ・ブキャナン しかし、あなたは Google で働いていますね。

Googleは研究に資金を提供している。

この AI が構築する主な価値が世界のためのものであり、たとえば広告モデルの収益性を最大化するためのものではないことは、どうやってわかるのでしょうか?

人間の注意について知るべきことをすべて知れば、私たちの小さな、うねうねした、奇妙で暗い部分についてもたくさん知ることになるでしょう。

あなたのグループでは、過剰な、ある種の商業的推進との間の教会と国家の戦争をどのように回避するかについてのルールはありますか。また、世界のためにこれを行うようにエンジニアなどを鼓舞できるように、この目的のためにそれを行わなければなりません、 私たち全員のために?

私たちの研究グループは、広告グループ、検索グループ、地図グループなど、Google 全体の多くのグループと協力しています。

そのため、私たちはいくつかの共同研究を行っていますが、多くの基礎研究も公開して公開しています。

私たちは昨年、公平性や機械学習モデルの解釈可能性など、非常に重要なことについて、あなたが議論した内容の多くを含む、あらゆる種類のさまざまなトピックで 1,000 本以上の論文を発表しました。これらのモデルが安全かつ責任を持って開発されるように進歩を続けるために、これには最先端の技術が導入されています。

カオ・ブキャナン クール、人々が大手テクノロジー企業の力について懸念している時期に来ているように感じます。そして、これがより良い社会を実現するために行われているということを世界に示す瞬間があったような気がします。未来。

それは実際、Google だけでなく私たち全員の将来にとっても鍵となります。

だから、あなたが来てそう言ってくれるのを聞いてとてもうれしいです、ジェフ。

TEDにご来場いただきまして誠にありがとうございます。

気をつけて。

ジェフ・ディーン。

ディーンディーン ありがとうございます。

コメント

タイトルとURLをコピーしました