【TED】悪いデータがいかに優れた AI を妨げているか:マイナクマズムダル【日本語訳】

私。

今後 10 年間で世界経済に 16 兆ドルが追加される可能性があります。

この経済は何十億もの人々や何百万もの工場によって構築されるのではなく、コンピューターとアルゴリズムによって構築されます。

私たちはすでに A の驚くべき利点を見てきました。

私。

タスクを簡素化し、効率をもたらし、私たちの生活を改善します。

しかし、公正かつ公平な政策決定に関しては、A.

私。

約束を果たしていない。

私。

経済の門番となり、誰が仕事を得て、誰が融資を受けられるかを決定している。

私。

社会的影響を伴う速度と規模で私たちの偏見を強化し、加速させるだけです。

Aさんもそうです。

私。

私たちを失敗させますか？

私たちは、偏った間違った決定を下すためにこれらのアルゴリズムを設計しているのでしょうか?

データサイエンティストとして、私がここで言いたいのは、これらの決定の原因はアルゴリズムではなく、偏ったデータであるということです。

作ります。

私。

人類と社会にとって、緊急のリセットが必要です。

アルゴリズムの代わりに、データに焦点を当てる必要があります。

私たちは A をスケールするために時間とお金を費やしています。

私。

高品質でコンテキストに応じたデータの設計と収集が犠牲になります。

私たちはすでに持っているデータや偏ったデータをやめて、3 つのことに焦点を当てる必要があります。

データインフラストラクチャ、データ品質、データリテラシー。

今年の6月、私たちはデューク大学A校で恥ずかしい偏見を目にしました。

私。

Pulse と呼ばれるモデルは、ぼやけた画像を認識可能な人物の写真に補正します。

このアルゴリズムは、白人以外の画像を白人の画像に誤って強調しました。

トレーニングセットではアフリカ系アメリカ人のイメージが過小評価されており、誤った決定や予測につながっていました。

おそらく、AIが黒人の画像を誤って認識するのを見たのはこれが初めてではないでしょう。

AI 手法が改善されたにもかかわらず、人種や民族の人口が過小評価されているため、依然として偏った結果が残されています。

この研究は学術的なものです。

ただし、すべてのデータバイアスが学術的なものであるわけではありません。

偏見は現実的な結果をもたらします。

2020 年の米国国勢調査を見てみましょう。

国勢調査は、多くの社会的および経済的政策決定の基礎となります。

したがって、国勢調査では米国の人口を 100% カウントする必要があります。

しかし、パンデミックと市民権問題の政治的状況により、少数派の過小評価が現実に起こる可能性があります。

私は、居場所を特定するのが難しく、国勢調査で場所を特定したり、連絡したり、説得したり、面接したりする可能性が低い少数派グループの数が大幅に過小評価されると予想しています。

過少カウントはバイアスをもたらし、データインフラストラクチャの品質を損なうことになります。

2010 年国勢調査における過少カウントを見てみましょう。

最終的な集計では1600万人が除外された。

これは、その年のアリゾナ州、アーカンソー州、オクラホマ州、アイオワ州の人口の合計と同じくらいの規模です。

また、約100万人が省略されたことも見られました。

現在、CMS の仮想カップでもこれが確認されています。

彼らはアジアにおけるデザイナーの仕事に一役買っています。

最近のアメリカ先住民の子孫の一部のアフリカ系アメリカ人が省略されていることが判明しました。私たちは、2020 年の過少集計は 2010 年よりもはるかに高いと推定しており、この偏りの影響は甚大になる可能性があります。

国勢調査データの意味を見てみましょう。

国勢調査は、人口構成と特徴に関する最も信頼できる、オープンで公開されている豊富なデータです。

企業は消費者に関する機密情報を持っていますが、国勢調査局は、年齢、性別、民族、人種、雇用、家族状況、および地理的分布に関する決定的な公的統計を報告しており、これらは人口データインフラストラクチャの基盤です。

マイノリティが過小評価されている場合、公共交通機関、住宅、医療、保険をサポートする AI モデルは、公的データを必要とするコミュニティを見落とす可能性があります。

国勢調査局は、これらのサービスを最も必要とするデータのソースでもあります。

結果を改善するための最初のステップは、国勢調査データごとに年齢、性別、民族性、人種を表すデータベースを作成することです。

国勢調査は非常に重要なので、100% 集計できるようあらゆる努力をしなければなりません。

このデータの品質と精度への投資は、少数の特権層だけでなく、社会のすべての人が AI を利用できるようにするために不可欠です。

ほとんどの AI システムは、便利で安価であるため、すでに利用可能なデータまたは他の目的で収集されたデータを使用します。

しかし、データ品質は、真剣な取り組みを必要とする分野です。

バイアスの定義、データ収集、測定に対するこの注意は、速度、規模、利便性の世界では過小評価されているだけでなく、無視されることもよくあります。

ニールセンデータサイエンスチームの一員として、私はフィルの訪問に同行してデータを収集し、上海とバンガロール郊外の小売店を訪問しました。

この訪問の目的は、これらの店舗の小売売上高を測定することでした。

私たちは街の外を何マイルもドライブし、これらの小さな店を見つけました。非公式で、アクセスするのは困難でした。

なぜこれらの特定の店舗に興味があるのかと疑問に思われるかもしれません。

電子データをデータパイプラインに簡単に統合でき、安くて便利で簡単な市内の店舗を選択することもできたはずです。

なぜ私たちはこれらのストアからのデータの品質と正確さにそこまでこだわるのでしょうか?

答えは簡単です。

なぜなら、これらの田舎の店舗から得られるデータは重要だからです。

国際労働機関によると、中国人の 40 パーセントとインド人の 65 パーセントが農村部に住んでいます。

インドの消費の 65% がモデルから除外されている場合の決定の偏りを想像してみてください。つまり、決定は地方よりも都市に有利になることを意味します。

この田舎と都市の文脈や生計、ライフスタイル、経済、価値観に関するシグナルがなければ、小売ブランドは価格設定、広告、マーケティングに関して間違った投資を行うことになります。

あるいは、都市への偏見が間違った農村政策につながるだろう。

そして都市への偏見は、健康やその他の投資に関して誤った政策決定につながるでしょう。

AI アルゴリズムの問題は、誤った決定ではありません。

そもそも除外地域が計測しようとしているデータの問題だ。

アルゴリズムではなく、データとコンテキストが優先されます。

別の例を見てみましょう。

私はオレゴン州の人里離れたトレーラーパークの家とニューヨーク市のアパートを訪れ、ニュースメディアを含む無料のコンテンツを配信している様子を見ることができました。私たちの民主主義の基礎です。

このデータはビジネスや社会にとって不可欠です。

AI に対する人間の偏見を軽減する一生に一度の機会はデータから始まります。

新しいアルゴリズムの構築を急ぐのではなく、倫理的な AI を可能にするより良いデータインフラストラクチャを構築することが私の使命です。

あなたも私の使命に参加してくれることを願っています。