数十年にわたる研究が、現在の AI の急速な進歩を実現しています。本日は、人々が AI を便利に使うことができる 3 つの新しい活用方法として、言語でのテクノロジーへのアクセス、クリエイティビティの新しい形、自然災害における人命救助についてご紹介します。
私が初めてニューラル ネットワークに出会ったのは、大学生だった 1990 年のときでした。当時、AI コミュニティの多くの人々がニューラル ネットワークの秘める可能性に興奮していましたが、ニューラル ネットワークは重要な現実世界のタスクをこなすことはできませんでした。私自身もその可能性に興奮し、並列計算によるニューラル ネットワークのトレーニングに関する卒業論文を執筆しました。その時に、必要な計算能力は 32 倍と仮定しましたが、それは大きな間違いでした。その時点で必要とされた計算能力は 100 万倍だったからです。
それから 21 年が経ち、計算能力が指数関数的に向上したことで、ニューラル ネットワークに再度挑戦する時が来ました。2011 年、私は数人の Google 社員と共に、YouTube からランダムに選択された数百万のフレームを使用して、非常に大規模なニューラル ネットワークのトレーニングを開始しました。結果(英語)は驚くべきものでした。明示的なトレーニングを行わなくても、システムはさまざまな対象 (特に YouTube で人気の猫) を認識することを自動的に学習しました。これは、Google やその他で現在も続いている多くの成功の中でも、AI における 1 つの革新的な発見でした。
現在の AI は特に急速に進化していると感じられるかもしれませんが、私自身のニューラル ネットワークの歴史を共有することで、その進化が長い時間をかけた進歩の結果であることを理解していただけると思います。実際に、2012 年以前のコンピューターが会話を聞いたり、文字を見たりして、その内容を理解することは非常に困難でした。AI 分野における特に急速な進歩(英語)は、この 10 年間に達成されたものです。
そして今、Google は、近年の AI の進歩の多くをリードしています。これには、単に技術的な側面だけでなく、世界中の人々を支援するために責任を持って展開することも含まれます。これは、Google Cloud、Google Pixel シリーズや Google 検索などの Google 製品、そして科学やその他の取り組みの多くの分野に AI を導入していくことを意味します。
私たちは、AI が新しいテクノロジーとしてもたらす課題とリスクを認識しています。Google は、主要企業の中で初めて AI の基本方針を公開し、運用しています。(これは進歩に相反していると考える人もいるかもしれませんが)AI の基本方針に従うことで、Google はあらゆる人々に役立つテクノロジーを急速に進歩させることに集中できました。AI を正しく理解するためには、研究者だけでなく、各分野の専門家、開発者、コミュニティ メンバー、企業、政府、市民が関与する集団的な取り組みが求められます。
本日、AI の 3 つの革新的な分野について発表できることを嬉しく思います。まず 1 つ目は、AI を使用して、より多くの言語でテクノロジーを利用できるようにする取り組みです。2 つ目は、AI がクリエイティビティをどのように強化するかを探る挑戦です。そして 3 つ目は、気候変動への適応を含む AI for Social Good です。
1. AI で 1,000 言語に対応
言語は、人々がコミュニケーションを取り、世界を理解するための基本です。したがって、人々がテクノロジーと関わる最も自然な方法が言語でもあることは、驚くことではありません。しかし、世界中で 7,000 を超える言語が話されており、現在オンラインで十分な情報を提供できている言語はごくわずかです。つまり、ウェブ上のテキストから言語モデルを学習する従来の方法では、グローバルなコミュニケーションの多様性を捉えることができません。これは、Google が「世界中の情報を整理し、世界中の人がアクセスできて使えるようにする」というミッションを追求する上で、長年に渡る課題となってきました。
Google が 1,000 言語での対応を発表するのは、これが理由です。この取り組みは、世界で使われている 1,000 の言語をサポートする AI モデルを構築し、世界でまだ含まれていないコミュニティにいる数十億の人々により多様性をもたす野心的な取り組みです。この実現には長い年月が必要であり、人によってはこれを不可能に近いという人もいるかもかもしれませんが、私たちはすでにこの分野で有意義な進歩を遂げており、はっきりとした道筋が見えています。人々がテクノロジーを利用する方法から、その機能に至るまで、テクノロジーは急速に変化しています。今、画像、動画、音声などの新しいモダリティを介して情報を探したり共有したりする人が増えており、私たちの最も高度な言語モデルはマルチモダリティです。つまり、これらの多くの異なる形式にわたって情報を読み解くことができます。これらの大きな変化に伴って、新しい機会が訪れます。
この取り組みとマルチモダリティへの注力の一環として、400 以上の言語をサポートするユニバーサル スピーチ モデル ( USM ) を開発しました。この取り組みを拡大するにあたり、私たちは世界中のコミュニティと協力し、代表的な音声データを調達しています。最近では、アフリカの研究者や組織と緊密に協力し、データを作成して公開することにより、アフリカで使われている 9 言語の音声入力を Gboard で実現するプロジェクトを発表(英語)しました。また、南アジアでは、最終的にすべての地域の方言と言語から代表的な音声サンプルを収集することを目指し、地方自治体、NGO、学術機関と積極的に協力しています。
2. クリエイターやアーティストを AI で支援
AI 自動生成モデルは、クリエイティビティを拡げる可能性があり、文化を超えたまったく新しい方法で、動画、画像、デザインを通じた表現を可能にします。
Google の研究者は、人間の評価者が他のモデルよりも好む画像を生成する Imagen と Parti において、品質面でこの分野をリードするモデルの開発に熱心に取り組んできました。私たちは最近、動画シーケンスに適用される拡散モデルである Imagen Video と、一連のテキスト プロンプトに対して長い一貫した動画を生成するモデルである Phenaki という、2 つの重要な発見を共有しました。チームは、これらのモデルを使用して動画を制作するために協力してきました。そして本日、AI で生成された超解像度動画を共有しました。
また、テキストから画像への生成テクノロジーを AI Test Kitchen に導入する予定です。AI Test Kitchen は、新しい AI テクノロジーについて学び、体験し、フィードバックする方法を提供します。AI Test Kitchen シーズン 2 では、これらのデモに対するユーザーのフィードバックを受け付けます。 City Dreamer でテーマに沿った都市をつくり、 Wobble で動き、踊り、ジャンプできるフレンドリーなモンスター キャラクターをデザインできます。これは、すべてテキスト プロンプトで動きます。
2D 画像に加え、テキストから 3D への変換が実現した DreamFusion を使用することで、あらゆる角度から見れ、あらゆる 3D 環境に合成できる 3 次元モデルが生成されます。研究者は、AudioLM を使用してオーディオ生成分野でも大きな進歩を遂げています。これは、オーディオのみを聞くことでリアルなスピーチとピアノ音楽を生成することを学習するモデルです。言語モデルがテキスト プロンプトに続く単語や文を予測するのと同じように、AudioLM は音声プロンプトの数秒後にどの音が続くかを予測できます。
これらのツールの開発においては、世界中のクリエイティブ コミュニティと協力しています。たとえば、最先端の対話システム LaMDA をベースに構築された Wordcraft を使用しているライターと協力し、AI を利用したテキスト生成の実験を行っています。これらは、Wordcraft Writers Workshop (英語)でもご確認いただけます。
3. 気候変動と健康問題への対処に AI を活用
AI は、人々が直面する新たな課題への対応のサポートを含めて、気候変動の影響を緩和する大きな可能性があります。そうした課題の例のひとつが山火事です。現在、数十万人の人々が山火事の影響を受けており、その頻度と規模はますます大きくなっています。
Google は、人工衛星画像を活用して AI モデルを学習し、リアルタイムで山火事を特定して追跡することで延焼の予測に役立てる取り組みをアメリカ、カナダ、メキシコで開始しており、オーストラリアの一部でも開始します。今年の 7 月以降で、アメリカとカナダで 30 以上の大規模な山火事をカバーし、ユーザーと消防チームに向けた情報提供は、Google 検索とマップで 700 万回以上のインプレッションを達成しています。
また、気候変動によって悪化するもう 1 つの異常気象パターンである洪水の予測にも AI を活用しています。Google はすでにインドとバングラデシュのコミュニティ(英語)で、洪水がいつ発生し、水深がどの程度になるかを予測する取り組みを支援してきました。2021 年には、Google 検索と Google マップから 1 億 1,500 万件の洪水警報通知を 2,300 万人に送信し、数え切れないほどの命を救っています。本日、ブラジルとコロンビア、サハラ砂漠以南のアフリカの地域 (ブルキナファソ、カメルーン、チャド、コンゴ民主共和国、コートジボワール、ガーナ、ギニア、マラウイ、ナイジェリア、シエラレオネ、アンゴラ、南スーダン、ナミビア、リベリア、南アフリカ)、および南アジア (スリランカ) にこの取り組みを拡大しました。転移学習と呼ばれる AI の技術を活用し、利用可能なデータが少ない地域でも機能するようになりました。加えて、洪水がいつどこで発生する可能性があるかを表示する新しいモデルである、 Google Flood Hub のグローバルでの立ち上げも発表しました。洪水が発生した際により多くの人々が安全に避難できるよう、Google 検索と Google マップでこの情報を提供します。
AI は、医療が行き届いていない地域において、医療へのアクセスを向上するのにも役立ちます。Google は、AI が低コストの超音波装置からの出力を読み取って分析し、妊娠初期の問題を特定するために必要な情報を提供する方法を研究しています。また、介護者や公衆衛生機関との提携を継続し、自動網膜疾患評価ツール (ARDA) を通じて、糖尿病性網膜症スクリーニングへのアクセスを拡大できるよう、取り組みを進めています。ARDA を通じて、インド、タイ、ドイツ、米国、英国などで 150,000 人を超える患者のスクリーニングに成功しており、2022 年だけでその半数以上が現場利用および研究に活用されています。さらに、スマートフォンで呼吸数と心拍数を検出するために AI をどのように役立てることができるかも調査しています。この取り組みは、Google Health の数あるビジョンの一部であり、これにはスマートフォンを使用するすべての人々に対して医療へのアクセスを拡大する(英語)という目標も含まれます。
AI の未来
ニューラル ネットワーク アーキテクチャ、機械学習アルゴリズム、および機械学習用ハードウェアへの新しいアプローチにおける進歩は、数十億の人々にとって重要な現実世界の問題を AI が解決するために役立っています。これからもそうした進歩は続けます。本日共有したのは、希望に満ちた未来へのビジョンです。AI によって、私たちはテクノロジーをどのように役立てることができるかを再認識することができます。これらの新しい機能を探求し、テクノロジーを活用して世界中の人々の生活を向上させる取り組みに皆様がご参加いただけることをお待ちしています。
Posted by Jeff Dean, Senior Fellow and SVP of Google Research