
この記事では、高温超伝導に関する研究を通じて、大規模言語モデル(LLM)が専門的な物理学の質問に対してどの程度の能力を持つかを評価しています。著者たちは、コーネル大学と協力し、6つのLLMに対して高温超伝導体に関する難解な質問を投げかけ、その回答を専門家が評価しました。結果として、NotebookLMとカスタムシステムが最も優れたパフォーマンスを示し、全体的に改善が必要な領域も特定されました。この研究は、科学的発見を進めるための信頼できるツールの開発に寄与することが期待されています。また、LLMが専門的な分野での知識を持つ思考パートナーとして機能できるかどうかを探求し、高温超伝導のメカニズム理解に向けた新たな可能性を示唆しています。 • 高温超伝導に関する専門的な質問に対するLLMの能力を評価した。 • 6つのLLMが高温超伝導体に関する質問に回答し、専門家がその回答を評価した。 • 最も優れたパフォーマンスを示したのはNotebookLMとカスタムシステムであった。 • 全体的にLLMには改善が必要な領域があることが明らかになった。 • この研究は、科学的発見を進めるための信頼できるツールの開発に寄与することが期待される。 • LLMが専門的な分野での知識を持つ思考パートナーとして機能できるかを探求した。

この記事では、都市部におけるAI駆動の急激な洪水予測の導入について説明しています。新しいAIトレーニング手法を用いて、最大24時間前に急激な洪水のリスクを予測することが可能になりました。この取り組みは、気候変動への適応力を高め、コミュニティの安全を守るための重要なステップです。急激な洪水は、世界中で洪水関連の死亡者の約85%を占めており、早期警告システム(EWS)が重要です。しかし、発展途上国ではEWSの整備が不十分で、多くの人々が事前の警告を受けられない状況にあります。新しいAI手法を活用することで、過去の洪水イベントのデータを基にした予測が可能となり、都市部の急激な洪水に対する予測能力が向上しました。 • 急激な洪水は世界で最も致命的な災害の一つであり、年間5,000人以上の命を奪っている。 • 早期警告システムは、12時間のリードタイムで60%の被害軽減が可能。 • 発展途上国では多くの地域でEWSが整備されておらず、数十億人が警告を受けられない。 • 新しいAI手法を用いて、過去の洪水データを抽出し、急激な洪水の予測モデルを構築。 • この新しい予測モデルは、都市部における急激な洪水のリスクを最大24時間前に予測できる。

Groundsourceは、Geminiを活用して非構造化のグローバルニュースを行動可能な歴史データに変換する新しいスケーラブルな手法です。最初のオープンアクセスのGroundsourceデータセットは、都市の急激な洪水に関する260万件の記録を含み、より正確で命を救う予測を可能にします。自然災害は毎年数百万の人々に影響を与え、数十億ドルの直接的な損害をもたらします。歴史的データは、科学者が危険を軽減し、実証的な証拠に基づいた予測を検証するために重要です。Groundsourceは、非構造化データから検証された真実を抽出するフレームワークを提供し、災害の歴史的な足跡を前例のない精度でマッピングします。この手法は、他の危険に対する歴史的データセットの構築にも応用可能です。 • Groundsourceは、非構造化のニュースを分析して洪水の詳細をキュレーションする手法を提供する。 • 260万件の洪水イベントのデータセットを作成し、都市部の洪水予測を支援する。 • 自然災害に関する歴史的データは、科学者が危険を軽減するために重要である。 • 既存のデータベースは、特に急激な災害に対してデータが不足している。 • Groundsourceは、ニュースメディアからの信号を抽出するために高度なAIを活用している。

本研究は、Beth Israel Deaconess Medical Centerとの共同で行われた、会話型診断AI「AMIE」の実世界での評価に関する初の研究成果を示しています。AMIEは、医療専門家の診断支援や患者との対話を行うAIシステムであり、医療へのアクセスを向上させる可能性があります。本研究では、AMIEが新しい外来診療の訪問前に患者から情報を収集する方法と、医師と患者がAIシステムをどのように認識しているかを探求しました。研究はIRBに承認され、参加者は診療予約時に研究への参加を選択できました。AMIEは、患者とのテキストチャットを行い、その内容は医師が監視し、必要に応じて介入できる体制が整えられました。これにより、AMIEの安全性と実用性を評価する重要なステップとなりました。 • AMIEは医療専門家の診断支援を行う会話型AIである。 • 研究はBeth Israel Deaconess Medical Centerと共同で行われた。 • 患者からの情報収集を行うために、AMIEが外来診療の訪問前に使用された。 • 参加者は研究への参加を選択でき、IRBに承認されたプロトコルに従った。 • 医師がAMIEのテキストチャットを監視し、必要に応じて介入する体制が整えられた。

WAXALは、アフリカの言語音声技術のための大規模なオープンリソースであり、27の母国語に対する自動音声認識(ASR)および音声合成(TTS)データの大規模コーパスを提供します。このプロジェクトは、2021年から始まり、アフリカの学術機関やコミュニティと協力して開発されました。WAXALは、約1,846時間の自然音声の文字起こしデータと、565時間以上の高品質な音声データを含み、クリエイティブ・コモンズライセンス(CC-BY-4.0)の下で公開されます。これにより、アフリカのAIエコシステムが地域の言語的多様性を反映した堅牢な音声システムを構築できるようになります。WAXALは、音声認識と音声合成の両方のタスクをカバーするために設計された2つの専門データセットを統合しており、特に自然な会話システムの開発を支援します。 • WAXALは、アフリカの27の母国語に対する音声データを提供するオープンリソースである。 • 約1,846時間の自然音声データと565時間の高品質音声データを含む。 • データはクリエイティブ・コモンズライセンス(CC-BY-4.0)で公開され、研究を促進する。 • ASRデータセットは自然な音声を収集するために、視覚的刺激に基づく説明を求める方法を使用。 • TTSデータセットは、地域のコミュニティと協力して高品質な音声を生成。 • WAXALは、アフリカのAI研究エコシステムを強化し、デジタルデバイドを解消することを目指している。

One year after going open-source, Google’s SpeciesNet model is accelerating wildlife conservation by identifying nearly 2,500 species in camera trap images globally. Learn how this AI tool supports biodiversity research from the global research community.

Google researchers demonstrate how Bayesian teaching through supervised fine-tuning enables LLMs to approximate optimal probabilistic reasoning and generalize to new domains.

この記事では、AIシステムが地図上でルートを視覚的に追跡できるようにするための合成データ生成システムを提案しています。現在のマルチモーダル大規模言語モデル(MLLM)は、画像内の物体を認識する能力に優れていますが、地図上の幾何学的およびトポロジー的関係を理解することが難しいという課題があります。この問題を解決するために、著者たちは「MapTrace」と呼ばれる新しいタスク、データセット、および合成データ生成パイプラインを導入しました。このシステムは、MLLMに地図上でのパス追跡の基本的なスキルを教えることを目的としています。著者たちは、Gemini 2.5 ProとImagen-4モデルを使用して生成した200万の質問応答ペアをオープンソース化し、研究コミュニティにさらなる探求を促しています。 • MLLMは地図上のルートを正しく追跡するのが難しい。 • 地図の物理的なルールを学ぶためのデータが不足している。 • 手動でのパス注釈は困難で、大規模なデータセットの収集が実質的に不可能。 • 合成データ生成パイプラインを設計し、多様な高品質の地図を自動生成。 • 生成されたデータは、意図したルートに従い、通行不可能な領域を避ける。

本記事では、変動する機械の可用性に対応したジョブスケジューリングの新しいアルゴリズムを紹介しています。クラウドインフラにおいて、リソースは静的ではなく、ハードウェアの故障やメンテナンス、電力制限などにより常に変動します。特に、優先度の高いタスクがリソースを要求するため、低優先度のバッチジョブには変動する「残余」キャパシティが残ります。非プリエンプティブなジョブは中断できないため、スケジューラは長時間のジョブを今開始するか、より安全なウィンドウを待つかの判断を迫られます。研究では、時間変動するキャパシティの下でスループットを最大化するための定数因子近似アルゴリズムを提供し、変動するクラウド環境での堅牢なスケジューラ構築の理論的基盤を示しています。オフラインとオンラインの2つの環境での結果も考察されています。 • 変動する機械の可用性に対応したジョブスケジューリングのアルゴリズムを提案 • リソースは静的ではなく、常に変動することを考慮 • 非プリエンプティブなジョブは中断できず、スケジューラはリスクを考慮する必要がある • スループット最大化のための定数因子近似アルゴリズムを提供 • オフラインとオンラインの2つの環境でのスケジューリング問題を考察 • オフライン設定では、単純な戦略が意外に良好な結果を示す

DialogLabは、動的な人間とAIのグループ会話を作成、シミュレーション、テストするためのオープンソースプロトタイピングフレームワークです。このフレームワークは、会話の社会的設定(参加者、役割、サブグループ)と時間的進行を分離し、複雑なダイナミクスを簡素化した三段階のワークフロー(作成、テスト、検証)を提供します。DialogLabは、エージェントのペルソナを定義し、ターンテイキングのルールを管理し、スクリプトされたナarrativeと即興の間の遷移を調整するための統一インターフェースを提供します。評価結果によると、DialogLabは多様なパーティデザインを効率的にサポートし、リアルで適応可能な会話の設計を可能にします。 • DialogLabは動的な人間とAIのグループ会話を作成、シミュレーション、テストするためのフレームワークである。 • 会話の社会的設定と時間的進行を分離することで、複雑なダイナミクスを簡素化する。 • 三段階のワークフロー(作成、テスト、検証)を提供し、効率的な反復をサポートする。 • エージェントのペルソナ、ターンテイキングのルール、即興とスクリプトの遷移を管理できる。 • 評価結果は、リアルで適応可能な多様なパーティデザインを可能にすることを示している。

この記事では、Google DeepMindの生物音響基盤モデル「Perch 2.0」が、鳥や他の陸上動物の音声データを用いて訓練され、海洋音響の課題においても優れた性能を発揮することを説明しています。特に、Perch 2.0は水中音声データを含まないにもかかわらず、クジラの音声分類において効果的に機能します。Googleは、クジラの監視と保護のために外部科学者と協力しており、2024年には多種クジラモデルをリリースしました。新たに発見された音やデータに対してカスタム分類器を作成するために、転移学習を活用するアプローチが紹介されており、これにより計算資源と実験の負担が大幅に軽減されます。最終的に、Perch 2.0は海洋生態系の洞察を拡大するための重要なツールとなることが期待されています。 • Perch 2.0は鳥の音声データを基に訓練され、海洋音響の課題に適用可能である。 • 新しい音の発見やデータに対してカスタム分類器を作成するために転移学習を利用する。 • 転移学習により、計算資源と実験の負担が軽減される。 • Perch 2.0は水中音声データを含まないが、クジラの音声分類において優れた性能を示す。 • Googleはクジラの監視と保護のために外部科学者と協力している。

Google Researchは、ユーザーのユニークなニーズに適応するマルチモーダルAIツールを組み込んだ「Natively Adaptive Interfaces(NAI)」を導入し、ユニバーサルデザインを再定義しています。このアプローチは、障害を持つ人々と共に開発され、アクセシビリティを開発プロセスの初期から組み込むことを重視しています。NAIは、静的なナビゲーションを動的なエージェント駆動のモジュールに置き換え、デジタルアーキテクチャを受動的なツールから能動的なコラボレーターへと変革します。さらに、障害者コミュニティとの共同設計を通じて、彼らの経験と専門知識をソリューションの中心に据えることを目指しています。マルチモーダルAIツールは、アクセシブルなインターフェースを構築するための有望な道を提供し、特に文書の可読性向上において、中央のオーケストレーターが戦略的な読み取り管理者として機能します。 • Natively Adaptive Interfaces(NAI)を導入し、ユニバーサルデザインを再定義 • 障害を持つ人々と共に開発し、アクセシビリティを初期から組み込む • 静的ナビゲーションを動的エージェント駆動のモジュールに置き換える • 障害者コミュニティとの共同設計を重視し、彼らの経験を反映 • マルチモーダルAIツールがアクセシブルなインターフェース構築に寄与 • 中央のオーケストレーターが文書の可読性を向上させる役割を果たす

この記事では、AIモデルを効率化するための部分選択アルゴリズム「Sequential Attention」を紹介しています。特徴選択は、機械学習や深層学習において重要な課題であり、特に非線形な特徴の相互作用が複雑なため、効果的な特徴の選定が求められます。Sequential Attentionは、モデルのトレーニングプロセスに選択を統合し、トレーニングコストを最小限に抑えつつ、精度を維持します。この手法は、注意メカニズムを活用して、段階的に最適な要素を選択することで、従来の一括選択法の限界を克服します。最終的に、Sequential Attentionは、深層学習モデルの構造を最適化するために実際のシナリオで使用されています。 • AIモデルの効率化を目的とした部分選択アルゴリズム「Sequential Attention」を提案 • 特徴選択はNP困難であり、特に非線形な特徴の相互作用が複雑 • Sequential Attentionはトレーニングプロセスに選択を統合し、コストを最小限に抑える • 注意メカニズムを利用して段階的に最適な要素を選択 • この手法は深層学習モデルの構造を最適化するために実際に使用されている

この記事では、Included Healthとの提携により、実際のバーチャルケアにおける会話型AIの評価を目的とした全国規模の無作為化研究を開始することが発表されています。この研究は、シミュレーションや過去のデータを超えて、AIが臨床環境でどのように機能するかについての厳密な前向き証拠を収集することを目指しています。AIシステムは医療専門知識へのアクセスを大幅に向上させ、医師が患者と過ごす時間を増やす可能性がありますが、これらの技術を責任を持って開発するためには、証拠に基づく厳密なアプローチが必要です。研究は、診断や管理の推論、個別の健康インサイト、健康情報のナビゲーションにおけるAIの使用に関する基礎研究に基づいています。新しい研究は、全国規模での無作為化対照試験の設定を使用し、参加者からの同意を得て実施されます。 • 全国規模の無作為化研究を通じて、実際のバーチャルケアにおける会話型AIの評価を行う。 • AIシステムは医療専門知識へのアクセスを向上させ、医師の患者との時間を増やす可能性がある。 • 研究は、診断や管理の推論におけるAIの使用に関する基礎研究に基づいている。 • 無作為化対照試験の設定を使用し、全国から参加者を募集する。 • AIの安全性と有用性を評価するための責任あるアプローチを採用している。

この記事では、AIエージェントシステムのスケーリングに関する初の定量的原則を導出し、180のエージェント構成の制御評価を通じて、マルチエージェントの協調が並列化可能なタスクのパフォーマンスを大幅に向上させる一方で、逐次タスクでは劣化させることを明らかにしています。また、87%の未見タスクに対して最適なアーキテクチャを特定する予測モデルも紹介しています。エージェントは、推論、計画、行動が可能なシステムであり、業界は単発の質問応答から持続的なマルチステップのインタラクションへと移行しています。従来の静的ベンチマークはモデルの知識を測定しますが、エージェントタスクは外部環境との持続的なインタラクション、部分的な可観測性の下での情報収集、環境フィードバックに基づく戦略の適応的な改良を必要とします。 • AIエージェントシステムのスケーリングに関する定量的原則を導出した。 • マルチエージェントの協調は並列化可能なタスクのパフォーマンスを向上させるが、逐次タスクでは劣化する。 • エージェントタスクは持続的なインタラクション、部分的な可観測性、環境フィードバックに基づく戦略の適応を必要とする。 • 5つのエージェントアーキテクチャ(単一エージェント、独立、中央集権、分散、ハイブリッド)を評価した。 • 87%の未見タスクに対して最適なアーキテクチャを特定する予測モデルを導入した。

ATLASは、多言語モデルのための新しいスケーリング法則を提案します。特に、英語以外の言語を対象としたAIモデルの開発において、データ駆動型のガイダンスが不足している現状を改善することを目的としています。ATLASは、774回のトレーニングを通じて、400以上の言語にわたるデータを使用し、言語の混合を効率的にバランスさせるための適応型転送スケーリング法則を導入します。このアプローチは、ターゲット言語のパフォーマンスを最適化するために、異なる言語からのデータを活用します。ATLASは、モデルサイズやデータ量、言語の混合を決定するためのシンプルで実用的な方法を提供し、従来のスケーリング法則を拡張します。評価の結果、ATLASは従来の手法よりも一貫して優れたパフォーマンスを示しました。 • 英語以外の言語を対象としたAIモデル開発におけるデータ駆動型ガイダンスの不足を解消する。 • 774回のトレーニングを通じて、400以上の言語にわたるデータを使用した大規模な多言語事前学習研究を実施。 • 適応型転送スケーリング法則(ATLAS)を導入し、言語の混合を効率的にバランスさせる。 • ATLASは、ターゲット言語のパフォーマンスを最適化するために、異なる言語からのデータを活用する。 • モデルサイズやデータ量、言語の混合を決定するためのシンプルで実用的な方法を提供。 • 評価結果は、ATLASが従来の手法よりも一貫して優れたパフォーマンスを示すことを示した。

GISTは、データの多様性と有用性を最大化する高品質なデータサブセットを選択するための新しいアルゴリズムです。現代の機械学習では、大規模なデータセットを処理する必要があり、サブセット選択が重要な課題となっています。GISTは、データの多様性を確保しつつ、関連性のあるデータを選択することで、画像分類などのタスクで最先端のベンチマークを上回る性能を発揮します。このアルゴリズムは、データポイント間の最小距離を最大化することで多様性を確保し、モノトーン部分準同型関数を用いて有用性を測定します。GISTは、最適解に近い解を保証する近似戦略を提供し、データの選択を効率的に行います。 • GISTはデータの多様性と有用性を最大化するアルゴリズムである。 • サブセット選択は、機械学習において重要な課題である。 • GISTは、画像分類などのタスクで最先端のベンチマークを上回る性能を示す。 • データの多様性は、選択されたデータポイント間の最小距離を最大化することで確保される。 • 有用性は、モノトーン部分準同型関数を用いて測定される。 • GISTは、最適解に近い解を保証する近似戦略を提供する。

この記事では、ユーザーのインタラクションから意図を理解するための新しいアプローチが紹介されています。特に、小型のマルチモーダルLLM(MLLM)を使用して、ユーザーの行動を理解する方法が提案されています。この方法は、ユーザーのインタラクションを二段階に分けて処理し、各画面の要約を行った後、その要約から全体の意図を抽出します。これにより、小型モデルでも大規模モデルに匹敵する結果を得ることができ、デバイス上でのアプリケーションに適しています。具体的には、各画面のインタラクションを独立して要約し、その要約を基に全体の意図を予測します。これにより、ユーザーが何をしようとしているのかをより正確に把握できるようになります。 • 小型モデルを使用してユーザーの意図を理解する新しいアプローチを提案 • ユーザーインタラクションを二段階に分けて処理することで、タスクを小型モデルに適したものにする • 各画面のインタラクションを独立して要約し、その要約から全体の意図を抽出 • 小型モデルでも大規模モデルに匹敵する結果を得ることができる • デバイス上でのアプリケーションに適している

AI要約の生成中にエラーが発生しました。

この記事では、量子誤り訂正(QEC)のための新しい動的回路の運用について説明しています。従来の静的回路に比べて、動的回路はより少ないカプラーを使用し、相関エラーを除去し、異なるタイプの量子ゲートを利用することで、柔軟性を持たせています。Google Quantum AIの量子プロセッサは、ノイズに敏感な超伝導回路から構成される物理キュービットを使用しており、QECはこれらの物理キュービットを論理キュービットに結合し、ノイズに対する耐性を高める役割を果たします。最近発表された研究では、動的回路を用いた表面コードの実験的デモンストレーションが行われ、エラーを検出するために異なる回路構成を交互に使用することで、エラー抑制の柔軟性が向上しました。これにより、超伝導キュービットが直面する大きな課題を回避することが可能となり、量子情報の安定性を損なうことなく物理エラーを特定することができます。 • 量子誤り訂正(QEC)は、量子アルゴリズムに必要な超低エラー率を達成するために重要である。 • 動的回路は、エラーを検出するために異なる回路構成を交互に使用し、柔軟性を提供する。 • 動的回路を使用することで、超伝導キュービットが直面する課題(漏れ、ハードウェアの制約、キュービットのドロップアウト)を回避できる。 • 新しい回路(六角形、ウォーキング、iSWAP)は、QECの特定の課題を解決する。 • 動的回路は、物理エラーを特定し、論理量子情報への影響を防ぐための重複する検出領域を組み合わせる。

NeuralGCMは、NASAの降水観測データを用いて訓練されたニューラルネットワークと物理ベースのモデリングを組み合わせ、長期的なグローバル降水のシミュレーションをより正確に行うことを目的としたモデルです。このモデルは、特に日々の降水サイクルや極端な降水イベントの捕捉において、他の手法よりも優れた結果を示しています。NeuralGCMは、従来の大気モデルと比較して、2〜15日間の天気予報の精度を向上させ、過去40年間の歴史的な気温をより正確に再現しました。特に、降水の平均値や極端な降水(上位0.1%の降水量)をより正確に再現することができ、日々の天候サイクルも改善されています。NeuralGCMは、物理学とAIを組み合わせたハイブリッドモデルであり、他のAI専用の気象モデルと補完的な役割を果たしています。 • NeuralGCMはNASAの降水観測データを用いて訓練されたニューラルネットワークを使用している。 • このモデルは、特に日々の降水サイクルや極端な降水イベントのシミュレーションにおいて他の手法よりも優れている。 • 2〜15日間の天気予報の精度を向上させ、過去40年間の気温をより正確に再現した。 • 降水の平均値や極端な降水(上位0.1%)をより正確に再現することができる。 • 物理学とAIを組み合わせたハイブリッドモデルであり、他のAI専用モデルと補完的な関係にある。

2025年、Google Researchは研究の加速を実現し、製品、科学、社会に影響を与える画期的な成果を上げた。AIの基盤となる技術の進展により、生成モデルはより効率的で事実に基づき、多言語かつ多文化に対応するようになった。新しいアーキテクチャやアルゴリズムの研究が進み、科学的発見を加速するAIツールやエージェントモデルが開発された。量子コンピューティングの実用化に向けた量子のブレークスルーや、地球科学の研究が進展し、気候変動、健康、教育といった社会的優先事項にも取り組んだ。特に、Gemini 3は事実性の面で最高の性能を誇り、ユーザーはGoogleの製品が世界の知識に基づいた出力を提供することを信頼できる。 • Google Researchは2025年に研究の加速を実現し、製品や社会に影響を与える成果を上げた。 • AIの基盤技術の進展により、生成モデルが効率的で事実に基づくものになった。 • 新しいアーキテクチャやアルゴリズムの研究が進み、科学的発見を加速するAIツールが開発された。 • 量子コンピューティングの実用化に向けたブレークスルーが達成された。 • Gemini 3は事実性の面で最高の性能を誇り、ユーザーは信頼できる出力を得られる。

Geminiは、理論計算機科学者がSTOC 2026会議に提出する論文の正確性を厳密に検証するための新しいツールを提供します。このツールは、提出前に自動的なフィードバックを生成し、著者が最終草稿を提出期限前に磨き上げるのを助けることを目的としています。Gemini 2.5 Deep Thinkの高度な推論スケーリング手法を活用し、複数の解決策を同時に探求することで、計算エラーや論理的なギャップなどの問題を特定します。実験の結果、参加者の97%がフィードバックを有用とし、81%が論文の明確さや可読性が向上したと報告しました。AIレビューのスピードと中立性も評価され、参加者は2日以内にフィードバックを受け取ることができました。 • Geminiは理論計算機科学者向けの自動フィードバックツールである。 • STOC 2026会議に向けて、著者が提出前に論文を検証できる。 • 高度な推論スケーリング手法を用いて、計算エラーや論理的なギャップを特定する。 • 97%の参加者がフィードバックを有用とし、81%が論文の明確さが向上したと報告。 • フィードバックは2日以内に提供され、スピードと中立性が評価された。

この記事では、Googleが主催したアフリカ全土での「データサイエンス・フォー・ヘルス・アイデアソン」について述べています。このイベントでは、アフリカの研究者や開発者がGoogleのAIモデルを活用し、実際の医療課題に取り組みました。特に、子宮頸がんのスクリーニングや母子健康支援などの重要な健康問題に焦点を当てています。アイデアソンは、アフリカのデータサイエンスと機械学習コミュニティと協力して開催され、30以上の応募から6つのファイナリストチームが選ばれました。これらのチームは、Google ResearchやGoogle DeepMindからのメンターシップと技術リソースを受け、AIを用いた地域の健康課題解決に向けた革新的なアイデアを発表しました。最終的に、Dawa Healthが優勝し、AIを活用した多言語の子宮頸がん教育とスクリーニングのプロジェクトが評価されました。 • アフリカの医療課題に対処するためのAIモデルの活用 • 30以上の応募から選ばれた6つのファイナリストチーム • GoogleのオープンヘルスAIモデルを使用した革新的なアイデアの提案 • アイデアソンは2つのフェーズで構成され、アイデア開発とプロトタイプ・ピッチが行われた • Dawa Healthが優勝し、AIを用いた子宮頸がん教育とスクリーニングのプロジェクトが評価された • アフリカの健康、農業、気候に関する地域の優先事項に対するAIの利用に関心が高まっている

本記事では、AIチャットボットの使用に関する洞察を得るための新しい差分プライバシー(DP)フレームワークを紹介しています。このフレームワークは、DPクラスタリング、DPキーワード抽出、LLM要約のパイプラインを通じて、高度な洞察を生成します。ユーザーの会話のプライバシーを確保しつつ、プラットフォームの改善に役立つ情報を提供することが目的です。従来のアプローチでは、個人を特定できる情報(PII)を除去するためにヒューリスティックなプライバシー保護に依存していましたが、この記事で提案されているフレームワークは、厳密なDP保証を提供します。具体的には、会話を数値表現に変換し、DPクラスタリングアルゴリズムを用いてグループ化し、各クラスタからキーワードを抽出する方法を採用しています。これにより、個々の会話が結果に過度に影響を与えないようにし、プライバシーを保護しながら有用な洞察を得ることが可能になります。 • AIチャットボットの使用に関する洞察を得るための新しいDPフレームワークを提案 • DPクラスタリングとDPキーワード抽出を用いてユーザーのプライバシーを保護 • 従来のヒューリスティックなプライバシー保護に依存せず、厳密なDP保証を提供 • 会話を数値表現に変換し、近い表現をグループ化することで個々の影響を排除 • キーワード抽出では、DPヒストグラムメカニズムを使用して個別の会話の影響をマスク • 複数のユーザーに共通するキーワードのみを選択し、敏感な情報の露出を防ぐ

この記事では、TitansアーキテクチャとMIRASフレームワークを紹介し、AIモデルが長期記憶を持ちながら迅速に動作し、大規模なコンテキストを処理できる方法を説明しています。従来のTransformerアーキテクチャは、シーケンスの長さが増すと計算コストが急増し、長文理解やゲノム解析に必要なスケーラビリティが制限されます。Titansは、RNNの速度とTransformerの精度を組み合わせた新しいアーキテクチャであり、MIRASはこれを一般化する理論的枠組みです。Titansは、AIモデルが実行中に新しい情報を取り入れ、長期記憶を維持する能力を向上させる「サプライズメトリック」を活用します。Titansの長期記憶モジュールは、従来の固定サイズのメモリとは異なり、深層ニューラルネットワークとして機能し、大量の情報を要約しつつ重要なコンテキストを保持します。 • TitansアーキテクチャとMIRASフレームワークを導入し、AIモデルの長期記憶を実現する。 • 従来のTransformerはシーケンスの長さに伴う計算コストが高く、スケーラビリティに制限がある。 • TitansはRNNの速度とTransformerの精度を組み合わせた新しいアーキテクチャ。 • MIRASはTitansの理論的枠組みで、リアルタイムでの適応を可能にする。 • Titansの長期記憶モジュールは、深層ニューラルネットワークとして機能し、情報を要約しつつ重要な関係を保持する。 • サプライズメトリックを用いて、モデルが新しい情報をどのように記憶するかを決定する。

本記事では、機械音声知能を測定するための新しいオープンソースプラットフォーム「Massive Sound Embedding Benchmark(MSEB)」について説明しています。MSEBは、音声アシスタントや自律エージェントなどのシステムが自然に振る舞うために必要な8つの音響能力(転写、分類、検索、推論、セグメンテーション、クラスタリング、再ランキング、再構成)を統一的に評価するための基準を提供します。MSEBは、実世界のシナリオに基づいた多様なデータセットを含み、特に「Simple Voice Questions(SVQ)」データセットは177,352の短い音声クエリを収録しています。MSEBは、音声理解モデルの次世代開発を促進するためのフレームワークを提供し、現在の音声表現が普遍的ではないことを示す初期実験結果も報告しています。 • MSEBは機械音声知能を測定するためのオープンソースプラットフォームである。 • 8つの音響能力を統一的に評価する基準を提供する。 • 多様なデータセットを含み、特にSVQデータセットは177,352の音声クエリを収録している。 • 音声理解モデルの次世代開発を促進するためのフレームワークを提供する。 • 現在の音声表現には大きな改善の余地があることが示された。

この記事では、電気自動車(EV)の充電ポートの利用可能性を予測するためのシンプルなAIモデルについて説明しています。このモデルは、特定の充電ステーションでのポートの利用可能性を、現在の時刻から数分後に予測することができ、EVドライバーが効率的に旅行を計画し、充電ステーションでの待機時間を最小限に抑えるのに役立ちます。EVの普及が進む中、信頼性の高い充電インフラの構築が求められています。記事では、充電ステーションをナビゲーションルートに統合することで、EVドライバーの「航続距離不安」を軽減するアプローチが紹介されています。モデルは、シンプルな線形回帰アプローチに基づいており、リアルタイムの利用可能データを使用してトレーニングされています。特に、時間帯を特徴として扱い、各時間帯のポートの占有率の変化を予測するための重みを学習します。 • EV充電ポートの利用可能性を予測するAIモデルを開発した。 • モデルは、特定の充電ステーションでのポートの利用可能性を数分後に予測する。 • 充電ステーションをナビゲーションルートに統合することで、航続距離不安を軽減する。 • シンプルな線形回帰アプローチを使用し、リアルタイムのデータでトレーニングされた。 • 時間帯を特徴として扱い、各時間帯のポートの占有率の変化を予測するための重みを学習する。

本記事では、リアルタイム音声から音声への翻訳(S2ST)モデルを紹介しています。このモデルは、元の話者の声でリアルタイム翻訳を実現し、わずか2秒の遅延でコミュニケーションを可能にします。従来のS2STシステムは4〜5秒の遅延があり、エラーが蓄積しやすく、個性が欠けていました。新しいエンドツーエンドのS2STモデルは、ストリーミングフレームワークを活用し、時間同期データでのトレーニングにより遅延を大幅に削減しています。また、スケーラブルなデータ取得パイプラインを導入し、より多くの言語に対応できるようにしています。この技術は、リアルタイムでの使用ケースにおいて効果を示しています。 • リアルタイム音声翻訳の遅延を2秒に短縮 • 従来のシステムの4〜5秒の遅延を解消 • エンドツーエンドのモデルにより個性を持った翻訳を実現 • スケーラブルなデータ取得パイプラインを構築 • 音声ストリーミングに特化した機械学習アーキテクチャを導入

本記事では、Generative UIの新しい実装について紹介しています。この技術により、AIモデルはユーザーのプロンプトに応じて、没入型の視覚体験やインタラクティブなツール、シミュレーションをリアルタイムで生成することが可能になります。現在、GeminiアプリとGoogle検索のAIモードで展開されており、ユーザーの質問や指示に基づいて完全にカスタマイズされたインターフェースを提供します。従来の静的なインターフェースとは異なり、Generative UIは動的に設計され、ユーザーのニーズに応じた体験を提供します。実験的な機能として、Geminiアプリではダイナミックビューとビジュアルレイアウトが導入されており、これによりユーザーはインタラクティブに学んだり、遊んだり、探求したりすることができます。 • AIモデルがプロンプトに応じて没入型の視覚体験を生成する。 • Generative UIは、ユーザーのニーズに応じたカスタマイズされたインターフェースを提供する。 • Geminiアプリでのダイナミックビューとビジュアルレイアウトの実験が行われている。 • ユーザーはシンプルな質問から複雑な指示まで、様々なプロンプトに対してインタラクティブな応答を得られる。 • 従来の静的インターフェースに比べ、ユーザーからの評価が高い。

Google Quantum AIの研究者たちは、量子コンピュータが従来のコンピュータでは解決できない最適化問題を解決できる可能性を示す新しい理論的研究を発表しました。彼らは、Decoded Quantum Interferometry(DQI)と呼ばれる効率的な量子アルゴリズムを紹介し、量子力学の波の性質を利用して、古典的なコンピュータでは非常に難しい近似解に収束する干渉パターンを生成します。しかし、この干渉パターンを構築するためには、デコーディングと呼ばれる別の難しい計算問題を解決する必要があります。特定の最適化問題に対して、関連するデコーディング問題が強力なアルゴリズムによって解決可能であることが発見されました。最終的に、DQIアルゴリズムを使用することで、量子コンピュータは古典的に困難な最適化問題を解決できる可能性があります。 • 量子コンピュータが従来のコンピュータでは解決できない最適化問題を解決できる可能性がある。 • Decoded Quantum Interferometry(DQI)という新しい量子アルゴリズムを提案。 • DQIは量子力学の波の性質を利用して干渉パターンを生成し、近似解に収束する。 • 干渉パターンを構築するためにはデコーディング問題を解決する必要がある。 • 特定の最適化問題に対して、デコーディング問題が強力なアルゴリズムで解決可能であることが発見された。 • DQIアルゴリズムを使用することで、量子コンピュータは古典的に困難な最適化問題を解決できる。

JAX-Privacy 1.0は、JAXライブラリ上で動作する差分プライバシー機械学習のためのツールキットです。AIモデルの精度はデータの質に依存しており、個人のプライバシーを保護しながら大規模な高品質データセットを使用する必要があります。JAXは高性能な数値計算ライブラリで、複雑なモデルの効率的な構築とトレーニングを可能にします。JAX-Privacyは、研究者や開発者が大規模データセットで深層学習モデルをトレーニングするための差分プライバシーアルゴリズムを迅速かつ効率的に実装できるように設計されています。新バージョンでは、最新の研究成果を統合し、モジュール性を重視して再設計されており、最先端のDPアルゴリズムとJAXのスケーラビリティを組み合わせたDPトレーニングパイプラインの構築が容易になっています。 • JAX-Privacyは、JAXライブラリ上で動作する差分プライバシー機械学習のためのツールキットである。 • AIモデルの精度はデータの質に依存し、個人のプライバシーを保護しながらデータを使用する必要がある。 • JAXは高性能な数値計算ライブラリで、複雑なモデルの効率的な構築とトレーニングを可能にする。 • JAX-Privacyは、研究者が大規模データセットで深層学習モデルをトレーニングするための差分プライバシーアルゴリズムを迅速に実装できる。 • 新バージョンでは、最新の研究成果を統合し、DPトレーニングパイプラインの構築が容易になった。

Nested Learningは、機械学習における新しいアプローチで、モデルを小さな最適化問題の集合として捉え、各問題が独自の内部ワークフローを持つことで「破滅的忘却」の問題を軽減または回避することを目指しています。従来の手法では、モデルのアーキテクチャと最適化アルゴリズムを別々に扱っていましたが、Nested Learningではこれらを統合し、相互に関連する多層の学習問題として最適化します。この新しい視点により、より深い計算深度を持つ学習コンポーネントを設計でき、言語モデリングにおいて優れた性能を発揮し、長期的な記憶管理を改善することが示されています。 • Nested Learningは、機械学習における破滅的忘却を軽減する新しいアプローチである。 • モデルを小さな最適化問題の集合として捉え、各問題が独自の内部ワークフローを持つ。 • 従来の手法ではアーキテクチャと最適化アルゴリズムを別々に扱っていたが、Nested Learningでは統合して最適化する。 • このアプローチにより、より深い計算深度を持つ学習コンポーネントを設計できる。 • 言語モデリングにおいて優れた性能を示し、長期的な記憶管理を改善する。

DS-STARは、データサイエンスのさまざまなタスクを自動化する最先端のエージェントであり、統計分析から可視化、データ処理まで幅広く対応します。このエージェントは、DABStepベンチマークでの優れたパフォーマンスを示しています。データサイエンスは、膨大なデータを意味のある洞察に変換する重要な分野ですが、プロセスは複雑で専門知識を必要とします。DS-STARは、自然言語の質問を実行可能なコードに変換する自律的なデータサイエンスエージェントを目指しています。DS-STARは、(1)さまざまなデータ形式から文脈を自動的に抽出するデータファイル分析モジュール、(2)各ステップの計画の十分性を評価するLLMベースの検証ステージ、(3)フィードバックに基づいて初期計画を反復的に洗練するプロセスを導入しています。これにより、DS-STARは複雑な分析を行い、複数のデータソースから検証可能な洞察を引き出すことができます。 • DS-STARはデータサイエンスのタスクを自動化するエージェントである。 • 統計分析、可視化、データ処理など、さまざまなデータ形式に対応。 • DABStepベンチマークでの優れたパフォーマンスを示す。 • データファイル分析モジュールが多様なデータ形式から文脈を抽出。 • LLMベースの検証ステージが計画の十分性を評価。 • フィードバックに基づく反復的な計画プロセスを採用。 • 複数のデータソースからの検証可能な洞察を提供。

この記事では、AIを活用した初の深層学習ベンチマーク「ForestCast」を紹介し、森林伐採リスクの予測に関する新たなアプローチを提案しています。森林は気候や生態系において重要な役割を果たしていますが、世界中で急速に失われています。従来の手法は過去のデータに基づいていましたが、ForestCastは衛星データを用いて未来のリスクを予測することを目指しています。この新しいアプローチは、地域に依存せず、将来的にデータが更新されても適用可能です。記事では、森林伐採の予測が難しい理由や、従来の手法の限界についても触れています。最終的に、すべてのデータを公開し、コミュニティがこの研究を再現し、発展させることを目指しています。 • 森林伐採リスクの予測に関する新しい深層学習ベンチマーク「ForestCast」を発表 • 従来の手法は過去のデータに依存していたが、未来のリスクを予測することが可能に • 衛星データを用いた純粋なアプローチで、地域に依存せず、将来的にデータが更新可能 • 従来の手法は入力マップが不完全で、地域ごとに別々に組み立てる必要があった • 新しいアプローチは、精度が向上し、再現性が高い • 森林伐採の予測が難しい理由として、経済的、政治的、環境的要因の複雑さを挙げている • すべてのデータを公開し、コミュニティが研究を再現しやすくすることを目指している

この記事では、太陽光発電の衛星コンステレーションを用いたスケーラブルなAIインフラシステムの設計について探求しています。プロジェクトSuncatcherは、TPUを搭載した衛星が自由空間光リンクで接続され、宇宙での機械学習計算を拡張することを目指しています。太陽は地球上の電力生産の100兆倍以上のエネルギーを放出し、適切な軌道では太陽光パネルが地上の8倍の生産性を持つことができます。このシステムは、ネットワーク化された衛星のコンステレーションで構成され、データセンター規模のインターサテライトリンクを実現するための技術的課題に取り組んでいます。特に、数十テラビット毎秒の通信を可能にするために、衛星を非常に近いフォーメーションで飛行させる必要があります。初期の研究成果は、800 Gbpsの双方向伝送を達成したことを示しています。 • 太陽光発電の衛星コンステレーションを用いたAIインフラの設計 • TPUを搭載した衛星が自由空間光リンクで接続される • 太陽は地球上の電力生産の100兆倍以上のエネルギーを放出 • 衛星はデータセンター規模のインターサテライトリンクを実現する必要がある • 数十テラビット毎秒の通信を可能にするため、衛星を近いフォーメーションで飛行させる • 初期の研究で800 Gbpsの双方向伝送を達成した

この記事では、Google Researchが発表した最新の科学的ブレークスルーと、それらがどのようにAIツールやプラットフォームによって革新を加速しているかについて述べています。特に、Google Earth AI、DeepSomatic、Quantum Echoesの3つのブレークスルーが強調されており、これらは地球科学、ゲノム学、量子コンピューティングの分野での進展を示しています。Earth AIは、地球上の重要な課題に対処するための地理空間AIモデルの集まりであり、ユーザーに前例のないレベルの理解を提供します。DeepSomaticは、がん治療のための精密医療を目指したAIツールであり、科学コミュニティや医療従事者を支援します。これらの研究は、実世界のソリューションを加速し、研究と実世界の影響との間の強力な循環関係を形成しています。 • Google Researchが最新の科学的ブレークスルーを発表した。 • Earth AIは地理空間AIモデルを用いて、地球上の重要な課題に対処する。 • DeepSomaticはがん治療のための精密医療を目指したAIツールである。 • AIツールが研究と実世界の影響を加速する循環関係を形成している。 • Google Earth AIは、ユーザーが複雑な質問をし、平易な言葉で回答を得ることを可能にする。

この記事では、機密性の高いフェデレーテッドアナリティクス技術を活用して、デバイス上の生成AI機能に関する洞察を得る方法について詳述しています。特に、個々のデータが検査されず、集約された洞察が匿名であることを保証する新しい「証明可能なプライベートインサイト(PPI)」システムを紹介しています。このシステムは、大規模言語モデル(LLM)、差分プライバシー(DP)、および信頼できる実行環境(TEE)を利用して、非構造化データを分析します。具体的には、ユーザーのデバイスが分析のためにアップロードするデータを暗号化し、サーバー側でのプライバシーを保護しながら処理を行います。GoogleのRecorderアプリケーションにおいて、Gemmaモデルを使用してRecorderの使用状況に関する洞察を提供することが実施されています。また、外部コミュニティが主張を検証できるように、プライバシーを保護する洞察をオープンソースとして公開しています。 • 機密性の高いフェデレーテッドアナリティクス技術を使用して、デバイス上の生成AI機能に関する洞察を得ることができる。 • 新しい証明可能なプライベートインサイト(PPI)システムを導入し、個々のデータが検査されず、集約された洞察が匿名であることを保証。 • 大規模言語モデル(LLM)、差分プライバシー(DP)、信頼できる実行環境(TEE)を活用して非構造化データを分析。 • ユーザーのデバイスが分析のためにアップロードするデータを暗号化し、プライバシーを保護しながら処理を行う。 • GoogleのRecorderアプリケーションでGemmaモデルを使用して、Recorderの使用状況に関する洞察を提供。 • プライバシーを保護する洞察をオープンソースとして公開し、外部コミュニティが検証できるようにしている。

StreetReaderAIは、文脈に応じたリアルタイムAIを使用して、ストリートビューをアクセシブルにする新しいプロトタイプです。このシステムは、視覚障害者や低視力者がGoogleストリートビューの2200億以上の画像をよりアクセスしやすくすることを目指しています。StreetReaderAIは、周囲の道路や交差点、場所のリアルタイムで生成された説明を提供し、音声コマンドやキーボードショートカットを使用してパノラマ画像間を移動できます。ユーザーは、音声インターフェースを通じて周囲を探索し、現在の方位や近くのランドマークについての情報を得ることができます。AI DescriberとAI Chatという2つのAIサブシステムが、ユーザーの現在地に基づいた情報を提供し、インタラクティブな会話を可能にします。 • 視覚障害者向けにストリートビューをアクセシブルにすることを目的としている。 • リアルタイムAIによる周囲の道路や場所の説明を提供。 • 音声コマンドやキーボードショートカットでのナビゲーションが可能。 • ユーザーは音声インターフェースを通じて周囲を探索できる。 • AI DescriberとAI Chatの2つのAIサブシステムが情報を提供。

この記事では、Googleが開発中のパーソナルヘルスコーチについて説明しています。このコーチは、Geminiモデルを活用して、科学に基づいたパーソナライズされたコーチングを提供します。従来の健康管理アプリは断片的で一般的な情報しか提供せず、ユーザーが専門家とつながる手助けをしないことが多いですが、この新しいコーチは、睡眠、フィットネス、健康に関するプロアクティブなインサイトを提供し、行動科学に基づいた個別のガイダンスを行います。ユーザーは、Fitbitデータへのアクセスを許可することで、パーソナライズされたインサイトを受け取ることができます。コーチは、ユーザーの生理データを分析し、個別のフィットネスプランを生成するために、複数のエージェントを活用しています。 • 従来の健康管理アプリは断片的で一般的な情報しか提供しない問題を解決する。 • Geminiモデルを使用して、科学に基づいたパーソナライズされたコーチングを提供する。 • ユーザーのFitbitデータを基に、睡眠やフィットネスに関するプロアクティブなインサイトを提供する。 • 行動科学に基づいた個別のガイダンスを行い、持続可能な習慣を構築するための計画を提供する。 • 複数のエージェントを活用して、ユーザーの生理データを分析し、個別のフィットネスプランを生成する。
Google Earth AIは、地理空間AIモデルと推論エージェントのファミリーであり、ユーザーに実世界の理解に基づいた実用的な洞察を提供します。Googleは、衛星画像を分析してMapsの正確性を保ち、Searchユーザーに最新の天候や自然災害の警告を提供するためにAIモデルを開発してきました。Google Earth AIは、複雑な質問に対する回答を可能にするために、強力な基盤モデルと地理空間推論エージェントを組み合わせています。このエージェントは、複雑な質問を多段階の計画に分解し、基盤モデルを呼び出して実行し、結果を統合して全体的な回答を提供します。新たに導入されたImageryとPopulationの基盤モデルは、衛星画像分析を簡素化し、迅速かつ正確な回答を提供します。これにより、ユーザーは自然言語でのクエリを通じて、例えば「洪水後の画像で全ての洪水した道路を見つける」といった質問が可能になります。 • Google Earth AIは、地理空間AIモデルと推論エージェントを提供し、実世界の理解に基づいた洞察を提供する。 • 複雑な質問に対する回答を可能にするために、基盤モデルと地理空間推論エージェントを組み合わせている。 • 新しいImageryとPopulationの基盤モデルは、衛星画像分析を簡素化し、迅速かつ正確な回答を提供する。 • ユーザーは自然言語でのクエリを通じて、特定の情報を迅速に取得できる。 • 新しいモデルは、複数の公的地球観測ベンチマークで最先端の結果を達成している。

本記事では、Google Quantum AIの研究者が発表した新しい量子計算タスク「Out-of-Time-Order Correlators(OTOCs)」について紹介しています。この研究は、実証可能な量子優位性を示し、核磁気共鳴(NMR)におけるハミルトニアン学習などの現実の問題を解決する道を開くものです。量子系におけるカオスの特性を利用し、量子エコーアルゴリズムを用いてOTOCを測定する手法を実験的に示しました。OTOCは、量子ダイナミクスがカオス的になる様子を記述する新しい観測量であり、異なる量子コンピュータで実行しても同じ結果が得られるため、実用的な応用が期待されます。実験では、103量子ビットを用いて、前進および後退の進化を行い、カオス的な状態を生成しました。 • 量子計算における新しいタスクOTOCの導入 • 実証可能な量子優位性の実現 • 量子エコーアルゴリズムの実験的デモ • OTOCは量子ダイナミクスのカオス性を記述する新しい観測量 • 異なる量子コンピュータで同じ結果が得られるため実用性が高い • 103量子ビットを用いた実験でカオス的状態を生成

この記事では、差分プライバシーを利用した合成写真アルバムの生成手法を紹介しています。この手法は、中間的なテキスト表現を使用し、階層的にアルバムを生成します。差分プライバシーは、データセット内の個人情報を保護するための強力な手段であり、生成AIモデルを用いることで、個別の分析手法を変更することなく、プライベートな合成データセットを作成できます。具体的には、元のデータセットに基づいて、AIモデルを用いてアルバムの要約と各写真の詳細なキャプションを生成し、テーマの一貫性を保ちながら合成アルバムを作成します。この方法により、複雑なデータを扱う際の課題を解決し、効果的な分析やモデリングが可能になります。 • 差分プライバシーを利用した合成写真アルバムの生成手法を提案 • 中間的なテキスト表現を使用し、階層的にデータを生成 • AIモデルを用いてアルバムの要約と各写真のキャプションを生成 • テーマの一貫性を保ちながら合成アルバムを作成 • プライベートな合成データセットを生成することで、分析手法の簡素化を実現

この記事では、GoogleのGeminiモデルがどのようにして高精度の天文学アシスタントに変身し、超新星などの宇宙イベントを分類できるかを示しています。Geminiは、各調査ごとにわずか15の注釈付き例から学習し、3つのデータセットで93%の精度を達成しました。従来の機械学習モデルは「ブラックボックス」として機能し、結果に対する説明を提供しませんでしたが、Geminiはその理由を平易な言葉で説明することができます。少数の例から学ぶ手法を用い、各調査に対して15の注釈付き例と簡潔な指示を提供することで、宇宙イベントを正確に分類し説明する能力を獲得しました。 • GoogleのGeminiモデルは、宇宙イベントを高精度で分類し、その理由を説明できる。 • 93%の精度を達成するために、各調査ごとに15の注釈付き例を使用した。 • 従来のモデルは結果を説明しないが、Geminiは平易な言葉でその理由を説明する。 • 少数の例から学ぶ手法(few-shot learning)を採用し、効率的に学習を行った。 • 異なる解像度やピクセルスケールを持つ複数の天文調査からのデータを扱うことができる。

この記事では、LAVAという新しいスケジューリングアルゴリズムを紹介し、クラウドデータセンターにおける仮想マシン(VM)のリソース効率を最適化する方法を説明しています。LAVAは、VMの実際の寿命を継続的に再予測し、適応することで、リソースの無駄を減らします。VMの寿命は予測が難しく、短命のVMが多く存在する一方で、長命のVMがリソースを多く消費するため、効率的な配置が求められます。LAVAは、非侵襲的寿命認識スコアリング(NILAS)、寿命認識VM割り当て(LAVA)、寿命認識再スケジューリング(LARS)の3つのアルゴリズムを用いて、VMを物理サーバーに効率的に配置するための解決策を提供します。これにより、リソースのストランディングを防ぎ、システムの更新やリソース集約型VMのプロビジョニングに必要な空きホストを確保します。 • LAVAはVMの実際の寿命を継続的に再予測し、リソース効率を最適化するスケジューリングアルゴリズムである。 • VMの寿命は予測が難しく、短命のVMが多く、長命のVMがリソースを多く消費するため、効率的な配置が重要である。 • LAVAはNILAS、LAVA、LARSの3つのアルゴリズムを使用して、VMを物理サーバーに効率的に配置する。 • このシステムは、VMの寿命を一度の予測に依存せず、実行中に予測を自動的に更新する。 • リソースのストランディングを防ぎ、システムの更新やリソース集約型VMのプロビジョニングに必要な空きホストを確保する。

DeepSomaticは、腫瘍の遺伝子配列における癌関連の変異を特定するためのAI駆動ツールです。癌は遺伝的な病気であり、腫瘍細胞の遺伝子変異を特定することは治療計画を立てる上で重要です。DeepSomaticは、畳み込みニューラルネットワークを使用して、腫瘍細胞の遺伝子変異をより正確に特定します。このツールは、主要なシーケンシングプラットフォームからのデータに対応し、異なるサンプル処理のタイプにも適応可能です。また、トレーニングに含まれていない癌タイプにも学習を拡張できます。Google Researchは、癌の理解を深め、治療法を開発するためにAI技術を活用しており、DeepSomaticはその一環として提供されています。 • DeepSomaticは腫瘍の遺伝子変異を特定するAIツールである。 • 癌は遺伝的な病気であり、遺伝子変異の特定が治療計画に重要である。 • DeepSomaticは畳み込みニューラルネットワークを使用して、腫瘍細胞の変異を正確に特定する。 • このツールは主要なシーケンシングプラットフォームに対応し、異なるサンプル処理にも適応可能。 • DeepSomaticは、トレーニングに含まれていない癌タイプにも学習を拡張できる。 • Google Researchは癌研究を進めるためにAI技術を活用している。

Coral NPUは、低消費電力のエッジAIデバイス向けに設計されたフルスタックのオープンソースプラットフォームです。このプラットフォームは、パフォーマンス、断片化、プライバシーの課題を解決することを目的としています。AIが私たちの生活を支援するためには、クラウドから個人のデバイスに埋め込まれる必要がありますが、これにはいくつかの重要な問題があります。まず、複雑な機械学習モデルはエッジデバイスの限られたリソースを超えるため、パフォーマンスのギャップが生じます。次に、異なるプロセッサ向けにモデルを最適化することが難しく、断片化が進みます。最後に、個人データのプライバシーとセキュリティが重要です。Coral NPUは、これらの課題に対処するために、AIファーストのハードウェアアーキテクチャを提供し、開発者が効率的なエッジAIデバイスを構築できるようにします。 • エッジAIデバイスのパフォーマンス、断片化、プライバシーの課題を解決するプラットフォーム • AIを個人デバイスに埋め込む必要性 • 複雑な機械学習モデルがエッジデバイスのリソースを超える問題 • 異なるプロセッサ向けのモデル最適化の難しさ • 個人データのプライバシーとセキュリティの重要性 • AIファーストのハードウェアアーキテクチャを提供 • 開発者が効率的なエッジAIデバイスを構築するためのツールを提供

XR Blocksは、AIと拡張現実(XR)を組み合わせた没入型体験を開発するためのオープンソースフレームワークです。このフレームワークは、AIとXRのエコシステム間のギャップを埋めることを目的としており、ユーザー、世界、インターフェース、AI、エージェントのためのモジュール式アーキテクチャを提供します。XR Blocksは、WebXR、threejs、LiteRT、Geminiなどの技術を基盤にしており、XRクリエイターが迅速にプロトタイプを作成できるように設計されています。設計原則としては、シンプルさと可読性、クリエイター体験の優先、実用主義が挙げられます。これにより、開発者は複雑なロジックを明示的に理解しやすくし、ユーザー体験に集中できるようになります。XR Blocksは、デスクトップシミュレーターやAndroid XRデバイスでのリアルタイムAI + XRアプリケーションのプロトタイピングを加速します。 • AIとXRのエコシステム間のギャップを埋めることを目的としたオープンソースフレームワークである。 • モジュール式アーキテクチャを提供し、ユーザー、世界、インターフェース、AI、エージェントのためのコンポーネントを持つ。 • WebXR、threejs、LiteRT、Geminiなどの技術を使用して、XRクリエイターの参入障壁を下げる。 • シンプルさと可読性を重視し、開発者が高レベルの体験を記述できるようにする。 • クリエイターがユーザー体験に集中できるように、低レベルの実装から解放することを目指す。 • デスクトップとAndroid XRデバイスの両方で動作するシンプルで適応可能なアーキテクチャを採用している。

この記事では、Google Researchが開発した新しい音声検索エンジン「Speech-to-Retrieval (S2R)」について説明しています。従来の音声検索は、自動音声認識(ASR)を使用して音声入力をテキストに変換し、そのテキストを基に検索を行っていましたが、この方法では音声認識の誤りが検索結果に影響を与える可能性があります。S2Rは、音声クエリから直接情報を解釈し、テキスト変換を経ずに情報を取得する技術であり、音声検索の質を向上させることを目指しています。また、S2Rの性能を評価するために、17の異なる言語と26の地域で録音された短い音声質問のデータセット「Simple Voice Questions (SVQ)」をオープンソース化しています。 • 従来の音声検索はASRを使用し、音声をテキストに変換してから検索を行うが、誤認識が結果に影響を与える可能性がある。 • S2Rは音声から直接情報を取得し、テキスト変換を省略することで、検索の精度を向上させる。 • 音声検索の質の向上を目指し、S2Rは「何が言われたか」ではなく「何の情報が求められているか」に焦点を当てている。 • SVQデータセットは、S2Rの性能評価に使用され、オープンソースとして提供される。 • 音声認識の誤りが検索結果に与える影響を軽減することが期待されている。

この記事では、ユーザーの独自の好みに基づいてテキストから画像への出力を洗練させる強化学習エージェント「PASTA」を紹介しています。PASTAは、ユーザーとの複数回の対話を通じて、画像生成を協調的な会話に変えることを目指しています。従来のテキストから画像へのモデルは、単一のプロンプトでは個々の創造的意図を捉えるのが難しいため、ユーザーは試行錯誤を繰り返す必要がありました。PASTAは、7000以上の人間の評価者とのインタラクションから得たデータを用いて訓練され、ユーザーが満足する画像を一貫して生成することが示されました。PASTAの訓練には、実際の人間のフィードバックと大規模なユーザーシミュレーションを組み合わせた二段階の戦略が採用されています。ユーザーモデルは、ユーザーが好む画像の度合いを予測するユーティリティモデルと、提示された画像セットから選択する画像を予測する選択モデルで構成されています。 • PASTAはユーザーの好みに基づいて画像生成を洗練させる強化学習エージェントである。 • ユーザーとの対話を通じて、画像生成を協調的なプロセスに変えることを目指している。 • 7000以上の人間の評価者とのインタラクションデータを使用して訓練された。 • PASTAは、ユーザーが満足する画像を一貫して生成することができる。 • ユーザーシミュレーションを用いて、実際のユーザーからのフィードバックを補完する。 • ユーザーモデルは、好みを予測するユーティリティモデルと選択を予測する選択モデルから構成されている。

この記事では、AlphaEvolveというLLMベースのコーディングエージェントを用いて、組合せ構造を発見し、特定の最適化問題の近似解法の難しさを改善する方法について述べています。最近の研究では、AlphaEvolveがコードスニペットの集団を進化させ、成功したスニペットをより良い解決策に向けて変形させるフィードバックループを利用しています。このアプローチにより、複雑性理論の2つの領域で新しい結果が得られました。1つは、MAX-4-CUT問題の近似解法の限界を改善すること、もう1つはランダムグラフの特性を証明する際の平均ケースの難しさの境界を厳密化することです。AIを用いた数学的研究は、文献の要約や新しい定理に向けた研究計画の策定、または証明の生成に利用されます。特に、AlphaEvolveを使用して自動的に検証可能な証明要素を生成することに焦点を当てています。 • AlphaEvolveを用いて組合せ構造を発見し、最適化問題の近似解法の難しさを改善する。 • フィードバックループを利用して、コードスニペットを進化させる。 • MAX-4-CUT問題の近似解法の限界を改善する結果を得た。 • ランダムグラフの特性を証明する際の平均ケースの難しさの境界を厳密化した。 • AIを用いた数学的研究は、文献要約や証明生成に利用される。

この記事では、Geminiに基づく「Wayfinding AI」エージェントの研究成果を紹介しています。このAIエージェントは、ユーザーが健康情報を見つける手助けをするために、積極的な会話ガイダンスや目標理解、個別化された会話を提供します。オンラインの健康情報はしばしば混乱を招き、個々の文脈に合った情報を見つけるのが難しいため、AIがこの情報をよりアクセスしやすく、個別化する可能性があります。従来のAIツールは受動的な「質問応答者」として機能することが多いですが、医療専門家のように、ユーザーのニーズを理解し、適切な情報を提供するためには、明確化の質問を積極的に行うことが重要です。研究では、163人の参加者を対象にした4つの混合手法のユーザー体験研究を通じて、AIエージェントがユーザーのニーズに対してより有用で関連性のある情報を提供できることが示されました。 • ユーザーが健康情報を見つける際の課題を解決するためのAIエージェントの設計 • AIエージェントが明確化の質問を積極的に行うことで、ユーザーのニーズをより良く理解できる • 163人の参加者を対象にした研究で、AIエージェントの有用性が向上したことを確認 • 従来のAIツールは受動的であり、医療専門家のような対話が必要 • ユーザーが健康に関する懸念を表現するのが難しいことが明らかになった • 明確化の質問がユーザーに自信を与え、より関連性のある文脈を提供する手助けをする

AfriMed-QAは、アフリカの健康に関する質問応答タスクのために開発された大規模なベンチマークデータセットであり、アフリカ各国の組織と協力して作成されました。このデータセットは、医療関連の質問に対する大規模言語モデル(LLM)の評価に使用され、約15,000の臨床的に多様な質問と回答、4,000以上の専門的な選択問題、1,200以上のオープンエンドの短答問題、10,000の消費者からの質問を含んでいます。LLMは、これらのデータセットに対する応答を人間の専門家の回答と比較し、評価されました。AfriMed-QAは、アフリカの医療における公平で効果的なLLMの開発を目指しており、地域特有の医療知識を反映した多様なベンチマークデータセットの必要性を強調しています。 • アフリカの健康に関する質問応答タスクのためのベンチマークデータセット • 約15,000の臨床的に多様な質問と回答を含む • 4,000以上の専門的な選択問題と1,200以上のオープンエンドの短答問題を収録 • 地域特有の医療知識を反映したデータセットの必要性 • LLMの応答を人間の専門家の回答と比較して評価 • データセットはオープンソースでコミュニティに提供されている

本記事では、時系列予測のための新しいアプローチを提案しています。このアプローチは、時系列ファウンデーションモデルを継続的に再訓練し、推論時にコンテキストの例から学習できるようにするものです。従来の方法では、各タスクに特化したモデルを構築する必要がありましたが、提案されたモデル「TimesFM」は、ゼロショット学習を用いてタスク特化の訓練なしで正確な予測を行うことができます。新たに導入された「In-Context Fine-Tuning」では、少数の例から学習する能力を持つモデルに変革され、ユーザーによる追加の複雑な訓練なしで、監視付きファインチューニングと同等の性能を発揮します。モデルは、異なるデータセットを混同しないように、学習可能な「共通セパレータトークン」を使用して、過去の例からのパターンを学び、現在の予測に応用します。 • 時系列予測の重要性と従来のモデル構築の課題を解決するアプローチを提案 • 新しいモデル「TimesFM」はゼロショット学習を用いており、タスク特化の訓練なしで予測が可能 • 「In-Context Fine-Tuning」により、少数の例から学習する能力を持つモデルに進化 • ユーザーによる追加の訓練なしで、監視付きファインチューニングと同等の性能を実現 • モデルは、異なるデータセットを混同しないために「共通セパレータトークン」を使用している

本記事では、Test-Time Diffusion Deep Researcher(TTD-DR)というフレームワークを紹介しています。TTD-DRは、Deep Researchエージェントを用いて、高品質な情報を取得しながら自身の草稿を作成・修正する手法です。このアプローチにより、長文の研究報告書作成や複雑な推論タスクにおいて新たな最先端の成果を達成しました。TTD-DRは、研究報告書の執筆を拡散プロセスとしてモデル化し、初期の雑な草稿を高品質な最終版に徐々に洗練させることを目指しています。具体的には、自己進化によるコンポーネントごとの最適化と、情報取得を用いたデノイジングによる報告書レベルの改良を行います。これにより、TTD-DRは報告書作成プロセスをより一貫性のあるものにし、各サイクルで報告書を改善することが可能です。 • TTD-DRは、Deep Researchエージェントを用いて草稿を作成・修正するフレームワークである。 • このアプローチは、長文の研究報告書作成や複雑な推論タスクで新たな最先端の成果を達成した。 • TTD-DRは、研究報告書の執筆を拡散プロセスとしてモデル化している。 • 自己進化によるコンポーネントごとの最適化と、情報取得を用いたデノイジングによる報告書レベルの改良を行う。 • このプロセスにより、報告書作成がより一貫性のあるものとなり、各サイクルで改善される。

この記事では、SLED(Self Logits Evolution Decoding)という新しいデコーディング戦略を紹介しています。この手法は、LLM(大規模言語モデル)の出力をモデルの内在的な知識と整合させることで、外部データや追加のファインチューニングなしに精度を向上させることを目的としています。LLMは時折、事実に基づかない主張を行う「幻覚」問題を抱えており、これは不完全または偏ったトレーニングデータや、あいまいな質問などが原因です。SLEDは、LLMのすべての層を使用してテキストを生成し、最終層だけに依存せずに出力を調整します。実験の結果、SLEDはさまざまなタスクやベンチマークで事実の正確性を一貫して改善することが示されました。さらに、他の事実性デコーディング手法と柔軟に統合できることも確認されています。 • LLMの幻覚問題を解決するための新しいデコーディング手法SLEDを提案 • SLEDは外部データやファインチューニングを必要とせず、モデルの内在的知識に基づいて出力を調整 • LLMのすべての層を使用してテキストを生成し、最終層だけに依存しない • 実験により、SLEDがさまざまなタスクで事実の正確性を向上させることが確認された • SLEDは他の事実性デコーディング手法と統合可能で、モデルの幻覚をさらに減少させることができる

この記事では、教育における生成AI(GenAI)を活用した新しい教科書の再構想について述べています。Googleの研究チームは、学習者が自分の学習体験を形作ることができるように、さまざまな形式や個別化された例を自動生成する方法を探求しています。新しいインタラクティブな体験「Learn Your Way」がGoogle Labsで提供されており、これにより学習者は多様な形式で教材を探索できるようになります。研究によると、「Learn Your Way」を使用した学生は、標準的なデジタルリーダーを使用した学生よりも保持テストで11ポイント高いスコアを記録しました。この記事では、学習体験を向上させるための二つの主要な柱、すなわち多様なコンテンツ表現の生成と個別化の基礎的なステップについて説明しています。 • 生成AIを用いて教科書の代替表現や個別化された例を自動生成する方法を探求している。 • 新しいインタラクティブ体験「Learn Your Way」がGoogle Labsで提供されている。 • 「Learn Your Way」を使用した学生は、標準的なデジタルリーダーを使用した学生よりも保持テストで11ポイント高いスコアを記録した。 • 学習者が選択できる多様な形式やモダリティを提供し、学習体験を強化する。 • 個別化された学習体験を提供するために、学習者の属性に応じて教育コンテンツを適応させる。

VaultGemmaは、差分プライバシーを用いてゼロからトレーニングされた最も能力の高い言語モデルです。AIが私たちの生活にますます統合される中、プライバシーを中心に構築することが重要です。差分プライバシーは、記憶を防ぐために調整されたノイズを追加することで、数学的に堅牢な解決策を提供しますが、LLMに適用する際にはトレードオフが生じます。これにより、トレーニングの安定性が低下し、バッチサイズと計算コストが大幅に増加します。新しい研究「差分プライバシー言語モデルのスケーリング法則」では、これらの複雑さを正確にモデル化する法則を確立しました。VaultGemmaは、1Bパラメータを持つオープンモデルで、Hugging FaceとKaggleで重みを公開し、プライベートAIの次世代開発を促進します。 • VaultGemmaは差分プライバシーを用いてトレーニングされた最も能力の高いLLMである。 • 差分プライバシーは、記憶を防ぐためにノイズを追加することでプライバシーを保護する。 • LLMにおける差分プライバシーの適用にはトレードオフがあり、トレーニングの安定性が低下する。 • 新しい研究により、計算、プライバシー、データの予算に基づく最適なトレーニング構成を導き出すことができる。 • VaultGemmaは1Bパラメータを持ち、Hugging FaceとKaggleで重みが公開されている。

この記事では、「スペキュレイティブカスケード」という新しいアプローチを紹介し、LLM(大規模言語モデル)の効率と計算コストを改善する方法を提案しています。この手法は、標準的なカスケードとスペキュレイティブデコーディングを組み合わせたもので、LLMの応答生成プロセスを迅速化し、コストを削減することを目指しています。カスケードは、小型の高速モデルを使用して、より大きく高価なモデルにタスクを渡すかどうかを判断することで、効率的なリソース配分を実現します。一方、スペキュレイティブデコーディングは、より小型のモデルが未来のトークンを予測し、それを大きなモデルで検証することで、応答生成の速度を向上させます。スペキュレイティブカスケードは、これらの手法の利点を組み合わせ、コストと品質のトレードオフを改善し、さまざまな言語タスクにおいて優れた結果を示しました。 • LLMの応答生成の効率とコストを改善する新しいアプローチ「スペキュレイティブカスケード」を提案 • カスケードは小型モデルを使用してコストを削減し、大型モデルにタスクを渡すか判断する • スペキュレイティブデコーディングは小型モデルが未来のトークンを予測し、大型モデルで検証する • スペキュレイティブカスケードは、コストと品質のトレードオフを改善し、より良い結果を提供 • GemmaとT5モデルを使用した実験で、標準的なカスケードやスペキュレイティブデコーディングと比較して優れた結果を示した

本記事では、NucleoBenchとAdaBeamという新しいアルゴリズムを用いた核酸配列設計のためのオープンソースソフトウェアベンチマークについて説明しています。核酸の設計は、特定の治療特性を持つDNAやRNAの配列を見つけることが重要であり、特にCRISPR遺伝子治療やmRNAワクチンの開発において重要です。NucleoBenchは、16の異なる生物学的課題に対して40万回以上の実験を行い、異なるアルゴリズムの性能を評価するための標準化されたフレームワークを提供します。これにより、AdaBeamというハイブリッド設計アルゴリズムが開発され、既存の手法よりも11のタスクで優れた性能を示しました。AdaBeamは、AIを活用して最適な配列を生成するための新しいアプローチを提供し、今後の生物学におけるAIの発展に寄与することが期待されています。 • 核酸配列設計の重要性と課題を説明 • NucleoBenchは、異なるアルゴリズムの性能を比較するための標準化されたベンチマーク • AdaBeamは、既存の手法よりも11のタスクで優れた性能を示す • AIを活用して最適な配列を生成する新しいアプローチを提供 • 400,000回以上の実験を通じて得られた洞察を基に開発された

この記事では、AIを活用した新しいシステムが科学者のために経験的ソフトウェアを作成する手助けをすることを紹介しています。このシステムは、明確に定義された問題と評価手段を入力として受け取り、コードの最適化を行う研究エンジンとして機能します。具体的には、遺伝学、公衆衛生、地理空間分析、神経科学、時系列予測、数値解析の6つの異なる分野において、専門家レベルのパフォーマンスを達成しています。従来のソフトウェアとは異なり、経験的ソフトウェアは事前に定義された品質スコアを最大化することを目的としており、スコア可能なタスクに対して効果的に対応します。システムは、プログラムの再現、最適化、既知の手法の再結合を通じて新しい研究アイデアを生成し、木構造探索を用いてソフトウェア候補を評価します。これにより、探索時間を数ヶ月から数日または数時間に短縮し、高品質な解決策を迅速に特定することが可能になります。 • AIシステムは科学者が経験的ソフトウェアを作成するのを支援する。 • システムは明確に定義された問題と評価手段を入力として受け取る。 • 遺伝学、公衆衛生、地理空間分析など6つの分野で専門家レベルのパフォーマンスを達成。 • 経験的ソフトウェアは事前に定義された品質スコアを最大化することを目的としている。 • システムはプログラムの再現、最適化、再結合を通じて新しい研究アイデアを生成。 • 木構造探索を用いてソフトウェア候補を評価し、探索時間を短縮。

この記事では、GoogleのAIモデルが医療教育においてどのように役立つかを探求しています。特に、医療専門職の教育におけるAIの活用が、2023年までに1100万人以上の医療従事者が不足するという予測に対処する手段として注目されています。2つの研究が紹介されており、1つ目は医療学生とAIチューターを用いた臨床推論のケーススタディで、AIツールが学習者に適応し、建設的なフィードバックを提供する能力が評価されています。2つ目は、LearnLMというGeminiベースのモデルが医療教育シナリオでの効果を定量的に評価したもので、医療教育者から高い評価を得ています。これらの研究は、AIが個別化された学習経路を拡張し、能力に基づくアプローチを補完する可能性を示しています。 • 医療専門職の教育におけるAIの活用が、医療従事者不足の問題に対処する手段として注目されている。 • AIツールは学習者に適応し、建設的なフィードバックを提供する能力が求められている。 • LearnLMはGeminiベースのモデルで、医療教育シナリオにおいて高い評価を得ている。 • 医療学習者のニーズを理解するために、UXリサーチと共同設計ワークショップが実施された。 • AIチューターは、臨床推論を支援するために設計され、学習者の個別の学習スタイルに適応することが期待されている。

本記事では、健康分野における言語モデルの評価のための新しい適応型評価フレームワークを提案しています。従来の評価方法は人間の専門家に依存しており、コストが高く、労力がかかり、スケーラブルではありません。提案されたフレームワークは、複雑な評価質問を単純な二項応答(はい/いいえ)に分解することで、評価の一貫性と効率を向上させることを目的としています。具体的には、適応型精密ブールルブリックを導入し、健康データを考慮した評価を行います。この方法は、メタボリックヘルスの領域で検証され、ユーザーの健康情報に基づくパーソナライズされた応答の精度を高めることが期待されています。 • 健康分野における言語モデルの評価は高コストで労力がかかる。 • 新しい適応型評価フレームワークを提案し、評価の効率と一貫性を向上させる。 • 複雑な評価質問を単純な二項応答に分解することで、評価の精度を高める。 • 適応型精密ブールルブリックを導入し、健康データを考慮した評価を行う。 • メタボリックヘルスの領域での検証を行い、パーソナライズされた応答の精度向上を目指す。

この記事では、YouTubeがモバイルデバイス上でリアルタイムの生成AIエフェクトを提供するための技術について詳述しています。大規模な生成モデルの能力を小型化し、特定のタスクに特化したモデルを作成することで、計算制限を克服しつつユーザーのアイデンティティを保つ方法を説明しています。具体的には、データのキュレーション、トレーニング、デバイス上のセットアップを含むパイプラインを構築し、20以上のリアルタイムエフェクトをYouTube Shortsのクリエイター向けに展開しました。高品質なデータセットを使用し、知識蒸留の手法を用いて、教師モデルから学生モデルへと効率的に学習させるプロセスを採用しています。最終的に、モバイルデバイスで動作する小型で高速なモデルを設計し、リアルタイムでの映像変換を実現しています。 • YouTubeはモバイルデバイスでリアルタイムの生成AIエフェクトを提供する技術を開発した。 • 大規模モデルの能力を小型化し、特定のタスクに特化したモデルを作成することで計算制限を克服した。 • 高品質なデータセットを使用し、性別、年齢、肌色の多様性を考慮したデータを構築した。 • 知識蒸留を用いて、教師モデルから学生モデルへと効率的に学習させる手法を採用した。 • モバイルデバイス向けに設計された小型で高速なUNetベースのモデルを使用している。

本記事では、ユーザープライバシーを保護するための新しいアルゴリズムを提案し、差分プライバシーに基づくパーティション選択の最先端を改善する方法を紹介しています。大規模なユーザーデータセットはAIや機械学習モデルの進展に不可欠ですが、データプライバシーのリスクも伴います。差分プライバシーを適用することで、個々のデータが特定のアイテムに寄与したかどうかを知られないようにしつつ、意味のあるアイテムのサブセットを安全に共有することが可能です。特に、並列アルゴリズムを用いることで、数百億のアイテムを含むデータセットを効率的に処理し、プライバシーを確保しながらもデータの有用性を損なわないことができます。最近の研究では、ICML2025で発表された「スケーラブルなプライベートパーティション選択に関する適応重み付け」を通じて、最適なプライバシーと有用性のトレードオフを実現する効率的なアルゴリズムを紹介しています。 • ユーザープライバシーを保護するための新しいアルゴリズムを提案 • 差分プライバシーに基づくパーティション選択の改善 • 大規模データセットのプライバシーリスクに対処 • 並列アルゴリズムを用いて数百億のアイテムを効率的に処理 • プライバシーを確保しつつデータの有用性を維持 • 最適なプライバシーと有用性のトレードオフを実現 • GitHubでのオープンソース化を通じて研究コミュニティの協力を促進

この記事では、プライバシーを保護した合成データ生成のための新しいアルゴリズムCTCL(Data Synthesis with ConTrollability and CLustering)を提案しています。このアルゴリズムは、リソースが制約されたAIアプリケーションでも利用可能で、ビリオン規模の大規模言語モデル(LLM)を微調整することなく、トピック情報に基づいて合成データを生成します。CTCLは、140百万パラメータの軽量モデルを使用し、プライベートドメインのトピック分布に合った合成データを生成します。従来のAug-PEアルゴリズムと異なり、追加のプライバシーコストなしで無限の合成データサンプルを生成できる点が特徴です。CTCLは多様なデータセットで評価され、特に強いプライバシー保証の下でベースラインを一貫して上回る性能を示しました。 • プライバシーを保護した合成データ生成の課題を解決する新しいアルゴリズムCTCLを提案 • CTCLは140百万パラメータの軽量モデルを使用し、リソース制約のあるアプリケーションでも実用的 • トピック情報に基づいて合成データを生成し、プライベートドメインのトピック分布にマッチさせる • 従来の方法に比べて追加のプライバシーコストなしで無限の合成データを生成可能 • 多様なデータセットでの評価により、強いプライバシー保証の下での性能向上が確認された

この記事では、医師中心の監視を可能にするために設計された診断AI「guardrailed-AMIE(g-AMIE)」について紹介しています。g-AMIEは、個別の医療アドバイスを提供することを禁止するガードレールを持ち、医師がレビューするための要約を生成します。従来のAMIEシステムは、患者訪問のテキストベースのシミュレーションで正確な医療アドバイスを提供できることが示されていますが、個々の患者の診断や治療計画は、ライセンスを持つ医療専門家によるレビューと承認が必要です。g-AMIEは、患者情報を対話形式で収集し、医師がレビューするための情報を生成します。これには、収集した情報の要約、提案された鑑別診断および管理計画、患者へのメッセージの草案が含まれます。g-AMIEのパフォーマンスは、看護師や医師助手と比較され、医師によるレビューの際に好まれる結果が得られました。 • g-AMIEは個別の医療アドバイスを提供せず、医師がレビューするための要約を生成する。 • 患者情報を対話形式で収集し、医師がレビューするための情報を生成する。 • g-AMIEは、提案された鑑別診断や管理計画を含む詳細な医療ノートを作成する。 • g-AMIEのパフォーマンスは、看護師や医師助手と比較して好まれる結果が得られた。 • 医師の監視を可能にするために、特別に設計されたウェブインターフェース「クリニシャンコックピット」を使用する。

この記事では、Google Adsのエンジニアリングマネージャーと研究科学者が提案する新しいアクティブラーニング手法について説明しています。この手法は、LLM(大規模言語モデル)のファインチューニングに必要なトレーニングデータを大幅に削減することができ、具体的には100,000から500未満のトレーニング例にまで減少させることが可能です。特に、広告コンテンツの安全性を評価するための高品質なデータを効率的にキュレーションするプロセスが紹介されています。このプロセスでは、初期モデルが広告をラベル付けし、その後、ラベルのクラスタリングを行い、最も情報価値の高い例を特定します。最終的に、専門家によるラベル付けを用いてモデルをファインチューニングし、モデルと人間の専門家との整合性を最大65%向上させることができるとされています。 • 新しいアクティブラーニング手法により、LLMのファインチューニングに必要なトレーニングデータを大幅に削減できる。 • トレーニングデータの量を100,000から500未満に減少させることが可能。 • 広告コンテンツの安全性を評価するための高品質なデータを効率的にキュレーションするプロセスを提案。 • 初期モデルが広告をラベル付けし、ラベルのクラスタリングを行うことで、最も情報価値の高い例を特定。 • 専門家によるラベル付けを用いてモデルをファインチューニングし、モデルと人間の専門家との整合性を最大65%向上。

この記事では、ウェアラブルデータと日常的な血液検査を活用して、インスリン抵抗性(IR)を効果的に予測する新しい手法を提案しています。この手法は、2型糖尿病のリスクスクリーニングを早期に行うためのスケーラブルでアクセス可能なアプローチを提供します。2型糖尿病は世界中で数億人に影響を及ぼしており、その前兆としてインスリン抵抗性が重要です。従来のIR測定方法は侵襲的で高価なため、早期発見が困難でした。そこで、ウェアラブルデバイスからのデータ(安静時心拍数、歩数、睡眠パターン)と日常的な血液検査(空腹時血糖、脂質パネル)を用いてIRリスクを推定する機械学習モデルを開発しました。このアプローチは、特に肥満や運動不足の高リスク個人において強いパフォーマンスを示しました。また、インスリン抵抗性を理解するためのエージェントも紹介されており、個別の推奨を安全に行う手助けをします。 • インスリン抵抗性(IR)の早期発見が重要であること • 従来のIR測定方法は侵襲的で高価であるため、早期発見が困難 • ウェアラブルデータと日常的な血液検査を用いた新しい予測手法を提案 • 機械学習モデルがIRリスクを推定する能力を持つ • 特に肥満や運動不足の高リスク個人において強いパフォーマンスを示す • インスリン抵抗性を理解するためのエージェントを導入 • この研究は情報提供と研究目的のために設計されている

DeepPolisherは、ゲノムアセンブリの精度を大幅に向上させる新しい深層学習ツールで、特にヒトパンゲノムリファレンスの改善に寄与しています。ゲノムは塩基(A、T、G、C)で構成されており、DNAシーケンサーはこれを読み取りますが、正確かつ大規模に行うことは困難です。DeepPolisherは、ゲノムアセンブリのエラーを50%削減し、挿入または削除エラー(インデル)を70%削減します。この技術は、遺伝子の特定において重要であり、エラーが多いと診断プロセスで病因変異を見逃す可能性があります。DeepPolisherは、UCサンタクルーズゲノミクス研究所との共同開発により、オープンソースのゲノムアセンブリ手法として提案されています。 • DeepPolisherはゲノムアセンブリの精度を向上させる深層学習ツールである。 • エラーを50%削減し、インデルエラーを70%削減する。 • ヒトパンゲノムリファレンスの改善に寄与している。 • ゲノムの正確なアセンブリは遺伝子やタンパク質の特定に重要である。 • オープンソースの手法として、UCサンタクルーズゲノミクス研究所と共同開発された。

MLE-STARは、さまざまなデータモダリティにわたる機械学習タスクを自動化できる最先端の機械学習エンジニアリングエージェントです。従来の機械学習エンジニアは、モデルの構築に多くの反復実験とデータエンジニアリングを必要とし、これが作業の負担となっています。MLE-STARは、ウェブ検索を活用して適切なモデルを見つけ、特定のコードブロックを改善することで、タスクに特化したアプローチを採用します。これにより、Kaggleコンペティションの63%でメダルを獲得し、他の手法を大きく上回る成果を上げました。MLE-STARは、各MLコンポーネントの寄与を評価するアブレーションスタディを実施し、最もパフォーマンスに影響を与えるコードブロックを特定し、反復的に改善を行います。 • MLE-STARは機械学習タスクを自動化するエージェントである。 • 従来の手法は、既存のLLM知識に依存し、特定のアプローチを見逃すことがある。 • MLE-STARはウェブ検索を利用して初期モデルを生成し、特定のコードブロックを改善する。 • アブレーションスタディを通じて、各MLコンポーネントの寄与を評価する。 • Kaggleコンペティションで63%の成功率を誇る。

この記事では、言語モデルを用いたテキストからテキストへの回帰手法を提案し、数値予測問題を解決する方法を説明しています。大規模言語モデル(LLM)は、人間の好みや評価から学ぶことで改善されており、これにより会話型アシスタントの能力が向上しています。新たなアプローチとして、運用データを処理し、観測された数値結果を報酬信号として扱うことで、ソフトウェアインフラや産業プロセスのパフォーマンス予測が可能になります。提案された回帰言語モデル(RLM)は、入力の文字列表現を読み取り、数値を構造化されたテキスト文字列として出力します。この手法は、特徴エンジニアリングや正規化を回避し、新しいタスクへの少数ショット適応を可能にします。具体的には、GoogleのBorgシステムにおけるリソース効率の予測にRLMを適用し、オープンソースライブラリも提供されています。 • 言語モデルを用いたテキストからテキストへの回帰手法を提案 • 数値予測問題を解決するための新しいアプローチ • 運用データを処理し、観測された数値結果を報酬信号として利用 • 回帰言語モデル(RLM)は入力を文字列として読み取り、数値を出力 • 特徴エンジニアリングや正規化を回避できる • 新しいタスクへの少数ショット適応が可能 • GoogleのBorgシステムにおけるリソース効率の予測に適用 • オープンソースライブラリを提供

SensorLMは、ウェアラブルセンサーの信号と自然言語を結びつける新しいセンサー・ランゲージ基盤モデルのファミリーです。60万時間以上のデータを用いて訓練され、個人の健康や活動に関する深い理解を提供します。ウェアラブルデバイスは心拍数や歩数、フィットネス、睡眠などのデータを継続的に記録しますが、これらの生データの背後にある文脈が欠けていることが多く、デバイスの潜在能力を引き出す障壁となっています。SensorLMは、103,000人以上から収集した2.5M人日分のデータを用いて、センサー信号と人間の言語の複雑な関係を学習します。新しい能力として、ゼロショットセンサー理解、センサーとテキストの整合性、少数ショット学習、センサーキャプション生成が可能です。これにより、センサーからの情報を自然言語で意味のある記述に変換することができます。 • ウェアラブルデバイスからの生データとその文脈のギャップを解消する必要がある。 • SensorLMは、センサー信号と自然言語の関係を学習するためのモデルである。 • 103,000人以上からのデータを用いて、2.5M人日分のデータを収集した。 • 新しい階層的パイプラインを開発し、センサーから自動的に記述テキストを生成する。 • SensorLMは、ゼロショット理解や少数ショット学習などの新しい能力を提供する。

この記事では、プライバシーを保護する合成データを用いたフェデレーテッドラーニング(FL)が、モバイルアプリケーションにおける大規模言語モデル(LLM)と小規模言語モデル(LM)の両方の改善に寄与することが述べられています。特に、Gboardにおけるユーザーのタイピング体験を向上させるための実用的な応用が紹介されています。合成データは、ユーザーのインタラクションデータを模倣することで、プライバシーリスクを最小限に抑えつつモデルのトレーニングに利用されます。Gboardでは、小規模LMが基本機能を支え、大規模LMが高度な機能を提供しています。最近の研究では、プライバシーを保護する合成データの生成と利用が進展しており、FLと差分プライバシー(DP)を活用して、ユーザーデータのプライバシーを確保しながらモデルの適応が行われています。 • プライバシーを保護する合成データが、モバイルアプリケーションの言語モデルの改善に寄与する。 • Gboardにおけるユーザーのタイピング体験を向上させるための実用的な応用がある。 • 合成データはユーザーのインタラクションデータを模倣し、プライバシーリスクを最小限に抑える。 • 小規模LMは基本機能を、大規模LMは高度な機能を提供する。 • FLと差分プライバシーを活用して、ユーザーデータのプライバシーを確保しながらモデルの適応が行われている。

LSM-2は、Wearableセンサーからの不完全なデータを直接学習する新しい自己教師あり学習手法であるAdaptive and Inherited Masking(AIM)を導入します。この手法は、分類、回帰、生成タスクにおいて強力なパフォーマンスを発揮し、明示的な補完なしで機能します。ウェアラブルデバイスは、心拍信号や睡眠パターンなどの生理的および行動データを提供しますが、データのラベリングコストが高く、自己教師あり学習がこの制約を克服します。従来の手法は完全なデータを前提としていますが、AIMはデータの欠損を自然な現象として扱い、欠損部分を埋めるのではなく、直接学習します。これにより、LSM-2はセンサーの故障や時間的ウィンドウの削除があっても強力なパフォーマンスを維持します。 • Wearableセンサーからの不完全なデータを直接学習する手法を提案 • Adaptive and Inherited Masking(AIM)を用いて欠損データを自然な現象として扱う • 従来の補完手法に依存せず、データの欠損を学習に活用 • LSM-2は、以前のモデルLSM-1を改善し、強力なパフォーマンスを実現 • 欠損データがあってもパフォーマンスの劣化が少ない

この記事では、消費者向けの超広帯域(UWB)レーダーを用いた非接触型心拍数モニタリングの可能性について述べています。Googleの研究者たちは、UWB技術が既存のモバイルデバイスに搭載されていることを活かし、心拍数を測定する新しい手法を提案しています。これまでUWBは主に位置情報やデータ転送に利用されてきましたが、心拍数測定においてもその能力を活用できることが示されています。心拍数を非接触で測定する際の課題として、呼吸や体の動きによる影響が挙げられますが、UWBレーダーは高い空間分解能と時間分解能を持ち、これを克服することが可能です。新たに開発された手法は、FMCWレーダーから学んだ特徴をUWBレーダーに転送することで、心拍数の高精度な測定を実現しています。 • UWB技術を用いた非接触型心拍数モニタリングの研究 • FMCWレーダーからの特徴転送によるUWBレーダーの活用 • 心拍数測定における呼吸や体の動きの影響を克服する方法 • 高い空間分解能と時間分解能を持つUWBレーダーの特性 • 既存のモバイルデバイスに搭載されているUWB技術の利点

MedGemmaは、ヘルスAI開発のための最も強力なオープンモデルのコレクションであり、最近新たに発表されたマルチモーダルモデルを含んでいます。これらのモデルは、医療のワークフロー管理、患者コミュニケーション、診断および治療支援を向上させるために設計されています。特に、Health AI Developer Foundations(HAI-DEF)として知られる軽量オープンモデルのコレクションは、開発者がプライバシーやインフラを完全に制御できるようにしています。新たに追加されたMedGemma 27B Multimodalモデルは、複雑なマルチモーダルおよび縦断的電子健康記録の解釈をサポートし、MedSigLIPは分類や検索タスクのための軽量な画像およびテキストエンコーダーです。これらのモデルは、医療研究や製品開発の強力な出発点となり、特に医療テキストや画像タスクにおいて高い性能を発揮します。 • MedGemmaはヘルスAI開発のためのオープンモデルのコレクションである。 • HAI-DEFは開発者がプライバシーを制御できる軽量オープンモデルの集まり。 • 新たに発表されたMedGemma 27B Multimodalモデルは、複雑な電子健康記録の解釈をサポート。 • MedSigLIPは分類や検索タスクのための軽量なエンコーダー。 • MedGemma 4Bは医療画像分類タスクで競争力のある性能を示す。 • MedGemma 27Bモデルは、医療知識と推論のベンチマークで高いスコアを記録。 • 全てのモデルは単一のGPUで実行可能で、モバイルハードウェアにも適応可能。

REGENは、自然言語によるインタラクションを通じて、より文脈に即した推薦を提供するための新しいベンチマークデータセットです。従来の推薦システムは、ユーザーの過去のインタラクションに基づいて次に好まれるアイテムを予測することに焦点を当てていましたが、REGENはユーザーのニーズを理解し、自然言語のフィードバックを通じて適応し、推薦の理由を説明することを目指しています。このデータセットは、Amazonの製品レビューを基に、合成されたユーザー批評や購入理由、製品の推薦を含むナラティブを組み込んでいます。実験の結果、REGENデータセットで訓練された大規模言語モデル(LLM)は、推薦と文脈に即したナラティブを効果的に生成し、最先端の推薦システムと同等のパフォーマンスを達成しました。 • REGENは、ユーザーのニーズを理解し、自然言語のフィードバックに適応する推薦システムを目指す。 • データセットは、Amazon製品レビューを基に、合成されたユーザー批評とナラティブを組み込んでいる。 • 批評は、ユーザーが好みを表現し、システムを誘導するための重要な要素である。 • ナラティブは、推薦されたアイテムに関する豊富な文脈情報を提供し、ユーザー体験を向上させる。 • REGENデータセットで訓練されたLLMは、推薦と文脈に即したナラティブを生成し、最先端のモデルと同等のパフォーマンスを示した。

MUVERAは、複雑なマルチベクトル検索を単一ベクトルの最大内積検索に戻す最先端の検索アルゴリズムです。情報検索(IR)の分野では、ユーザーのクエリに対して関連情報を見つけることが求められます。従来の埋め込みモデルは、データポイントを単一ベクトルに変換し、内積類似度を用いて効率的に検索を行いますが、マルチベクトルモデルはより豊かな関係を捉えることができます。しかし、マルチベクトルアプローチは計算コストが高くなるという課題があります。MUVERAでは、固定次元エンコーディング(FDE)を用いて、マルチベクトル検索を単純な問題に変換し、効率的な検索を実現します。この手法により、初期候補を取得し、その後に正確なマルチベクトル類似度で再ランク付けすることが可能になります。 • MUVERAはマルチベクトル検索を単一ベクトルの最大内積検索に変換するアルゴリズム。 • 情報検索において、ユーザーのクエリに関連する情報を見つけることが目的。 • 従来の埋め込みモデルは単一ベクトルを使用し、内積類似度で検索を行う。 • マルチベクトルモデルは複数の埋め込みを生成し、より豊かな関係を捉えるが、計算コストが高い。 • MUVERAは固定次元エンコーディングを用いて、マルチベクトル検索の効率を向上させる。 • 初期候補を取得後、正確なマルチベクトル類似度で再ランク付けする。 • オープンソースのFDE構築アルゴリズムがGitHubで提供されている。

Google Researchは、気候関連の脅威に対するコミュニティのレジリエンスを高めるためにAIの革新を推進しています。特に、洪水予測やサイクロン予測の精度向上に取り組んでおり、AIを活用したグローバルな水文学モデルにより、世界中の河川洪水を最大7日前に予測できるようになりました。この予測はGoogleのFlood Hubプラットフォームで提供され、1億人以上の人々を支援しています。また、サイクロンの予測においても、AIを用いて最大15日前に50のシナリオを生成することが可能になり、米国国立ハリケーンセンターとの連携を通じて、より早い警告を提供することを目指しています。これらの取り組みは、気候危機に対するコミュニティの準備と対応を強化することに寄与しています。 • Google Researchは気候関連の脅威に対するレジリエンスを高めるためにAIを活用している。 • AIを用いた洪水予測モデルにより、最大7日前に河川洪水を予測可能。 • Flood Hubプラットフォームを通じて、700万人以上の人々に情報を提供。 • AIを用いてデータが不足している地域のために「バーチャルゲージ」を作成。 • サイクロンの予測精度を向上させるためにAIを活用し、最大15日前に50のシナリオを生成。 • 米国国立ハリケーンセンターと連携し、より早い警告を提供することを目指している。

M-REGLE(Multimodal REpresentation learning for Genetic discovery on Low-dimensional Embeddings)は、複数の健康データストリームを同時に分析するAI手法です。この手法は、異なるデータタイプから共同で学習することで、より豊かな表現を生成し、病気に関連する遺伝的リンクの発見を大幅に促進します。M-REGLEは、心臓の電気活動を測定するECGや血液量の変化を追跡するPPGなど、異なる生理学的データを統合し、心臓の健康状態をより完全に評価します。従来のREGLEは単一のデータタイプに基づいていましたが、M-REGLEは複数の臨床データを同時に分析することで、再構成誤差を低減し、遺伝的関連をより多く特定し、心疾患のリスクスコアを向上させます。M-REGLEは、共同学習を用いた多段階アプローチを採用し、複数のデータストリームから圧縮された「シグネチャー」を学習します。 • M-REGLEは複数の健康データを同時に分析するAI手法である。 • 異なるデータタイプから共同で学習することで、遺伝的リンクの発見を促進する。 • 心臓の健康を評価するためにECGとPPGデータを統合する。 • M-REGLEは再構成誤差を低減し、遺伝的関連をより多く特定する。 • 心疾患のリスクスコアを向上させる。 • 共同学習を用いた多段階アプローチを採用している。

この記事では、超伝導キュービットプラットフォーム上での量子誤り訂正のための「カラ―コード」の実装結果が紹介されています。量子コンピュータの大規模化において、誤り訂正は重要な要素であり、物理キュービットを組み合わせて、ノイズに対してより堅牢な論理キュービットを形成します。最近、表面コードによる量子誤り訂正実験が成功し、論理キュービットの生成が可能になりました。次のステップとして、物理キュービットの数を最小化し、論理操作の速度を最大化する方法が模索されています。カラ―コードは、物理キュービットをより効率的に使用し、論理ゲートの効率を向上させることができる代替手段として実験的に示されました。カラ―コードは、三角形のパターンを使用し、同じ距離のコードに対して必要な物理キュービットが少なくて済む一方で、実装が難しいというトレードオフがあります。 • 量子コンピュータの大規模化における誤り訂正の重要性 • 物理キュービットを組み合わせて論理キュービットを形成する手法 • カラ―コードの実装による物理キュービットの効率的な使用 • カラ―コードは表面コードに比べて論理ゲートが効率的 • カラ―コードの実装には難しさが伴う • 最近の研究成果により、Willowチップとカラ―コードの組み合わせが示された

この記事では、LLM(大規模言語モデル)を用いた旅行計画の最適化手法について説明しています。旅行計画には、予算やスケジュールといった定量的な制約と、ユーザーの好みなどの定性的な目標が含まれます。LLMは、ユーザーの好みを考慮した旅行プランを提案する能力がありますが、定量的な制約を扱うのは難しいため、実用的なプランを生成するためには、最適化アルゴリズムが必要です。提案されたハイブリッドシステムでは、LLMが初期プランを生成し、その後、実際の制約を考慮して最適化を行います。具体的には、最新のGeminiモデルを使用してユーザーのクエリに基づく初期プランを作成し、開店時間や移動時間を考慮して最終的な旅程を生成します。 • 旅行計画には定量的な制約(予算、スケジュール)と定性的な目標(ユーザーの好み)がある。 • LLMはユーザーの好みを考慮した旅行プランを提案できるが、定量的な制約には弱い。 • ハイブリッドシステムを用いて、LLMによる初期プランと最適化アルゴリズムを組み合わせて実用的な旅程を生成する。 • 初期プランはLLMが生成し、実際の開店時間や移動時間を考慮して最適化を行う。 • 最適化アルゴリズムは、初期プランの類似性と実現可能性を評価し、最終的な旅程を決定する。

本記事では、物理ベースの気候モデルと人工知能を組み合わせた新しい手法を提案し、地域の環境リスクを効率的に評価する方法を紹介しています。この手法は、従来の技術よりも将来の環境見通しにおける不確実性を包括的に評価することを可能にします。特に、従来の地球システムモデルは高解像度での計算コストが高く、地域レベルの予測が難しいため、都市レベルの詳細な予測が求められています。提案されたダイナミカル・ジェネレーティブ・ダウンスケーリング法は、確率的拡散モデルを用いて、グローバルな気候予測をローカルな環境リスク評価に変換します。この方法は、既存の最先端技術に比べて、はるかに低コストで詳細な地域環境リスク評価を提供します。 • 物理ベースの気候モデルとAIを組み合わせた新手法の提案 • 地域レベルの環境リスク評価の必要性 • ダイナミカル・ジェネレーティブ・ダウンスケーリング法の概要 • 確率的拡散モデルを用いたグローバルからローカルへの変換 • 従来の手法に比べてコストが大幅に削減される • 高解像度の気候予測を実現するための新しいアプローチ

本記事では、Action-Based Contrastive Self-Training(ACT)という手法を提案し、マルチターン会話モデリングにおけるデータ効率の良い強化学習調整アプローチを紹介しています。大規模言語モデル(LLM)は人間のフィードバックを通じて最適化されているものの、曖昧さに直面した際に明確化の質問を行う能力が不足していることが指摘されています。ACTは、直接的な好み最適化に基づく準オンラインの最適化アルゴリズムであり、データ効率の良い対話ポリシー学習を可能にします。実際の会話タスクを用いた実験により、ACTは従来の調整手法に比べて会話モデリングの改善を示しました。また、AmbigSQLという新しいタスクを導入し、複雑なSQLコード生成における情報の曖昧さを解消する能力を評価します。最終的に、ACTは会話エージェントが曖昧さを認識し、明確化の質問を行う能力を向上させることを目指しています。 • Action-Based Contrastive Self-Training (ACT)は、マルチターン会話モデリングのためのデータ効率の良い強化学習手法である。 • LLMは曖昧さに対して明確化の質問を行う能力が不足している。 • ACTは、直接的な好み最適化に基づく準オンラインの最適化アルゴリズムである。 • 実際の会話タスクを用いた実験で、ACTは従来の手法よりも会話モデリングの改善を示した。 • AmbigSQLという新しいタスクを導入し、SQLコード生成における情報の曖昧さを解消する能力を評価する。

この記事では、ユーザーレベルの差分プライバシーを用いた大規模モデルのファインチューニングアルゴリズムの改善について探求しています。機械学習モデルは強力ですが、ドメイン特有のデータでファインチューニングする必要があり、プライバシーに敏感なデータが多いため、これが問題となります。差分プライバシー(DP)は、トレーニングプロセスにノイズを注入することで、プライバシーを保護しながらモデルを訓練する手法です。ユーザーレベルのDPは、個々の例のプライバシーを超え、ユーザーのデータがトレーニングデータセットに含まれているかどうかを攻撃者が知ることができないことを保証します。データセンターでのトレーニングは、フェデレーテッドラーニングよりも柔軟性が高く、ユーザー全体や個々の例を選択してクエリを実行できます。この記事では、ユーザーレベルのDPを大規模言語モデルにスケールアップする方法を探り、最適化アルゴリズムを特定し、トレーニング結果を向上させるための戦略を提案しています。 • ユーザーレベルの差分プライバシーを用いた大規模モデルのファインチューニングの必要性 • 差分プライバシーはプライバシーを保護しながらモデルを訓練する手法 • ユーザーレベルのDPは、個々のデータ例のプライバシーを超えた保護を提供する • データセンターでのトレーニングはフェデレーテッドラーニングよりも柔軟性が高い • ファインチューニングはプライベートなドメイン特有のデータを必要とする可能性が高い • トレーニング戦略はフェデレーテッドラーニングのアルゴリズムに似ている • SGDを用いたトレーニングにおいて、ノイズを加えることでプライバシーを保護する

2025年のGoogle I/Oで、Google Researchは最新の研究成果とGeminiモデル、生成AI製品への貢献を発表しました。特に、MedGemmaという新しい医療用AIモデルが紹介され、医療テキストと画像の理解を向上させることが期待されています。MedGemmaは、開発者が医療アプリケーションを構築するための出発点として設計されており、Google Cloud Platformやローカル環境で実行可能です。また、AMIEという医療診断会話用のAIエージェントも発表され、視覚的な医療情報を解釈し、診断の精度を向上させる手助けをします。さらに、LearnLMという学習用のモデル群がGemini 2.5に統合され、教育者にとって最適な選択肢となることが示されました。これにより、学生はカスタムクイズを作成し、学習をサポートする新しい体験が提供されます。 • Google I/O 2025での研究成果の発表 • MedGemmaは医療用のマルチモーダルAIモデルで、医療アプリケーションの開発を支援 • AMIEは医療診断会話用のAIエージェントで、診断精度を向上させる • LearnLMはGemini 2.5に統合され、教育者向けの最適なモデルとして機能 • 学生向けにカスタムクイズを作成する新しい体験を提供




















