
この記事では、AIシステムが地図上でルートを視覚的に追跡できるようにするための合成データ生成システムを提案しています。現在のマルチモーダル大規模言語モデル(MLLM)は、画像内の物体を認識する能力に優れていますが、地図上の幾何学的およびトポロジー的関係を理解することが難しいという課題があります。この問題を解決するために、著者たちは「MapTrace」と呼ばれる新しいタスク、データセット、および合成データ生成パイプラインを導入しました。このシステムは、MLLMに地図上でのパス追跡の基本的なスキルを教えることを目的としています。著者たちは、Gemini 2.5 ProとImagen-4モデルを使用して生成した200万の質問応答ペアをオープンソース化し、研究コミュニティにさらなる探求を促しています。 • MLLMは地図上のルートを正しく追跡するのが難しい。 • 地図の物理的なルールを学ぶためのデータが不足している。 • 手動でのパス注釈は困難で、大規模なデータセットの収集が実質的に不可能。 • 合成データ生成パイプラインを設計し、多様な高品質の地図を自動生成。 • 生成されたデータは、意図したルートに従い、通行不可能な領域を避ける。

本記事では、変動する機械の可用性に対応したジョブスケジューリングの新しいアルゴリズムを紹介しています。クラウドインフラにおいて、リソースは静的ではなく、ハードウェアの故障やメンテナンス、電力制限などにより常に変動します。特に、優先度の高いタスクがリソースを要求するため、低優先度のバッチジョブには変動する「残余」キャパシティが残ります。非プリエンプティブなジョブは中断できないため、スケジューラは長時間のジョブを今開始するか、より安全なウィンドウを待つかの判断を迫られます。研究では、時間変動するキャパシティの下でスループットを最大化するための定数因子近似アルゴリズムを提供し、変動するクラウド環境での堅牢なスケジューラ構築の理論的基盤を示しています。オフラインとオンラインの2つの環境での結果も考察されています。 • 変動する機械の可用性に対応したジョブスケジューリングのアルゴリズムを提案 • リソースは静的ではなく、常に変動することを考慮 • 非プリエンプティブなジョブは中断できず、スケジューラはリスクを考慮する必要がある • スループット最大化のための定数因子近似アルゴリズムを提供 • オフラインとオンラインの2つの環境でのスケジューリング問題を考察 • オフライン設定では、単純な戦略が意外に良好な結果を示す

DialogLabは、動的な人間とAIのグループ会話を作成、シミュレーション、テストするためのオープンソースプロトタイピングフレームワークです。このフレームワークは、会話の社会的設定(参加者、役割、サブグループ)と時間的進行を分離し、複雑なダイナミクスを簡素化した三段階のワークフロー(作成、テスト、検証)を提供します。DialogLabは、エージェントのペルソナを定義し、ターンテイキングのルールを管理し、スクリプトされたナarrativeと即興の間の遷移を調整するための統一インターフェースを提供します。評価結果によると、DialogLabは多様なパーティデザインを効率的にサポートし、リアルで適応可能な会話の設計を可能にします。 • DialogLabは動的な人間とAIのグループ会話を作成、シミュレーション、テストするためのフレームワークである。 • 会話の社会的設定と時間的進行を分離することで、複雑なダイナミクスを簡素化する。 • 三段階のワークフロー(作成、テスト、検証)を提供し、効率的な反復をサポートする。 • エージェントのペルソナ、ターンテイキングのルール、即興とスクリプトの遷移を管理できる。 • 評価結果は、リアルで適応可能な多様なパーティデザインを可能にすることを示している。

この記事では、Google DeepMindの生物音響基盤モデル「Perch 2.0」が、鳥や他の陸上動物の音声データを用いて訓練され、海洋音響の課題においても優れた性能を発揮することを説明しています。特に、Perch 2.0は水中音声データを含まないにもかかわらず、クジラの音声分類において効果的に機能します。Googleは、クジラの監視と保護のために外部科学者と協力しており、2024年には多種クジラモデルをリリースしました。新たに発見された音やデータに対してカスタム分類器を作成するために、転移学習を活用するアプローチが紹介されており、これにより計算資源と実験の負担が大幅に軽減されます。最終的に、Perch 2.0は海洋生態系の洞察を拡大するための重要なツールとなることが期待されています。 • Perch 2.0は鳥の音声データを基に訓練され、海洋音響の課題に適用可能である。 • 新しい音の発見やデータに対してカスタム分類器を作成するために転移学習を利用する。 • 転移学習により、計算資源と実験の負担が軽減される。 • Perch 2.0は水中音声データを含まないが、クジラの音声分類において優れた性能を示す。 • Googleはクジラの監視と保護のために外部科学者と協力している。

Google Researchは、ユーザーのユニークなニーズに適応するマルチモーダルAIツールを組み込んだ「Natively Adaptive Interfaces(NAI)」を導入し、ユニバーサルデザインを再定義しています。このアプローチは、障害を持つ人々と共に開発され、アクセシビリティを開発プロセスの初期から組み込むことを重視しています。NAIは、静的なナビゲーションを動的なエージェント駆動のモジュールに置き換え、デジタルアーキテクチャを受動的なツールから能動的なコラボレーターへと変革します。さらに、障害者コミュニティとの共同設計を通じて、彼らの経験と専門知識をソリューションの中心に据えることを目指しています。マルチモーダルAIツールは、アクセシブルなインターフェースを構築するための有望な道を提供し、特に文書の可読性向上において、中央のオーケストレーターが戦略的な読み取り管理者として機能します。 • Natively Adaptive Interfaces(NAI)を導入し、ユニバーサルデザインを再定義 • 障害を持つ人々と共に開発し、アクセシビリティを初期から組み込む • 静的ナビゲーションを動的エージェント駆動のモジュールに置き換える • 障害者コミュニティとの共同設計を重視し、彼らの経験を反映 • マルチモーダルAIツールがアクセシブルなインターフェース構築に寄与 • 中央のオーケストレーターが文書の可読性を向上させる役割を果たす

この記事では、AIモデルを効率化するための部分選択アルゴリズム「Sequential Attention」を紹介しています。特徴選択は、機械学習や深層学習において重要な課題であり、特に非線形な特徴の相互作用が複雑なため、効果的な特徴の選定が求められます。Sequential Attentionは、モデルのトレーニングプロセスに選択を統合し、トレーニングコストを最小限に抑えつつ、精度を維持します。この手法は、注意メカニズムを活用して、段階的に最適な要素を選択することで、従来の一括選択法の限界を克服します。最終的に、Sequential Attentionは、深層学習モデルの構造を最適化するために実際のシナリオで使用されています。 • AIモデルの効率化を目的とした部分選択アルゴリズム「Sequential Attention」を提案 • 特徴選択はNP困難であり、特に非線形な特徴の相互作用が複雑 • Sequential Attentionはトレーニングプロセスに選択を統合し、コストを最小限に抑える • 注意メカニズムを利用して段階的に最適な要素を選択 • この手法は深層学習モデルの構造を最適化するために実際に使用されている

この記事では、Included Healthとの提携により、実際のバーチャルケアにおける会話型AIの評価を目的とした全国規模の無作為化研究を開始することが発表されています。この研究は、シミュレーションや過去のデータを超えて、AIが臨床環境でどのように機能するかについての厳密な前向き証拠を収集することを目指しています。AIシステムは医療専門知識へのアクセスを大幅に向上させ、医師が患者と過ごす時間を増やす可能性がありますが、これらの技術を責任を持って開発するためには、証拠に基づく厳密なアプローチが必要です。研究は、診断や管理の推論、個別の健康インサイト、健康情報のナビゲーションにおけるAIの使用に関する基礎研究に基づいています。新しい研究は、全国規模での無作為化対照試験の設定を使用し、参加者からの同意を得て実施されます。 • 全国規模の無作為化研究を通じて、実際のバーチャルケアにおける会話型AIの評価を行う。 • AIシステムは医療専門知識へのアクセスを向上させ、医師の患者との時間を増やす可能性がある。 • 研究は、診断や管理の推論におけるAIの使用に関する基礎研究に基づいている。 • 無作為化対照試験の設定を使用し、全国から参加者を募集する。 • AIの安全性と有用性を評価するための責任あるアプローチを採用している。

この記事では、AIエージェントシステムのスケーリングに関する初の定量的原則を導出し、180のエージェント構成の制御評価を通じて、マルチエージェントの協調が並列化可能なタスクのパフォーマンスを大幅に向上させる一方で、逐次タスクでは劣化させることを明らかにしています。また、87%の未見タスクに対して最適なアーキテクチャを特定する予測モデルも紹介しています。エージェントは、推論、計画、行動が可能なシステムであり、業界は単発の質問応答から持続的なマルチステップのインタラクションへと移行しています。従来の静的ベンチマークはモデルの知識を測定しますが、エージェントタスクは外部環境との持続的なインタラクション、部分的な可観測性の下での情報収集、環境フィードバックに基づく戦略の適応的な改良を必要とします。 • AIエージェントシステムのスケーリングに関する定量的原則を導出した。 • マルチエージェントの協調は並列化可能なタスクのパフォーマンスを向上させるが、逐次タスクでは劣化する。 • エージェントタスクは持続的なインタラクション、部分的な可観測性、環境フィードバックに基づく戦略の適応を必要とする。 • 5つのエージェントアーキテクチャ(単一エージェント、独立、中央集権、分散、ハイブリッド)を評価した。 • 87%の未見タスクに対して最適なアーキテクチャを特定する予測モデルを導入した。

ATLASは、多言語モデルのための新しいスケーリング法則を提案します。特に、英語以外の言語を対象としたAIモデルの開発において、データ駆動型のガイダンスが不足している現状を改善することを目的としています。ATLASは、774回のトレーニングを通じて、400以上の言語にわたるデータを使用し、言語の混合を効率的にバランスさせるための適応型転送スケーリング法則を導入します。このアプローチは、ターゲット言語のパフォーマンスを最適化するために、異なる言語からのデータを活用します。ATLASは、モデルサイズやデータ量、言語の混合を決定するためのシンプルで実用的な方法を提供し、従来のスケーリング法則を拡張します。評価の結果、ATLASは従来の手法よりも一貫して優れたパフォーマンスを示しました。 • 英語以外の言語を対象としたAIモデル開発におけるデータ駆動型ガイダンスの不足を解消する。 • 774回のトレーニングを通じて、400以上の言語にわたるデータを使用した大規模な多言語事前学習研究を実施。 • 適応型転送スケーリング法則(ATLAS)を導入し、言語の混合を効率的にバランスさせる。 • ATLASは、ターゲット言語のパフォーマンスを最適化するために、異なる言語からのデータを活用する。 • モデルサイズやデータ量、言語の混合を決定するためのシンプルで実用的な方法を提供。 • 評価結果は、ATLASが従来の手法よりも一貫して優れたパフォーマンスを示すことを示した。