
本研究は、生成AIを活用して「未来に備えた」スキルを評価する新しいアプローチを示しています。ニューヨーク大学との共同研究により、AIによる評価が人間の専門家と同等であることが確認されました。この研究実験「Vantage」は、Google Labsで利用可能です。AIの進化に伴い、批判的思考や協力、創造的思考などの持続可能な人間の能力がますます重要視されています。Vantageは、高校生や大学生がシミュレーション環境でスキルを練習し、評価を受けるためのサンドボックスを提供します。AIアバターとの動的な会話を通じて、学生は実世界に近いシナリオでスキルを示す機会を得ます。 • 生成AIを用いた未来に備えたスキルの評価方法を提案 • AI評価が人間の専門家と同等であることを確認 • Vantageは高校生や大学生向けのシミュレーション環境を提供 • AIアバターとの会話を通じてスキルを評価 • 動的な会話環境での実世界に近いシナリオを再現 • 評価基準に基づいてAIが会話を導く • 教育者が授業をスキルに合わせて調整できるよう支援

ConvApparelは、LLM(大規模言語モデル)ベースのユーザーシミュレーターにおける「リアリズムギャップ」を定量化し、堅牢な会話エージェントのトレーニングを改善するために設計された新しい人間-AI会話データセットと評価フレームワークです。現代の会話AIエージェントは複雑なタスクを処理できますが、長時間の対話では制約を忘れたり、無関係な応答を生成したりすることが多いです。これを改善するためには、継続的なトレーニングとフィードバックが必要ですが、実際の人間テストに依存するのは高コストで時間がかかります。そこで、AI研究コミュニティはユーザーシミュレーターに注目していますが、現代のLLMベースのシミュレーターは依然としてリアリズムギャップに悩まされています。ConvApparelは、ユーザーシミュレーションの隠れた欠陥を明らかにし、信頼できるAIベースのテスターを構築するための道を提供します。データ収集プロトコルでは、参加者が「良い」エージェントまたは「悪い」エージェントにランダムにルーティングされ、人口統計統計、ヒューマンライクスコアリング、反事実検証を含む三本柱の検証戦略を用いています。これにより、単なる表面的な模倣を超えた人間行動の全範囲を捉えることができます。 • ConvApparelはLLMベースのユーザーシミュレーターのリアリズムギャップを定量化するための新しいデータセットと評価フレームワークを提供する。 • 現代の会話AIエージェントは長時間の対話で制約を忘れたり、無関係な応答を生成することが多い。 • ユーザーシミュレーターは、実際の人間テストに代わるスケーラブルな解決策として注目されている。 • ConvApparelは、良いエージェントと悪いエージェントの二重エージェントデータ収集プロトコルを使用している。 • 三本柱の検証戦略により、単なる表面的な模倣を超えた人間行動を捉えることができる。 • シミュレーターは新しい状況に対しても適切に反応する必要がある。 • 反事実検証の概念を導入し、シミュレーターが新しいエージェントにどのように適応するかを評価する。

この記事では、学術研究のワークフローを改善するために、2つのAIエージェントを紹介しています。PaperVizAgentは、学術的な図を描くためのビジュアライザーエージェントであり、ScholarPeerは、学術論文を自動的かつ厳密に評価するレビュアーエージェントです。研究者は、PaperVizAgentを使用して、研究の方法論や統計的プロットを含む出版準備が整った図を生成できます。ScholarPeerは、文献に基づいた批評を提供し、従来の自動レビュアーよりも優れた評価を行います。これらのエージェントは、研究者が革新に集中できるように設計されており、学術研究のライフサイクルを支援します。 • 学術研究のワークフローを改善するためのAIエージェントの導入 • PaperVizAgentは、学術的な図を自動生成するビジュアライザーエージェント • ScholarPeerは、論文を自動的に評価するレビュアーエージェント • PaperVizAgentは、研究の方法セクションと図のキャプションを基に図を生成 • ScholarPeerは、文献に基づいた批評を提供し、従来の自動レビュアーよりも優れた評価を行う • これらのエージェントは、研究者が革新に集中できるように設計されている

本記事では、LLM(大規模言語モデル)の行動傾向の評価と整合性についての体系的な評価フレームワークを紹介しています。このフレームワークは、モデルの行動傾向を人間の社会的傾向と比較し、モデルの出力と人間の合意との間の整合性や逸脱を定量化することを目的としています。具体的には、共感や自己主張などの特性を評価するための標準化された心理学的質問票を用いて、LLMの行動傾向を評価します。研究では、プロフェッショナルな落ち着きや対立解決、日常的な意思決定など、現実的なユーザーアシスタントシナリオにおけるLLMの行動を分析しました。25のLLMを対象にした大規模な分析の結果、モデルの傾向が人間の合意から逸脱している場合や、合意がない場合に人間の意見の範囲を捉えられていない場合があることが明らかになりました。今後の研究では、これらの結果を基に、モデルの行動の整合性を向上させる機会が期待されています。 • LLMの行動傾向を評価するための体系的なフレームワークを導入 • モデルの出力と人間の合意との整合性を定量化 • 心理学的質問票を用いてLLMの行動傾向を評価 • 現実的なユーザーアシスタントシナリオでのモデルの行動を分析 • 25のLLMを対象にした大規模な分析で2種類のギャップを特定 • モデルの行動が人間の合意から逸脱する場合がある • 今後の研究でモデルの行動の整合性を向上させる機会が期待される

Google Research explores the trade-off between number of items and human raters per item to improve AI benchmark reproducibility and capture the nuance of human disagreement.

この記事では、将来の量子コンピュータが暗号通貨を保護する楕円曲線暗号(ECDLP-256)を破る可能性について論じています。Googleは2016年からポスト量子暗号(PQC)への移行を推進しており、暗号通貨コミュニティに対してセキュリティと安定性を向上させるための推奨事項を提供しています。具体的には、量子攻撃に耐性のあるPQCへのブロックチェーンの移行を提案しています。また、米国政府と連携し、悪意のある行為者に対する道筋を示さずに脆弱性を検証できるゼロ知識証明を用いた新しい方法を開発しました。量子コンピュータのリソース推定についても言及し、ECDLP-256を破るために必要な論理キュービットとトフォリゲートの数を示しています。最終的に、PQCは暗号通貨とデジタル経済の長期的な存続を支える道であると結論付けています。 • 将来の量子コンピュータが楕円曲線暗号を破る可能性があることを指摘 • ポスト量子暗号(PQC)への移行を提案 • ゼロ知識証明を用いて脆弱性を安全に共有する方法を開発 • 量子コンピュータのリソース推定を提供し、ECDLP-256を破るための具体的な数値を示す • PQCが暗号通貨の長期的な安定性を保証する道であると主張

Vibe Coding XRは、Gemini CanvasとオープンソースのXR Blocksフレームワークを活用した迅速なプロトタイピングワークフローで、ユーザーのプロンプトを完全にインタラクティブで物理的に認識可能なWebXRアプリケーションに変換します。このシステムは、デスクトップとAndroid XRヘッドセットの両方でインテリジェントな空間体験を迅速にテストできるように設計されています。Vibe Coding XRは、ユーザーがXRに関する事前知識なしで自然言語で指示を出すことを可能にし、Geminiがシーンやインタラクションを自動的に構成します。これにより、ユーザーは60秒以内に機能するAndroid XRアプリを作成できます。さらに、デスクトップ上でのシミュレーション環境を提供し、ユーザーはAndroid XRデバイスにデプロイする前にインタラクションを迅速にプロトタイピングおよびテストできます。 • Vibe Coding XRは、Gemini CanvasとXR Blocksフレームワークを使用した迅速なプロトタイピング手法である。 • ユーザーは自然言語でプロンプトを入力することで、物理的に認識可能なWebXRアプリを60秒以内に作成できる。 • このシステムは、デスクトップとAndroid XRヘッドセットの両方でインタラクティブな体験をテストすることを可能にする。 • Geminiは、ユーザーの指示に基づいてシーンやインタラクションを自動的に構成し、迅速なプロトタイピングを実現する。 • デスクトップ上のシミュレーション環境を利用することで、ユーザーはAndroid XRデバイスにデプロイする前にインタラクションをテストできる。

TurboQuantは、大規模言語モデルやベクトル検索エンジンのための高度な量子化アルゴリズムを導入し、極限の圧縮を実現します。ベクトルはAIモデルが情報を理解し処理する基本的な方法であり、高次元ベクトルは複雑な情報をキャプチャしますが、大量のメモリを消費し、キー・バリューキャッシュのボトルネックを引き起こします。TurboQuantは、メモリオーバーヘッドを最適に解決し、精度を損なうことなくモデルサイズを大幅に削減します。具体的には、PolarQuant法を用いてデータベクトルをランダムに回転させ、標準的な高品質量子化器を適用します。さらに、QJLアルゴリズムを用いて残った誤差を排除し、より正確な注意スコアを実現します。これにより、AIモデルのパフォーマンスを維持しつつ、検索やAIに依存するすべての圧縮関連のユースケースに深い影響を与える可能性があります。 • TurboQuantは、AIモデルのメモリオーバーヘッドを最適に解決する圧縮アルゴリズムである。 • PolarQuant法を用いてデータベクトルをランダムに回転させ、高品質な量子化を実現する。 • QJLアルゴリズムを使用して、残った誤差を排除し、精度を維持する。 • この技術は、キー・バリューキャッシュのボトルネックを解消し、AIモデルのパフォーマンスを向上させる。 • TurboQuantは、検索やAIに依存するユースケースにおいて重要な影響を与える可能性がある。

この記事では、S2Vecという自己教師ありフレームワークを紹介しています。S2Vecは、複雑な地理空間データを一般的な埋め込みに変換し、世界中の社会経済的および環境的パターンを予測するために設計されています。従来、地理空間データの処理は手作業で行われていましたが、S2Vecはこのプロセスを自動化し、AIが人間のように地域の特性を理解できるようにします。具体的には、S2 Geometryライブラリを使用して地球の表面を階層的に分割し、特徴をラスタライズして多層画像に変換します。これにより、AIは地理データをデジタル写真のように扱い、コンピュータビジョン技術を活用して理解します。S2Vecは、特に社会経済的予測タスクにおいて競争力のある性能を示しましたが、環境タスクにおいては改善の余地があることも明らかになりました。 • S2Vecは複雑な地理空間データを一般的な埋め込みに変換するフレームワークである。 • 地理空間データの処理は従来手作業で行われていたが、S2Vecは自動化を実現する。 • S2 Geometryライブラリを使用して地球の表面を階層的に分割し、特徴をラスタライズする。 • ラスタライズされたデータはAIが理解できる形式に変換され、コンピュータビジョン技術を活用できる。 • S2Vecは社会経済的予測タスクで競争力のある性能を示したが、環境タスクには改善が必要である。

Google Researchは、医療革新を現実のケア環境に適用する新たな時代に突入していることを発表しました。AIは、個別化された医療を実現するために、臨床医が患者を包括的に評価する手助けをしています。Fitbitとの共同研究では、個人健康エージェント(PHA)が、単一のタスクアプリよりも長期的な健康を支援することが示されました。また、AIは乳がん検出の精度を向上させ、放射線科医の負担を軽減する可能性があります。AIの研究成果は臨床ジャーナルに発表され、透明性と再現性が確保されています。さらに、AMIEというマルチエージェントシステムが医療提供者の真の協力者としての役割を果たすことが期待されています。 • AIは個別化医療を実現するために臨床医を支援する。 • Fitbitとの共同研究で、個人健康エージェント(PHA)が長期的な健康を支援することが示された。 • AIは乳がん検出の精度を向上させ、放射線科医の負担を軽減する可能性がある。 • AIの研究成果は臨床ジャーナルに発表され、透明性と再現性が確保されている。 • AMIEというマルチエージェントシステムが医療提供者の協力者としての役割を果たす。

この記事では、乳がんスクリーニングのワークフローを改善するために機械学習を活用する取り組みについて述べています。英国の国民保健サービス(NHS)の乳がんスクリーニングプログラムは、二重読影ワークフローに依存しており、臨床放射線医の不足がプログラムの持続可能性を脅かしています。AIの導入に関する研究が進められ、二つの研究が発表されました。一つ目の研究では、AIシステムの単独性能と統合の実現可能性を評価し、二つ目の研究では、AIを第二読影者として使用した場合の効果を比較しました。これらの研究は、AIが乳がんスクリーニングを支援する可能性を示す証拠を強化しています。 • 乳がんはUKで35〜64歳の女性の死因の第一位であり、早期スクリーニングが命を救うことが証明されている。 • NHSの乳がんスクリーニングプログラムは二重読影ワークフローに依存しているが、臨床放射線医の不足がプログラムの持続可能性を脅かしている。 • AIの導入に関する研究が進められ、二つの研究が発表された。 • 一つ目の研究では、AIシステムの単独性能と統合の実現可能性を評価した。 • 二つ目の研究では、AIを第二読影者として使用した場合の効果を比較した。 • これらの研究は、AIが乳がんスクリーニングを支援する可能性を示す証拠を強化している。

この記事では、高温超伝導に関する研究を通じて、大規模言語モデル(LLM)が専門的な物理学の質問に対してどの程度の能力を持つかを評価しています。著者たちは、コーネル大学と協力し、6つのLLMに対して高温超伝導体に関する難解な質問を投げかけ、その回答を専門家が評価しました。結果として、NotebookLMとカスタムシステムが最も優れたパフォーマンスを示し、全体的に改善が必要な領域も特定されました。この研究は、科学的発見を進めるための信頼できるツールの開発に寄与することが期待されています。また、LLMが専門的な分野での知識を持つ思考パートナーとして機能できるかどうかを探求し、高温超伝導のメカニズム理解に向けた新たな可能性を示唆しています。 • 高温超伝導に関する専門的な質問に対するLLMの能力を評価した。 • 6つのLLMが高温超伝導体に関する質問に回答し、専門家がその回答を評価した。 • 最も優れたパフォーマンスを示したのはNotebookLMとカスタムシステムであった。 • 全体的にLLMには改善が必要な領域があることが明らかになった。 • この研究は、科学的発見を進めるための信頼できるツールの開発に寄与することが期待される。 • LLMが専門的な分野での知識を持つ思考パートナーとして機能できるかを探求した。