Zenn schroneko
zenn.dev/schroneko
OpenAI DevDay 2025 発表まとめ
OpenAI DevDay 2025がサンフランシスコで開催され、様々な新機能が発表された。主な内容には、ChatGPT内で使用できるアプリ機能を提供するApps SDKのプレビュー版が含まれ、開発者は8億人以上のChatGPTユーザーにリーチできる。初期パートナーにはBooking.comやCanvaなどが名を連ね、年末にはアプリ機能の審査が開始される予定。また、Codexが正式リリースされ、Slackとの統合機能や管理ツールが追加された。さらに、GPT-5のAPIリクエストが40%高速化され、Sora 2のAPI対応や新しい画像生成モデルも発表された。OpenAIのクックブックには、プロンプトのレジリエンスを担保するための評価フライホイールのガイドが追加された。 • OpenAI DevDay 2025で新機能が発表された。 • Apps SDKにより、ChatGPT内でアプリ機能が利用可能になる。 • 初期パートナー企業としてBooking.comやCanvaが参加。 • Codexが正式リリースされ、Slackとの統合機能が追加された。 • GPT-5のAPIリクエストが40%高速化される。 • Sora 2のAPI対応や新しい画像生成モデルが発表された。 • OpenAIのクックブックにプロンプトのレジリエンスを担保するガイドが追加された。

Sora 2 発表関連情報まとめ
OpenAIがSora 2を発表し、動画生成サービスを提供開始しました。Sora 2は、ChatGPT Proプランの契約が必要で、現在はアメリカとカナダでのみ利用可能です。新しいiOSアプリSoraでは、ユーザーが動画を生成し、他のユーザーのコンテンツをリミックスすることができます。特に「カメオ機能」により、自分や友人を動画に出演させることが可能です。Sora 2は、物理法則に基づいた自然な動きやフォトリアルな表現ができ、音声や効果音の生成も行えます。安全性を重視し、生成動画にはトラッキング可能なウォーターマークが付与され、ユーザーの健康状態を確認する機能やペアレンタルコントロール機能も搭載されています。今後はAPI経由での提供も予定されています。 • OpenAIがSora 2を発表し、動画生成サービスを開始した。 • Sora 2を利用するにはChatGPT Proプランの契約が必要で、現在はアメリカとカナダでのみ使用可能。 • iOSアプリSoraでは、動画生成や他のユーザーのコンテンツのリミックスが可能。 • 「カメオ機能」により、自分や友人を動画に出演させることができる。 • Sora 2は物理法則に基づいた自然な動きやフォトリアルな表現が可能で、音声や効果音の生成も行える。 • 安全性を重視し、生成動画にはトラッキング可能なウォーターマークが付与されている。 • ユーザーの健康状態を確認する機能やペアレンタルコントロール機能も搭載。 • 今後はAPI経由での提供も予定されている。

Claude Sonnet 4.5 発表関連情報まとめ
Claude Sonnet 4.5が発表され、あらゆるプラットフォームで利用可能になった。新モデルは、複雑なエージェントの構築やコンピュータ操作、リーズニング、数学タスクにおいて大幅な性能向上を実現し、30時間を超える複雑なタスクを遂行できる。チェックポイント機能が追加され、作業の進捗状況を保管・ロールバック可能になった。安全性の学習により、ユーザの指示に過度に従ったり虚偽の回答をするリスクが低減され、プロンプトインジェクション攻撃に対する防御性能も強化された。Claude Agent SDKは、コーディング以外の幅広いタスクに対応する汎用エージェントの構築を可能にし、エージェントループを用いた動作が特徴。 • Claude Sonnet 4.5は複雑なエージェントの構築やコンピュータ操作において性能向上を実現した。 • 新たにチェックポイント機能が追加され、作業の進捗状況を保管・ロールバックできる。 • 安全性の学習により、ユーザの指示に過度に従うリスクが低減された。 • プロンプトインジェクション攻撃に対する防御性能が強化された。 • Claude Agent SDKはコーディング以外のタスクにも対応する汎用エージェントの構築を可能にする。

GPT-5 まとめ
OpenAIは2025年8月7日にGPT-5を発表しました。このモデルはコーディング、数学、ライティング、医療、視覚認識などのタスクにおいて過去最高の性能を誇ります。GPT-5は、全ユーザーが利用可能で、PlusプランやProプランに応じて異なる機能を提供します。特にProプランでは、より包括的かつ正確な回答を行う拡張リーズニングバージョンが利用できます。新たに導入されたリアルタイムルーター方式により、会話内容や質問の複雑さに応じて最適なモデルが選択されます。また、ハルシネーションの減少や安全性向上のための手法も導入されています。APIを通じて様々な機能が利用可能で、特にコーディングやエージェンティックタスクに最適化されています。 • GPT-5はコーディング、数学、ライティング、医療、視覚認識などのタスクで最高性能を発揮するモデル。 • 全ユーザーが利用可能で、PlusプランとProプランに応じた機能が提供される。 • Proプランでは、より正確な回答を行う拡張リーズニングバージョンが利用できる。 • リアルタイムルーター方式により、会話内容や質問の複雑さに応じて最適なモデルが選択される。 • ハルシネーションの減少や安全性向上のための新手法が導入されている。 • APIを通じて多様な機能が利用可能で、特にコーディングやエージェンティックタスクに最適化されている。

ChatGPT agent の発表まとめ
OpenAIは2025年7月17日にChatGPT agentを発表しました。このエージェントシステムは、ChatGPTにブラウザ操作やDeep Research機能を統合し、複雑なタスクを処理できるようになりました。ユーザーは、カレンダーの確認や材料の計画、競合分析などを依頼でき、結果は編集可能なスライドやスプレッドシートとして返されます。ChatGPT agentはPro、Plus、Teamプランのユーザーが利用可能で、さまざまなツールを使ってタスクを解決する選択肢を提供します。また、安全性に関してもプロンプトインジェクション対策やデータ消去機能が整備されています。 • ChatGPT agentは複雑なタスクを処理できるエージェントシステムである。 • ユーザーはカレンダー確認や材料計画、競合分析などを依頼できる。 • 結果は編集可能なスライドやスプレッドシートとして返される。 • Pro、Plus、Teamプランのユーザーが利用可能で、さまざまなツールを使用できる。 • 安全性対策としてプロンプトインジェクション対策やデータ消去機能が整備されている。

Grok 4 の発表まとめ&試してみた
Grok 4が発表され、Humanity's Last Exam(HLE)という難易度の高いベンチマークで高スコアを記録した。Grok 4は、XプレミアムプラスまたはSuperGrokのサブスクリプションで利用可能で、APIも提供されている。HLEスコアは、初めは5%だったが、計算量を増やすことで25%に向上。Grok 4は、ツールを学習に組み込むことで能力を向上させ、音声対話モードも2倍の速度を実現。Grok 4 Heavyはマルチエージェントで、さまざまなベンチマークで優れた成績を収めている。今後はコーディングモデルやマルチモーダルエージェントの開発が予定されている。 • Grok 4はHumanity's Last Examで高スコアを記録した。 • ツールを学習に組み込むことで能力を向上させた。 • 音声対話モードの速度が2倍になった。 • Grok 4 Heavyはマルチエージェントで、さまざまなベンチマークで優れた成績を収めている。 • 今後の開発予定にはコーディングモデルやマルチモーダルエージェントが含まれる。

Gemini CLI の簡単チュートリアル
Gemini CLIは、Googleが開発したオープンソースのコマンドラインAIエージェントで、コーディング作業の補助やリサーチ、コンテンツ生成、定型タスクの自動化を目的としています。Node.jsのバージョン18以上が必要で、npxコマンドで簡単にインストールできます。対話モードと非対話モードがあり、ユーザーは自然言語で指示を出すことができます。Gemini CLIは、ローカルファイルの操作やGitHubとの連携、カスタム指示の記憶など多機能で、開発者のワークフローを加速させることができます。 • Gemini CLIはコーディング作業やリサーチ、タスクの自動化を支援するAIエージェント。 • Node.jsのバージョン18以上が必要で、npxコマンドで簡単にインストール可能。 • 対話モードと非対話モードがあり、自然言語で指示を出せる。 • ローカルファイルやGitHubとの連携が可能で、カスタム指示を記憶できる。 • 開発者のワークフローを加速させる多機能なツール。

Anthropic の Code with Claude に関する発表まとめ
2025年5月22日にサンフランシスコで開催されたAnthropicの開発者向けイベント「Code with Claude」では、Claude 4 OpusとClaude 4 Sonnetが発表され、無課金プランを含むすべてのプランで利用可能となった。新たに追加されたAnthropic APIの機能には、コード実行ツール、MCPコネクタ、ファイルAPI、拡張プロンプトキャッシングが含まれ、これらはすべてベータ版である。Claude Codeも正式リリースされ、VSCodeやJetBrainsとの統合が行われた。Claude 4はコーディング性能が高く、特にSWE-benchやTerminal-benchで優れた成績を収めている。メモリ機能も改善され、ローカルファイルへのアクセスが可能になった。 • Anthropicの開発者向けイベント「Code with Claude」が開催された。 • Claude 4 OpusとClaude 4 Sonnetが発表され、すべてのプランで利用可能。 • Anthropic APIに4つの新機能(コード実行ツール、MCPコネクタ、ファイルAPI、拡張プロンプトキャッシング)が追加された。 • Claude Codeが正式リリースされ、VSCodeやJetBrainsと統合された。 • Claude 4はコーディング性能が高く、SWE-benchやTerminal-benchで優れた成績を収めている。 • メモリ機能が改善され、ローカルファイルへのアクセスが可能になった。

Google I/O の発表まとめ
Google I/O 2025では、多くの新サービスや機能が発表され、特にGemini関連の技術が注目を集めた。Gemini APIの新機能として、24言語対応の音声合成やリアルタイム音楽生成が追加され、複雑な問題に対するリーズニング機能も強化された。また、Google BeamはAIを活用した新しいビデオコミュニケーションプラットフォームで、没入感のある体験を提供する。Project Astraは、視覚と感情認識を備えたユニバーサルAIアシスタントの開発を目指している。AI Modeは、複数のクエリを同時に処理する新しい検索ツールで、ユーザー体験を向上させることを目的としている。Gemini Diffusionは、高速なテキスト生成を実現する拡散言語モデルで、Gemini Code Assistはコーディング支援ツールとして正式リリースされた。 • Google I/O 2025で多くの新サービスや機能が発表された。 • Gemini APIは24言語対応の音声合成やリアルタイム音楽生成機能を追加。 • Google BeamはAIを活用した新しいビデオコミュニケーションプラットフォーム。 • Project Astraは視覚と感情認識を備えたユニバーサルAIアシスタントの開発を目指す。 • AI Modeは複数のクエリを同時に処理する新しい検索ツール。 • Gemini Diffusionは高速なテキスト生成を実現する拡散言語モデル。 • Gemini Code Assistはコーディング支援ツールとして正式リリース。

OpenAI の SWE Agent、Codex を試してみる

Claude Code が 3 割引きで使える Anthropic Development Partner Program

Vibe Coding で遊ぼう

OpenAI Organization の認証方法
