NVIDIA、Eagle 2.5 ビジュアル言語モデルをリリース:80億のパラメータで GPT-4o を上回る

NVIDIA、Eagle 2.5 ビジュアル言語モデルをリリース:80億のパラメータで GPT-4o を上回る


NVIDIAは先日、新しい視覚言語モデル「Eagle 2.5」をリリースしました。わずか80億のパラメータを持つこのAIは、長時間動画理解の分野において画期的な進歩を遂げました。Video-MMEベンチマークテスト(入力フレーム数512)において72.4%の精度を達成し、その性能はQwen2.5-VL-72Bといった大規模なパラメータを持つ競合製品に匹敵します。

Eagle 2.5の中核となるのは、2つの革新的な技術です。情報優先サンプリング、画像領域保存技術により、元画像の有効情報保存率が60%以上に向上します。また、自動ダウンサンプリングシステムは、コンテキストに応じて画像とテキスト入力の比率を動的に調整できます。さらに、段階的な学習後処理戦略により、コンテキストウィンドウを32Kから128Kに拡張することで、モデルは徐々に適応し、特定のデータ長へのオーバーフィッティングを回避します。

長時間動画の理解をサポートするために、NVIDIAは専用のEagle-Video-110Kデータセットを構築しました。このデータセットは、二重アノテーションメカニズムを採用しています。GPT-4によって生成された章レベルのストーリー記述と、GPT-4oによってアノテーションされたフラグメントレベルの質問と回答のペアの両方が含まれており、コサイン類似度スクリーニングによってデータの多様性が確保されています。長時間動画タスクでは、128フレーム以上のコンテンツに対するモデルの理解精度が23%向上しました。

パフォーマンステストでは、Eagle 2.5はMVBench動画理解テストで74.8ポイントを獲得し、前バージョンから18%の向上を達成しました。DocVQA文書画像分析テストでは、94.1%の精度で業界新記録を樹立しました。アブレーション実験では、増分トレーニングを削除すると長時間動画タスクのパフォーマンスが12%低下し、情報優先サンプリングをキャンセルすると画像詳細認識率が9%低下することが確認されました。

現在、このモデルはSigLIPビジュアルエンコーダーを統合し、4K解像度の画像処理をサポートしています。実車故障検出テストでは、3分間のドライブレコーダー映像からターボチャージャーの異常振動の兆候を検出することに成功し、応答速度は従来のソリューションの3倍に高速化しました。

NVIDIAは、Eagle 2.5テクノロジーが主に医療画像解析や産業品質検査の分野で活用されることを発表しました。軽量設計により、エッジデバイスへの導入が可能です。RTX 4090グラフィックスカード1枚で、毎秒45フレームのリアルタイム映像解析が可能です。開発キットは6月にパートナー向けにテスト用に提供される予定です。

Googleが撤回:Android設定で人気の機能が再び利用可能に

GoogleはAndroid設定の便利な機能、バックアップ詳細をひっそりと復活させました。8月にAndroidが再設計され、より洗練されたMaterial You(Material 3 Expressive)デザインに

Googleが撤回:Android設定で人気の機能が再び利用可能に

クロムユーザーがダークモードのバグを報告:安定した解決策は1つしかない

最近のchromeバージョン141の更新後、多くのユーザーがダークモードでグラフィカルな表示エラーを報告しています。問題はバージョン141.0.7390.55 のリリース直後に発生し

クロムユーザーがダークモードのバグを報告:安定した解決策は1つしかない

マイクロソフトはWord文書の保存場所を変更しようとしている。その理由はこれだ

マイクロソフトはtech communityプラットフォームで、onedriveが組織内のファイル管理とコラボレーションを円滑にするai搭載機能を備えたことを発表しました。wordで新しい

マイクロソフトはWord文書の保存場所を変更しようとしている。その理由はこれだ

グーグルマップのユーザーは、まもなく新しいシンボルを見ることになるだろう。それが何を意味するのかはこちらで説明しています。

グーグルはaiアシスタント「ジェミニ」をグーグルマップに統合しようとしている。これにより、従来のグーグルアシスタントによる音声コントロールはすぐに過去のものとなる

グーグルマップのユーザーは、まもなく新しいシンボルを見ることになるだろう。それが何を意味するのかはこちらで説明しています。

ギャラクシーユーザーは、One UI 8にアップデートした後、人気のアプリで問題が発生していると報告しています。

最近のone ui 8アップデート後、多くのgalaxyスマートフォンユーザーがgoogle chromeブラウザで奇妙な問題を報告しています。ウェブサイトが画面全体を使用するのではなく

ギャラクシーユーザーは、One UI 8にアップデートした後、人気のアプリで問題が発生していると報告しています。

ランチエンジェルズ:Appleの新しいエンジェル投資家の背後に何があるのか?

macos 26(別名tahoe)は、launchdaemonsやlaunchagentsに加えて、appleがこれまで秘密にしていた新しい起動タイプであるlaunchangelsを追加しています。mac & iのライターであ

ランチエンジェルズ:Appleの新しいエンジェル投資家の背後に何があるのか?

裁判官がOpenAIのデータ保存命令を解除:ChatGPTのチャット記録はこれ以上無期限に保存されないことになります

10月9日、米国連邦判事のオナ・t・ワンは、openaiに対してchatgpt関連データを無期限に保存することを要求する物議を醸していた差し止め命令を解除する新たな命令に署名し

裁判官がOpenAIのデータ保存命令を解除:ChatGPTのチャット記録はこれ以上無期限に保存されないことになります

アップルは正式にClipsアプリのサポートを終了しました。アプリはストアから削除され、今後も更新されない予定です。

アップルは最近、動画編集アプリ「clips」へのサポートを段階的に終了すると発表しました。このアプリはapp storeから削除され、今後のアップデートは提供されなくなります

アップルは正式にClipsアプリのサポートを終了しました。アプリはストアから削除され、今後も更新されない予定です。

ニューラリンクの大きな躍進: ALS患者が自分の脳でロボットアームをコントロールし、日常のタスクを完成するに成功

エロン・マスク氏が創業した脳コンピュータインターフェイス企業であるneuralinkは、最近、画期的な成果を発表しました。アミオトロフィック・ラテラル・スクレロシス(als)患

ニューラリンクの大きな躍進: ALS患者が自分の脳でロボットアームをコントロールし、日常のタスクを完成するに成功

アップルのiPhone 17シリーズのアクティベーションデータが明らかにされました。Proモデルは販売ランキングのトップ2を占め、標準バージョンは安定したパフォーマンスを見せています。

アップルのiphone 17シリーズは、全機種で269.5万台のアクティベーションが記録されました。その中でもproシリーズは特に好調で、売上トップ2を占めています。具体的には、

アップルのiPhone 17シリーズのアクティベーションデータが明らかにされました。Proモデルは販売ランキングのトップ2を占め、標準バージョンは安定したパフォーマンスを見せています。

科学者たちはマウスのアルツハイマー病を治療しました。

科学者たちは、実験室のマウスでアルツハイマー病を成功して治療しました。カタルーニャ・バイオエンジニアリング・インスティテュートの研究者らによって実施されたこの実

科学者たちはマウスのアルツハイマー病を治療しました。

Wi-Fiを利用して、人の脈拍を正確に測定することができます。

エンジニアたちは、wi-fiを利用して人の心拍数を測定するシステムを開発しました。pulse-fiテクノロジーでは、追加の機器を必要とせず、既存のルーターで動作します。身体

Wi-Fiを利用して、人の脈拍を正確に測定することができます。

起亜自動車は電気自動車をより安く、より耐久にする方法を見つけた。

韓国のキア・モーターズは、電気自動車の普及に向けてバッテリー残量を確認できる「バッテリーパスポート」システムをテストしている。このバッテリー管理方法は、より長寿

起亜自動車は電気自動車をより安く、より耐久にする方法を見つけた。

科学者たちは、触れ物に敏感なソフトなオブジェクトを作り出しています。

バス大学の研究者たちは、柔らかい物体が人間と同様に互いに作用し合う技術を開発しました。hydrohapticsと呼ばれるこの新しいシステムは、人間と柔らかい物体(クッション、

科学者たちは、触れ物に敏感なソフトなオブジェクトを作り出しています。

メルセデスは電気自動車用のモバイル充電ステーションを発表しました。

メルセデス・ベンツは電気自動車用の移動式充電ステーションを発表しました。このステーションは、従来のガソリンスタンドとほぼ同等の充電速度を実現しています。vクラス

メルセデスは電気自動車用のモバイル充電ステーションを発表しました。