IBMとArtificial Analysis最先端AIが企業ITタスクで50%未満のスコアに「ITBench-AA」公開

2026年5月27日、IBMと調査会社のArtificial Analysisは、企業IT業務に特化したAIの性能を測る新しい評価基準「ITBench-AA (アイティーベンチ・エーエー)」を共同で発表しました。この評価では、今最も進んだAIモデルでも、複雑なIT業務の半数以上を正確にこなせないことが判明しています。これは、AIがまだ人間のIT担当者の代わりにはなれないことを示しており、私たちの仕事や会社のITシステムにAIがどう関わるかを考える上で重要な情報です。

企業IT向けAIの能力を測る「ITBench-AA」とは?

ITBench-AAのロゴと説明画像
出典: Hugging Face Blog

IBMとArtificial Analysisが発表した「ITBench-AA」は、企業がITシステムを管理する際に必要となる、複雑なタスクをAIがどれだけ実行できるかを測るための新しい基準です。例えば、社内ネットワークのトラブルを解決したり、新しいソフトウェアを導入したりといった、専門的なIT業務が対象です。これは、単にAIが質問に答えるだけでなく、実際に「行動する」能力、つまり「エージェントAI」としての性能を評価することを目的としています。今回の結果では、現在最も高性能とされるAIモデルでも、これらのITタスクの50%未満しか正しく完了できませんでした。これは、AIがまだ人間のIT専門家のように、複雑な状況を判断し、適切な手順で問題を解決する能力に限界があることを示しています。

なぜ「50%未満」という結果が重要なのか?

最先端のAIモデルが企業ITタスクで50%未満のスコアに終わったことは、現在のAI技術が抱える課題を浮き彫りにしています。例えるなら、新入社員が初めて複雑なプロジェクトに取り組むようなものです。基本的な作業はこなせても、予期せぬ問題やイレギュラーな事態に対応するには、経験豊富な先輩の助けが必要な状態です。今回のベンチマークで試されたタスクは、エラーの診断やシステム構成の変更、セキュリティポリシーの適用など、正確性と信頼性が求められる業務ばかりです。AIがこれらのタスクを半数以上失敗するということは、現状では人間のIT担当者が最終的な責任を持ち、AIの作業を常にチェックする必要があることを意味します。この結果は、AIのビジネス活用が単なる自動化ではなく、人間の判断力とAIの支援を組み合わせる「協調」の段階にあることを強く示唆しています。

ITBench-AAのベンチマーク結果を示すグラフ
出典: Hugging Face Blog

「エージェントAI」は単なるチャットボットではない

今回の評価で焦点が当てられた「エージェントAI (AIエージェント)」とは、私たちが普段使うChatGPTのようなチャットボットとは一線を画します。チャットボットが主に「質問に答える」「文章を作る」ことに特化しているのに対し、エージェントAIは「自律的に行動し、一連のタスクを完了させる」能力を持つAIです。例えば、あなたが「このシステムの問題を解決して」と指示すれば、エージェントAIは自分で状況を分析し、必要なツールを使い、複数のステップを踏んで問題を解決しようとします。これは、まるで優秀な秘書が指示された仕事を一から十までこなしてくれるようなイメージです。しかし、ITBench-AAの結果は、この「秘書」がまだ非常に複雑な企業ITの現場では、期待通りのパフォーマンスを発揮するには至っていないことを示しています。AIがより自律的に動くためには、さらに高度な判断力と、予期せぬ状況への対応能力が求められます。

私たちの仕事や未来にどう影響する?

このITBench-AAの結果は、一般の人々や企業にとって、AIの現実的な導入計画を立てる上で非常に重要な意味を持ちます。特にIT業界で働く人にとっては、AIがすぐに自分の仕事をすべて奪うわけではないという安心材料になるでしょう。AIは今後も、データ分析や定型業務の自動化といった分野で強力な支援ツールとなります。しかし、複雑なトラブルシューティングや戦略的な意思決定など、高度な判断が求められる業務においては、引き続き人間の専門知識と経験が不可欠です。企業はAIを導入する際、その能力の限界を理解し、人間とAIが協力し合う「ハイブリッドな働き方」を模索することが求められます。AIは私たちの仕事を「置き換える」のではなく、「より効率的で創造的なものにする」ためのパートナーとして進化していくでしょう。

IBMとArtificial Analysisが目指すAIの未来

今回のITBench-AAの発表は、IBMとArtificial Analysisが、より実用的で信頼性の高い企業向けAIの開発にどれほど力を入れているかを示しています。IBMは長年にわたり、ビジネス分野でのAI活用を推進してきました。今回のベンチマークは、AIの現在の課題を明確にし、今後の研究開発の方向性を示す羅針盤となるでしょう。AIの性能がまだ不十分であると正直に公表することは、技術の透明性を高め、より堅実な進化を促します。今後、AI開発者は、単に「賢い」AIを作るだけでなく、「信頼できる」「安全な」AIを構築することに、さらに注力していくはずです。これは、企業が安心してAIを導入し、最終的には私たちの社会全体がAIの恩恵を最大限に享受するために不可欠なステップと言えます。

編集部の予想 (今後どうなる?)

ここからは編集部の予想です。

短期 (1 ヶ月以内): 他のAI開発企業も、自社AIモデルをITBench-AAで評価し、結果を公表する動きが活発になるでしょう。AIの信頼性向上への注目が高まると考えられます。

中期 (3 ヶ月以内): 企業IT分野でのAI導入は、まずは人間を支援するツールの強化から進むと考えられます。完全な自動化よりも、作業効率を高める補助役としてAIが普及する可能性があります。

長期 (1 年以内): ベンチマークを通じてAIの具体的な弱点が明確になることで、より高度な推論や複雑な問題解決ができるAIエージェントが生まれる可能性があります。専門分野に特化したAIの進化が加速するでしょう。

FAQ

Q: ITBench-AAって何ですか?

A: 企業で使うコンピューターシステムの管理やトラブル解決をAIがどれだけできるか測るテストです。学校のテストで「情報処理」の成績を測るような感じですね。

Q: AIが50%未満って、私たちの仕事にどう影響しますか?

A: ITの専門家がいきなりAIに仕事を奪われる心配はまだ少ない、ということなんです。AIは「難しいIT業務はまだ苦手」なので、人間のサポート役として活躍してくれるでしょう。

Q: これからAIはITの仕事を全部できるようになりますか?

A: すぐには無理でしょう。今回の結果は「AIがもっと賢くなる必要がある」と教えてくれています。料理ロボットがまだ複雑なフルコースを作れないのと同じ要領で、少しずつ進化していくはずです。

24時間以内の注目AIニュース

上記の内容以外にも、過去 24 時間で注目された AI ニュースを紹介します。

  • Anthropic、韓国法人代表にChoi Kiyoung氏を任命
    AI開発企業Anthropicが、韓国市場での事業拡大を目指し、Choi Kiyoung氏を代表に迎えました。アジア市場での事業展開を強化する動きと見られます。Anthropic News
  • 給与計算サービスRemote、AI導入で従業員1人あたりの収益が50%向上
    給与計算スタートアップRemoteが、AI活用により従業員数を増やさずに売上を50%伸ばしました。年間経常収益3億ドルを達成し、AIが業務効率化に貢献した事例です。TechCrunch AI
  • AWS、AIアシスタント「NarrateAI」でビジネス管理を効率化
    AWSのセールス・マーケティング部門が、自社AIサービス「Amazon Bedrock AgentCore」を使い「NarrateAI」という会話型AIアシスタントを開発。ビジネスデータの分析や管理を助けています。AWS ML Blog
  • NVIDIA、ゲーム開発向け新技術「DLSS 4.5」と多言語AIキャラクターを発表
    NVIDIAがゲーム開発者向けに、グラフィック向上技術「DLSS 4.5」と、AIが多言語で話すキャラクターを簡単に作れる新機能を提供します。よりリアルで没入感のあるゲーム体験が可能になるでしょう。NVIDIA Developer Blog

📬 新着記事をメールでお届けします

記事公開時にメールでお知らせします。週数本・無料・いつでも 1 クリックで解除できます。

uri uri