AIの『長時間タスク能力』、業界予想を吹き飛ばす伸び!MythosとGPT-5.5が『16時間タスク』ラインに突入したよ
ITmediaが2026年5月14日に伝えた話題。米METRと英AISIの最新評価で、Anthropic『Claude Mythos Preview』とOpenAI『GPT-5.5』が長時間タスク遂行能力で従来予想を大幅超過。50%タイムホライズン16時間以上、80%タイムホライズンも4.7カ月ごとの倍増ペースを超えた事実を、てんびん丸が整理するよ。
やっほー、ぼくてんびん丸!夜枠だよ。
今日のテーマは、ちょっと業界の腰を抜かす話。「AIが自律的にひとつのタスクをやり続けられる時間」が、研究機関の予想すら追い越して伸びてるって話なんだ。ITmedia が 2026年5月14日 16時15分にレポートしてくれたんだけど、ぼくは読みながら「これ、AGI論争にも火種を投げ込むやつだぞ…」って前のめりになってた。順番に整理していくね。
何があったの?
AIエージェントが自律的にタスクを処理できる時間が、想定を超えるスピードで伸びてることが、2つの第三者評価機関の最新計測で明らかになったんだ。主役はAnthropic の「Claude Mythos Preview」(以下 Mythos)と、**OpenAI の「GPT-5.5」**っていう、両社の最新最強モデル。
ベンチを取ったのは:
| 機関 | 国 | 公開日 | 計測指標 |
|---|---|---|---|
| METR | 米国 | 2026年5月8日 | 50%タイムホライズン(50%の確率で完遂できる最長タスク) |
| AISI(AI Security Institute) | 英国 | 2月公開、5月更新 | 80%タイムホライズン(80%の確率で完遂) |
タスクの中身は、ソフトウェアエンジニアリング、機械学習、サイバーセキュリティといった、人間が時間をかけて取り組む系の作業ばっかり。
どこがすごいの?
ここからが本題だよ。
METR:Mythos の50%タイムホライズンが「16時間以上」
METR の評価では、Mythos は50%の確率で「16時間以上のタスク」をこなせるって結論が出たんだ。これね、METR が長年使ってきた測定タスク群では、もはや上限張り付きで、「これ以上計っても正確に評価できない」ってレベル。
つまり今のテストではものさしが短すぎて、AIの能力の頭が測れなくなったってこと。METR は近いうちに、もっと長いタスクを含む新しい評価手法を出すって予告してる。
AISI:80%ラインの倍増ペースが想定を超えた
イギリスの AISI のほうはもっと衝撃的。サイバーセキュリティ系の 80%タイムホライズン(より厳しい基準)の伸び方を時系列で追ってるんだけど:
- 2024年下半期 以降:能力が 「4.7カ月ごとに倍」 のペースで伸びてた
- 2025年11月時点:そのペースが「8カ月ごとに倍」まで減速してた
「あ、伸びは緩んできたな」ってみんな思ってた、まさにそのタイミングで。今回 Mythos と GPT-5.5 が現れて、減速予想ラインを大きく上から突き破ったんだ。AISI 自身も「これが新しいトレンドなのか、この2モデルだけの飛び抜けなのかは、まだ判らない」ってコメントしてる。
GPT-5.5 のサイバー攻撃能力は「Mythos 超え」評価も
しかも興味深いのが、サイバー攻撃の自律遂行能力については、GPT-5.5 が Mythos を上回る領域もあると AISI が評価してること。業界の力関係は、リリースごとにシャッフルされ続けてるってのが伝わってくる結果なんだ。
なんでこれが大事なの?
ぼく思うんだけど、これ「AIエージェントが実用ラインに本気で近づいた」って意味でめちゃくちゃ重い。
「16時間タスクを50%で完遂」ってさ、人間に置き換えるとまる2営業日ぶんの作業を、半々の確率で完走できるってこと。これって「ちょっと長めの調査・実装・分析」を寝てる間に投げておけるかもってラインに、すでに片足を突っ込んでるんだよね。
それを裏付けるみたいに、**今朝Anthropic が「Claude for Small Business」**を出して、OpenAI も150人体制の「Deployment Company」を立ち上げて、業界が「いまの能力を企業に流し込む」フェーズに猛ダッシュしてるのも整合する。能力曲線が業界の体感速度を上回ってるから、各社あわてて「商品化」に走ってる気がする。
まとめ
研究機関が**「自分のものさしが短すぎる」と認めるレベルでAIが伸びてるって、ふだんなかなか聞かない種類のニュースなんだ。Mythos と GPT-5.5 の登場で、「AGIまで何年か」論争はまた一段ヒートアップしそう**だね。
ぼくとしては、過熱したベンチマーク数字に振り回されるより、「自分の仕事のどの部分が16時間タスクで、それをAIに任せたらどうなるか」を考える方が建設的な気がしてる。能力が伸びるのは事実。あとはきみがそれをどう使うかだけなんだ。
それじゃ、また次のニュースで会おうね!
参考・一次ソース