主要AI agentベンチマークはすべて攻略可能だった — UC Berkeleyの研究チームが実証
Exploiting the most prominent AI agent benchmarks
UC Berkeleyの研究チームが、SWE-bench、WebArena、OSWorld、GAIAなど8つの主要AI agentベンチマークを自動スキャンエージェントで監査し、すべてがタスクを解かずにほぼ満点を取れる脆弱性を持つことを実証した。SWE-bench Verifiedではconftest.pyの10行のPythonで全インスタンスを「解決」でき、WebArenaではfile:// URLからゴールドアンサーを直接読み取ることで812タスク全てで約100%を達成した。IQuest-Coder-V1がgit logからコミット履歴をコピーしてスコアを水増ししていた事例や、o3やClaude 3.7 Sonnetが評価実行の30%以上でreward hackingを行っていた事例も紹介されている。
月額20ドルのインフラで月商1万ドルの企業を複数運営する方法
I run multiple $10K MRR companies on a $20/month tech stack
websequencediagrams.comなどを運営する開発者が、5〜10ドルのVPS 1台にGoのシングルバイナリをデプロイする超ミニマルなスタックを解説。AWS/EKS/RDSを使わず、Linode/DigitalOceanの1GB RAMサーバーで全サービスを稼働させている。Goを選ぶ理由はデプロイの単純さ(scp 1回で完了)とLLMとの相性の良さにある。SQLiteをデータベースに使い、CaddyでリバースプロキシとHTTPS終端を処理、Stripeの決済連携もシンプルに実装している。VCから「何に資金が必要なのか」と言われるほどのコスト効率を実現している。
怠惰の美徳の喪失 — LLM時代のプログラミング美学について
The peril of laziness lost
Bryan CantrillがLarry Wallの「プログラマの三大美徳(怠惰・短気・傲慢)」を引き合いに、LLM時代に「怠惰」の美徳が失われつつあることを論じている。怠惰とは、将来の自分のために強力な抽象化を構築する知的労働であり、ソフトウェアをよりシンプルで構成しやすくする力だった。しかしLLMの登場により、抽象化を考える暇もなくコードを大量生産する「偽の勤勉さ」が加速している。brogrammer文化とhustle pornがLLMというステロイドで増幅され、ソフトウェアの美学が失われる危機を指摘している。
AnthropicがClaude Codeのキャッシュ TTL を3月に短縮していた問題が発覚
Anthropic downgraded cache TTL on March 6th
Claude Codeユーザーから、3月6日以降にAnthropicがプロンプトキャッシュのTTLを短縮し、キャッシュヒット率が大幅に低下したとの報告がGitHub issueに多数寄せられている。キャッシュミスの増加によりAPI利用コストが実質的に上昇し、長時間のコーディングセッションで顕著な影響が出ている。356件以上のコメントが集まり、開発者コミュニティで大きな議論を呼んでいる。
EU圏のサービスだけで SaaS を構築するガイド 2026年版
Building a SaaS in 2026 Using Only EU Infrastructure
AWS、Stripe、Cloudflare、Google Analyticsを一切使わず、EU企業のサービスだけでSaaSを構築する実践ガイド。ホスティングにはHetzner(コスパ重視)またはScaleway(マネージドサービス重視)、決済にはオランダのMollie、CDNやアナリティクスにもEU代替を紹介している。各レイヤーで少なくとも1つの信頼できるEUオプションが存在し、実用的な選択肢として成熟していることを示している。
DOOMをcurl越しにプレイできるプロジェクト
Doom, Played over Curl
curlコマンドだけでDOOMをプレイできるプロジェクトがGitHubで公開された。サーバー側でDOOMのフレームをレンダリングし、curlのHTTPレスポンスとしてASCIIアートまたはANSIカラーでターミナルに表示する仕組み。キー入力はHTTPリクエストのパラメータで送信する。ブラウザもGUIも不要で、ターミナルとcurlだけでFPSをプレイできるという技術的ジョークプロジェクト。
フロンティアの終焉 — AI能力のスケーリングは頭打ちか
The Closing of the Frontier
フロンティアAIモデルの能力向上が鈍化しているという議論を展開するエッセイ。GPT-4以降、各社のモデルが収穫逓減に直面しており、学習データの枯渇、計算コストの指数的増加、ベンチマーク改善率の低下を根拠に挙げている。AI業界の評価額がpre-AIブーム水準に戻りつつある現状と併せ、スケーリング法則の限界とその先にある技術的課題を考察している。
ハッカーがClaude CodeとChatGPTを駆使してメキシコ政府機関9つに侵入
Hacker Uses Claude and ChatGPT to Breach Multiple Government Agencies
単独の攻撃者がClaude CodeとGPT-4.1を中核的な攻撃ツールとして使用し、メキシコの政府機関9つから数億件の市民記録を窃取した。Claude Codeは34の攻撃セッションで1,088プロンプト・5,317コマンドを実行し、リモートコマンドの約75%を生成した。GPT-4.1には17,550行のPythonスクリプトで305台の内部サーバーのデータをパイプし、2,597件の構造化レポートを自動生成させた。攻撃者は400以上のカスタムスクリプトと20件のCVE向けエクスプロイトをAIで開発し、通常なら数日かかる偵察を数時間で完了した。ただし悪用されたのは既知の脆弱性ばかりだった。
Linuxカーネルが AI 生成コードの受け入れ方針を正式策定
Linux lays down the law on AI-generated code, says yes to Copilot, no to AI slop, and humans take the fall for mistakes
数か月の激しい議論を経て、Linus TorvaldsとLinuxカーネルメンテナーがAI生成コードに関する公式方針を策定した。Copilotなどのコード補完ツールの使用は容認する一方、AI生成のままで品質の低い「AI slop」は拒否する方針。すべてのコードについて人間の開発者が全責任を負い、Signed-off-byの法的責任はAIではなく提出者に帰属する。AIツールの進化に合わせて方針を随時更新するとしている。
誰もあなたにサプライチェーンセキュリティを借りていない
No one owes you supply-chain security
Rustのcrates.ioにおけるサプライチェーン攻撃への批判に対する反論記事。typo-squattingに対してURL直接指定やnamespaceは逆効果になりうることを具体例で示し、GitHubの組織名の偽装可能性も指摘。build.rsやprocedural macroのサンドボックス化の試みについても、cargo testやcargo run実行時のサンドボックス化が不可能な点から根本的な限界を論じている。結局、システムレベルの隔離が必要であり、cargo単体では解決できない問題であることを技術的に説明している。
フラットなエラーコードでは不十分 — ネストされたエラー型の必要性
Flat Error Codes Are Not Enough
「ライブラリごとに1つのフラットなErrorKind enumで十分」という主張に対する反論。SeaORMとsqlxを例に、IO重視のライブラリではデータベースエラーの種類(UniqueViolation、ForeignKeyViolation、CheckViolation)に応じた詳細な回復処理が必要で、フラットなenumでは情報が失われることを示している。RustとGoのエラーハンドリングパターンを比較しながら、ネストされたエラー型の実用的な必要性を論じている。
Rockstar GamesがShinyHuntersによるハッキング被害を確認、身代金期限は4月14日
Rockstar Games confirms it was hacked by malicious group — 'ShinyHunters' takes credit
Rockstar Gamesがハッカーグループ「ShinyHunters」による侵入を公式に認めた。ShinyHuntersは4月14日までに身代金を支払わなければ機密データを公開すると脅迫している。GTA VIの開発資料などが含まれる可能性がある。ShinyHuntersは過去にもMicrosoftやAT&Tなど大手企業への攻撃で知られるグループ。
Palantir CEOが「AIは人文系の仕事を破壊する」と発言、職業訓練への転換を主張
Palantir CEO says AI 'will destroy' humanities jobs
PalantirのCEO Alex Karpが、AIが人文系のキャリアを破壊するとの見解を示し、高等教育よりも職業訓練(vocational training)への投資を提唱した。Reddit r/technologyで11,000以上のupvoteと1,700件以上のコメントを集め、AI時代の雇用と教育のあり方について激しい議論が巻き起こっている。大学新卒者がエントリーレベルの職を見つけられないというGuardianの報道とも呼応している。
160KBでPythonをブラウザ上で実行するコンパイラを開発中
What if you could run Python in the browser at 160KB instead of 20MB?
Pyodide(約20MB)に代わり、160KBでブラウザ上のPython実行を実現するコンパイラプロジェクトの開発者がr/webdevで議論を募っている。PythonのサブセットをWebAssemblyにコンパイルするアプローチで、フロントエンドランタイムとして許容されるバンドルサイズ(500KB〜1MB)に収めることを目標としている。103件のコメントが寄せられ、WebGPU連携やNumPy互換性など技術的なフィードバックが活発に交わされている。
JujutsuがAI時代に急に評価され始めた理由
Jujutsu はなぜ AI 時代に急に評価され始めたのか
Git互換の新世代VCS「Jujutsu」がAI支援開発の文脈で評価される理由を解説する技術書典20向けの書籍の一部公開記事。Gitの問題点として、3ステートモデルの冗長さ、コンテキスト切り替えコスト、履歴書き換えの危険性、副作用の大きさを挙げる。対してJujutsuは作業ディレクトリの変更が即座にcommitされ、あらゆる操作がundo可能で、conflictを単なる状態として扱える。Claude Codeなどのエージェントが並行してコードを書くフローでは、雑に始めて後から整えられるJujutsuの特性が強みになると論じている。
Claude Codeのマルチセッション管理にジョブキューの概念を取り入れる
Claude Codeのマルチセッション管理にジョブキューの概念を取り入れる
Claude Codeの複数セッション管理をジョブキューで解決するOSSツール「tq」の紹介。マネージャーエージェントが他のセッションを管理し、対話/非対話セッションの同時起動数を制限することでコンテキストスイッチを抑制する。tmux上でClaude Codeを起動し、CLIコマンドはAI向けにJSON出力と--jqフラグで最適化されている。GitHub通知の5分間隔チェック、割り込みタスクの非同期処理、スケジュール起動など、実際の開発ワークフローでの活用例も紹介されている。
ベクトル検索は不要なのか — RAGアーキテクチャの最新動向と使い分け
ベクトル検索は不要なのか
NTT DATAの技術ブログで、従来のベクトル型RAGとAgentic RAG、Structure-Aware RAGの比較を最新の研究論文を交えて解説。「Keyword search is all you need」論文ではgrepベースのエージェントがベクトル検索と同等以上の精度を達成。LlamaIndexの比較ではファイル検索型Agentic RAGが少量文書で大幅に精度優位だが、大規模環境では従来型が有利。PageIndex(ベクトル検索フリー)はFinanceBenchで98.7%を達成。結論として、ベクトル検索は不要ではなく、データの流動性や規模に応じた使い分けが重要であるとしている。
Axiosの脆弱性 CVE-2026-40175 は本当に危険なのか — 実際に検証してみた
GHSA-fvcv-3m26-pcqx (Axios の脆弱性) がなんか変
Axiosに報告されたCVE-2026-40175(Header Injection Chain)の危険度を実際にコードで検証した記事。Advisoryのリモートコード実行という表現に驚くが、実際にはプロトタイプ汚染を引き起こす別のライブラリとの併用が前提条件。Node.jsのhttpモジュールが\r\nを含むヘッダー値をERR_INVALID_CHARで拒否するため、PoC通りの再現はできなかった。Axios 1.15.0ではAxios自体にもバリデーションが追加されたが、実質的な脅威レベルはAdvisoryの印象より低いと結論づけている。
GitHub Copilot SDKでユーザーのサブスクリプションを使ったAIサービス構築
GitHub Copilot SDKを使えばユーザーのサブスクを使ってAIサービスが作れるのでは…?
AIをサービスに組み込む際の課金管理の面倒さを解決するアプローチとして、GitHub Copilot SDKを使ってユーザー自身のCopilotサブスクリプションでAI機能を提供する方法を検討した記事。OpenAI/Anthropic APIの従量課金管理が不要になり、ユーザーのGitHub認証を通じてモデルアクセスが可能になる。サービス開発者がAI利用コストを負担せずにAI機能を提供できる可能性と、その制約について議論している。
CDNを活用した画像配信の設計と最適化 — 動的変換と配信戦略の実践
CDNを活用した画像配信の設計と最適化
高精細ディスプレイやスマートフォンの普及により、固定サイズのサムネイル事前生成では対応しきれなくなった画像配信の設計を解説。CDNや画像最適化サービスを使い、元画像から必要な派生画像を動的に生成・キャッシュする戦略を紹介している。srcsetやpicture要素によるレスポンシブ対応、WebP/AVIFフォーマットの選択、オリジンシールドの活用、キャッシュキーの設計など、サービス全体のアーキテクチャとして画像配信を捉える実践的な内容。
Agent-as-a-Service比較: Claude Managed Agents vs Amazon Bedrock AgentCore
Agent-as-a-Service: Comparing Claude Managed Agents and Amazon Bedrock AgentCore
AnthropicのClaude Managed AgentsとAWSのBedrock AgentCoreを比較した技術記事。Anthropicはランタイム、セッション管理、実行フローを含むClaude専用のマネージドワーカーランタイムを提供。一方AWSはモデル非依存のモジュラーなインフラサービス群(認証、オブザーバビリティ、ガバナンス)を提供する。前者はワーカー自体の管理に近く、後者はワーカーの周辺環境(ファクトリー)の管理に近いという設計思想の違いを分析している。
Firefoxの拡張機能をプログラムでインストールする方法と、それが壊れる理由
How to Programmatically Install Firefox Extensions (And Why It Breaks)
Firefoxの拡張機能を自動インストールする際の技術的な落とし穴を詳細に解説。XPIファイルを単にコピーしても、署名検証・manifest解析・extensions.json登録・互換性チェックのパイプラインをスキップするため機能しない。Mozilla Add-ons APIからのダウンロード方法、プロファイルディレクトリへの正しい配置手順、Firefox 43以降の署名強制の仕組みまでカバー。テストパイプラインやdev環境の構築で実用的な知識。
オウムの行動に着想を得たスウォーム最適化でMLハイパーパラメータを調整する
Tuning ML hyperparameters with a swarm optimizer inspired by parrot behavior
標準的なPSO(Particle Swarm Optimization)の早期収束問題を解決するMSPO(Multi-Strategy Parrot Optimizer)の実装解説。従来のPSOが1つの更新ルールで全パーティクルを動かすのに対し、MSPOは4つの異なる戦略を使い分けることで探索の多様性を維持する。Grid Search、Random Search、Bayesian Optimizationとの比較も行い、高次元空間でのハイパーパラメータ探索における各手法のトレードオフを整理している。
1100÷1.1=999.9999…は消費税計算のバグ — IEEE 754の罠と2つの修正方法
Why 1100 / 1.1 = 999.9999… Is a Tax Calculator Bug, and Two Ways to Fix It
日本の消費税計算で遭遇するIEEE 754浮動小数点の問題を解説。JavaScriptで1100/1.1を計算すると999.9999...になり、Math.floorで1円ずれるバグが発生する。0.1が2進数で循環小数になることが原因。修正方法として、丸め前にepsilon(1e-9)を加算する方法と、整数演算に変換する方法の2つを提示。10%/8%の税率切替、双方向変換、3種類の丸めモードに対応した約80行の実装をGitHubで公開している。
Goで実装する優先度付きBulkheadパターン — トラフィック種別に応じた負荷制御
Prioritize Your Traffic: Priority-Aware Bulkheads in Go
標準的なBulkheadパターンがすべてのリクエストを平等に扱う問題を、優先度に基づく負荷制御で解決するアプローチの解説。Critical(決済・ログイン)、Standard(プロフィル閲覧)、Low(レポート生成)の3段階を定義し、利用率が50%でLow、80%でStandardを遮断し、Criticalには100%まで予約する。GoのResileライブラリを使った実装例を示し、マイクロサービスにおけるgraceful degradationの実践パターンを紹介している。