hn スコア: 8/10

単純な自己蒸留でコード生成が大幅に改善

Embarrassingly simple self-distillation improves code generation

LLM が自身の出力のみを使ってコード生成能力を向上できるかを検証した研究。教師モデルや強化学習を使わず、特定の temperature と truncation 設定でサンプリングした解答を標準的な教師あり学習で fine-tuning する Simple Self-Distillation (SSD) を提案。Qwen3-30B-Instruct の LiveCodeBench v6 での pass@1 を42.4%から55.3%に改善し、特に難問で効果が顕著。Qwen と Llama の4B、8B、30B 規模のモデルで汎化性能も確認された。

#AI #LLM #CodeGeneration
hn スコア: 9/10

Claude Code が23年間潜んでいた Linux の脆弱性を発見

Claude Code Found a Linux Vulnerability Hidden for 23 Years

Anthropic の研究者 Nicholas Carlini が [un]prompted AI セキュリティカンファレンスにて、Claude Code を使って Linux kernel に23年間存在していたリモート悪用可能なヒープバッファオーバーフローを含む複数の脆弱性を発見したと報告。「このような脆弱性は人生で一度も見つけたことがなかったが、LLM で複数発見できた」と述べ、AI による脆弱性発見の実用性を示した。

#AI #Security #Linux
hn スコア: 7/10

GPU を自分で組み立てるブラウザゲーム

Show HN: A game where you build a GPU

GPU の仕組みを学べるブラウザゲーム。プレイヤーは論理ゲートからシェーダーユニットまで GPU のコンポーネントを段階的に組み立てていく。並列処理やパイプライン実行などの概念を実践的に体験できる教育的プロジェクトで、Hacker News で456ポイントを獲得し話題に。

#GPU #Education #Game
hn スコア: 8/10

Coding Agent の構成要素を徹底解説

Components of a Coding Agent

Sebastian Raschka による Coding Agent の設計に関する包括的な解説記事。ツール利用、コンテキスト管理、メモリなどモデル周辺のシステム設計が LLM システムにおいてモデル自体と同等に重要であることを論じ、Claude Code や Codex が同じベースモデルでも異なるパフォーマンスを発揮する理由を構造的に説明している。

#AI #Agent #Architecture
hn スコア: 7/10

大規模言語モデルにおける感情概念とその機能

Emotion concepts and their function in a large language model

Anthropic の研究論文。LLM が「嬉しい」「申し訳ない」といった感情的振る舞いを見せる背景を調査した。訓練過程でモデルが人間的特性を持つキャラクターとして振る舞うよう促され、抽象概念の内部表現を発達させる中で感情を模倣する内部メカニズムが形成される可能性を検証。AI の信頼性確保への含意を議論している。

#AI #LLM #Research #Anthropic
hn スコア: 7/10

Apple が Arm Mac で Nvidia eGPU を動作させるドライバーを承認

Apple approves driver that lets Nvidia eGPUs work with Arm Macs

Apple が Arm ベースの Mac で Nvidia の外付け GPU を使用可能にするドライバーを承認した。長年 Mac では Nvidia GPU のサポートが途絶えていたが、この承認により Apple Silicon Mac で Nvidia の計算能力を活用できるようになる。ML ワークロードやクリエイティブ用途での Mac の拡張性が大幅に向上する。

#Apple #Nvidia #GPU #Mac
hn スコア: 7/10

Microsoft の「Copilot」という名前の製品、少なくとも75個あった

How many products does Microsoft have named 'Copilot'?

Microsoft が「Copilot」というブランド名を付けた製品を網羅的に調査した結果、少なくとも75種類の異なる Copilot 製品が存在することが判明。Microsoft 365 Copilot、GitHub Copilot、Security Copilot、Windows Copilot など、AI ブランディングの肥大化をデータで示し、ユーザーの混乱を招いている実態を明らかにしている。

#Microsoft #Copilot #AI
reddit スコア: 8/10

Microsoft が Copilot は「娯楽目的のみ」と表明、本格利用は非推奨

Microsoft says Copilot is for entertainment purposes only, not serious use

Microsoft が AI アシスタント Copilot を消費者と企業に積極的に売り込む一方で、利用規約に「娯楽目的のみ」「重要なアドバイスには頼らないでください」と記載していることが話題に。AI を業務の中核に据えることを推進しながら同時に責任を回避する免責条項を設ける矛盾が、Reddit で6,600以上の upvote を集め大きな議論を呼んでいる。

#Microsoft #AI #Copilot
reddit スコア: 8/10

Claude AI で BIOS を書き換え、未サポートの Bartlett Lake CPU を Z790 で起動成功

Modder uses Claude AI to rewrite BIOS so they can boot unsupported 12 P-core Bartlett Lake CPU in Windows on a Z790 motherboard

モッダーが Claude AI を利用して BIOS コードを書き換え、正式にはサポートされていない12 P-core の Bartlett Lake CPU を Z790 マザーボードで Windows 上で起動することに成功。AI を使ったファームウェア改変という、従来は高度な専門知識が必要だった作業の民主化を示す事例。

#AI #Hardware #BIOS
reddit スコア: 7/10

手のジェスチャーで Web マップを操作できるライブラリ

I built a library that lets you control web maps with hand gestures like Tom Cruise in Minority Report

拳を振ってパン、両手を広げてズームなど、映画『マイノリティ・リポート』のような手のジェスチャーで Web マップを操作できるライブラリ。MediaPipe WASM を使いクライアントサイドで完結し、サーバー不要でカメラデータがデバイスから外に出ない設計。OpenLayers と連携して動作する。

#WebDev #MediaPipe #WASM #OpenLayers
reddit スコア: 7/10

YouTube Playables のセーブデータはただの JSON、自由に編集可能

youtube playables games save data is just plain json and you can edit it

YouTube Playables のブラウザゲームのセーブデータが開発者ツールから確認できるプレーンな JSON で保存されており、自由に編集可能であることが発見された。ゲームの進行状況やリソースを任意の値に書き換えられるため、クライアントサイドでの状態管理のセキュリティ上の問題を示す面白い事例。

#Security #Web #YouTube
reddit スコア: 7/10

コーディング中に一緒にタップする猫アプリ ― Tauri + React + Swift で OSS 公開

I built a cat that taps along as you code :) it's open source and built with Tauri + React + Swift

キーを押すたびに手をたたく猫がウィンドウ上部に浮遊表示されるデスクトップアプリ。スクロールホイールでタイマーを設定し、フォーカスモード中は指定アプリをブロックする機能も搭載。Tauri 2 + React + Swift で構築されたオープンソースプロジェクトで、r/webdev で179 upvote を獲得。

#Tauri #React #Swift #OSS
reddit スコア: 7/10

イランのミサイル攻撃で AWS のバーレーン・ドバイのデータセンターがダウン

Iranian missile blitz takes down AWS data centers in Bahrain and Dubai

イランのミサイル攻撃により AWS のバーレーンおよびドバイのデータセンターが被害を受け、Amazon が複数のアベイラビリティゾーンで「hard down」ステータスを宣言した。中東リージョンに依存するサービスに大規模な障害が発生し、クラウドインフラの地政学的リスクが改めて浮き彫りになった事件。Reddit で18,000以上の upvote を集めた。

#AWS #Infrastructure #Cloud
reddit スコア: 7/10

XKCD がユニークなテーマ切り替え機能を追加

XKCD adds theme switcher with novel options

Web コミック XKCD がサイトに独自のテーマ切り替え機能を追加。一般的なダークモード/ライトモードだけでなく、遊び心のあるユニークなテーマオプションを提供しており、r/webdev で305 upvote を獲得。テーマ実装のクリエイティブなアプローチとして注目を集めている。

#WebDev #CSS #Fun
zenn スコア: 8/10

AIクローラーにだけ課金する ― Hono + x402 で実現する Cloudflare Workers 上の AI ペイウォール

AIクローラーにだけ課金する。Hono + x402で実現するCloudflare Workers上のAIペイウォール

Cloudflare Workers + D1 で運用しているサイトに AI クローラーのみを対象とした x402 ペイウォールを導入した実践記録。人間には広告なし・Cookie なし・完全無料で提供しつつ、AI ボットだけが 402 Payment Required を受け取る仕組みを Hono のミドルウェアとして実装。SEO 対策によりカスタムドメインなしで検索上位に表示される Berghain DJ データベースでの実運用例を紹介している。

#AI #Cloudflare #Hono #x402
zenn スコア: 8/10

AI が書いたコードをレビューするな

AIが書いたコードをレビューするな

InfoQ の調査「AI コーディングアシスタントは開発速度を上げなかった」を引用し、コーディングではなく「認識のズレ」が本当のボトルネックであると主張。AI にコードを書かせてからレビューする従来のフローではなく、実装前にテスト方針・外部依存・型の厳密さなどの前提を言語化し合意する方法を Claude Code のスキルとして実装した体験を紹介している。

#AI #CodeReview #ClaudeCode
zenn スコア: 7/10

V1 リリース! Microsoft Agent Framework (.NET)

V1 リリース! - Microsoft Agent Framework (C#) V1 その1

2026年4月2日に Microsoft Agent Framework の .NET 版 1.0.0 が正式リリース。Semantic Kernel が破壊的変更を避けつつ最新技術を取り入れた結果、内部が複雑化したため、Agent に必要な機能だけを切り出して再設計したフレームワーク。AI の基本呼び出しは Microsoft.Extensions.AI に委譲し、Agent 機能に特化した設計となっている。

#Microsoft #AgentFramework #.NET
zenn スコア: 7/10

GitHub Copilot CLI の /fleet が面白い ― 並列 Agent 実行の実践ガイド

GitHub Copilot CLI の /fleet が面白い

GitHub Copilot CLI の /fleet コマンドの実践的な使い方を解説。/fleet はオーケストレーターが大きなタスクを分解し、独立して進められる部分を複数の sub-agent に振り分けて並列実行する機能。効果を最大化するにはプロンプトの「切り方」が重要で、分解しやすい構造で記述すると並列化の恩恵を大きく受けられることを実例とともに紹介。

#GitHubCopilot #CLI #Agent
zenn スコア: 7/10

自律的に深掘りするデータ分析エージェントの設計 ― 並列処理による高速化

自律的に深掘りするデータ分析エージェントの設計 〜並列処理による高速化アプローチ〜

NTTデータが設計した、ユーザーの追加指示を待たずに AI が自律的に分析の「計画・実行・評価」を繰り返す Deep Analysis 型データ分析エージェントの解説。タスク量の増加に伴う待ち時間の長大化という実運用上の課題に対し、並列実行アーキテクチャによる高速化アプローチを提案している。

#AI #DataAnalysis #Agent
zenn スコア: 6/10

WinUI 3 の悪いところ ― 不可解な設計・機能不足・バグの3観点で整理

WinUI 3 の悪いところ

WinUI 3 での開発経験から、不可解な設計(ListView 系コントロールの整理不足など)、機能不足、バグの3つの観点でデメリットを整理した記事。WinUI 3 に明確な利点がある一方で、開発中にストレスが溜まる具体的な問題点を実例とともに詳細に指摘している。

#WinUI3 #.NET #Windows
devto スコア: 7/10

Gemma 4 を Cloud Run にデプロイ ― 使った分だけ課金する方法

Deploy Gemma 4 on Cloud Run: Pay Only When You Actually Use It

Google の Gemma 4 を Cloud Run にデプロイし使用時のみ課金される構成を実現するガイド。以前 Gemma 3 を Vertex AI Managed Endpoint にデプロイした際に月$400-500の固定費が発生した失敗経験を踏まえ、Cloud Run の scale-to-zero 機能を活用したコスト効率の良いデプロイ方法を解説している。

#Gemma #CloudRun #AI #GCP
devto スコア: 7/10

誰も語らない Agent オーケストレーションの問題

The Agent Orchestration Problem Nobody Talks About

マルチエージェントシステムで Agent が連鎖的に呼び出し合い、各ステップでハルシネーションが蓄積する「伝言ゲーム問題」を指摘。解決策として自然言語ではなく JSON スキーマや型付きオブジェクトによる構造化ハンドオフ(grounded handoffs)を提案し、実運用でのマルチエージェント設計の実践的パターンを紹介。

#AI #Agent #Architecture
devto スコア: 7/10

Token 使用量は新しい RAM 使用量だ

Token Usage Is the New RAM Usage

2000年代の開発者が RAM 使用量を常に監視していたように、現在の AI 開発者は token 使用量を監視する時代になったという考察。プロンプトチェーンのコスト管理、予期しない token 消費の原因分析など、LLM ベース開発における「見えないメーター」としての token 管理の重要性を実体験から論じている。

#AI #LLM #DevTools
devto スコア: 8/10

CVE-2026-32211: Azure MCP Server の認証欠如が AI Agent に及ぼす影響

CVE-2026-32211: What the Azure MCP Server Flaw Means for Your Agent Security

2026年4月3日に Microsoft が公開した CVE-2026-32211 は、Azure MCP Server (@azure-devops/mcp) に認証メカニズムが完全に欠如しているという CVSS 9.1 の重大な脆弱性。Azure DevOps のワークアイテム、リポジトリ、パイプライン、PR への不正アクセスが可能で、パッチは未提供。AI Agent が MCP 経由で Azure DevOps を利用している場合の影響と緩和策を解説。

#Security #MCP #Azure #CVE
devto スコア: 7/10

SSH 鍵管理が破綻している理由と証明書による解決策

Why SSH Key Management Is Broken and How Certificates Fix It

authorized_keys による従来の SSH 鍵管理がチーム規模の拡大で破綻する問題を指摘。新メンバーのオンボーディング時に全サーバーへの鍵配布が必要で、退職時の鍵削除も困難という課題に対し、OpenSSH 5.4(2010年)から利用可能な SSH 証明書による解決策を具体的な設定手順とともに解説。

#SSH #Security #DevOps