hn スコア: 9/10

Introspective Diffusion Language Model:初めてAutoregressive モデルと同等品質を達成した拡散言語モデル

Introspective Diffusion Language Models

拡散言語モデル(DLM)が Autoregressive(AR)モデルに品質で劣る原因を「introspective consistency の欠如」と特定し、Introspective Strided Decoding(ISD)を導入した I-DLM を提案。I-DLM-8B は同規模の AR モデルと品質が一致し、パラメータ数が半分の LLaDA-2.1-mini(16B)を AIME-24 で+26、LiveCodeBench-v6 で+15上回る。高並列時に 2.9〜4.1 倍のスループットを実現し、gated LoRA によりビット単位で劣化のない高速化が可能。SGLang への直接統合もサポートする。

#AI #LLM #Diffusion Models #Research
hn スコア: 8/10

Claude Code Routines:AI コーディングの作業を自動化する新機能

Claude Code Routines

Claude Code に Routines 機能が追加された。よく使う AI プロンプトをワンクリックで実行可能なツールとして保存し、繰り返しの開発タスクを自動化できる。Web 版 Claude Code からも利用でき、プロンプトのテンプレート化やパラメータ指定による再利用が可能になった。

#AI #Claude #Developer Tools
hn スコア: 8/10

Tool calling の M×N 問題:オープンソースモデルごとに異なるワイヤフォーマットの課題

The M×N problem of tool calling and open-source models

オープンソース LLM の tool calling は、モデルファミリーごとにワイヤフォーマットが異なるという M×N 問題を抱えている。gpt-oss、DeepSeek、GLM5 はそれぞれ独自のトークン境界やシリアライゼーション方式を持ち、vLLM・SGLang・llama.cpp 等の推論エンジンはモデルごとにカスタムパーサーを実装する必要がある。Gemma 4 では reasoning トークンが tool call の引数に混入する問題も発生し、llama.cpp が専用パーサーを構築する事態になった。

#LLM #Tool Calling #Open Source
hn スコア: 8/10

マルチエージェントソフトウェア開発は分散システム問題である

Multi-Agentic Software Development Is a Distributed Systems Problem

複数の LLM エージェントが協調してソフトウェアを開発する構成を分散システムの形式モデルとして捉え、分散合意の不可能性定理との接続を論じている。エージェントが AGI レベルになっても協調問題は本質的に残るとし、choreographic language による multi-agent workflow の記述や、ゲーム理論を組み込んだ形式手法の研究を進めている。

#AI #Distributed Systems #Multi-Agent
hn スコア: 7/10

OpenSSL 4.0.0 リリース:SSLv3 廃止、Engine 削除など大規模な破壊的変更

OpenSSL 4.0.0

OpenSSL 4.0.0 がリリースされた。SSLv3 のサポートを完全削除(2015年から非推奨、1.1.0 以降デフォルト無効)、Engine 機構の廃止、ASN1_STRING の opaque 化、c_rehash スクリプトの削除など大きな破壊的変更を含む。X509 関連 API に const 修飾子が追加され、明示的 EC カーブのサポートもデフォルト無効となった。PKCS5_PBKDF2_HMAC の下限チェックが FIPS プロバイダで強制されるようになるなど、セキュリティ強化も多数含まれる。

#Security #OpenSSL #Cryptography
hn スコア: 7/10

jj(Jujutsu)入門:Git より簡単かつ強力な分散バージョン管理システム

jj – the CLI for Jujutsu

Jujutsu は Git と Mercurial の長所を統合した新しい分散バージョン管理システムで、CLI ツール jj で操作する。Git より少ないコマンド体系でありながらより強力な操作が可能で、Git 互換バックエンドにより既存リポジトリでそのまま利用できる。チームメンバーに移行を強制する必要がなく、気軽に試せる点が特徴。Steve Klabnik による包括的なチュートリアルが公開された。

#Git #VCS #Developer Tools
hn スコア: 7/10

WiiFin:Nintendo Wii 向け Jellyfin クライアントを C++ で開発

WiiFin – Jellyfin Client for Nintendo Wii

Nintendo Wii 上で Jellyfin メディアサーバーのコンテンツを再生できる homebrew クライアント。C++ で GRRLIB と MPlayer CE を使い、ログイン認証(QuickConnect 対応)、ライブラリブラウジング、サーバー側トランスコーディングによる動画・音楽再生、再生位置の同期、mbedTLS による HTTPS 通信に対応。Wiimote の IR ポインターとオンスクリーンキーボードも実装されている。

#Homebrew #Jellyfin #Nintendo Wii
reddit スコア: 8/10

Vercel が Claude Code プラグインでユーザーのプロンプトを無断収集していた問題が発覚

Vercel was spying and collecting telemetry data through Claude prompt injections and without user consent

Vercel の Claude Code プラグインが、ユーザーの入力したすべてのプロンプトを読み取り、テレメトリーデータとして収集していたことが判明した。ユーザーの同意なくプロンプトインジェクションの手法でデータを取得しており、r/webdev で大きな議論を呼んだ。プライバシーとAIツールの信頼性に関する懸念が広がっている。

#Security #Privacy #Vercel #Claude
reddit スコア: 7/10

上司は AI で生産性向上と言うが、現場は「workslop」に溺れている

Bosses say AI boosts productivity – workers say they're drowning in 'workslop'

Guardian の調査記事。経営層が AI による生産性向上を主張する一方、現場の従業員は AI が生成する低品質な出力(「workslop」と呼ばれる)の修正・確認作業に追われ、むしろ業務負担が増加していると報告。AI の出力を精査するための新たなワークフローが必要になり、結果として生産性のネットゲインが想定より小さい実態を浮き彫りにしている。

#AI #Productivity #Workplace
reddit スコア: 7/10

AI がハッカーに悪用可能なバグを発見する時代:「Bugmageddon」に備えよ

AI Is Finding Bugs That Hackers Can Exploit. Get Ready for Bugmageddon.

Wall Street Journal の記事。AI ツールがソフトウェアの脆弱性を自動的に発見する能力が急速に向上しており、攻撃者がこれを悪用するリスクが高まっている。セキュリティ研究者と攻撃者の間で AI による脆弱性発見の軍拡競争が始まっており、防御側の対応が急務となっている。

#AI #Security #Vulnerability
reddit スコア: 7/10

Anthropic が OpenAI の支持する AI 責任法案に反対を表明

Anthropic Opposes the Extreme AI Liability Bill That OpenAI Backed

WIRED の報道によると、Anthropic は OpenAI が支持した AI の厳格な責任を問う法案に反対の立場を表明した。Anthropic は法案の責任範囲が過度に広く、AI 開発のイノベーションを阻害する可能性があると主張。AI 規制をめぐる大手 AI 企業間の立場の違いが鮮明になっている。

#AI #Regulation #Anthropic #OpenAI
reddit スコア: 7/10

配列内の重複要素を見つける:N 個の整数(1〜N-1)における古典的アルゴリズム問題

Finding a duplicated item in an array of N integers in the range 1 to N − 1

Raymond Chen による Microsoft DevBlogs の記事。1〜N-1 の範囲の N 個の整数配列から重複要素を効率的に見つけるアルゴリズムを複数の手法で解説。XOR を使った O(n) 時間・O(1) 空間の手法や、Floyd のサイクル検出アルゴリズムの応用など、面接問題としても有名な問題の実践的な解法を示している。

#Algorithms #Programming #Microsoft
reddit スコア: 7/10

Airbnb ホストが AI にゲスト対応を丸投げ:フレンチトーストのレシピを提案する事態に

Airbnb Hosts Don't Want to Talk to Guests Anymore, Are Outsourcing Messages to AI

404 Media の調査で、Airbnb ホスト向けに AI がゲストへのメッセージを自動生成するサービスが業界として確立されつつあることが判明。ある AI ツールがゲストにフレンチトーストのレシピを提案するという珍妙な事例も発生。ホスピタリティ業界における AI 自動化の急速な浸透と、人間のコミュニケーションが失われることへの懸念を報じている。

#AI #Airbnb #Automation
reddit スコア: 7/10

Name-only @container queries:CSS コンテナクエリの命名問題を解決する新提案

Name-only @container queries: A solution to the naming wars

WebKit チームが CSS Container Queries の命名に関する長年の議論に対する解決策として「name-only container queries」を提案。コンテナの名前だけを指定してクエリを記述できるようにすることで、container-type の宣言が不要になるケースを増やし、開発者の混乱を減らすことを目指している。

#CSS #WebKit #Frontend
zenn スコア: 8/10

手元の GPU を遊ばせないためのジョブスケジューラ入門

手元のGPUを遊ばせないためのジョブスケジューラ入門

Slurm Workload Manager に着想を得た軽量ジョブスケジューラ slotd を紹介。HPC 環境で使われてきたジョブスケジューリングの概念を、Coding Agent と組み合わせた個人の GPU 開発環境に適用する方法を解説している。Claude Code や Codex 等の Agent が並列で計算ジョブを投入する際の、GPU リソース競合の回避や実行キュー管理を自動化できる。

#GPU #Slurm #Developer Tools #AI
zenn スコア: 8/10

Coding Agent を Rust で自作してみた:Microde CLI の設計と実装

Coding AgentをRustで自作してみた

Claude Code や OpenCode の内部動作を理解するため、Rust でミニマルなコーディングエージェント Microde CLI を自作した記録。エージェントの状態遷移、ツール呼び出しのループ、LLM とのインタラクション設計を実装レベルで解説。チャットボットがどのようにして自律的なコーディング能力を獲得するのか、ソフトウェア設計上の勘所を実体験から明らかにしている。

#Rust #AI Agent #Claude Code
zenn スコア: 8/10

Claude Code の並列作業で「画面に張り付く」をやめるためにやったこと

Claude Codeの並列作業で「画面に張り付く」をやめるためにやったこと

Claude Code を 5〜6 本のワークストリームで同時実行する際の「画面張り付き」問題を解決した実践記事。承認ダイアログの削減(settings.json で信頼できる操作を自動承認)、エラー通知の仕組み化、そして「ただ見物しているだけ」の時間を意識的に排除する方法を紹介。並列数の上限はツールではなく人間側のボトルネックにあるという洞察が核心。

#Claude Code #Productivity #Parallel Processing
zenn スコア: 7/10

仕様駆動開発を「やめる」タイミング:AI 時代の仕様書との付き合い方

仕様駆動開発を「やめる」タイミング

Claude Code 等の AI ツールで Spec-Driven Development を実践する中で直面した「仕様書と実装の乖離」問題について、実体験をもとに考察。AI と自然言語で仕様書を先に作りコードを生成するアプローチは強力だが、反復的な開発の中で仕様書のメンテナンスコストが膨らむタイミングがある。仕様書を「いつ捨てるか」という、あまり語られないテーマに踏み込んでいる。

#AI #Spec-Driven Development #Software Engineering
zenn スコア: 7/10

AWS Frontier Agents で変わる SRE の仕事、変わらない SRE の仕事

AWS Frontier Agentsで変わるSREの仕事、変わらないSREの仕事

AWS が GA リリースした DevOps Agent と Security Agent(Frontier Agents)が SRE の業務にどう影響するかを分析。公式発表の「MTTR 最大75%削減」「ペネトレーションテストが数週間から数時間に」という数字を踏まえ、Agent に移行できるタスクと人間に残るタスクを整理。Claude Code や Devin との違いについても考察している。

#AWS #SRE #AI Agent #DevOps
zenn スコア: 7/10

GitHub Copilot CLI にリモートコントロール機能が追加:スマホからターミナルを操作

遠隔で GitHub Copilot CLI を操作する - リモートコントロール機能を試してみた

GitHub Copilot CLI v1.0.25 で Public Preview として追加されたリモートセッション機能のレビュー。ローカルで実行中の CLI セッションの出力を GitHub にリアルタイムストリーミングし、GitHub.com や GitHub Mobile から進捗確認・権限承認・指示送信が可能。Claude Code の Remote Control 機能に対抗する形で、長時間タスクの遠隔監視に対応した。

#GitHub Copilot #CLI #Remote Control
zenn スコア: 7/10

VRAM 32GB のローカル LLM 環境をコスパ重視で構築:RTX 5060 Ti 16GB×2 構成

VRAM(ビデオメモリ)32GBのローカルLLM環境(AI PC)をコスパ重視で構築してみる

RTX 5090(約60万円)を避け、RTX 5060 Ti 16GB を2枚挿しして VRAM 32GB のローカル LLM 環境を構築した記録。PCIe 5.0 レーンの分割制限(Intel Z890 で CPU 直結20本のため x16/x4 や x8/x8 構成になる点)や、マザーボード選びの注意点を実測データとともに解説。コスパ重視で LLM 推論に十分な VRAM を確保する現実的な選択肢を示している。

#LLM #GPU #Hardware #NVIDIA
devto スコア: 8/10

AI Agent で過剰設計しがちなポイント:LLM がすでに解決していること

Things You're Overengineering in Your AI Agent (The LLM Already Handles Them)

2年間プロダクション環境で AI Agent を構築してきた経験から、開発者が過剰に実装しがちなパターンを指摘。カスタムのツール選択ロジック(LLM は適切な tool description があれば自力で選択できる)、マルチステップのプロンプトチェーン、手製のリトライ機構など、LLM の能力を活かせば不要になるコンポーネントを具体例とともに解説している。

#AI Agent #LLM #Software Engineering
devto スコア: 8/10

Go で再開可能な LLM ストリーミングを実現する streamhub

I needed resumable LLM streams in Go — so I built streamhub

LLM の SSE ストリーミングで、ユーザーのリロードやネットワーク断、ロードバランサーによる接続先変更に対応する Go ライブラリ streamhub を開発。Redis Streams でチャンクを永続化し再接続時にリプレイ、Redis Pub/Sub でキャンセルシグナルをインスタンス間で伝搬する。generation ID をフェンシングトークンとして使い、古いプロデューサーの書き込みを拒否する設計。

#Go #LLM #Redis #Streaming
devto スコア: 7/10

TraceMind v2:LLM のハルシネーション検出と A/B テスト機能を追加

TraceMind v2 — I added hallucination detection and A/B testing to my open-source LLM eval platform

オープンソースの LLM 評価プラットフォーム TraceMind の v2。ハルシネーション検出は claim 抽出と検証を別々の LLM 呼び出しで行い信頼性を向上。プロンプト A/B テストでは Mann-Whitney U 検定と Cohen's d を用いて、小規模データセット(5〜20件)でもプロンプト変更が統計的に有意かどうかを判定できる。マルチエージェントシステムのプロンプト変更で品質が84%から52%に低下したインシデントを11日後に発見した経験が開発動機。

#LLM #Evaluation #Open Source #Testing
devto スコア: 7/10

CrewAI + Ollama で自律型データセット生成器を構築:72時間で1,065件を生成

How I Built an Autonomous Dataset Generator with CrewAI + Ollama (72-hour run, 1,065 entries)

ローカル LLM のファインチューニング用データセットを自律生成する3エージェントシステム。Curator(Qwen 7B)が ChromaDB からトピックを選定、Producer(Qwen 7B)が Chain-of-Thought 付きの instruction/response ペアを生成、Critic(DeepSeek 1.5B)がロジック検証とハルシネーションチェックを行う。商用データセット($500〜$2,000)の代替として、72時間で1,065件のデータを API コストゼロで生成した。

#LLM #Dataset #CrewAI #Ollama
devto スコア: 7/10

Docker イメージを 1.58GB から 186MB に圧縮した話と、壊れたものの正直な報告

I Shrunk My Docker Image From 1.58GB to 186MB. Then I Had to Explain What I Actually Broke.

Node.js アプリの Docker イメージを node:18(Debian ベース、1.58GB)から Alpine ベースのマルチステージビルドで 186MB に圧縮した過程を詳述。Alpine 移行で発生する musl libc と glibc の互換性問題、ネイティブモジュール(bcrypt 等)のビルド失敗、DNS 解決の挙動差異など、チュートリアルでは語られないトレードオフを正直に報告している。

#Docker #DevOps #Node.js