hn スコア: 8/10

Qwen3.6-Max-Preview: より賢く、より鋭く、まだ進化中

Qwen3.6-Max-Preview: Smarter, Sharper, Still Evolving

Alibaba が Qwen3.6-Max-Preview を発表した。前世代の Qwen3.5 から推論能力とコーディング性能が大幅に向上し、複数のベンチマークで GPT-4.5 や Claude Opus 4 と競合するスコアを記録している。特に数学的推論と長文コンテキスト処理に改善が見られ、まだプレビュー段階であることを強調しつつ今後の最適化を予告している。

#AI #LLM #Qwen
hn スコア: 8/10

Kimi K2.6: オープンソースコーディングの最前線

Kimi K2.6: Advancing open-source coding

Moonshot AI が Kimi K2.6 をオープンソースとして公開した。長期的なコーディングタスクに強みを持ち、Rust・Go・Python など複数言語でフロントエンド・DevOps・パフォーマンス最適化をカバーする。SWE-Bench Pro や Terminal-Bench 2.0 で最先端のスコアを達成し、Zig でのモデル推論実装など分布外タスクでも汎化性能を示している。Agent Swarm 機能により複数エージェント協調も可能。

#AI #LLM #open-source #coding
hn スコア: 7/10

ggsql: SQL 向け Grammar of Graphics

ggsql: A Grammar of Graphics for SQL

Posit(旧 RStudio)が ggsql のアルファ版を公開した。SQL 構文で可視化を記述できるツールで、VISUALIZE ... FROM ... DRAW の構文により、SQL クエリ内で直接グラフを生成できる。Quarto・Jupyter・Positron・VS Code に対応し、ggplot2 の Grammar of Graphics の概念を SQL ユーザーに提供する。

#SQL #visualization #R #open-source
hn スコア: 7/10

GitHub の偽スター経済圏

GitHub's fake star economy

GitHub リポジトリの偽スターを利用した人工的な人気操作の実態を調査した記事。AI エージェント系リポジトリを中心に、数百のアカウントが短期間で大量のスターを付ける不正パターンが検出された。偽スターの売買市場の存在とその価格帯、GitHub の対策の限界について報告している。

#GitHub #open-source #security
hn スコア: 7/10

Soul Player C64: 1MHz の Commodore 64 で Transformer を動かす

Soul Player C64 – A real transformer running on a 1 MHz Commodore 64

1MHz の 6510 プロセッサを搭載する Commodore 64 上で実際に Transformer モデルを動作させるプロジェクト。8-bit 整数演算のみで推論を実装し、テキスト生成を実現している。極端なリソース制約下での LLM 動作という技術的挑戦で、量子化と最適化の限界を探る実験的なプロジェクトである。

#AI #retro-computing #optimization
hn スコア: 8/10

「検閲なし」モデルも言いたいことが言えない

Even 'uncensored' models can't say what they want

Morgin.ai の研究チームが、「検閲なし」を謳う LLM でも事前学習段階の安全性フィルタリングにより特定の単語に対する出力確率が著しく低下する「flinch」現象を測定した。5つの研究機関の7つの事前学習モデルを比較し、refusal-ablation 後のモデルでも charged word の予測確率が open-data pretrain と比較して最大16,000倍低いことを定量的に示している。

#AI #LLM #safety #research
hn スコア: 7/10

RTX 3090 で Qwen3.5-27B を 207 tok/s で推論

We got 207 tok/s with Qwen3.5-27B on an RTX 3090

LuceBox が特定のコンシューマーハードウェア向けに手動チューニングした LLM 推論最適化を公開。RTX 3090 単体で Qwen3.5-27B モデルを 207 tokens/sec で動作させることに成功した。カスタムカーネルとメモリ管理の最適化により、一般的な推論フレームワークを大幅に上回るスループットを実現している。

#AI #LLM #inference #GPU
hn スコア: 7/10

Atlassian が AI 学習用のデフォルトデータ収集を有効化

Atlassian enables default data collection to train AI

Atlassian が Jira・Confluence 等の製品で、AI モデルの学習用にユーザーデータのデフォルト収集を有効化したことが判明した。オプトアウト方式を採用しており、管理者が明示的に無効化しない限りデータが収集される。企業の機密情報が AI 学習に使われるリスクについてコミュニティで強い反発が起きている。

#AI #privacy #Atlassian
reddit スコア: 8/10

Vercel が AI ツール経由でハッキングされる: 環境変数が平文で流出

Holy crap Vercel got hacked. ROTATE YOUR KEYS if they weren't marked "sensitive"

Vercel の従業員がサードパーティ AI ツール「context.ai」に Google Workspace への無制限アクセスを許可し、攻撃者がそれを経由して侵入した。「sensitive」マークを付けていなかった環境変数が平文でアクセスされ、攻撃者は盗取データに対し200万ドルの身代金を要求している。ユーザーは鍵のローテーションを推奨されている。

#security #Vercel #AI #breach
reddit スコア: 7/10

WAL モード有効時の SQLite ファイルコピーはバックアップとして無効

PSA: Copying your SQLite .db file isn't a valid backup when WAL mode is enabled

Rails 8 や Litestream がデフォルトで WAL モードを使用する現在、SQLite の .db ファイルを単純にコピーしてもバックアップとして有効ではないことを解説。WAL モードでは -wal ファイルと -shm ファイルにコミット済みだが本体に反映されていないデータが存在するため、sqlite3 の .backup コマンドや VACUUM INTO を使う必要がある。

#SQLite #database #backup
reddit スコア: 8/10

音声フィンガープリンティングの仕組み: Shazam はどうやって曲を特定するか

An interactive explainer of how audio fingerprinting lets Shazam identify a song in seconds

Shazam の音声認識技術をインタラクティブに解説する記事。マイクが音波を波形として取得し、FFT でスペクトログラムに変換、ピーク点を抽出して「星座」のようなフィンガープリントを生成する過程を視覚的に説明している。ノイズの多い環境でも数百万曲のデータベースから数秒で一致を見つけるアルゴリズムの仕組みが分かる。

#audio #algorithm #interactive
reddit スコア: 7/10

EU の年齢確認アプリ、ハッカーが2分で突破

EU Declared Age App "Ready" While GitHub Flagged it Unfit, Then Hackers Bypassed It in 2 Minutes

EU がリリースした年齢確認アプリが、GitHub 上で既に不適格とフラグ付けされていたにもかかわらず「準備完了」と宣言された直後、セキュリティ研究者にわずか2分で回避された。アプリの検証ロジックがクライアントサイドのみで行われていた致命的な設計上の欠陥が指摘されている。

#security #EU #age-verification
reddit スコア: 7/10

Zoom が World と提携し会議参加者が人間であることを検証

Zoom has announced a partnership with World, Sam Altman's human ID verification company

Zoom が Sam Altman の人間認証企業 World(旧 Worldcoin)と提携し、会議参加者が AI 生成のなりすましではなく実際の人間であることを検証する機能を導入する。Deepfake によるビデオ会議詐欺が増加する中、虹彩スキャンベースの World ID を活用してリアルタイム認証を行う仕組みを構築する。

#AI #Zoom #identity #deepfake
reddit スコア: 7/10

BlueHammer ゼロデイ脆弱性がパッチまで約2週間放置されていた

Zero-day 'BlueHammer' exploit stayed live for ~2 weeks before the patch.

Windows に影響する BlueHammer と呼ばれるゼロデイ脆弱性が、発見からパッチ適用まで約2週間にわたり悪用可能な状態だった。Microsoft Security Response Center の対応速度に疑問が呈されており、野生での悪用事例も報告されている。脆弱性の技術的詳細とタイムラインが公開された。

#security #Windows #zero-day
zenn スコア: 7/10

1日で作るサプライチェーン攻撃対策: コスト「ほぼゼロ」の通信監視

1日で作るサプライチェーン攻撃対策!運用死しないコスト「ほぼゼロ」の通信監視

サプライチェーン攻撃に対し、侵入後の早期発見に特化した通信監視システムを低コストで構築する方法を紹介。依存ライブラリの棚卸しや SBOM 整備とは異なるアプローチで、万が一悪意あるコードが混入した場合の外部通信を検知する仕組みを1日で構築できる実装手順を解説している。

#security #supply-chain #monitoring
zenn スコア: 8/10

自作キーボードの Tap&Hold 判定に機械学習モデルを導入

自作キーボードに機械学習モデルを仕込む

40% キーボードの Tap&Hold 判定(短押しで文字入力、長押しで修飾キー)にルールベースではなく機械学習モデルを適用した実験記録。打鍵時間と次キー押下までの時間を特徴量として2クラス分類問題として定式化し、従来の閾値ベース判定で頻発していた誤爆を大幅に削減。QMK ファームウェア上での実装詳細を含む。

#machine-learning #keyboard #QMK #embedded
zenn スコア: 7/10

AI 時代にわざわざ Ruby on Rails を使う理由

AI時代にわざわざRuby on Railsを使う理由

TypeScript・Go・Rust など他言語でのサイドプロジェクト経験を経て、AI 時代においてなお Rails を選ぶ理由をフリーランスエンジニアが考察。LLM のコード生成において学習データが豊富な Rails は出力品質が高く、Convention over Configuration の原則が AI による自動化と相性が良い点を具体例とともに論じている。

#Ruby #Rails #AI #framework
zenn スコア: 7/10

Claude に原始時代に行ってもらっては困る話: caveman prompt の検証

Claudeに原始時代に行ってもらっては困る話

海外 LLM コミュニティで話題の「caveman prompt」(原始人のように喋れと指示してトークン消費を削減する手法)を検証した記事。Claude Code に対してこのプロンプトを適用した場合の出力品質・トークン数の変化を実測し、挨拶やクッション言葉の削減効果と、技術的正確性への影響をバランスよく分析している。

#LLM #prompt-engineering #Claude
zenn スコア: 8/10

設計書・コード・テストを全部 AI に書かせて半年間開発してみた

設計書・コード・テストを全部AIに書かせて半年間開発してみたよ

NTT DATA のチームが2025年10月から2026年3月まで半年間、顧客納品システムを AI ネイティブで開発した体験談。設計書・実装コード・テストコードの全てを AI に生成させるワークフローを運用し、生産性の変化・品質管理の課題・人間の役割の変容について実践的な知見をまとめている。

#AI #software-development #enterprise
zenn スコア: 7/10

gh skill が登場: GitHub 公式の AI エージェント向けスキル管理ツール

gh skillが登場。GitHub公式のスキル管理ツールにnpx skillsから乗り換えた

2026年4月16日に GitHub CLI に追加された gh skill サブコマンドの紹介。AI エージェント向けスキル(Agent Skills)を GitHub リポジトリ経由でインストール・アップデート・公開できる。従来の npx skills からの移行手順と、パッケージ管理としての利点を解説している。

#GitHub #AI-agents #CLI #developer-tools
zenn スコア: 7/10

Let's Encrypt の短期証明書は厳しい: ARI 対応クライアントの必要性

Let's Encryptの短期証明書はかなり厳しいのでARI対応クライアントを使った方がよい

Let's Encrypt の短期証明書(90日より短い有効期間)を複数サブドメインで運用する際、証明書発行のレート制限に容易に抵触する問題を解説。更新頻度の増加によりレート制限の影響が顕在化するため、ARI(ACME Renewal Information)に対応した ACME クライアントを使用して最適な更新タイミングを制御する方法を推奨している。

#TLS #Let's Encrypt #infrastructure
devto スコア: 8/10

MCP を組織導入して分かった最大のギャップ

What Building with MCP Taught Me About Its Biggest Gap

MCP(Model Context Protocol)を GitHub・Slack・Datadog に接続して組織運用した実体験レポート。MCP はエージェントとツール間の通信プロトコルを標準化するが、認可・レート制限・監査ログ・チーム別アクセス制御は一切カバーしていない。「プラグは標準化するが電力網は標準化しない」というメンタルモデルで、ゲートウェイ層の自前実装の必要性を3つの MCP サーバー構成のデモで示している。

#MCP #AI-agents #architecture
devto スコア: 7/10

Claude Code Sub-Agent で1日2,000件の請求書を処理する仕組み

I Built a Claude Code Sub-Agent That Processes 2,000 Invoices a Day — Here's the Exact Setup

インドの会計事務所向けに、Claude Code の Sub-Agent 機能を使って1日2,000枚以上のベンダー請求書を自動処理するシステムを構築した事例。PDF 抽出・GST 検証・Tally 書き込みの3つの Sub-Agent を Python ループで協調させ、モデル選択(Haiku で検証、Sonnet で抽出)やツールスコープ分離でコストと精度を最適化している。

#Claude #AI-agents #automation
devto スコア: 7/10

HttpArena: Web フレームワークのオープンソースベンチマーク

HttpArena - Benchmark Web Frameworks

HTTP/1.1・HTTP/2・HTTP/3・gRPC・WebSocket を横断的にテストする Web フレームワークベンチマークプラットフォーム。64コア AMD Threadripper 上で、コンテナごとに CPU コアを固定して公平性を担保。Production・Tuned・Infrastructure・Engine のカテゴリ分けにより、リバースプロキシや Redis を含む実際のワークロードに近いシナリオでの比較を可能にしている。

#benchmark #web-frameworks #performance
devto スコア: 7/10

AI エージェントが自律的にオンボーディングできる BaaS を構築した

I Built a BaaS Where AI Agents Can Onboard Themselves

Vibebase は AI エージェントをファーストクラス市民として扱う Backend-as-a-Service。エージェントは人間の介在なしに ID 取得・メール機能・スコープ付きトークンによるサービスアクセスが可能で、「孤児」状態から始まり後から人間が所有権を主張するライフサイクルを実装。Cloudflare Workers の Email Service と連携した設計。

#AI-agents #BaaS #Cloudflare
devto スコア: 6/10

3つの OpenClaw スキルを合成してポートフォリオアドバイザーを構築

I Built an Agent Portfolio Advisor by Composing 3 OpenClaw Skills — Here's What Actually Works

OpenClaw の3つの決定論的スキル(UCB1 バンディットによる資産配分選択、Monte Carlo シミュレーション、VaR/CVaR リスク計算)を MCP ツールコールとして合成し、LLM に数値計算をさせずに信頼区間付きの投資アドバイスを返すエージェントを構築。LLM の役割をユーザー理解とスキル選択・結果翻訳に限定する設計パターンを示している。

#AI-agents #OpenClaw #MCP #finance