hn スコア: 9/10

litellm の PyPI パッケージがサプライチェーン攻撃で侵害 ― インストールしただけで認証情報を窃取

Tell HN: Litellm 1.82.7 and 1.82.8 on PyPI are compromised

LLM プロキシライブラリ litellm の PyPI パッケージ v1.82.7 および v1.82.8 に悪意ある .pth ファイルが仕込まれ、import なしに Python インタプリタ起動時に自動実行されるサプライチェーン攻撃が発覚した。ペイロードは環境変数、SSH 秘密鍵、AWS/GCP/Azure 認証情報、Kubernetes 設定をまとめて暗号化し外部サーバーへ送信する。さらに systemd による永続バックドアと、Kubernetes クラスタへの特権 Pod デプロイによる横展開も行う。Cursor の MCP プラグイン経由で推移的依存に含まれたことから発覚した。

#Security #Python #Supply-Chain #LLM
hn スコア: 8/10

GPT-5.4 Pro が FrontierMath の未解決問題を初めて解決 ― Ramsey 超グラフの下界構成

Epoch confirms GPT5.4 Pro solved a frontier math open problem

Epoch AI の FrontierMath ベンチマークに掲載されていた Ramsey 超グラフに関する未解決問題を、GPT-5.4 Pro が初めて解いた。解は数学者 Will Brian によって検証され、論文化が進行中。その後 Opus 4.6、Gemini 3.1 Pro、GPT-5.4 (xhigh) も独立に同問題を解決し、LLM の数学的推論能力が研究最前線に到達しつつあることを示した。

#AI #LLM #Mathematics #Benchmark
hn スコア: 8/10

Arm が初の自社製チップ「AGI CPU」を発表 ― AI エージェント時代のデータセンター向け

Arm AGI CPU

Arm が35年の歴史で初めて自社設計の量産チップ「AGI CPU」を発表した。Neoverse ベースの1OU 2ノードブレードに272コアを搭載し、30ブレードで8,160コアの空冷ラック構成が可能。Supermicro との液冷200kWモデルも用意され、大量の AI エージェントを同時にオーケストレーションするアクセラレータ管理、メモリ/ストレージ制御、ワークロードスケジューリングに最適化されている。

#ARM #CPU #AI #DataCenter
hn スコア: 8/10

Hypura: Apple Silicon のストレージ階層を活用した LLM 推論スケジューラ

Hypura – A storage-tier-aware LLM inference scheduler for Apple Silicon

Rust 製の LLM 推論スケジューラ Hypura は、Apple Silicon 上で GPU・RAM・NVMe の各ストレージ階層にテンソルをアクセスパターンに基づいて配置する。MoE モデルではエキスパートストリーミング方式を採用し、非エキスパートテンソルのみ GPU に常駐させ、ニューロンキャッシュで99.5%のヒット率を達成。M1 Max 32GB で Mixtral 8x7B(31GB)を 2.2 tok/s、Llama 3.3 70B(40GB)を 0.3 tok/s で動作させ、通常の llama.cpp では OOM で動かないモデルの実行を可能にした。

#LLM #Apple-Silicon #Rust #Inference
hn スコア: 7/10

Wine 11 がカーネルレベル同期を刷新 ― Linux 上の Windows ゲーム実行が大幅高速化

Wine 11 rewrites how Linux runs Windows games at kernel with massive speed gains

Wine 11 は長年開発されてきた NTSYNC サポートを搭載し、カーネルレベルの同期処理を根本から書き直したメジャーリリースとなった。WoW64 アーキテクチャの進化と合わせ、従来のバグ修正中心のリリースとは異なり、パフォーマンスに直結するアーキテクチャ刷新が行われた。ゲームなどパフォーマンスセンシティブな Windows アプリケーションの Linux 上での動作速度が大幅に向上する。

#Wine #Linux #Gaming #Kernel
hn スコア: 7/10

Video.js v10 Beta: 4プロジェクト合同で88%の軽量化を達成した再設計

Show HN: I took back Video.js after 16 years and we rewrote it to be 88% smaller

Video.js、Plyr、Vidstack、Media Chrome の4プロジェクト(合計75,000 GitHub スター、月間数十億回の動画再生)が協力し、Video.js v10 をゼロから再設計した。Web Components ベースのアーキテクチャと React Provider パターンを採用し、ABR サポートのアンバンドルとモダンなツリーシェイキングにより、デフォルトバンドルサイズを v8.x 比で88%削減した。

#JavaScript #WebComponents #Video #OSS
hn スコア: 7/10

curl > /dev/sda で OS をインストールする Linux ディストロを作った話

curl > /dev/sda: How I made a Linux distro that runs wget | dd

Linux の「すべてはファイル」という抽象化と EFI の自動 ESP 検出を利用し、curl でディスクイメージを /dev/sda に直接パイプして新しい OS をインストールするという手法の解説記事。元々は Contabo VPS でオブジェクトストレージ料金を節約するために編み出されたハックで、Linux のブート初期段階のメカニズムを掘り下げる連載の第1回。

#Linux #Boot #Hack #DevOps
hn スコア: 7/10

PlayStation 2 上で言語モデルを動かす ― 294MHz・32MB RAM での推論実装

Show HN: I ran a language model on a PS2

PlayStation 2 の Emotion Engine(MIPS-III 294MHz、32MB RAM)上で Transformer 推論を実行するプロジェクト。モデル重みを CD-ROM からマトリクス単位でストリーミングし、RAM にはアクティベーションと KV キャッシュのみ保持する設計。10M パラメータのカスタムモデルを Q8 量子化(約10.4MB)で動作させ、ブータブル ISO イメージとしてビルドされる。

#LLM #PlayStation #Embedded #MIPS
reddit スコア: 8/10

Pyrefly: Meta が Rust で再設計した次世代 Python 型チェッカー ― Pyre の教訓を活かして

Designing a Python Language Server: Lessons from Pyre that Shaped Pyrefly

Meta の次世代 Python 型チェッカー兼言語サーバー Pyrefly は、OCaml 製の前身 Pyre が IDE 統合で遅延問題を起こした反省から Rust で再設計された。Pyre のスループット重視のアーキテクチャは CI/CLI には適していたが、IDE のリアルタイム低レイテンシ要求に対応できずエディタがフリーズする問題があった。Rust への移行で OCaml のグローバルロックが解消されクロスプラットフォーム対応も改善、パーサーには Ruff の Astral パーサーを採用しエラー回復能力を向上させた。

#Python #Rust #TypeChecker #Meta
reddit スコア: 8/10

OpenAI が動画生成プラットフォーム Sora の終了を発表 ― Disney との提携も解消

OpenAI Will Shut Down Sora Video Platform

OpenAI は2024年末にローンチした AI 動画生成アプリ Sora の終了を発表した。Disney が3か月前に締結した3年間のライセンス契約(Disney・Marvel・Pixar・Star Wars の200以上のキャラクターを使ったファン向け動画生成)も解消されることになる。アプリと API のシャットダウン時期およびユーザー作成コンテンツの保全方法は今後公開される予定。

#OpenAI #Sora #GenerativeAI #Video
reddit スコア: 7/10

Zoom 会議を無断で録音し AI ポッドキャスト化する企業 WebinarTV の存在が発覚

This Company Is Secretly Turning Your Zoom Meetings into AI Podcasts

WebinarTV という企業が公開状態の Zoom ミーティングリンクを収集し、参加者の同意なく通話を録音して AI でポッドキャスト化していることが判明した。現在20万件以上のウェビナーをホストしていると主張している。参加者が自分の通話が録音・再公開されていることに気づいたのは、WebinarTV から直接連絡を受けた時だったケースもある。

#Privacy #AI #Zoom #Surveillance
reddit スコア: 7/10

litellm 1.82.8 の詳細解析 ― 認証情報窃取から Kubernetes 横展開までの攻撃フロー

Malicious litellm 1.82.8: Credential Theft and Persistent Backdoor

SafeDep による litellm サプライチェーン攻撃の詳細解析。v1.82.7 では proxy_server.py 内にペイロードが埋め込まれ import 時に発火、v1.82.8 では .pth ファイルに昇格し import 不要で実行されるようになった。C2 バックドアは checkmarx.zone から任意バイナリを取得して実行し、systemd の sysmon.py として永続化。Kubernetes 環境では kube-system 名前空間に node-setup-* という特権 Pod をデプロイし全ノードへ横展開する。

#Security #Supply-Chain #Kubernetes #Malware
reddit スコア: 6/10

AI 経済は「ポンジスキーム」で支えられている ― ドキュメンタリー『The AI Doc』監督インタビュー

The AI Economy Is 'Propped Up by a Ponzi Scheme,' Says Director of 'The AI Doc'

アカデミー賞受賞ドキュメンタリー監督 Daniel Roher が、Sam Altman、Dario/Daniela Amodei、Demis Hassabis らにインタビューした映画『The AI Doc: Or How I Became an Apocaloptimist』が3月27日に公開される。監督は現在の AI 経済をポンジスキームに支えられた構造と指摘しつつも、AI が世界を滅ぼすとは考えない「Apocaloptimist」の立場を取り、現状の能力から AGI への道筋を批判的に検証している。

#AI #Documentary #Industry #AGI
zenn スコア: 7/10

1000万文字の会話を LLM に理解させる手法 SRLM ― 複数検索プログラムの自動生成と多数決

【RAG】1000万文字の会話を理解させる手法

超長文ドキュメントに対する LLM の処理限界を乗り越える手法「SRLM」の解説記事。LLM に K 個(デフォルト8個)の異なる検索プログラムを自動生成させ、それぞれの結果を多数決、自己採点、推論トークン数によるスコアリングで評価して最適な回答を選択する。コンテキスト長が増大しても精度が安定し、別モデルをツールとして呼び出す sub-calls 機能も備える。

#RAG #LLM #NLP #Search
zenn スコア: 7/10

JavaScript と TypeScript の polyglot ― 同じコードが両言語で異なる動作をする仕組み

JavaScriptとTypeScriptのpolyglot

TypeScript 4.7 で導入されたインスタンス化式(Instantiation Expression)の構文 f<T> が > で終わることを利用し、後続の字句解析器の状態を切り替えるトリックを解説。正規表現リテラル内にブロックコメント開始記号を埋め込む手法と組み合わせることで、同一のコードファイルが JavaScript と TypeScript で全く異なる関数を実行する polyglot を構築できることを示している。

#TypeScript #JavaScript #Parser #Language
zenn スコア: 7/10

Kaggle 上位勢の Claude Code 設定を分析 ― Skills と Agents の実践パターン

【Claude Code】Kaggle上位勢が設定するClaude Codeのskillsとagentsをチェックする

Kaggle 上位入賞者3名が公開しているボイラープレートリポジトリの .claude/ 設定を比較分析した記事。6フェーズ実験スキルと W&B/Vertex AI 統合を定義するパターン、Claude 実験と人間実験を命名規則で分離し SESSION_NOTES.md でコンテキストを継続管理するパターン、.steering/ ディレクトリで実験前に requirements/design/tasklist の作成を強制するパターンの3つの設計思想を紹介している。

#Claude-Code #Kaggle #ML #Workflow
zenn スコア: 7/10

囚人のジレンマをオンライン対戦ゲームにしたら30分で攻略された話

囚人のジレンマをオンライン対戦ゲーにしたら30分で攻略されてゲームが終わった

Unity と Firebase(Anonymous Auth、Cloud Functions、Firestore、Cloud Scheduler)で囚人のジレンマのオンライン対戦ゲームを実装した開発記録。ゲームロジックは全て Cloud Functions 側で処理しクライアントは協力/裏切りの書き込みのみ行う設計にしたが、公開後わずか30分で一方のプレイヤーが相手に協力させ続けて裏切り続けるパターンが確立されゲームが終了した。マッチングシステムとゲーム設計の難しさを体験的に学べる記事。

#GameDev #Unity #Firebase #GameTheory
zenn スコア: 7/10

AI 時代のコードレビューの本質 ― バグ発見ではなくメンタルモデルの転送

コードレビューとは何か

Bacchelli & Bird の研究(レビューコメントに占める欠陥指摘は14%)と Czerwonka らの論文を引用し、コードレビューの本質はバグ発見でもメンタリングでもなく、設計意図・トレードオフ・影響範囲といったメンタルモデルのチームへの転送であると論じる。Peter Naur の「Programming as Theory Building」を援用し、AI 生成コードでは書き手にメンタルモデルが存在しないため、理解してから PR を出すという前段階が人間の責務になると主張している。

#CodeReview #AI #SoftwareEngineering #Team
zenn スコア: 7/10

NVIDIA RTX PRO 6000 Blackwell Max-Q で尾崎スキーム I の性能検証

NVIDIA RTX PRO 6000 Blackwell Max-Q 上で尾崎スキーム I を動かしてみる

尾崎スキーム I は FP64 行列積を複数回の INT8 行列積に分割してエミュレートする手法で、CUDA Toolkit 13.0 Update 2 以降の cuBLAS で正式サポートされた。FP64 性能が 1.71 TFLOPS と限定的な RTX PRO 6000 Blackwell Max-Q において、このエミュレーション有効化時の計算速度と精度の変化を実測検証している。近年の GPU が FP64 より低精度演算性能を重視する傾向に対応する実用的なアプローチ。

#NVIDIA #GPU #CUDA #HPC
zenn スコア: 6/10

Arto: AI 生成ドキュメントを快適に読むための Rust 製 Markdown リーダー

AI 駆動開発全盛期を生き抜くために Markdown を「読む」ためだけのアプリ Arto を作った

AI が生成する設計書や実装計画書を読む機会が増えたことを背景に、「書く」ではなく「読む」に特化した Rust 製 Markdown リーダー Arto を開発した。GFM 完全対応、Mermaid ダイアグラム、KaTeX 数式、シンタックスハイライト、ファイルエクスプローラ、TOC パネル、ピン留め検索などを備え、起動が高速でメモリ消費も少ない。オフライン環境でもローカルの Markdown を GitHub 同等のスタイルで閲覧できる。

#Rust #Markdown #OSS #DevTools
devto スコア: 7/10

AI エージェントは3行の JSON でハイジャックできる ― MCP Tool Poisoning の脅威と対策

Your AI Agent Can Be Hijacked With 3 Lines of JSON

MCP(Model Context Protocol)のツール定義に隠し指示を埋め込む Tool Poisoning 攻撃の解説。ツールの description フィールドに LLM へのインストラクションを仕込み、SSH 鍵などの機密データを正常なツールパラメータに紛れ込ませて外部に送信させる。承認後にツール定義を書き換える Rug Pull、スキーマインジェクション、Unicode スマグリングなど MCP 仕様が防御しない攻撃ベクターも紹介し、ランタイムスキャンを行う OSS フレームワーク Aegis を提案している。

#MCP #Security #AI-Agent #LLM
devto スコア: 7/10

AI エージェントが最大の API 利用者になる時代 ― 良い API 設計はまだ重要か

AI Agents Are Your API's Biggest Consumer. Do They Care About Good Design?

API の主要な利用者が人間の開発者から AI エージェントに移行しつつある中で、従来の API 設計原則がまだ有効かを検証する記事。LLM はパターンマッチングでエラーリカバリができるため雑な API でも動作する一方、1セッションで数百回 API を叩くエージェントにとっては不整合がトークン消費の増大とリトライの蓄積を招き、信頼性をスケールに応じて劣化させるという二面性を論じている。

#API #AI-Agent #Design #Architecture
devto スコア: 7/10

SQLite フロントエンドの内部最適化 ― BETWEEN、OR、LIKE、GLOB の書き換え処理

Inside SQLite's Frontend: BETWEEN, OR, LIKE, and GLOB Optimizations

SQLite のクエリオプティマイザが BETWEEN を >= と <= の2つの仮想項に内部展開してインデックスレンジスキャンを有効化する仕組みを解説。同一カラムの OR 条件は IN 句に書き換えてインデックスを活用し、異なるカラムの OR は各項を個別のインデックスで実行して結果をマージする戦略を取る。これらの変換がインデックス選択ロジックとどう連携するかを SQLite のソースコードに即して詳述している。

#SQLite #Database #QueryOptimizer #SQL
devto スコア: 6/10

AG-UI エージェントを Amazon Bedrock AgentCore で本番デプロイする

Deploying AG-UI Agents to Production with Amazon Bedrock AgentCore

Amazon Bedrock AgentCore Runtime が AG-UI(Agent-User Interaction Protocol)をネイティブサポートし、14 の AWS リージョンで利用可能になった。SSE エンドポイント、Cognito OAuth 2.0 認証、セッション分離、オートスケーリングをマネージドに提供する。Strands Agents をコンテナ化し --protocol AGUI フラグで起動するだけで、CopilotKit フロントエンドからイベントストリームを受信できるフルスタック構成を実現できる。

#AWS #AI-Agent #AG-UI #Serverless
devto スコア: 6/10

AI Skills は新しいボイラープレートに過ぎない ― テンプレート化できるのは実務の10%

AI Skills Are the New Boilerplate. They Solve Almost Nothing.

保存済みプロンプトテンプレート(Skills)がカバーするのは予測可能で繰り返し可能なタスクの約10%に過ぎず、残り90%はサードパーティ API のスキーマ変更対応、cron ジョブ、承認ワークフロー、永続的な状態管理、カスタム監視など各プロダクション環境固有のインフラで構成されると主張する記事。Skills ライブラリの共有ブームに対し、AI ワークフローのテンプレート化という幻想に警鐘を鳴らしている。

#AI #Automation #DevOps #Workflow