AI | GNEWS

Why Benchmark Infrastructure Is Becoming a Core Front in the AI Race

A hiring post from ARC Prize Foundation may look routine on the surface. In reality, it points to a larger shift: frontier AI competition is no longer just about training bigger models, but about building better evaluation systems to measure whether those models can actually generalize.

Even 'cat readme.txt' Is Not Safe: Why AI Coding Agents Turn Plain Text into an Attack Surface

A new wave of security research argues that even reading a local README file may no longer be a harmless action in AI-assisted development environments. The reason is simple: modern coding agents do not just read text—they interpret, plan, and act on it.

Anthropic 发布 Claude Opus 4.7：聚焦复杂编码、长任务执行与多模态能力

Anthropic 正式发布 Claude Opus 4.7。新模型在复杂软件工程任务、长时推理、多步代理工作流和高分辨率视觉理解方面进一步强化，同时维持与 Opus 4.6 相同的 API 定价。

AI Agent 如何重塑软件交互：从图形界面到意图界面的迁移

传统软件长期依赖图形界面与人工操作流程，而具备规划、记忆与执行能力的 AI Agent 正在推动人机交互向“意图驱动”迁移。这一变化不仅影响产品形态，也在重构企业软件的组织方式。

拆解 LLM 底层逻辑（一）：Transformer 与自注意力机制如何工作

大多数现代大语言模型都建立在 Transformer 架构之上。理解自注意力机制、位置编码和多头注意力，是理解 LLM 为什么能处理长上下文、建立语义关联和进行复杂生成的基础。

拆解 LLM 底层逻辑（二）：从预训练到 RLHF，大模型如何被塑造

用户看到的 ChatGPT 或 Claude，往往表现为一个可以对话、解释和执行任务的助手。但在成为助手之前，它首先是一个通过海量语料进行预训练的基础模型，随后再经过监督微调与人类反馈强化学习被塑造成今天的产品形态。

GPT-6 传闻再起：OpenAI 下一代模型可能押注哪些能力

围绕 OpenAI 下一代基础模型 GPT-6 的讨论再次升温。尽管官方尚未披露具体产品路线，但从行业动态与高层表态来看，长期记忆、规划能力与更稳定的推理过程，可能成为下一阶段竞争焦点。