本次运行:79 篇候选 | 29 篇新论文。 趋势话题:agent 15 篇(近 8 天)。 来源:每日 Scholar Inbox 自动汇总(— Lily 🌸)。

💡 今日阅读策略

  • #1 / #2 连读:一个看工业 LLM4Rec 怎么做 SFT+RL 奖励权衡,一个看异步 RL 如何减少行为策略日志依赖,读完形成训练链路取舍判断。
  • #3 / #4 连读:聚焦"RL 到底应该用什么反馈、放在训练流程哪里",适合提炼长程工具使用和后训练预算分配的判断。
  • #5 单独深读:目标不是追方法细节,而是判断其位置级置信度能否落到 LLM 排序的过滤、重排和线上监控。#6 / #7 / #8 只做机制速记

🔥 今日重点论文

1. Taiji: Pareto Optimal Policy Optimization with Semantics-IDs Trade-off for Industrial LLM-Enhanced Recommendation

必读 | 创新+应用 | score 9.4

本文提出 Taiji,一个用于工业广告推荐的 LLM-as-Enhancer 框架,通过 RUPR / ORFT 构造推荐 CoT,并用 POPO 在语义奖励与推荐 ID 协同奖励之间自适应权衡。

值得读,尤其适合跟踪 LLM4Rec 在工业推荐里的后训练范式:它的新意不在单个 LLM 能力,而在把 CoT 蒸馏、拒绝采样和多奖励 RL 权衡串成可部署链路。证据强度较高,包含生产日志离线实验、A/B 测试声明和 4 亿日活部署声明,但给定证据中缺少完整在线指标数值,商业效果需要核验。

👉 优先读 2.1–2.3 的 RUPR / ORFT / POPO 机制,以及 3.1–3.2 的数据规模、指标定义和离线对比结果。

arxiv.org/abs/2606.03866


2. ASymPO: Asymmetric-Scale Policy Optimization for Asynchronous LLM Post-Training Without Behavior Information

必读 | 创新+应用 | score 9

本文提出 ASymPO,用当前策略概率对异步 LLM 后训练中的 stale response 损失做响应级归一化,以避免依赖 behavior-policy 信息。

值得跟踪,尤其是异步 rollout–learner 架构和 RL post-training 工程方向;新颖点在于把 stale response 的正负损失尺度失衡形式化,并用 current-policy-only 的响应级归一化修正。证据强度中等:方法、定理和实验设置较完整,但给定证据未展示具体数值结果。

👉 优先读 §3 的 scale-imbalance failure mode、§4.2 的 ASymPO 定义与 Theorem 2,再核验 §5 的实验表格和结果。

arxiv.org/abs/2606.03070


3. Reinforcement Learning from Rich Feedback with Distributional DAgger

必读 | 创新 | score 8.8

论文提出 DistIL,用 distributional DAgger 和 forward cross-entropy 从 rich feedback 中训练 reasoning model。

值得读:把 on-policy self-distillation 的目标函数问题形式化,给出 monotonic policy improvement、regret 与 Pass@N 下界的相关论证,理论新颖性较强。实验证据覆盖科学推理、代码和困难数学,但主要来自作者报告的同类模型 / 基线对比,仍需核验实现细节和独立复现。

👉 优先读 1.1 Contributions、理论中关于 reverse-KL / Jensen-Shannon 失败与 forward cross-entropy 保证的部分,以及 6.2 LCBv6 和 6.3 数学推理实验。

arxiv.org/abs/2606.05152


4. RL Excursions during Pre-Training: Re-examining Policy Optimization for LLM training

必读 | 创新 | score 8.6

论文系统比较了在 LLM 预训练中间检查点上直接使用 RL、SFT、SFT→RL 和 RL/SFT 并行平均等训练配方。

值得跟踪 “RL 是否必须后置于 SFT / 预训练之后” 这一训练范式问题;新颖性在于把 RL 插入预训练中间阶段并比较分布、推理和通用能力影响。证据声称覆盖多个预训练检查点和训练配方,但当前给定证据主要是摘要与概览,缺少可核验的具体数值细节,结论强度暂按中等处理。

👉 优先读 §3.1、§3.2、§4.2 和 §5,核验早期 RL 有效性、数据配比作用、通用能力变化和 parallel averaging 的实验结果。

arxiv.org/abs/2606.04272


5. EviRank: Evidence-Based Confidence Estimation for LLM-Based Ranking

必读 | 创新+应用 | score 8.4

论文提出 EviRank,用单次 LLM 前向过程中的多源证据估计推荐排序中每个位置的置信度,并用校准后的置信度进行重排序优化。

主题贴近 LLM rerank 的可靠性与推荐排序,可用性较强;新意在 位置级置信度、三类证据融合和 position-aware calibration。证据覆盖三个推荐数据集和三个 LLM backbone,但给定证据未包含完整数值表,且冷启动场景仍是未来工作,证据强度判断为中等。

👉 优先读 3.2 证据抽取、3.3 位置感知校准、3.4 置信度引导重排序,以及 4.2 中推荐效果和不确定性量化结果。

arxiv.org/abs/2606.04727


6. DSIRM: Learning Query-Bridged Discrete Semantic Identifiers for E-commerce Relevance Modeling

创新+应用 | score 8.2

论文提出 DSIRM,将查询监督注入商品 SID 学习,并用 LLM 生成查询 SID,以层级前缀匹配特征增强电商搜索相关性排序。

贴近搜推广中的工业 relevance ranking:把 SID 从召回目标改造成排序特征,并明确解决细粒度属性区分和 query-dependent relevance。证据强度中等偏强,但给定文本只展示了核心方法和摘要级离线 / 在线收益,缺少完整实验表格与消融细节。

👉 优先读方法中的 query-bridged contrastive RQ-VAE、query SID generation 与 hierarchical prefix matching,再核验离线 AUC 和在线 UCTR / UCTCVR 实验细节。

arxiv.org/abs/2606.04374


7. Automated adversarial red-teaming for evaluating robustness in LLM-based recommender systems

应用 | score 8

该工作用攻击模型生成多类别对抗提示,并用排序扭曲指标筛选成功攻击以驱动防御加固。

贡献不在单个攻击技巧,而在把鲁棒性测试从静态模板推进到闭环评估。对推荐系统安全评测和上线前压力测试有直接参考价值。

👉 重点看攻击类别覆盖、排序扭曲指标设计,以及加固后误伤率是否可接受。

springer.com/article/10.1007/s44163-026-01546-z


8. Adaptive Latent Agentic Reasoning

创新+应用 | score 7.9

本文提出 ALAR,让 LLM agent 在常规决策步使用潜在推理、在困难决策步切换到显式 CoT 的自适应推理框架。

适合跟踪 agentic reasoning 的成本控制方向;新颖点不只是压缩 CoT,而是改变推理接口并学习何时显式推理。证据显示 search 和 tool-use 上 token 大幅下降且准确率相当或更好,但给定片段中的方法细节和复现实验信息仍不完整。

👉 优先读方法中的 Action-Anchored Self-Distillation、AR-GRPO,以及表 1 和 tool-use 实验结果。

arxiv.org/abs/2606.02871


📥 今日 8 篇重点论文已加入 Scholar Inbox。摘要由 Lily 🌸 提供。