Scholar Daily Brief · 2026-06-08

本次运行：79 篇候选 | 29 篇新论文。趋势话题：agent 15 篇（近 8 天）。来源：每日 Scholar Inbox 自动汇总（— Lily 🌸）。

💡 今日阅读策略

#1 / #2 连读：一个看工业 LLM4Rec 怎么做 SFT+RL 奖励权衡，一个看异步 RL 如何减少行为策略日志依赖，读完形成训练链路取舍判断。
#3 / #4 连读：聚焦"RL 到底应该用什么反馈、放在训练流程哪里"，适合提炼长程工具使用和后训练预算分配的判断。
#5 单独深读：目标不是追方法细节，而是判断其位置级置信度能否落到 LLM 排序的过滤、重排和线上监控。#6 / #7 / #8 只做机制速记。

🔥 今日重点论文

1. Taiji: Pareto Optimal Policy Optimization with Semantics-IDs Trade-off for Industrial LLM-Enhanced Recommendation

必读 | 创新+应用 | score 9.4

本文提出 Taiji，一个用于工业广告推荐的 LLM-as-Enhancer 框架，通过 RUPR / ORFT 构造推荐 CoT，并用 POPO 在语义奖励与推荐 ID 协同奖励之间自适应权衡。

值得读，尤其适合跟踪 LLM4Rec 在工业推荐里的后训练范式：它的新意不在单个 LLM 能力，而在把 CoT 蒸馏、拒绝采样和多奖励 RL 权衡串成可部署链路。证据强度较高，包含生产日志离线实验、A/B 测试声明和 4 亿日活部署声明，但给定证据中缺少完整在线指标数值，商业效果需要核验。

👉 优先读 2.1–2.3 的 RUPR / ORFT / POPO 机制，以及 3.1–3.2 的数据规模、指标定义和离线对比结果。

arxiv.org/abs/2606.03866

2. ASymPO: Asymmetric-Scale Policy Optimization for Asynchronous LLM Post-Training Without Behavior Information

必读 | 创新+应用 | score 9

本文提出 ASymPO，用当前策略概率对异步 LLM 后训练中的 stale response 损失做响应级归一化，以避免依赖 behavior-policy 信息。

值得跟踪，尤其是异步 rollout–learner 架构和 RL post-training 工程方向；新颖点在于把 stale response 的正负损失尺度失衡形式化，并用 current-policy-only 的响应级归一化修正。证据强度中等：方法、定理和实验设置较完整，但给定证据未展示具体数值结果。

👉 优先读 §3 的 scale-imbalance failure mode、§4.2 的 ASymPO 定义与 Theorem 2，再核验 §5 的实验表格和结果。

arxiv.org/abs/2606.03070

3. Reinforcement Learning from Rich Feedback with Distributional DAgger

必读 | 创新 | score 8.8

论文提出 DistIL，用 distributional DAgger 和 forward cross-entropy 从 rich feedback 中训练 reasoning model。

值得读：把 on-policy self-distillation 的目标函数问题形式化，给出 monotonic policy improvement、regret 与 Pass@N 下界的相关论证，理论新颖性较强。实验证据覆盖科学推理、代码和困难数学，但主要来自作者报告的同类模型 / 基线对比，仍需核验实现细节和独立复现。

👉 优先读 1.1 Contributions、理论中关于 reverse-KL / Jensen-Shannon 失败与 forward cross-entropy 保证的部分，以及 6.2 LCBv6 和 6.3 数学推理实验。

arxiv.org/abs/2606.05152

4. RL Excursions during Pre-Training: Re-examining Policy Optimization for LLM training

必读 | 创新 | score 8.6

论文系统比较了在 LLM 预训练中间检查点上直接使用 RL、SFT、SFT→RL 和 RL/SFT 并行平均等训练配方。

值得跟踪 “RL 是否必须后置于 SFT / 预训练之后” 这一训练范式问题；新颖性在于把 RL 插入预训练中间阶段并比较分布、推理和通用能力影响。证据声称覆盖多个预训练检查点和训练配方，但当前给定证据主要是摘要与概览，缺少可核验的具体数值细节，结论强度暂按中等处理。

👉 优先读 §3.1、§3.2、§4.2 和 §5，核验早期 RL 有效性、数据配比作用、通用能力变化和 parallel averaging 的实验结果。

arxiv.org/abs/2606.04272

5. EviRank: Evidence-Based Confidence Estimation for LLM-Based Ranking

必读 | 创新+应用 | score 8.4

论文提出 EviRank，用单次 LLM 前向过程中的多源证据估计推荐排序中每个位置的置信度，并用校准后的置信度进行重排序优化。

主题贴近 LLM rerank 的可靠性与推荐排序，可用性较强；新意在 位置级置信度、三类证据融合和 position-aware calibration。证据覆盖三个推荐数据集和三个 LLM backbone，但给定证据未包含完整数值表，且冷启动场景仍是未来工作，证据强度判断为中等。

👉 优先读 3.2 证据抽取、3.3 位置感知校准、3.4 置信度引导重排序，以及 4.2 中推荐效果和不确定性量化结果。

arxiv.org/abs/2606.04727

6. DSIRM: Learning Query-Bridged Discrete Semantic Identifiers for E-commerce Relevance Modeling

创新+应用 | score 8.2

论文提出 DSIRM，将查询监督注入商品 SID 学习，并用 LLM 生成查询 SID，以层级前缀匹配特征增强电商搜索相关性排序。

贴近搜推广中的工业 relevance ranking：把 SID 从召回目标改造成排序特征，并明确解决细粒度属性区分和 query-dependent relevance。证据强度中等偏强，但给定文本只展示了核心方法和摘要级离线 / 在线收益，缺少完整实验表格与消融细节。

👉 优先读方法中的 query-bridged contrastive RQ-VAE、query SID generation 与 hierarchical prefix matching，再核验离线 AUC 和在线 UCTR / UCTCVR 实验细节。

arxiv.org/abs/2606.04374

7. Automated adversarial red-teaming for evaluating robustness in LLM-based recommender systems

应用 | score 8

该工作用攻击模型生成多类别对抗提示，并用排序扭曲指标筛选成功攻击以驱动防御加固。

贡献不在单个攻击技巧，而在把鲁棒性测试从静态模板推进到闭环评估。对推荐系统安全评测和上线前压力测试有直接参考价值。

👉 重点看攻击类别覆盖、排序扭曲指标设计，以及加固后误伤率是否可接受。

springer.com/article/10.1007/s44163-026-01546-z

8. Adaptive Latent Agentic Reasoning

创新+应用 | score 7.9

本文提出 ALAR，让 LLM agent 在常规决策步使用潜在推理、在困难决策步切换到显式 CoT 的自适应推理框架。

适合跟踪 agentic reasoning 的成本控制方向；新颖点不只是压缩 CoT，而是改变推理接口并学习何时显式推理。证据显示 search 和 tool-use 上 token 大幅下降且准确率相当或更好，但给定片段中的方法细节和复现实验信息仍不完整。

👉 优先读方法中的 Action-Anchored Self-Distillation、AR-GRPO，以及表 1 和 tool-use 实验结果。

arxiv.org/abs/2606.02871

📥 今日 8 篇重点论文已加入 Scholar Inbox。摘要由 Lily 🌸 提供。

💡 今日阅读策略#

🔥 今日重点论文#

1. Taiji: Pareto Optimal Policy Optimization with Semantics-IDs Trade-off for Industrial LLM-Enhanced Recommendation#

2. ASymPO: Asymmetric-Scale Policy Optimization for Asynchronous LLM Post-Training Without Behavior Information#

3. Reinforcement Learning from Rich Feedback with Distributional DAgger#

4. RL Excursions during Pre-Training: Re-examining Policy Optimization for LLM training#

5. EviRank: Evidence-Based Confidence Estimation for LLM-Based Ranking#

6. DSIRM: Learning Query-Bridged Discrete Semantic Identifiers for E-commerce Relevance Modeling#

7. Automated adversarial red-teaming for evaluating robustness in LLM-based recommender systems#

8. Adaptive Latent Agentic Reasoning#