[{"content":" 本次运行：79 篇候选 | 29 篇新论文。 趋势话题：agent 15 篇（近 8 天）。 来源：每日 Scholar Inbox 自动汇总（— Lily 🌸）。\n💡 今日阅读策略 #1 / #2 连读：一个看工业 LLM4Rec 怎么做 SFT+RL 奖励权衡，一个看异步 RL 如何减少行为策略日志依赖，读完形成训练链路取舍判断。 #3 / #4 连读：聚焦\u0026quot;RL 到底应该用什么反馈、放在训练流程哪里\u0026quot;，适合提炼长程工具使用和后训练预算分配的判断。 #5 单独深读：目标不是追方法细节，而是判断其位置级置信度能否落到 LLM 排序的过滤、重排和线上监控。#6 / #7 / #8 只做机制速记。 🔥 今日重点论文 1. Taiji: Pareto Optimal Policy Optimization with Semantics-IDs Trade-off for Industrial LLM-Enhanced Recommendation 必读 | 创新+应用 | score 9.4\n本文提出 Taiji，一个用于工业广告推荐的 LLM-as-Enhancer 框架，通过 RUPR / ORFT 构造推荐 CoT，并用 POPO 在语义奖励与推荐 ID 协同奖励之间自适应权衡。\n值得读，尤其适合跟踪 LLM4Rec 在工业推荐里的后训练范式：它的新意不在单个 LLM 能力，而在把 CoT 蒸馏、拒绝采样和多奖励 RL 权衡串成可部署链路。证据强度较高，包含生产日志离线实验、A/B 测试声明和 4 亿日活部署声明，但给定证据中缺少完整在线指标数值，商业效果需要核验。\n👉 优先读 2.1–2.3 的 RUPR / ORFT / POPO 机制，以及 3.1–3.2 的数据规模、指标定义和离线对比结果。\narxiv.org/abs/2606.03866\n2. ASymPO: Asymmetric-Scale Policy Optimization for Asynchronous LLM Post-Training Without Behavior Information 必读 | 创新+应用 | score 9\n本文提出 ASymPO，用当前策略概率对异步 LLM 后训练中的 stale response 损失做响应级归一化，以避免依赖 behavior-policy 信息。\n值得跟踪，尤其是异步 rollout–learner 架构和 RL post-training 工程方向；新颖点在于把 stale response 的正负损失尺度失衡形式化，并用 current-policy-only 的响应级归一化修正。证据强度中等：方法、定理和实验设置较完整，但给定证据未展示具体数值结果。\n👉 优先读 §3 的 scale-imbalance failure mode、§4.2 的 ASymPO 定义与 Theorem 2，再核验 §5 的实验表格和结果。\narxiv.org/abs/2606.03070\n3. Reinforcement Learning from Rich Feedback with Distributional DAgger 必读 | 创新 | score 8.8\n论文提出 DistIL，用 distributional DAgger 和 forward cross-entropy 从 rich feedback 中训练 reasoning model。\n值得读：把 on-policy self-distillation 的目标函数问题形式化，给出 monotonic policy improvement、regret 与 Pass@N 下界的相关论证，理论新颖性较强。实验证据覆盖科学推理、代码和困难数学，但主要来自作者报告的同类模型 / 基线对比，仍需核验实现细节和独立复现。\n👉 优先读 1.1 Contributions、理论中关于 reverse-KL / Jensen-Shannon 失败与 forward cross-entropy 保证的部分，以及 6.2 LCBv6 和 6.3 数学推理实验。\narxiv.org/abs/2606.05152\n4. RL Excursions during Pre-Training: Re-examining Policy Optimization for LLM training 必读 | 创新 | score 8.6\n论文系统比较了在 LLM 预训练中间检查点上直接使用 RL、SFT、SFT→RL 和 RL/SFT 并行平均等训练配方。\n值得跟踪 \u0026ldquo;RL 是否必须后置于 SFT / 预训练之后\u0026rdquo; 这一训练范式问题；新颖性在于把 RL 插入预训练中间阶段并比较分布、推理和通用能力影响。证据声称覆盖多个预训练检查点和训练配方，但当前给定证据主要是摘要与概览，缺少可核验的具体数值细节，结论强度暂按中等处理。\n👉 优先读 §3.1、§3.2、§4.2 和 §5，核验早期 RL 有效性、数据配比作用、通用能力变化和 parallel averaging 的实验结果。\narxiv.org/abs/2606.04272\n5. EviRank: Evidence-Based Confidence Estimation for LLM-Based Ranking 必读 | 创新+应用 | score 8.4\n论文提出 EviRank，用单次 LLM 前向过程中的多源证据估计推荐排序中每个位置的置信度，并用校准后的置信度进行重排序优化。\n主题贴近 LLM rerank 的可靠性与推荐排序，可用性较强；新意在 位置级置信度、三类证据融合和 position-aware calibration。证据覆盖三个推荐数据集和三个 LLM backbone，但给定证据未包含完整数值表，且冷启动场景仍是未来工作，证据强度判断为中等。\n👉 优先读 3.2 证据抽取、3.3 位置感知校准、3.4 置信度引导重排序，以及 4.2 中推荐效果和不确定性量化结果。\narxiv.org/abs/2606.04727\n6. DSIRM: Learning Query-Bridged Discrete Semantic Identifiers for E-commerce Relevance Modeling 创新+应用 | score 8.2\n论文提出 DSIRM，将查询监督注入商品 SID 学习，并用 LLM 生成查询 SID，以层级前缀匹配特征增强电商搜索相关性排序。\n贴近搜推广中的工业 relevance ranking：把 SID 从召回目标改造成排序特征，并明确解决细粒度属性区分和 query-dependent relevance。证据强度中等偏强，但给定文本只展示了核心方法和摘要级离线 / 在线收益，缺少完整实验表格与消融细节。\n👉 优先读方法中的 query-bridged contrastive RQ-VAE、query SID generation 与 hierarchical prefix matching，再核验离线 AUC 和在线 UCTR / UCTCVR 实验细节。\narxiv.org/abs/2606.04374\n7. Automated adversarial red-teaming for evaluating robustness in LLM-based recommender systems 应用 | score 8\n该工作用攻击模型生成多类别对抗提示，并用排序扭曲指标筛选成功攻击以驱动防御加固。\n贡献不在单个攻击技巧，而在把鲁棒性测试从静态模板推进到闭环评估。对推荐系统安全评测和上线前压力测试有直接参考价值。\n👉 重点看攻击类别覆盖、排序扭曲指标设计，以及加固后误伤率是否可接受。\nspringer.com/article/10.1007/s44163-026-01546-z\n8. Adaptive Latent Agentic Reasoning 创新+应用 | score 7.9\n本文提出 ALAR，让 LLM agent 在常规决策步使用潜在推理、在困难决策步切换到显式 CoT 的自适应推理框架。\n适合跟踪 agentic reasoning 的成本控制方向；新颖点不只是压缩 CoT，而是改变推理接口并学习何时显式推理。证据显示 search 和 tool-use 上 token 大幅下降且准确率相当或更好，但给定片段中的方法细节和复现实验信息仍不完整。\n👉 优先读方法中的 Action-Anchored Self-Distillation、AR-GRPO，以及表 1 和 tool-use 实验结果。\narxiv.org/abs/2606.02871\n📥 今日 8 篇重点论文已加入 Scholar Inbox。摘要由 Lily 🌸 提供。\n","permalink":"https://blog.wangwllu.com/posts/2026-06-08-scholar-daily-brief/","summary":"2026-06-08 学术摘要：8 篇重点论文，聚焦 LLM 后训练 RL、推荐排序、agentic reasoning。本次 79 篇候选 / 29 篇新论文，趋势话题 agent（15 篇 / 8 天）。","title":"Scholar Daily Brief · 2026-06-08"},{"content":"终于把博客搭起来了。\n为什么搭这个站 主要两个用途：\n技术笔记 / 想法记录 —— 写完了能搜回来的那种笔记 临时分享网页 —— 偶尔需要把一个静态 HTML 文件丢给别人看，比直接发文件靠谱 技术栈 Hugo + PaperMod 主题 GitHub Pages 托管（私有源，公开站） 自定义域名：blog.wangwllu.com GitHub Actions 自动构建部署 临时分享怎么用 把任何 HTML 文件扔到 static/s/ 目录，commit 后访问 https://wangwllu.github.io/s/\u0026lt;filename\u0026gt;.html 就行——比如 这个示例。\nHello, world. 又一次。\n","permalink":"https://blog.wangwllu.com/posts/hello-world/","summary":"\u003cp\u003e终于把博客搭起来了。\u003c/p\u003e\n\u003ch2 id=\"为什么搭这个站\"\u003e为什么搭这个站\u003c/h2\u003e\n\u003cp\u003e主要两个用途：\u003c/p\u003e\n\u003col\u003e\n\u003cli\u003e\u003cstrong\u003e技术笔记 / 想法记录\u003c/strong\u003e —— 写完了能搜回来的那种笔记\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e临时分享网页\u003c/strong\u003e —— 偶尔需要把一个静态 HTML 文件丢给别人看，比直接发文件靠谱\u003c/li\u003e\n\u003c/ol\u003e\n\u003ch2 id=\"技术栈\"\u003e技术栈\u003c/h2\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003eHugo\u003c/strong\u003e + \u003cstrong\u003ePaperMod\u003c/strong\u003e 主题\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003eGitHub Pages\u003c/strong\u003e 托管（私有源，公开站）\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e自定义域名\u003c/strong\u003e：\u003ccode\u003eblog.wangwllu.com\u003c/code\u003e\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003eGitHub Actions\u003c/strong\u003e 自动构建部署\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch2 id=\"临时分享怎么用\"\u003e临时分享怎么用\u003c/h2\u003e\n\u003cp\u003e把任何 HTML 文件扔到 \u003ccode\u003estatic/s/\u003c/code\u003e 目录，commit 后访问 \u003ccode\u003ehttps://wangwllu.github.io/s/\u0026lt;filename\u0026gt;.html\u003c/code\u003e 就行——比如 \u003ca href=\"/s/demo.html\"\u003e这个示例\u003c/a\u003e。\u003c/p\u003e\n\u003chr\u003e\n\u003cp\u003eHello, world. 又一次。\u003c/p\u003e","title":"Hello, World"}]