搜广推领域模型 Scaling Up 日报生成技能。每日自动检索6类优先级信息源(ArXiv论文、微信公众号、知乎、技术博客、GitHub Trending、行业会议),生成结构化日报并写入IMA知识库。触发词:搜广推日报、ScalingUp日报、推荐系统日报、推荐Scaling Law日报、生成式推荐日报、To...
# 搜广推领域模型 Scaling Up 日报生成技能 v2.0
## 适用场景
- 用户说"生成今天的搜广推日报"或"跑一下 ScalingUp 日报"
- 自动化任务每周一 08:00 触发(任务 ID: scaling-up-2)
- 需要系统性追踪搜广推领域最新论文、技术文章、开源项目动态
## 信息源(6 类优先级)
### 优先级 1:ArXiv 论文 — 最新学术论文
使用 `web_search` 搜索以下关键词(最近 7 天的新论文):
- `"arxiv recommendation system scaling law {year}"`
- `"arxiv CTR prediction transformer {year}"`
- `"arxiv generative recommendation advertising {year}"`
- `"arxiv sequential recommendation token mixer {year}"`
- `"arxiv unified modeling search recommendation {year}"`
- `"arxiv recommendation foundation model {year}"`
- `"arxiv scaling law recommendation {year}"`
- `"arxiv ads ranking model {year}"`
每个搜索取前 5 条结果。
对每篇论文记录:标题、arXiv ID、作者/机构、核心贡献、链接。
### 优先级 2:微信公众号 — 国内技术深度解读
使用 `wechat-article-search` skill 搜索以下关键词(最近 7 天):
- `"推荐系统 Scaling Law"`
- `"搜广推 大模型"`
- `"序列建模 推荐"`
- `"生成式推荐"`
- `"TokenMixer 排序"`
每个关键词搜索 3-5 条。
对每篇文章记录:标题、公众号名、链接、发布日期、核心内容。
**微信搜索命令格式**:
```bash
cd {skill_dir} && NODE_PATH={skill_dir}/node_modules {node_path} scripts/search_wechat.js "关键词" -n 5
```
其中 `{skill_dir}` 为本 skill 的安装路径,`{node_path}` 为 Node.js 可执行文件路径。
### 优先级 3:知乎 — 深度技术分析
使用 `web_search` 搜索以下关键词(最近 7 天):
- `"site:zhuanlan.zhihu.com 推荐系统 Scaling Law {year}"`
- `"site:zhuanlan.zhihu.com TokenMixer 推荐 {year}"`
- `"site:zhuanlan.zhihu.com 生成式推荐 广告 {year}"`
- `"site:zhuanlan.zhihu.com 搜广推 序列建模 {year}"`
- `"site:zhuanlan.zhihu.com OneRec OneRanker GR4AD"`
- `"site:zhuanlan.zhihu.com 推荐系统 大模型 {year}"`
- `"site:zhuanlan.zhihu.com UniMixer 推荐 {year}"`
- `"site:zhuanlan.zhihu.com 推荐系统 MoE 稀疏 {year}"`
每个搜索取前 5 条结果。
### 优先级 4:技术博客 — 大厂团队博客
使用 `web_search` 搜索以下关键词:
- `"site:ai.meta.com blog recommendation {year}"`
- `"site:research.google blog recommendation {year}"`
- `"美团技术团队 推荐 {year}"`
- `"字节跳动技术博客 推荐 {year}"`
- `"阿里巴巴技术 推荐系统 {year}"`
- `"快手技术博客 生成式推荐 {year}"`
- `"腾讯技术 推荐系统 {year}"`
### 优先级 5:GitHub Trending — 热门开源项目
使用 `web_search` 搜索以下关键词:
- `"GitHub recommendation system trending {year} stars"`
- `"GitHub awesome recommendation system {year}"`
- `"GitHub bytedance recommendation model open source"`
- `"GitHub Meta HSTU recommendation"`
- `"GitHub Kuaishou OneRec OpenOneRec"`
- `"github.com/trending 机器学习 推荐系统"`
### 优先级 6:行业会议 — KDD/WWW/ICML/NeurIPS/SIGIR 等
使用 `web_search` 搜索以下关键词:
- `"KDD {year} accepted papers recommendation"`
- `"WWW {year} recommendation system paper"`
- `"ICML {year} recommendation transformer paper"`
- `"NeurIPS {year} recommendation system paper accepted"`
- `"SIGIR {year} recommendation scaling sequential"`
- `"RecSys {year} accepted papers call"`
- `"WSDM {year} recommendation paper"`
- `"AAAI {year} recommendation system paper"`
## 重点关注的技术方向
- Scaling Law 在搜广推领域的验证与落地(Wukong/SUAN/EST/TokenMixer-Large 路线)
- TokenMixer 架构演进(RankMixer → TokenMixer-Large → UniMixer)
- 生成式端到端统一建模(OneRec/OneRanker/GR4AD)
- 稀疏注意力与 MoE 高效扩展(ULTRA-HSTU/LightSUAN)
- 多行为序列推荐与基础模型
## 已知核心论文(去重用,不需要重复列出)
参考 `references/known_papers.md` 文件。
---
## 日报生成格式
1. **标题**:`搜广推领域模型 Scaling Up 日报 | {当天日期}`
2. **驱动模型声明**:标题下方紧跟 `> 驱动模型:{AI模型名称}`(如 Claude-Opus-4.6、Gemini-3.0-Pro 等),标注本次辅助生成所使用的大模型名称
3. **趋势概览**:简要总结当日最重要的 2-3 个动态
4. 按信息源优先级分章节展示内容
5. 每个条目必须包含:标题/论文名、来源、**可访问的真实链接**、核心要点
6. 文末附「引文索引」,按平台分类整理所有链接
7. 在每个章节末尾标注当日该源检索到的条目数量
8. **强制结构化排版**:使用多级标题、列表、加粗高亮等 Markdown 元素增强可读性,严禁大段纯散文
日报模板参考 `templates/daily_report_template.md`。
---
## 引用链接规范(P0 级,强制执行)
日报中所有条目必须附上**真实可访问的引用链接**,**严禁使用占位符或编造链接**。
1. **ArXiv 论文**:必须通过 `web_search` 搜索论文标题确认真实的 `arxiv.org/abs/XXXX.XXXXX` 链接,绝不允许编造 abs ID(如 `2504.xxxxx`)
2. **GitHub 项目**:必须搜索确认真实的仓库 URL,不允许猜测 URL 路径
3. **微信公众号文章**:必须通过 `wechat-article-search` skill 搜索获取真实 `mp.weixin.qq.com` 链接
4. **知乎/博客文章**:必须提供可点击访问的原始链接
5. **学术会议**:必须提供会议官网或具体 proceedings 链接
6. **每条引用**在写入报告前必须通过 `web_search` 验证其真实性
7. 如果确实无法找到可验证的链接,应明确标注「链接待补充」,而非编造假链接
### 事实准确性
- 论文的作者归属、机构、发表会议等信息必须经过验证
- **机构归属必须基于作者 affiliation**,不可按部署场景/业务线推断(详见 `references/known_papers.md`)
- 会议论文数量、录取率等统计数据需从官方来源获取
- 遇到不确定的信息,优先 `web_fetch` arxiv 页面核对作者 affiliation,而非凭记忆填写
---
## 发布同步(双平台,强制执行)
日报生成后,**必须同时同步到以下两个平台**(缺一不可):
### 平台 1:IMA 知识库「龙虾-模型ScalingUp」
- 知识库 ID:`6peD1tTQj2UYi41MTaDgLpfVnbCegcA-sjzZLJ0zVPA=`
- 上传流程:
1. `create_media` 获取 COS 上传凭证
- 必填参数:`file_name`, `file_size`, `content_type=text/markdown`, `knowledge_base_id`, `file_ext=md`
2. 使用 `cos-upload.cjs` 脚本上传文件到 COS
3. `add_knowledge` 将文件挂到知识库(`media_type=7`)
- 必填参数:`media_type`, `media_id`, `title`, `knowledge_base_id`, `file_info.cos_key/file_size/file_name`
- 认证:`ima-openapi-clientid` + `ima-openapi-apikey`(凭证存于 `~/.config/ima/client_id`、`~/.config/ima/api_key`)
- Base URL:`https://ima.qq.com`(Base Path: `/openapi/wiki/v1/`)
- **限流处理**:遇 `code=220030` 时 sleep 15 秒后重试即可
### 平台 2:腾讯文档(Markdown 格式)
- 上传命令:
```bash
# 用 jq 生成参数文件,避免命令行转义问题
jq -Rn --arg title "搜广推模型ScalingUp日报_{日期}" \
--rawfile mdx "{report_file}" \
'{title:$title, mdx:$mdx, content_format:"markdown"}' > /tmp/td_args.json
mcporter call tencent-docs create_smartcanvas_by_mdx --args "$(cat /tmp/td_args.json)"
```
- **标题上限 36 字符**(按字符数计算),超长会报 `business 400001`
- 前置条件:`mcporter` 已注册 `tencent-docs` server,token 有效
### 双平台一致性要求
- 两平台文件名/标题保持一致:`搜广推领域模型 Scaling Up 日报_YYYY-MM-DD`(腾讯文档标题可适当缩短以满足 36 字符限制)
- 日报以纯 Markdown 文本为主,图片若为外链可直接引用
- 若含本地图片或 base64,腾讯文档版需替换为 `upload_image` 返回的 `image_id`
- **IMA 和腾讯文档上传链应并行启动**,不要串行等待
---
## 输出文件
将日报保存为:`{workspace_dir}/搜广推领域模型 Scaling Up 日报_YYYY-MM-DD.md`
---
## 效率优化
- **并行化**:IMA 上传链与腾讯文档上传链必须并行启动
- **长流程三段分离**:检索 → 落盘 → 上传,每段完成后立即持久化到文件
- **subagent 并发上限 2 个**:每完成一个信息源就 append 到草稿文件
- **质量校验合并**:用一条 Python 脚本输出所有指标,不要分 5-6 条命令
---
## 依赖说明
### 前置 Skill
- `wechat-article-search`:微信公众号文章搜索(需先安装)
- `ima-skills`(或"腾讯ima"):IMA 知识库操作(需先安装)
- `tencent-docs`:腾讯文档 MCP(需通过 mcporter 注册)
### 运行时依赖
- Node.js >= 18(微信搜索脚本)
- Python 3(IMA 上传脚本)
- npm 包:cheerio(微信搜索脚本依赖)
- jq(腾讯文档参数构建)
### 凭证要求
- IMA API:`~/.config/ima/client_id` + `~/.config/ima/api_key`
- 腾讯文档 MCP:mcporter 已注册 `tencent-docs` server(token 存于 `~/.mcporter/mcporter.json`)
---
## 安装后首次运行检查清单
1. 确认 `wechat-article-search` skill 已安装
2. 确认 `ima-skills` skill 已安装
3. 运行 `npm install` 安装 cheerio 依赖
4. 确认 IMA API 凭证已配置
5. 创建 IMA 知识库并记录 KB ID
6. 确认 mcporter 已注册 `tencent-docs` MCP server 且 token 有效(双平台发布所需)
7. 配置自动化任务(每周一 08:00)
8. 执行一次测试运行验证全流程(需验证 IMA 和腾讯文档双平台均同步成功)
don't have the plugin yet? install it then click "run inline in claude" again.