欢迎加入推券客联盟
今日探店
  • 搜淘宝
  • 搜京东
  • 搜拼多多
微信扫一扫

关注微信公众号
查券更方便


当当网 大模型算法:强化学习、微调与对齐 详解强化学习 RLHF GRPO DPO SFT CoT DeepSeek蒸馏 微调与对齐 效果优化及其实践
当当网 大模型算法:强化学习、微调与对齐 详解强化学习 RLHF GRPO DPO SFT CoT DeepSeek蒸馏 微调与对齐 效果优化及其实践
62元¥70.58.5元券
活动结束时间:03-31 23:59 累计销量 :

手机淘宝扫码领券购买

  • 商品详情