Large Reasoning Model时代, 几乎等于Reinforcement Learning + LLM的时代。但RL专业性非常强，去参加ML的会议时，专门做RL的研究员都现场拿着笔纸推算数学公式，掌握起来学习难度较高。分享一本RL的入门教材，从RL基础MDP，PPO，直到跟LLM结合，如RLHF，都有讲解，深入浅出。 Reinforcement

分享一个链接

发表一篇文章

任何有趣的，图片，热点新闻，视频，文字...

2110 位用户此时在线

24小时点击排行 Top 10：

因为2块6 ktv圣地被查杭州科创企业、币圈、私募，被包饺子，团灭😅😅

最新！习近平丽江行的三大怪事！

重磅！乌克兰袭击了普京核轰炸机所在的俄罗斯机场，引发大规模蘑菇云爆炸。

施瓦辛格看了特朗普和普京的谈判发表评论:“特朗普让美国人感到羞耻！”

國產充電磚，內部以磚頭為主要動力。

3月20日，河北承德。承德荣盛锦绣官邸项目监管账户钱被挪用，20年至今一直拖沓不交房，现在更是停工状态，1700多户无家可归。当天数百人前往市政府维权。

3月20日，香港航空航班HX115载着168名乘客在万米高空中飞行时，行李架上的行李突然起火，乘客们参与灭火时发现飞机内好几个灭火器疑似是空的。视频显示，众人接力用瓶装水灭火，好在火势被成功扑灭，飞机改道福州，现已安全降落。

身在南非与新女人度蜜月的淫棍酒鬼亨特突然发现所有18名保鑣没了！🔥🔥🔥🔥🤡🤡🤡

公益人“胖哥”：“心酸!这个家不该只剩她这个女孩，身世坎坷。爸爸靠讨饭为生，妈妈精神有问题，原本八个孩子，如今只剩她一个”

杭州舞女已經內卷到夜市大排檔了！

3月20日，浙江杭州。代驾小哥“北流”称，15日他将顾客送到一家ktv后，顾客坚持少付2.6元。随后“北流”发现，顾客少付自己2.6元，却给ktv女服务员打赏五千多。于是他直接报警举报该ktv提供有偿陪侍服务。事后，“北流”称接到警方电话，迫于压力删掉了视频。据传当地已对ktv等夜店场所开展执法活动。

中共水軍軟件，隨時监控你的手機，軟件也可以入侵手機，進行盜竊。

虔诚的穆斯林。他有 3 个妻子和 11 个孩子，住在🇬🇧谢菲尔德。他已经两年没有工作了，将来也不打算工作。你明天上班不要迟到，穆斯林全家指望着你.🫡

3月19日，工人晒出了老挝比亚迪工厂的环境和厕所，视频显示工厂的厕所脏乱不堪连下脚的地方都没有。网友表示：这种企业能生产出好车吗？

頓涅斯克被國際軍團伏擊的俄軍，俄士兵拍攝說你看媽的，你看這，看這

儿童画老师上班第一天

突发重磅：乌克兰炸毁俄罗斯的经济命脉之一，苏贾天然气管道！

近日，有网民在抖音直播李嘉诚以前的讲话，不少观众在直播间发评论抵制李嘉诚。

3月19日，上海。一名网友发文称，其就读于上海浦东新区万祥学校二年级的孩子在学校遭遇极端不公正对待。该家长爆料称，因孩子在课堂上无意间说了一句“老师傻”，竟遭到音乐老师黄某的刻意报复。

怎么办，我们要收律师函了

网红陆配“亚亚”因在其抖音账号发布武统言论，被台移民署下令驱逐出境，最晚3月24日就要离台，今天她首度露面，并在镜头前喊冤，称自己没有鼓吹武统，希望能通过法律程序，让自己能在留在台湾。

法轮功：有灵的

3月19日，习近平抵达丽江视察。据当地网友透露，涉及途经的周边严加看管，不让拍照，开窗，也不能拉开窗帘，同时管控特斯拉出行。

此前，余承东曾表示，将在3月推出一款“全国人民买得起、想不到的产品” 3月20日，余承东在华为新品发布会上发布新品折叠手机Pura X，这款手机售价分别为7499元和7999元，Pura X典藏版售价为8999元和9999元。网民表示：甚至连处理器都不敢提，我真的哭死；买不起都不是人开出人籍；

3月20日(发布) 湖北。一名女子称，自己的孩子就读于大悟县实验中学，有天孩子上厕所时遭到同学霸凌被关进厕所里，刚好厕所的灯是坏的线头裸露在外，下水道又漏水，导致孩子触电。老师得知孩子受伤后没有第一时间送医，直到事发40多分钟后才联系家属。女子称事后维权艰难，被多个部门打压恐吓。

本站自动实时分享网络热点
24小时实时更新
所有言论不代表本站态度
欢迎对信息踊跃评论评分
评分越高，信息越新，排列越靠前

2

1

0

Large Reasoning Model时代, 几乎等于Reinforcement Learning + LLM的时代。
但RL专业性非常强，去参加ML的会议时，专门做RL的研究员都现场拿着笔纸推算数学公式，掌握起来学习难度较高。
分享一本RL的入门教材，从RL基础MDP，PPO，直到跟LLM结合，如RLHF，都有讲解，深入浅出。
Reinforcement
时政
( twitter.com )

昨天由马东锡 NLP 🇸🇪 提交

Large Reasoning Model时代, 几乎等于Reinforcement Learning + LLM的时代。

但RL专业性非常强，去参加ML的会议时，专门做RL的研究员都现场拿着笔纸推算数学公式，掌握起来学习难度较高。

分享一本RL的入门教材，从RL基础MDP，PPO，直到跟LLM结合，如RLHF，都有讲解，深入浅出。

Reinforcement Learning: An Overview：
https://t.co/rjYSpOtbJl

点击图片查看原图

1周内 1个月内 1年内全部时间

1
2
3
4
5
6
...
13
下一页

1

2

1

1

🍓Marco-o1! Newly Open-Sourced o1: Towards Large Reasoning Models for Open-Ended Solutions.
🎯 Built and released a CoT dataset to activate LLMs' reasoning abilities.
💡 Integrated LLMs with MCTS to expand the solution space.
🔬 Exploited action granularities in MCTS and
时政
( twitter.com)

1个月前 • Longyue Wang • -- 点击 0 评论

2

2

1

1

Btw, the chain of thought in the "thinking" mode for Grok 3 is completely open. No summarizers or obfuscation. This is really important and the reasoning process is often fascinating!
btc
( twitter.com)

28天前 • Keiran Paster • -- 点击 0 评论

3

2

1

1

大语言模型 post-training 的变迁，从 Large Language Model (LLM) 到 Large Reasoning Model (LRM)
本周推荐论文：POST-TRAINING OF LARGE LANGUAGE MODELS
Post-training，本质是在做一件事，即如何运用 LLM 的 pretrained knowledge 来解决实际任务，具体的方法如 supervised
时政
( twitter.com)

4天前 • 马东锡 NLP 🇸🇪 • -- 点击 0 评论

4

2

1

1

Grok 3 might be the best base LLM for real-world physics!
Prompt: "write a python script of a ball bouncing inside a spinning tesseract".
There is no "thinking" or "big brain" mode enabled, it's just the base model. I'm very interested in trying their reasoning models.
btc
( twitter.com)

1个月前 • Yuchen Jin • -- 点击 • 下载视频 0 评论

00:00:08

5

2

1

1

🚨 #BREAKING: Washington Post Editor-at-Large Robert Kagan has RESIGNED after owner Jeff Bezos BARRED the endorsement of Kamala Harris
The leftist media is in TOTAL crisis mode! 🤣
This comes just days after fellow leftist paper Los Angeles Times also refused to endorse a
时政
( twitter.com)

4个月前 • Nick Sortor • -- 点击 0 评论

6

2

1

1

把这篇论文翻译了一下：
《退一步，看得更远：通过抽象引发大型语言模型中的推理》Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models

什么是退一步提示法？…
IT技术
( baoyu.io)

1年前 • 宝玉 • -- 点击 0 评论

7

2

1

1

Reasoning from first principles is a superpower
btc
( twitter.com)

1个月前 • Elon Musk • -- 点击 • 下载视频 0 评论

00:00:45

8

2

1

1

As usual, excellent reasoning and judgment from
btc
( twitter.com)

昨天 • Elon Musk • -- 点击 • 下载视频 0 评论

00:17:33

9

2

1

1

Why O3-mini is reasoning in Chinese 🥹
时政
( twitter.com)

1个月前 • Vikhyat Rana • -- 点击 0 评论

10

2

1

1

更强的reasoning，更好的Agent
论文分享： Thinking Machines: A Survey of LLM based Reasoning Strategies
在我们开发Agent的项目的时候，需要更好的LLM reasoning的能力，以获得更高的任务完成准确率。
那么有哪些方法可以增强LLM的reasoning能力呢？
沿着之前我分享的Testing time
时政
( twitter.com)

10小时前 • 马东锡 NLP 🇸🇪 • -- 点击 0 评论

11

2

1

1

Would you call this ground or water? Is this MT-LB in tank mode or boat mode?
时政
( twitter.com)

1年前 • Andrew Perpetua • -- 点击 • 下载视频 0 评论

00:00:38

12

2

1

1

Camouflage mode activated.
有趣
( twitter.com)

2个月前 • Figen • -- 点击 • 下载视频 0 评论

00:00:52

13

3

2

2

A big jump in math/reasoning for our coding benchmark 🤯
时政
( livecodebench.github.io)

11个月前 • Wen-Ding Li • -- 点击 0 评论

14

2

1

1

Me opening incognito mode
有趣
( twitter.com)

3个月前 • NO CONTEXT HUMANS • -- 点击 0 评论

15

2

1

1

Sliding Stealth mode on
有趣
( twitter.com)

1年前 • Captivating Vibe • -- 点击 • 下载视频 0 评论

00:00:25

16

2

1

1

bro switched to eco mode
有趣
( twitter.com)

9个月前 • humans without context • -- 点击 • 下载视频 0 评论

00:00:37

17

2

1

1

bro switched to eco mode
有趣
( twitter.com)

9个月前 • humans without context • -- 点击 • 下载视频 0 评论

00:00:37

18

2

1

1

bro switched to eco mode
有趣
( twitter.com)

4个月前 • NO CONTEXT HUMANS • -- 点击 • 下载视频 0 评论

00:00:37

19

2

1

1

Bro unlocked the flashlight mode
有趣
( twitter.com)

4个月前 • NO CONTEXT HUMANS • -- 点击 • 下载视频 0 评论

00:00:34

20

2

1

1

bro switched to eco mode
有趣
( twitter.com)

4个月前 • NO CONTEXT HUMANS • -- 点击 • 下载视频 0 评论

00:00:37

21

2

1

1

Thief mode activated. 😂😂
有趣
( twitter.com)

1个月前 • The Figen • -- 点击 • 下载视频 0 评论

00:01:03

22

2

1

1

Try voice mode and personalities
btc
( twitter.com)

25天前 • Elon Musk • -- 点击 0 评论

23

2

1

1

Phone was in flight mode
有趣
( twitter.com)

1个月前 • Wild Clips • -- 点击 • 下载视频 0 评论

00:00:32

24

2

1

1

水着mode速吸
图片
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

25

2

1

1

工人mode
ㄜ和
图片
( twitter.com)

1年前 • tieliner（葉子） • -- 点击 0 评论

1
2
3
4
5
6
...
13
下一页

0.07325 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: admin@bad.news

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特