很多人说o1不就是个CoT+强化学习吗?强化学习有个前提,就是模型原来试了

JavaEdge聊AIss 2024-09-15 16:03:51

很多人说 o1 不就是个 CoT+强化学习吗?强化学习有个前提,就是模型原来试了一万次,有一次成功了。 - 模型原来做不到的事情,尝试一万次没有一次成功,那强化也没用 - 模型通过 CoT 尝试了一万次没有一次成功,那强化也没用 - 模型通过一些 Prompt 提示或引入其他因素进行思考,在一万次里有几次成功了,强化学习才开始有用 - 但是模型自增强 Prompt 这件事本身就和 Agent 中的规划是一个思路了 可以关注的信息: 1. 关于 CoT,360 做了一个简单可视化的版本,全程思考都暴露出来,可以自己感受下 CoT 的思维方式和局限,看看哪些问题 4o 无法解决,可以通过 Cot 解决 2. 关于 Agent,可以参考赛博禅心这篇文章,内含代码,可以测试有哪些4o无法解决的问题,可以通过 Agent 解决#程序员 #软件开发 #人工智能 #计算机 #编程严选网

0 阅读:0
JavaEdge聊AIss

JavaEdge聊AIss

感谢大家的关注