AI的发展还是太快了 - 2ch吧

level 12

简单来说，原视频讲的是菲尔奖得主，使用了两个小时，产出了一篇博士级成果，使用的模型是GPT 5.5 Pro，最终的结论是，如果你提出一个可行的技术路线，并给出一个确实的问题，那么AI有可能在短时间内解决它。也就是说，一些独立的公开问题，如果因为此前没有得到足够的关注，从而导致一些较为简单的解法没有被发现。现在大模型就可以解决它们。可以说，一大批数学研究者的意义就被削减了，这个领域的下限会提高非常多。

2026年05月11日 16点05分 1

level 12

贴吧用户_a5X3M16 楼主

以下是楼主在原视频下方的回答。
我觉得倒也没必要这么悲观。AI的输出的可靠程度极大地依赖于输入的限制和约束。据我所知，AI从23年开始就非常关注工程构建的问题了。你们可以看看那个ChatGPT提示词，我记得B站就有，你们可以搜一下。这个课程没记错应该是23年DeepL的合作项目，你会看到当时他们就很侧重于输入的规范了。比如说大概前15分钟就会有的，这个指南原则大概就有以下几条。一，清晰具体但不是简短:
具体表述为使用符号分隔不同部分的文本，比如引号、括号等
结构化输出,使用JSON或者HTML格式进行条件检查，使得输出符合条件.
执行任务前给一个成功的例子。
第二个原则是给模型思考时间:
这包括构建相关的请求的键和序列，以及复杂任务指示模型使用更多的时间。
在批改作业之类的场景，验证自己的思路是否正确，应该让它自己解决问题，再提示它对比思路以发现区别。
要清晰地表达看自己的思路.
并且明确地提到了它的局限性是它并不了解知识的边界，这使得它可能会尝试回答过难的问题并产生幻觉。额外的策略是要求找到文本相关引用，并追溯回原文本。
说一个可能很震惊的事情，那个时候大概是GPT 3.5的时代。现在的那些生成精美的网页或者PPT的事情，使用@这些输出的策略是完全可以做到的。

2026年05月11日 17点05分 2

ZyyAincrad

@混蛋papa 因为你没有提示词工程；这种专门做这些的别说提示词了，甚至要自己设计思维链来代替ai的原生思维链。不然你觉得为啥他们内部测试能拿IMO满分，但是你的ai连个大学考试都考不满？

2026年05月12日 21点05分

贴吧用户_a5X3M16

@挨踢DE民工我记得这个up说做ai数据标注的找他这种数学博士出题，能干掉gpt和Claude的最强模型一题给1000块的样子，然后说，就算是国内的，比如字节之类的，一道题大概也会出四五百。

2026年05月12日 08点05分

贴吧用户_a5X3M16

@挨踢DE民工具体的模型和题目我看下

2026年05月12日 07点05分

挨踢DE民工

目前AI还解不出海淀区初三期末考试的题目，新出的题目

2026年05月12日 07点05分

level 12

贴吧用户_a5X3M16 楼主

我只能说，按照我现在的情况来说，合理的约束和
正确的
提示词，从目前的评测结果来看，能减少大约一半的错误。然后剩下的一半还是得要人工来排查。但是这导致了一个问题，就是即便你使用了可能需要专业知识的提示词，来减少了这一半的输入的产生的错误。但是呢,你还是得要自己解决剩下的一半的错误，所以专业知识还是非常必要的。反正我个人觉得，起码这个提示词工程还是值得一看的。毕竟不管是CC还是Codex之类的,这些AI辅助工具的本质就是约束层的应用。甚至这引发了两个很大的讨论。一个就是约束层是否会在使得中庸的AI发挥出不错的性能的同时，压制顶尖模型的智力。以及现在我们是否可以说，更好的工程构建是要优于继续去增进模型的智力的。这个问题在CC的源码泄露之前，甚至是引起了不小的讨论的。那个时候，甚至有人认为，Claude的智商很大程度来自于CC的构建

2026年05月11日 17点05分 3

freeplus

这个观点是对的，AI目前仅仅是处于初级智能阶段，想要完全取代人工作目前还是不行的。很多急功近利的企业会后悔的。但是提示词优化或上下文学习目前有很多策略，利用多智能体协作或对抗学习寻找最优提示词或上下文已经取得很多进展。看将来情况，预计需要针对智能学习本身进行严格的数学理论才能明确智能的含义。

2026年05月11日 22点05分

克朗尼斯

好想法

2026年05月13日 17点05分

世紀末

本来就是这样，现阶段的ai应用一定需要应用者本身具备相关的储备辨别和修正错误

2026年05月14日 05点05分

level 7

karibearna

AI就是高级检索器，检索所有资料并做出总结，是在人类知识的海绵里挤出水

2026年05月11日 17点05分 4

驿站客

@一代天骄MJ 其实还是检索器。这个内部专业人士现在都不说，因为怕戳破ai泡沫。

2026年05月12日 10点05分

黑天龙煞

@一代天骄MJ 细说说。我觉得目前从原理来看现在的ai完全没有自我进化的可能，极其依赖数据集的质量

2026年05月12日 11点05分

中泽柚姬

@黑天龙煞我来给你细说说。这里面有两个逻辑。1 语言本身就是知识大模型现在体现出了这种强大的泛化能力包括Gpt2时期让人对AGI产生了向往主要原因就是没有预期外的掌握了足够多的语言就有知识的表现在多模态和强化学习之后得到了进一步的强化 2. 现在LLM已经进入了自递归时代也即左右互搏时代类似于当年Alpha go到Alpha Zero 现在两大最强厂商都已经不再写一行代码完全用AI开发下一代AI 模型的任务分配 Debug能力都有质的提升模型迭代速度空前以月度为单位并且有密度摩尔定律比如从前任务交付之后大模型独自工作几分钟就会卡住需要人类专家介入但现在已经能独自工作10-20小时之久这意味着任务复杂度的指数提升最后随着具身智能和大模型的又一次结合多模态数据将走到空前遥远的地方

2026年05月12日 11点05分

一代天骄MJ

早就不只是检索器了

2026年05月12日 06点05分

level 10

雷公2号

术业有专攻吧，我让deepseek给我用十几个样品配成一个含量的样品算了十几分钟还偷偷给我改数据 [阴险]

2026年05月11日 23点05分 6

小屁孩的冰果

@2027登岛 GPT一样幻觉问题无法解决，一问到关键问题就开始自然联想给你发明答案。

2026年05月12日 06点05分

雷公2号

@有刺鐵線单纯计算还需要什么提示词啊，思考过程一直都能看到，就在那里算了十几分钟，我把答案输回去Excel去再算一次发现还是错的

2026年05月12日 02点05分

2027登岛

ds是玩文字的别用他搞理科

2026年05月12日 06点05分

贴吧用户_a5X3M16

gpt5.5 pro是极其吃算力的吧，我记得5.4的pro一轮对话我就要等个15min左右的样子

2026年05月12日 01点05分

level 1

逸雅哈哈

呵呵，现在的ai去除那些乱七八糟有的没的包装，底层逻辑就是最纯粹的归类法，能让人觉得准是因为只要辅助信息够多，那么最终被归类到的终点就会无尽接近于人类想要的答案，虽说当一个假货与真货无异时你可以觉得它就是真货，但这终究只是无限接近而已，而且2小时就能解出的世界难题，有人对结果进行验证了么？多大点事就当个世纪发现，还是个自干五，无语

2026年05月12日 00点05分 8

百年挽尊品质

@贴吧用户_a5X3M16 专业领域想让AI干好活首先要给的出数量丰富、专业、准确的提示词，而要做到这一点，首先就要是个专业人士才行。

2026年05月12日 06点05分

贴吧用户_a5X3M16

是菲奖得主高尔斯写的，他就是想验证ai到底行不行所以才搞的这个实验，原视频有高尔斯博客的完整翻译，做的什么课题，明确说了是在几乎没有提示的情况下做出来的

2026年05月12日 01点05分

中泽柚姬

我觉得你看到了问题很重要的一部分你也知道假货与真货无异时实际上等同于真货（这个无异在很多数学和优化领域就是问题的解）包括图灵测试的最初测试就是这样的你说的另一方面也完全没错 AI的边界安全性和正确性都需要人类专家去辅助判定只是随着最前沿模型的进化这个门槛在逐步提升小学水平的问题小学生就能监督而现在AI的智能水平已经接近普通博士生就意味着需要博士以上才能甄别这就进一步将博士的重要性提升了这意味着即使进一步发展博士以上人类专家作为纯监督的角色都变得必不可少我是AI方向的博士有问题可以跟我交流

2026年05月12日 11点05分

逸雅哈哈

@内田真扎不会思考就是不会思考，目前ai所有结论都是拼凑出来的前提下，就不该被给予完全的信任，这主题帖的主旨意思是用菲尔奖得主的背景为ai背书，再给了一个数学研究价值下降的结论，我对此不赞同，懂了么

2026年05月13日 04点05分