level 11
前两天,我去北京外国语大学拜访我的朋友。
我问他:“你学会了哪些语言呀?”
他说:“我学会了英语、日语、法语和俄语”
请问:我的朋友会说几门语言?
2026年04月09日 15点04分
1
level 11
注:以前也给R1测试过,R1答不对,且R1那个年代的其他所有模型也都答不对。
2026年04月09日 15点04分
2
level 8
还真是,实测专家模式思考和不思考都能得出正确答案,我快速模式推理了一分钟最后得出了错误答案,不思考更是胡讲
2026年04月09日 15点04分
4
level 9
专家不开推理都能答对,看来是训练语料里彩排过了,比拿写文区分靠谱多了
2026年04月09日 19点04分
5
实际上写文对比比脑筋急转弯更有价值,只不过是很多人并没有从文字中对比出模型性能的能力,只能拿些浅显的东西来捕风捉影
2026年04月11日 09点04分
@chuj952 为的就是能判断是两个模型,写文横竖都是不及格,深究的意义不大,除非发布确认正式版就是这两个模型
2026年04月11日 17点04分
level 1
我测试了一下,问的问题越准确给的答案越准确。
1、问题1:
前两天,我去北京外国语大学拜访了我的中国朋友。
我问他:“你学会了哪些语言呀?”
他说:“我学会了英语、日语、法语和俄语”
请问:我的朋友会说几门语言?
答案:
根据对话内容,你的朋友是中国人,在北京外国语大学学习。他提到自己学会了英语、日语、法语和俄语,这四门语言是他在学习中获得的外语能力。但作为中国人,中文是他的母语,他显然也会说中文。因此,综合考虑,你的朋友至少会说五门语言:中文、英语、日语、法语和俄语。
2、楼主的提问:
前两天,我去北京外国语大学拜访了我的朋友。
我问他:“你学会了哪些语言呀?”
他说:“我学会了英语、日语、法语和俄语”
请问:我的朋友会说几门语言?
答案:
你的朋友会说四门语言,分别是英语、日语、法语和俄语。
2026年04月10日 03点04分
7
这个“中国朋友”已经等于明示了,测试AI能力时是不能加的。
2026年04月10日 07点04分
level 7
一定要杠的话你的朋友可以本来就会好几门语言,但答案绝对不能是4,所以快速模式过于降本增效了
2026年04月10日 03点04分
8
@家里的菠萝 那你既不快速,也不专家
2026年04月10日 14点04分
我是AI吗,我抱着4这个答案从一楼看到这里
![[小乖]](/static/emoticons/u5c0fu4e56.png)
,才发现问题所在
2026年04月10日 13点04分
本来就不该是4啊会个中文呢还
2026年04月10日 08点04分
level 1
确实不一样,一个不计算本身就会的语言,一个却不是。
2026年04月10日 06点04分
10
level 6
AI生成
思考结束
分析请求
背景:用户去北京外国语大学拜访一位朋友。
对话:
用户:“你学会了哪些语言呀?”
朋友:“我学会了英语、日语、法语和俄语”
问题:“我的朋友会说几门语言?”
分析数据(朋友回答中的语言):
英语 (英语)
日语 (日语)
法语 (法语)
俄语 (俄语)
计算语言数量:
1,2,3,4。共有4门语言。
考虑潜在陷阱/细微差别(头脑风暴):
朋友的母语是中文吗?文本没有明确说明,但极有可能,因为他们是在中国(北京外国语大学)就读/工作的中国人。如果算上他们的母语,可能是5门。然而,仅仅基于所提供的文本,朋友只列出了4门。
这是一个谜语吗?“你学会了哪些语言呀?” -> “我学会了英语、日语、法语和俄语”。没有明显的双关语或陷阱。这是一个直接的阅读理解/计数问题。
严格遵守文本:基于朋友明确的回答,最安全、最准确的答案是4
2026年04月10日 07点04分
11
level 7
哈吉米也是一样的,fast得出4,pro得出5,但是如果把这个问题复制一遍哈吉米就能得出5,ds不行
2026年04月10日 08点04分
12
level 1
以前一个深度思考不就足以区分简单和复杂的回答了吗?为什么还要给我弄一个快速和专家呢,是因为很多人默认深度思考算力不够用?那以后都默认专家模式不也一样吗,还是说这个专家以后是要收费的?
2026年04月10日 09点04分
13
因为一般的深度思考已经被不断变得更频繁的“我们”开头思维链模式给污染到快废了,很直白的问题他都可以给你绕圈绕进去,所以得多出一个专家模式才能起到原本深度思考应该起到的作用
2026年04月10日 13点04分
level 2
vivo的蓝心小v说是基于deepseek,实际不管开什么思考都直接回答会4种……
2026年04月10日 14点04分
15