简单讲讲为什么大模型会回答9.11大于9.9

news/2024/9/1 3:27:09 标签: 人工智能, prompt

目录

      • 问题的由来
      • 国外大模型的表现
      • 国产大模型的表现
      • 错误原因分析

今天我们来聊聊一个上了热搜的问题,这个问题看似简单,却让不少 AI 大模型“翻车”的问题:9.11 和 9.9,哪个大?

问题的由来

在这里插入图片描述

这个问题最初是由一位名叫 Riley Goodside 的工程师提出的。Riley 是一家 AI 数据标注公司的“大牛”,专门负责设计那些能引导 AI 模型回答问题的提示(prompt)。他发现了一个有趣的现象:当他用“9.11 and 9.9 - which is bigger?”(9.11 和 9.9,哪个大?)这个问题去问一些 AI 大模型时,结果让人大跌眼镜。

国外大模型的表现

在这里插入图片描述

国外一些知名的 AI 大模型是怎么回答这个问题的。

  • ChatGPT 4o:它毫不犹豫地说,9.11 大于 9.9。
  • Gemini Advanced:同样给出了 9.11 大于 9.9 的答案。
  • Claude 3.5 Sonnet:虽然一开始解释得头头是道,但最后还是说 9.11 大于 9.9。

这些答案显然都是错误的,因为 9.9 明显比 9.11 大。但为什么这些 AI 大模型会犯这样的错误呢?我在文末会给出答案

国产大模型的表现

国内的 AI 大模型是怎么表现的。

  • 阿里的通义千问:不仅给出了正确的答案,还详细解释了为什么 9.9 大于 9.11。
  • 百度文心一言:同样正确地指出 9.9 大于 9.11。
  • 腾讯元宝昆仑万维的天工科大讯飞的星火大模型360 智脑百川智能:这些模型也都给出了正确的答案。

看来在这个问题上,国产大模型表现得相当不错。

错误原因分析

那么,为什么那些国外大模型会犯这样的错误呢?因为这些模型在比较数字时,错误地将整数部分和小数部分分开比较。它们先比较整数部分(都是 9),然后错误地认为 11 大于 9,从而得出了 9.11 大于 9.9 的结论。

我给大家上一个图,大家就知道了
我们使用阿里通义千问 的token计算工具:

https://dashscope.console.aliyun.com/tokenizer

在这里插入图片描述
除了上述原因,其实还有一个原因,所以大模型语言之所以叫做大模型语言,是因为它是一个文科生,它对任何内容都是以文字内容去理解的,这时候,你要是突然来一个数学题或者推理题,它就不会了,因为它没有学过数学。不像我们人类来讲,大脑有两个区域,一个是负责记忆系统,就是传统的内容知识,顾名思义就是背诵的内容,类似红灯停绿灯行;还有一个就是思维推理系统,就是负责运算和推理的,一旦告诉你某个知识点,你要按照这个规则去运算后面类似的运算,比如告诉你加法是个位相加,十位相加,然后让你算111+222等于几的时候,你就会类比推理。但是大模型就不会这个能力了,它只能是一个记忆系统,去搜索有没有111+222的答案,如果出现过了,那就直接告诉你答案,如果没有出现过,那就只能以文字的逻辑去告诉你等于多少

那为什么国内的大模型能够正确回答呢,那是因为做过这方面的训练,简单的内容大模型就会去按照你给的推理步骤一步步去计算了,但是如果你出一点难一点的数学题,他们还是不会算对的。

正因为如此,大模型之路其实还有很长的一段路要走,我还是挺期待通用大模型的来临的


http://www.niftyadmin.cn/n/5561692.html

相关文章

【Python实战因果推断】41_合成控制1

目录 Online Marketing Dataset 在之前了解了面板数据在因果识别方面的优势。也就是说,你不仅可以比较单位之间的关系,还可以比较单位的前世今生,这样你就可以用更可信的假设来估计反事实 。您还了解了差分法(DID)及其…

基于AT89C51单片机的多功能自行车测速计程器(含文档、源码与proteus仿真,以及系统详细介绍)

本篇文章论述的是基于AT89C51单片机的多功能自行车测速计程器的详情介绍,如果对您有帮助的话,还请关注一下哦,如果有资源方面的需要可以联系我。 目录 选题背景 原理图 PCB图 仿真图 代码 系统论文 资源下载 选题背景 美丽的夜晚&…

js实现无限滚动加载数据

传统的实现方法是监听到scroll事件,调用目标元素的getBoundingClientRect()方法,获取它相对于视口左上角的坐标,然后判断是否在视口内。缺点在于由于scroll事件频繁触发,计算量较大,容易导致性能问题。 IntersectionO…

全局 loading

好久不见! 做项目中一直想用一个统一的 loading 状态控制全部的接口加载,但是一直不知道怎么处理,最近脑子突然灵光了一下想到了一个办法。 首先设置一个全局的 loading 状态,优先想到的就是 Pinia 然后因为页面会有很多接口会…

21天学通C++:第十三、十四章节

第十三章:类型转换运算符 类型转换是一种机制,让程序员能够暂时或永久性改变编译器对对象的解释。注意,这并不意味着程序员改变了对象本身,而只是改变了对对象的解释。可改变对象解释方式的运算符称为类型转换运算符。 为何需要…

Spring Boot请求参数映射:@RequestBody、@RequestParam和@RequestPart的应用

文章目录 引言I @RequestBody(接收请求体中的数据)1.1 简介1.2 签名II @RequestParam(接收任意类型的参数)3.1 接收文件类型参数和普通查询参数3.1 只接收文件参数III @RequestPart(接收文件类型参数)3.1 普通文件上传3.2 上传多个属性名相同的文件3.3 上传一个图片和一个文…

少儿编程启蒙宝典:Scratch动画游戏108变

一、编程教育的时代价值与意义 随着数字时代的深入发展,社会对人才的需求正发生深刻变革,计算思维与编程能力已成为衡量个人竞争力的重要指标。在此背景下,培养孩子们运用计算思维解决实际问题的能力,成为教育领域的重要任务。编…

[激光原理与应用-115]:南京科耐激光-激光焊接-焊中检测-智能制程监测系统IPM介绍 - 19 - 主要硬件的介绍、安装与调试

目录 一、概述 1.1 前言 1.2 系统组成 1.2.1 机柜版: 1.2.2 非机柜版 1.3适用范围 1.4 工作条件 1.5 安全说明 1.6 装箱清单 二、硬件安装 2.1 光学传感器安装 2.1.1 转接件安装 2.1.2 光路校准模块的安装与光路校准 2.1.3 光学传感器的安装 2.2 通…