对话大模型

此刻夜深。

最近的作息有些日夜颠倒,想要调整过来发现反而睡不好了,索性没有刻意调整。只是这样觉得少了很多白天,觉得一天过得快了很多,但是在晚上,时间又会慢下来……

好了不废话了。

大模型现在真的是我日常用的最多的软件之一,用多了发现各家的感觉还是有很多不同的,想简单说说常见的各家大模型的使用心得和选择的思路。

我使用大模型主要就是问题交流,例如问一些问题(替代查阅资料)或者是针对某个问题或事件进行讨论;并不经常让他们写小说、角色扮演、或者是做图、做视频等等。所以我对大模型的评价也主要是在问答方面,我觉得评价可以分为两个维度。

一是智力水平。智力水平的高低体现在对问题的理解和回复内容的质量,说白了就是整体对话的体验;一说什么它就能明白然后给你解释清楚,而不是答非所问、胡言乱语。

二是内容立场。即是立场保持客观,态度保持中立,叙事角度不会偏向某一方。内容是否中立在某些问题上关联到正确性,所以这一点也很重要。

如果往更深层次探究,模型本身并不存在思维和意识,所以如果有足够多、足够广的训练数据投喂,模型输出的内容自然就是代表大多数、又不代表大多数的「中立」结果。

训练数据足够、训练方法良好的模型,保持内容中立是水到渠成的事情。反而是如果由于某些原因需要模型输出特定内容,就要进行一些特定工作,可能是调整训练数据、训练过程、对输出内容过滤等从不同的阶段去调整。我觉得这些额外工作不但影响模型的中立性可能也会影响智力水平。

ChatGPT

智力水平:游刃有余

内容立场:中立

也许是因为我用得最多,给我印象最深,我觉得 ChatGPT 的回答质量是目前大模型里面最好的。

有的时候过于有原则,这个我不知道是好还是不好。例如说到某个魔术效果,ChatGPT 会强调维护魔术行业秘密,所以不能解释原理。

对于一些国内政策相关,部分本地化的话题表现不如国产模型,这是国外大模型多少都有的问题,也是国内大模型的优点,后面我就不再重复。

Gemini

智力水平:游刃有余

内容立场:中立

Gemini 使用体验也很不错,我觉得和 ChatGPT 相当。相比于 ChatGPT 更加严肃和冷淡,输出内容也比较朴素不会使用非常多的 emoji。

Grok

智力水平:中规中矩

内容立场:中立

Grok 主要由于需要打开 X,以及有使用次数严格限制,所以使用并不多。

Claude

智力水平:中规中矩

内容立场:中立

Claude 的水平在某些方面与 ChatGPT 差不多,但是我感觉在中文方面并是差强人意的,甚至标点符号都没有使用全角符号。

Kimi

智力水平:中规中矩

内容立场:中立

Kimi 的体验在国内大模型中来说算比较不错的了,但是交流过程中还是觉得有些地方并不如最好的几位。

Dola(CiCi)

智力水平:中规中矩

内容立场:中立

整体的体验还可以,稍逊于 Kimi 。

智谱清言

智力水平:中规中矩

内容立场:稍中立(有过滤)

处于各方面较为中庸的水平。并且界面确实有些乱,有些影响使用的欲望。

DeepSeek

内容立场:中立(有严格过滤)

DeepSeek 我没有太多使用,因为我发现它有内容过滤,内容输出到一半会突然全部消失,我接受不了这种「吃了吐」,所以放弃使用。

千问(Qwen)

智力水平:中规中矩

内容立场:非中立

千文在一些日常问题的能力确实不错,超过 Kimi,但是在一些问题上表述并不客观。所以我觉得只在部分时候合适使用。

Mistral

智力水平:中规中矩

内容立场:中立

我没想到它居然还在。用得不多,大致觉得还可以。

豆包

智力水平:差强人意

内容立场:非中立

相较于海外版 Dola 差了很多,也许这就是我猜测的为了调整内容导致智力水平也不太行的例子。


差不多就这些吧。差不多睡觉去咯~

正在加载评论区...