对话大模型

Dangeer · December 14, 2025 · 3 minutes

此刻夜深。

最近的作息有些日夜颠倒，想要调整过来发现反而睡不好了，索性没有刻意调整。只是这样觉得少了很多白天，觉得一天过得快了很多，但是在晚上，时间又会慢下来……

好了不废话了。

大模型现在真的是我日常用的最多的软件之一，用多了发现各家的感觉还是有很多不同的，想简单说说常见的各家大模型的使用心得和选择的思路。

我使用大模型主要就是问题交流，例如问一些问题（替代查阅资料）或者是针对某个问题或事件进行讨论；并不经常让他们写小说、角色扮演、或者是做图、做视频等等。所以我对大模型的评价也主要是在问答方面，我觉得评价可以分为两个维度。

一是智力水平。智力水平的高低体现在对问题的理解和回复内容的质量，说白了就是整体对话的体验；一说什么它就能明白然后给你解释清楚，而不是答非所问、胡言乱语。

二是内容立场。即是立场保持客观，态度保持中立，叙事角度不会偏向某一方。内容是否中立在某些问题上关联到正确性，所以这一点也很重要。

如果往更深层次探究，模型本身并不存在思维和意识，所以如果有足够多、足够广的训练数据投喂，模型输出的内容自然就是代表大多数、又不代表大多数的「中立」结果。

训练数据足够、训练方法良好的模型，保持内容中立是水到渠成的事情。反而是如果由于某些原因需要模型输出特定内容，就要进行一些特定工作，可能是调整训练数据、训练过程、对输出内容过滤等从不同的阶段去调整。我觉得这些额外工作不但影响模型的中立性可能也会影响智力水平。

ChatGPT

智力水平：游刃有余

内容立场：中立

也许是因为我用得最多，给我印象最深，我觉得 ChatGPT 的回答质量是目前大模型里面最好的。

有的时候过于有原则，这个我不知道是好还是不好。例如说到某个魔术效果，ChatGPT 会强调维护魔术行业秘密，所以不能解释原理。

对于一些国内政策相关，部分本地化的话题表现不如国产模型，这是国外大模型多少都有的问题，也是国内大模型的优点，后面我就不再重复。

Gemini

智力水平：游刃有余

内容立场：中立

Gemini 使用体验也很不错，我觉得和 ChatGPT 相当。相比于 ChatGPT 更加严肃和冷淡，输出内容也比较朴素不会使用非常多的 emoji。

Grok

智力水平：差强人意

内容立场：中立

Grok 主要由于需要打开 X，以及有使用次数严格限制，所以使用并不多。

Claude

智力水平：差强人意

内容立场：中立

Claude 的水平在某些方面与 ChatGPT 差不多，但是我感觉在中文方面并是不够令人满意的，甚至标点符号都没有使用全角符号。

Kimi

智力水平：差强人意

内容立场：中立

Kimi 的体验在国内大模型中来说算比较不错的了，但是交流过程中还是觉得有些地方并不如最好的几位。

Dola（CiCi）

智力水平：差强人意

内容立场：中立

整体的体验还可以，稍逊于 Kimi 。

智谱清言

智力水平：差强人意

内容立场：稍中立（有过滤）

处于各方面较为中庸的水平。并且界面确实有些乱，有些影响使用的欲望。

DeepSeek

内容立场：中立（有严格过滤）

DeepSeek 我没有太多使用，因为我发现它有内容过滤，内容输出到一半会突然全部消失，我接受不了这种「吃了吐」，所以放弃使用。

千问（Qwen）

智力水平：差强人意

内容立场：非中立

千文在一些日常问题的能力确实不错，超过 Kimi，但是在一些问题上表述并不客观。所以我觉得只在部分时候合适使用。

Mistral

智力水平：差强人意

内容立场：中立

我没想到它居然还在。用得不多，大致觉得还可以。

豆包

智力水平：中规中矩

内容立场：非中立

勉强可用，但相较于海外版 Dola 差了很多，也许这就是我猜测的为了调整内容导致智力水平也不太行的例子。

差不多就这些吧。差不多睡觉去咯~

胡说八道

正在加载评论区...