GPT-5和Gemini谁更强?——一个在读博士科研日常视角的分析

ChatGPT人工智能2025-09-20 10:48:065

先做个广告:如需代注册ChatGPT或充值 GPT5会员(plus),请添加站长微信:gptchongzhi

我先说一下我自己的使用日常:具体包括但不限于调研、一些比较脏活累活性质的整理工作(Notion文档等等)、coding、加上一些谈天说地的八卦吹牛皮等等。

推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top 

调研方面:整体上的感觉是GPT远大于Gemini,这个结果其实让我自己很意外。按理来说,Gemini家是有自家的Google Scholar和Google Search的加持,检索能力不应该差,但是蛋疼就蛋疼在Gemini的检索不是你手动开启的——也就是说你没办法强行让模型去搜索网页。是否搜索很大程度取决于你的提示词是否触发(绝大部分时间都是纯碰运气)。

相反,GPT有固定的接口去开启网络搜索,同时你也可以用Agent和Deep Research(虽然现在检索的深度广度已经干不过开网络搜索的GPT系列了)。GPT在调研这件事情上,确实已经替代了我使用Edge、Google Search这些传统搜索引擎的方式。

整理文档工作:其实Gemini更胜一筹。GPT5如果不打开thinking或者pro模式,精度还是比较差的,经常会有幻觉问题。但是一旦打开thinking或者pro,速度又比Gemini慢得多。当然,也有一种情况GPT是要胜出的,就是对于超长文档的整理。比方说我要将一个100多行的paper list整理成一个Markdown表格,可以用GPT的agent模式来处理。相反,我在用Gemini做这件事的时候,经常出现截断和卡死的问题,体验非常不好。

Coding方面:就要看具体场景了。如果只是深度学习这一块的代码,其实现在的模型基本上都能handle——毕竟深度学习这些代码相比一些大型代码库还是很toy的。除此之外,Gemini反而能在一些很刁钻的场景胜出。比方说你让Gemini写一些LaTeX相关的代码、表格调整双栏到单栏的转换、增减列、样式修改、数据高亮等等,基本上都轻松胜任。GPT就还是老问题——开了thinking非常慢,不开thinking精度很差,实际使用体验并没有这么好。

另外,可能是模型本身能力的不同吧,GPT的agent模式在这种情况下还是没办法做好。我曾经尝试把一个1000多行(20-30引用左右)的bibtex文件传给GPT agent,让它按照一定的规则去清洗这个bibtex文件,然而最后返回来的结果根本没法用。

写作方面:值得一提的是Gemini的写作能力。这一点上,我个人的使用体验是完爆GPT的。不知道之前是在哪个出处看到的,Gemini似乎在大量学术写作语料上有过训练,所以写出来的文字,包括公式符号的表达,都非常专业,并且基本上已经到了稍微润色一下就可以用的程度。相反,在使用GPT的时候,我个人没有这样的体验。

人文探讨方面:现在LLM整体还是比较差。基本上探讨一些比较深入的问题,比方说哲学、经济现象、社会现象等等,理解都还是比较粗浅。不过尽管如此,Gemini的实际使用体验还是优于GPT。Gemini有时候会有一些惊艳的观点冒出来,或许来源于它比较庞大的模型本身能力。就好像有的时候你会有「这哥们怎么连这都懂呀」的感觉。GPT在这一块上可以说是最大的倒退。相比以前的GPT-4o,共情能力确实差了非常多,现在几乎是变成了一个业务能力很变态的牛马。但是你跟它做一些Deep Talk的时候,完全是以空心人的形态出现,动不动就是给你一份「最小可行清单」,有的时候还蛮油腻的。

当然,尽管说了这么多GPT5不好的点,这一代模型总归还是最新的一代模型,能力还是断档式地领先,这一点绝对毋庸置疑。GPT5 Pro研究的深入程度,确实会让你觉得非常恐怖。就像我说的,GPT5 Pro现在已经完全进化成了一个业务能力十分变态的牛马(Sam所谓的PhD——懂了:PhD=牛马)。如果GPT-5 Pro是我以后的同事,我大概率会被卷烂掉。除此之外,还有Codex,性价比还是给得非常足的。我一直好奇的一点是:什么时候能够把Deep Research的基座模型更新一下?据说现在用的是o3还是4o。我已经彻底抛弃Deep Research,转向GPT-5 Pro + 网页搜索/agent了。

文章转载于公众号:叫我Alonzo就好了

chatgpt plus(GPT4)代充值

本文链接:https://www.shikelang.cc/post/3070.html

GPT-5Gemini

更多ChatGPT相关文章

网友评论