人工智能

All posts tagged 人工智能

如果说今天( 2025 年 4 月 3 日)世界上有什么大新闻的话,应该就是特朗普宣布将对全世界多个国家提高关税了吧。但是,这个数字提到了,到底会怎么样呢?我也不知道,因为我平时不太关心经济。

但是,我可以关心我自己熟悉的领域呀!比如,我就问了:

查一查2025年4月3日特朗普宣布的对世界各国加征不同关税的新闻,帮我找到对各国加的确切数字。

继续阅读

虽说在前一篇博客里,我试了一下让 ChatGPT 用新的图像生成功能,生成像是图解翻花绳那样的有一些复杂空间结构、有内在逻辑的图片仍有问题。不过今天我又试了一下比较简单的图,而且是单张、不太强调逻辑的,幻想类的图,效果就看起来不错了。


就是这两张猫人妈妈的图。很温馨吧!

其实在生成过程中,还是陆陆续续有一些问题的,一开始我指定给 ChatGPT 的是生成猫咪宝宝的主观图,而且是躺在摇篮里的仰视图,而且我也说明了因为是主观视觉图,所以生成的图中就完全不应该出现猫宝宝的身体。结果 ChatGPT 一开始生成的图像还是比较主观的(没有猫宝宝的身体出现在图中),后来就越来越不符合我最初提出的要求了。

我猜这可能是因为 ChatGPT 新搭载的图像生成功能具有在整个对话中上下连贯衔接的功能,所以每次生成一张图,就会承接延续前一张生成图的一些元素,这也就导致了在同一个会话中生成的图片越来越偏离我最初的指示。

不过,仔细比较两张图的话会发现……猫妈妈毛的纹路惊人得一致!简直就像同一只猫人一样有说服力。

总之,但还是很温馨呀!

这么说起来……这可以说是真的「猫娘」(娘 = 妈妈)了吧?

这几天 ChatGPT 更新了新的图像生成器后,被网络上的人们纷纷称赞。确实,生成各类画风的图像有明显进步,但前提是不太注重细节,或不太注重图像内在的逻辑表现。

然而……一旦我提高了期待,让它试一试复杂的内容时,比如翻花绳……

下面四张是用 ChatGPT 新的图像生成工具来生成的翻花绳图解组图,你看明白了吗?

(一)

继续阅读

看视频主林亦LYi 做了一期节目《图灵测试大逃杀!七大顶级AI伪装人类!谁会更胜一筹?》从内容上看也知道很没有 AI 性,简直丧心病狂。而通过这样的假设实验,倒也确实可以看出各个大语言模型生成式 AI 在极端情况下的逻辑、措辞、模拟人类情感和识破对方身份并说服同一竞赛者的人员,并且,还能从中看出各个 AI 所表现出的个性。我觉得这样的设计比赛确实挺有创意的,也不失为是在排名、跑分外,打造出了一个新的比赛方式。

因为视频内容播报得很快,所以我没有完全跟上去推演实验中 AI 之间互相之间的明争暗斗的关系。不过看完全集,我注意到了一点: AI 用的都是书面表达。

继续阅读

与本研究主题无关的前言:听说 Google 公开了 Gemini 的深度研究功能,免费提供用户有限次数的使用。我便拿来试了试,挺厉害!每个步骤几乎都要检索 1、200 个网页内容,而且从生成的报告上来看一点都不比 OpenAI ChatGPT 的 DeepResearch 功能逊色。这一次我就试了一下曾经在哪里读到过的,说是英国成年人里还有不少成年人晚上睡觉还会抱着玩偶的新闻。我想知道当时我看到的文章到底是不是靠谱,以及在其他不同的文化社会是否也有类似的情况。

我的提问是:

我以前听说英国有一定比例的成年人晚上睡觉时会抱着玩偶入睡。这是真的吗?帮我做一个调查(用英语,或者用各国本国语言),调查内容是:首先确定上面我说的是不是真的。各个国家是否普遍存在着这样的成年人抱玩偶入睡的习惯?以及,在不同国家(或地区、社会),抱玩偶入睡的成年人的比例,以及所在社会对此的评价是否有什么比较显著的不同?还有,玩偶造型、材料、数量等,是否也会因国家不同而不同?

我用 Google 的 Gemini 的 Deep Research 功能进行了询问,并在结果输出区域内点击「导出到 Google 文档」保存到我的个人文档里。然后我又使用了 Docs™ to Markdown 这款可以附加到 Google 文档的插件(其实并不是要在自己计算机上安装什么程序,而是说就是要在 Google 网页上对该第三方开发者开发的插件进行授权),安装了该插件后,就可以很方便地将 Google 文档中的内容转换为 Markdown ,再粘贴到我常用的博客编辑工具里了,内容传递就这样一路打通。

而我也确实想把自己花了钱(比如 ChatGPT )或没花钱(比如这里的 Google Gemini )发起的一些研究调查的结果,选择一些发布到博客,特别是选择这样一些有趣的题目。看了本次调查结果(如下),没想到有这个习惯的成年人居然有那么多。当然需要说明的是,以下内容是 AI 生成的,我没有逐一检查每个网页链接里是否存在相关信息,以及 AI 的引用和汇总是否准确。


成年人在英国及其他国家与毛绒玩具共眠的现象:一项调查报告

1. 引言

继续阅读

人类 wildgun 写的前言:这篇文章是我最近看了 Anthropic 的 CEO 说到今年年底(?)绝大部分的代码将会由 AI 生成这样的新闻后,想到的并于 ChatGPT 进行的讨论。下面的内容是根据讨论,让 AI 整理出的文章。

说起来,我真的在计算机专业的学校毕业后就没有用过一次二叉树之类的东西了……谁在开发中用过谁举一下手?

当 AI 的发展一日千里,我们不得不一次次回溯那个问题:「人类还能做什么?」

Anthropic 的 CEO 预测,未来三到六个月,AI 可能会编写 90% 的代码。OpenAI 的创始人则在 2025 年初表示,未来十年内,每个人都可以调动相当于 2025 年全人类智力的计算能力。这些预测,听起来或许像科幻小说,但它们的影响正在逐步显现。

那么,在 AI 可以编写代码、优化算法、构建系统的世界里,我们还需要学习编程吗?

如果学习编程只是为了「写代码」,那么答案或许是悲观的。就像过去机械化替代了工匠的手工雕琢,自动化替代了流水线工人的重复劳作,AI 也在迅速吞噬那些纯粹基于语法和逻辑规则的编程任务。人类的手敲代码,正变得不再必要。

但如果我们理解编程为一种思维方式,那么情况则完全不同。

编程不仅仅是代码,而是建立问题的抽象框架、理解系统的运作方式、掌握结构化的逻辑推理。AI 可以写出更优雅的排序算法,但它不会去质疑:「这个问题真的需要排序吗?」AI 可以自动补全你的代码,但它不会去思考:「这个系统的核心瓶颈在哪里?」

未来的学习,或许不再是「如何写代码」,而是「如何洞察 AI 生成的代码之下的逻辑肌理」,如何在 AI 的冷峻算力中植入人类思维的温度,如何让 AI 从冰冷的工具变成可被驾驭的思想延伸,而非一个只能依赖的黑箱。
继续阅读

这几天好像是 Google 发布了新的 AI 工具—— Gemini 2.0 Flash 。我不是 Google AI 的经常使用者,所以我就不清楚它到底哪个模型有什么特征,或是过去的两年里是怎么迭代至今的。不过今天看了几个网上的帖子和视频,似乎用过的人都对其能力表示惊讶。特别是我看介绍说它在生成图片方面有比较好的整合能力,以及可以通过用户所输入的文本提示,针对图片进行局部进行修改。

在一个网络视频中我看到了介绍者用 Gemini 2.0 Flash 做了一个菜谱,那么我就来仿造一下——生成一个图文并茂的奇幻世界的烹饪手册。

下面展示的就是实际生成的图片。需要说明的是,图片不是一次性生成的,我的生成步骤是:先要求 AI 用文字的方式输出菜单,然后再通过多次对话指示,为每个步骤生成一个配套的图片。


好的,这是一个分为六个步骤的奇幻世界幻想菜谱:

菜名:暮光森林的低语

食材基调: 夜光蘑菇、星尘香草、龙鳞坚果、月光泉水、影豹里脊肉(少量,可选)、梦 Wind 酿制的晨露蜂蜜。

第一步:收集与净化

食材: 新鲜的夜光蘑菇(3个,需带有微弱的蓝色光芒)、月光泉水(1小杯)。

烹饪手法: 将夜光蘑菇小心翼翼地用柔软的苔藓擦拭干净,去除表面的泥土和杂质。然后,将它们浸泡在月光泉水中,让其吸收月光的能量,并去除可能存在的微小毒素(奇幻世界的蘑菇特性)。浸泡时间约为一刻钟(奇幻世界的时间单位,约等于现代的十五分钟)。

第二步:唤醒香气

继续阅读

我的印象里, AI PC 的概念是从 2024 年的 1 月初消费电子展上兴起的,然后微软推出了 Copilot+ PC 这样一个概念,而同时亮相的好像还有一个名为 Recall 的功能。简单来说就是不断对用户操作时进行截图,以此可以帮助用户回忆他自己遗忘的数据或操作过程。

当时我以为,这就是以为工程师精神的微软又一个不注重隐私、不讨好用户的鸡肋功能。不过当我最近又开始看了看 Copilot+ PC 或是 AI PC 出了点什么实用的、有趣的新功能时,我又想到了这个 Recall 。

往深一步想的话,该功能可能是为微软在积累下一代基于 AI 的操作数据吧。

继续阅读

人类 wildgun 写的前言:

今天在别人的一篇博客文章《如何用 AI 全方面辅助博客创作 – 从博文之内到博文之外》上留言,回顾了我去年提出的通过与 AI 聊天,共同推进一个想法,然后让 AI 整理并按照我的风格写作的 AI 博客创作实践。我发现自己好像也很久没用这个方法了,于是今天再来试试看。我的这篇文章是讨论生成式 AI 为何尚不能生成出一些嗅觉和味觉的内容。这可以说是我 2008 年写的一篇博客《越原始则越不容易被记录?》在这个 AI 时代的延续思考。下面就是本次经过与 AI 的讨论后,由 AI 为我归纳生成的博客文。


AI 的五感之旅:视觉、听觉已成,味觉、嗅觉还远吗?

人工智能已经能画画、写诗、演奏音乐,甚至能用合成语音和人类对话。视觉和听觉方面的突破,让 AI 在许多领域里游刃有余,然而,味觉和嗅觉似乎仍是 AI 难以涉足的领域。那么,为什么 AI 的进步在五感的不同维度上如此不均衡?味觉和嗅觉的 AI 化,究竟是技术难题,还是人类的需求本就不强烈?

视觉和听觉的「数字化」优势

视觉和听觉的「AI 化」之所以能迅速发展,一个关键原因在于它们都能用数字信号来表达。图像是像素矩阵,声音是波形或者频谱,而计算机天生擅长处理这些数据。深度学习算法可以分析大量的图片和音频,并进行模式识别,从而让 AI 具备了看和听的能力。

更重要的是,人类世界的数字化进程也主要围绕视觉和听觉展开。照片、视频、音频这些内容在互联网上无处不在,成为 AI 训练的理想数据来源。相比之下,味觉和嗅觉的「数据」要如何存储、传播、计算?这似乎仍是一个悬而未决的问题。

嗅觉和味觉的复杂性:物理 vs 化学

继续阅读

OpenAI 在社交媒体上宣布,将在 4.5 个小时内进行直播( Livestream in 4.5 hours. )。从这个奇怪的预告来看,应该就是 ChatGPT 4.5 吧。

尽管我不会等着看直播,但我也来突发地随便写一下我期待的东西吧。

因为根据之前的介绍, 4.5 不是一个推理模型,而是 OpenAI 的最后一个非推理模型(纯粹对话模型)。所以我觉得不太能期待它在语言方面还能有多大提高空间——我觉得就汉语会话方面来说, 4o 已经足够好了。其实我更加期待的是:在美国新总统上任、马斯克推出了容易被突破审查的 AI Grok3 之后, OpenAI 是否也会相应调整其内容审查策略,增加可以进行讨论话题的自由度呢。

此外,如果说大语种如汉语或英语已经足够好了的话,那么不知道 AI 的小语种乃至古代语言方面理解能力是否能在 4.5 上得到实力加强呢?(我觉得难,毕竟互联网上公开数据中这类小语种数据量并没有猛增。)不过,我还是抱着一点点期待,它能在古代语言、方言的使用上获得一些进步。比如……讲一讲上海闲话?

再有就是我始终无法理解,即便是到了 03 的推理模型,依然无法很好地处理 ASCII 字符画。我觉得这次 GPT 4.5 应该也不太可能有明显改善的……吧?