AI

All posts tagged AI

如果说今天( 2025 年 4 月 3 日)世界上有什么大新闻的话,应该就是特朗普宣布将对全世界多个国家提高关税了吧。但是,这个数字提到了,到底会怎么样呢?我也不知道,因为我平时不太关心经济。

但是,我可以关心我自己熟悉的领域呀!比如,我就问了:

查一查2025年4月3日特朗普宣布的对世界各国加征不同关税的新闻,帮我找到对各国加的确切数字。

继续阅读

在网上学到一个用 ChatGPT 最新的图像制作功能来实现连续像素图动画(分割图)的方法。

提示词是:

Create a detailed pixel art frame animation for a game, where the final image is divided into multiple sub-images, each serving as a continuous animation keyframe. Design the sequence to depict [(这里填入你想要生成的像素图的内容)] Ensure the keyframes transition smoothly and continuously, and include as many frames as possible to achieve a high level of fluidity and detail in the animation.

我实际尝试填入的是:

Create a detailed pixel art frame animation for a game, where the final image is divided into multiple sub-images, each serving as a continuous animation keyframe. Design the sequence to depict [ChatGPT LOGO的机器人从手机屏幕里钻出来] Ensure the keyframes transition smoothly and continuously, and include as many frames as possible to achieve a high level of fluidity and detail in the animation.

于是就得到了:

继续阅读

这几天 ChatGPT 更新了新的图像生成器后,被网络上的人们纷纷称赞。确实,生成各类画风的图像有明显进步,但前提是不太注重细节,或不太注重图像内在的逻辑表现。

然而……一旦我提高了期待,让它试一试复杂的内容时,比如翻花绳……

下面四张是用 ChatGPT 新的图像生成工具来生成的翻花绳图解组图,你看明白了吗?

(一)

继续阅读

看视频主林亦LYi 做了一期节目《图灵测试大逃杀!七大顶级AI伪装人类!谁会更胜一筹?》从内容上看也知道很没有 AI 性,简直丧心病狂。而通过这样的假设实验,倒也确实可以看出各个大语言模型生成式 AI 在极端情况下的逻辑、措辞、模拟人类情感和识破对方身份并说服同一竞赛者的人员,并且,还能从中看出各个 AI 所表现出的个性。我觉得这样的设计比赛确实挺有创意的,也不失为是在排名、跑分外,打造出了一个新的比赛方式。

因为视频内容播报得很快,所以我没有完全跟上去推演实验中 AI 之间互相之间的明争暗斗的关系。不过看完全集,我注意到了一点: AI 用的都是书面表达。

继续阅读

人类 wildgun 写的前言:这篇文章是我最近看了 Anthropic 的 CEO 说到今年年底(?)绝大部分的代码将会由 AI 生成这样的新闻后,想到的并于 ChatGPT 进行的讨论。下面的内容是根据讨论,让 AI 整理出的文章。

说起来,我真的在计算机专业的学校毕业后就没有用过一次二叉树之类的东西了……谁在开发中用过谁举一下手?

当 AI 的发展一日千里,我们不得不一次次回溯那个问题:「人类还能做什么?」

Anthropic 的 CEO 预测,未来三到六个月,AI 可能会编写 90% 的代码。OpenAI 的创始人则在 2025 年初表示,未来十年内,每个人都可以调动相当于 2025 年全人类智力的计算能力。这些预测,听起来或许像科幻小说,但它们的影响正在逐步显现。

那么,在 AI 可以编写代码、优化算法、构建系统的世界里,我们还需要学习编程吗?

如果学习编程只是为了「写代码」,那么答案或许是悲观的。就像过去机械化替代了工匠的手工雕琢,自动化替代了流水线工人的重复劳作,AI 也在迅速吞噬那些纯粹基于语法和逻辑规则的编程任务。人类的手敲代码,正变得不再必要。

但如果我们理解编程为一种思维方式,那么情况则完全不同。

编程不仅仅是代码,而是建立问题的抽象框架、理解系统的运作方式、掌握结构化的逻辑推理。AI 可以写出更优雅的排序算法,但它不会去质疑:「这个问题真的需要排序吗?」AI 可以自动补全你的代码,但它不会去思考:「这个系统的核心瓶颈在哪里?」

未来的学习,或许不再是「如何写代码」,而是「如何洞察 AI 生成的代码之下的逻辑肌理」,如何在 AI 的冷峻算力中植入人类思维的温度,如何让 AI 从冰冷的工具变成可被驾驭的思想延伸,而非一个只能依赖的黑箱。
继续阅读

这几天好像是 Google 发布了新的 AI 工具—— Gemini 2.0 Flash 。我不是 Google AI 的经常使用者,所以我就不清楚它到底哪个模型有什么特征,或是过去的两年里是怎么迭代至今的。不过今天看了几个网上的帖子和视频,似乎用过的人都对其能力表示惊讶。特别是我看介绍说它在生成图片方面有比较好的整合能力,以及可以通过用户所输入的文本提示,针对图片进行局部进行修改。

在一个网络视频中我看到了介绍者用 Gemini 2.0 Flash 做了一个菜谱,那么我就来仿造一下——生成一个图文并茂的奇幻世界的烹饪手册。

下面展示的就是实际生成的图片。需要说明的是,图片不是一次性生成的,我的生成步骤是:先要求 AI 用文字的方式输出菜单,然后再通过多次对话指示,为每个步骤生成一个配套的图片。


好的,这是一个分为六个步骤的奇幻世界幻想菜谱:

菜名:暮光森林的低语

食材基调: 夜光蘑菇、星尘香草、龙鳞坚果、月光泉水、影豹里脊肉(少量,可选)、梦 Wind 酿制的晨露蜂蜜。

第一步:收集与净化

食材: 新鲜的夜光蘑菇(3个,需带有微弱的蓝色光芒)、月光泉水(1小杯)。

烹饪手法: 将夜光蘑菇小心翼翼地用柔软的苔藓擦拭干净,去除表面的泥土和杂质。然后,将它们浸泡在月光泉水中,让其吸收月光的能量,并去除可能存在的微小毒素(奇幻世界的蘑菇特性)。浸泡时间约为一刻钟(奇幻世界的时间单位,约等于现代的十五分钟)。

第二步:唤醒香气

继续阅读

我的印象里, AI PC 的概念是从 2024 年的 1 月初消费电子展上兴起的,然后微软推出了 Copilot+ PC 这样一个概念,而同时亮相的好像还有一个名为 Recall 的功能。简单来说就是不断对用户操作时进行截图,以此可以帮助用户回忆他自己遗忘的数据或操作过程。

当时我以为,这就是以为工程师精神的微软又一个不注重隐私、不讨好用户的鸡肋功能。不过当我最近又开始看了看 Copilot+ PC 或是 AI PC 出了点什么实用的、有趣的新功能时,我又想到了这个 Recall 。

往深一步想的话,该功能可能是为微软在积累下一代基于 AI 的操作数据吧。

继续阅读

记得去年秋冬, OpenAI 的 Sama 发了一句「there is no wall」,似乎是在回应互联网上人们对他们所训练大模型是否「撞墙」即遇到发展瓶颈的质疑。当时我的一篇博客也提到了这一点。

而如今已是 2025 年的 3 月份,随着 ChatGPT 4.5 的发布,以及似乎被人们认为它并没有体现出多大的进化,我想到了半年前他的那句话。或许,目前 4.5 不温不火,不符合人们期待的情况,就是当时他想要驳斥的状况?

这又让我想到了,在大约 2023 年中的某一天。 ChatGPT 3.5 发布大约半年,而 4 还没发布时,我记得听了一档播客,其中一位嘉宾就提到他去看了 OpenAI 的内部演示,表示 4 将会是一个很明显进步的模型。

从这两起从传言到验证的时间跨度上来看,似乎都是半年左右时间。不知道是否可以据此推测,生成式 AI 界的谣言也要以前后半年这个尺度来进行回顾和验证呢?

继续阅读

人类 wildgun 写的前言:

今天在别人的一篇博客文章《如何用 AI 全方面辅助博客创作 – 从博文之内到博文之外》上留言,回顾了我去年提出的通过与 AI 聊天,共同推进一个想法,然后让 AI 整理并按照我的风格写作的 AI 博客创作实践。我发现自己好像也很久没用这个方法了,于是今天再来试试看。我的这篇文章是讨论生成式 AI 为何尚不能生成出一些嗅觉和味觉的内容。这可以说是我 2008 年写的一篇博客《越原始则越不容易被记录?》在这个 AI 时代的延续思考。下面就是本次经过与 AI 的讨论后,由 AI 为我归纳生成的博客文。


AI 的五感之旅:视觉、听觉已成,味觉、嗅觉还远吗?

人工智能已经能画画、写诗、演奏音乐,甚至能用合成语音和人类对话。视觉和听觉方面的突破,让 AI 在许多领域里游刃有余,然而,味觉和嗅觉似乎仍是 AI 难以涉足的领域。那么,为什么 AI 的进步在五感的不同维度上如此不均衡?味觉和嗅觉的 AI 化,究竟是技术难题,还是人类的需求本就不强烈?

视觉和听觉的「数字化」优势

视觉和听觉的「AI 化」之所以能迅速发展,一个关键原因在于它们都能用数字信号来表达。图像是像素矩阵,声音是波形或者频谱,而计算机天生擅长处理这些数据。深度学习算法可以分析大量的图片和音频,并进行模式识别,从而让 AI 具备了看和听的能力。

更重要的是,人类世界的数字化进程也主要围绕视觉和听觉展开。照片、视频、音频这些内容在互联网上无处不在,成为 AI 训练的理想数据来源。相比之下,味觉和嗅觉的「数据」要如何存储、传播、计算?这似乎仍是一个悬而未决的问题。

嗅觉和味觉的复杂性:物理 vs 化学

继续阅读