生成式人工智能

All posts tagged 生成式人工智能

昨天,我收到了一个不小的噩耗,不过请放心,并不与本文标题有关,并没有亲人朋友故世。我通常遇到什么事情,几乎很少会在博客里透露的,所以,昨天的博客像个没事人似的,而今天的这一篇博客也不会写出有关昨天这个不小的坏消息的具体内容。只不过在这前言里的这个日期里小小地「叮~」地记录一下。以后我自己会记得并回想起的吧。

好,下面来说和本文标题有关的事。其实这篇博客的想法笔记也是几个月前就写好的了。

在 ChatGPT 4o 以及 高级语音模式的预告视频推出乃至正式开始测试之后,我看网上不少人开始提及 ChatGPT 在提供情感治愈方面的功效,甚至在一些英文的社交媒体上还有人给出自己的亲身实例。嗯,对了,之所以我今天会想到拿出几个月前笔记草稿中的这个话题来写,也是因为当我昨天得知了这个不小的噩耗后,也尝试使用 ChatGPT 和 Claude 对我自己进行了情绪疏导,让 AI 为我写下了些什么。

对了,我记得今年( 2024年 )春天或夏天的时候, ChatGPT 开始添加了一个记录个人信息的功能,就是会在每一次的对话中,把有关用户的习惯、爱好、身份等逐一记录下来,用作今后对话的参考。

于是我就想到了:如果人们(用户)足够相信 AI ,并且同一个 AI 持续运行、持续长期服务于一个用户的话,它可能会记录下这位用户很久很久的人生轨迹。啊,就如同我这个博客以及各位博主的博客那样——只不过写博客是作者主动有选择地进行输出,而 AI 则是在倾听中逐一记录。再加上 AI 表现出了类似人类的倾听并组织语言输出的能力,且这种表现能力正在不断增长(注:姑且还不知道这里成为「智能」合不合适,所以我这里将其称为「组织语言输出的能力」),那么, AI 就会成为用户这个人类个体的陪伴着、长期倾听者乃至于说是守望一生的记忆体。

就像是一个……始终陪伴着的仆人或助手。嗯,人工智能女仆在一定程度上实现了!

前几个月,KAIN.IX 博客主人 dimlau 在《记录、记忆、故事》这篇博客中,对一个用 AI 实时识别生活物品并用机械语音说出来的应用演示评价为「有一种荒诞的趣味,像是走进了黑色幽默电影里。」

然而我却对这种记录、陪伴一生 AI 的项目抱有积极看法,特别是眼看着在孤独死成为社会问题的当下及近未来。

继续阅读

隔一段时间来验证并记录一下 AI 的进步。刚好昨天看到一篇报道《 AI Poetry is No Longer Recognizable From Human Poetry and Is Rated Better 》,说是目前生成式人工智能的大语言模型生成诗句的水平,在人类的评价下已经超过了人类的诗人。

于是,前天我写博客《便是要迎来那人类无用时》的时候想起挺早之前读的印度诗人泰戈尔的《飞鸟集》并加以引用,于是,这次就来用 AI 生成一下类似这个风格的诗作吧。看看从中能不能读出什么深刻含义。

我给了 ChatGPT 4o 以及 Claude 这样的提示:「仿造印度文学家泰戈尔《飞鸟集》,写10句类似风格的文字。10篇(飞鸟集一篇篇幅都不长吧),用中文。」

继续阅读

一眼得结论:

(激光鼠标)

这都 2024 年年底了,随着各路介绍(推销?) AI 的人,说 AGI 就快接近了: 10 年以内、 5 年以内、 3 年以内……乃至明年……

于是我倒要看看, 2024 年年底这个时间点 ,ChatGPT 能不能画出靠谱的设备原理图。想必,这些很标准的设备,在互联网上肯定有大量现成的、准确且标准的素材可以被用于学习。

继续阅读

上一次用 ChatGPT 创造自画像类似,这几天看到 reddit 上一个帖子启发,说以类似的方式,让 ChatGPT 参考对我保存的记忆(即用户数据),而画一张我宿敌的肖像。

它给我画出的是:

并附说明:「Here is the image of your arch nemesis, embodying intellect and mystery, with an aura of knowledge and time manipulation. 」

翻译过来就是:「这是你的死敌的形象,体现了智慧和神秘,拥有知识和操纵时间的光环。」

呃……不太可爱。好吧,有点凶。

于是我又指示画了一张女性版本的我的宿敌:

继续阅读

据说 OpenAI 在刚过去的 10 月 2 日开了场开发者大会,宣布了开放几个 API 。因为会议内容是真的面向开发者的,所以与我这样的普通用户似乎关系不大。不过呢,在会议结束后,有用户注意到即便是之前的 4o 模型,在回答之前也会有一个「正在分析」的过程提示(也有可能之前就有?),展开后是一系列 python 代码。甚至在我今天的使用例中,因为处理过程太长,它还连续进行了 2 次「正在分析」。

今天我看到 Reddit 上有个帖子,说 ChatGPT 可以生成各种各样的文件然后提供下载。我记得这个功能原本就有,而今天我尝试了 PDF 、 Markdown 格式的纯文本都说可以的。之后我又顺便问了句:还支持生成什么格式的文件?得到的回答是:

我可以输出多种文件格式,以下是一些常见的格式:

  1. 文本文件(.txt):简单的纯文本格式。
  2. PDF文件(.pdf):适用于排版精美的文档。
  3. CSV文件(.csv):用于表格数据的导出,常用于处理数据集或表单信息。
  4. JSON文件(.json):常用于存储和传输结构化数据,尤其在编程和API调用中。
  5. Markdown文件(.md):用于编写带格式的文本,常用于文档和博客平台。
  6. Excel文件(.xlsx):适用于复杂表格数据的存储和管理。
  7. HTML文件(.html):用于网页内容的创建和编辑。

你想要生成哪种格式的文件?

我看有 Excel ,于是我就要求它制作了一个有些复杂的,类似行程表、时间表的 Excel 。

但是,做现代人的行程表似乎有些无趣,于是就来让他模拟做了一张奇幻故事中一个牧师兼白魔法师的时间表。

接着我还别出心裁,心想:如果这时一个 NPC ,是不是还会有一些随机的、闲聊式的台词呢?于是我就追加一项要求:按照每个时间段的活动安排,为该牧师写一些台词。

在此之后,我又告诉它:假设有6种不同的表情:{A_faceimage_ं喜.png}{A_faceimage_怒.png}{A_faceimage_哀.png}{A_faceimage_乐.png}{A_faceimage_平常.png}{A_faceimage_困倦.png},请在对话开始的第一句之前选择并添加合适的1种表情。

于是就生成了下面的表格。看起来还挺有 RPG 里那种站在固定区域内徘徊的NPC的说话风格的?

虽然这目前还不是连接到 API 进行实时生成,但只要生成的数据量够大,应该就不会出现很多台词重复。此外,如果在指定条件时,不仅仅给出「一位奇幻世界的牧师兼白魔法师」这样简单的条件,而是将人物身世、性格特征等,以及其周边的人物关系,近期大事件等做成一套(大约几千字?)的设定交给 ChatGPT 的话,或许它还能想出更加符合故事背景的闲聊台词吧。

下面就是今天得到的效果:

继续阅读

近来阅读电子书。电子书的一个好处是数据可以云下载、云携带、云阅读……然而,一个可预见的致命问题是:对于一些私有文件格式的,或干脆不是以文件方式提供的电子书来说,一旦提供方(公司)停止了服务,那么之前所购买的电子书很可能在短时间内就化为乌有——或者说,即便文件在,也可能因为电子书的软件不再提供新版本,或硬件无法维修或新购,而变成了逐渐无法打开阅读的电子数据。

在面临这样的灾难之前,有个办法是:截图。据我了解,好像在我所在的地区,在个人(不传播给他人)使用这一前提下,著作权物也是可以由用户自行复制的。因此,网上不少视频也会教人怎么用 iPad 查看电子书,并且用截图保存的方式,把电子书的图像保存下来,以便今后长期阅读。

然而……网上介绍的都是动手操作的技巧,顶多是在此之上增加一些小技巧,例如用 Apple Pencil 从 iPad 边角划入屏幕就可以截屏之类的技巧。换言之,每一次的截图、翻页都是要人工干预的。之前一阵子,我也尝试过这么做,比如拿一个蓝牙鼠标和 iPad 配对,然后每点一次截图,再点一次翻页……虽然书是能安心地保存成今后长期可读格式,但手动操作总显得有点麻烦——要人执行啊!

有没有更好的方法呢?那就是买一台具身智能机器人啊!让机器人帮你来按截图键!多棒!看他们金属的拟态肤质手指触摸最新 iPad Super Pro Ultra XXX 的金属按键……嗯,具身智能机器人这个话题似乎还早了 10 到 15年的时间……其实有个更廉价的方案,就是找一个可以模拟鼠标或键盘的东西,来进行循环模拟操作(我知道有类似可编程鼠标、可编程键盘的),而这一次,我找到了树莓派的小卡板 Raspberry Pi Pico W 。

那么下一个问题来了:虽然我有长年使用树莓派的经验,但是,我一直只是把它当作一个 Linux 电脑来用的,要怎么使用这个 Pico 呢?怎么把它变成一个键盘,然后反复对 iPad 操作截图和翻页呢?

这好办,都 2024 年了,来问问生成式 AI ( ChatGPT )吧!经过一番探讨,我们商量出了(其实是我指示 ChatGPT 给出了)以下的代码:

import time
import random
import usb_hid
from adafruit_hid.keyboard import Keyboard
from adafruit_hid.keycode import Keycode

# 初始化键盘
keyboard = Keyboard(usb_hid.devices)

# 定义截图和翻页函数
def take_screenshot():
    # 模拟 Command + Shift + 3 截图快捷键
    keyboard.press(Keycode.COMMAND, Keycode.SHIFT, Keycode.THREE)
    time.sleep(0.1)  # 按住键一小段时间
    keyboard.release_all()

def turn_page():
    # 模拟左箭头按键翻页
    keyboard.press(Keycode.LEFT_ARROW)
    time.sleep(0.1)  # 按住键一小段时间
    keyboard.release_all()

# 主程序
def main():
    # 添加启动延迟,确保Pico W被正确识别
    time.sleep(5)  # 延迟5秒,让iPad充分识别Pico W

    while True:
        # 截图
        take_screenshot()
        time.sleep(3)  # 等待3秒保存图片

        # 翻页
        turn_page()
        # 随机等待4到6秒之间的时间 
        wait_time = random.uniform(1, 3) 
        time.sleep(wait_time)

# 启动主程序
main()

当然,在此之前,还要下载一个似乎是用于将 Pico 模拟成 HID 设备(鼠标、键盘等)的库所需的文件。 ChatGPT 如此说明:

确保 adafruit_hid 库可用:

前往 Adafruit_CircuitPython_HID 下载该库的 .mpy 文件。
将 adafruit_hid 文件夹复制到 Pico W 的 lib 文件夹中。

而在执行这个代码前,还要进行对 Pico 的 Python 运行环境的初始化操作,对此, ChatGPT 如此说明:

下载并将 CircuitPython 固件
(引用略)
放入 Raspberry Pi Pico W 是为了让设备支持使用 Python 语言进行编程。这一步将 Pico W 的系统替换为 CircuitPython 固件,使其在连接到电脑后能够像 USB 闪存驱动器一样显示。

操作步骤很简单:按住 Pico W 的 BOOTSEL 按钮,将它连接到电脑,然后将下载的 .uf2 文件拖放到显示出来的 Pico 闪存驱动器上,等它自动重启后就完成了。这之后,你可以直接用 Python 编写和运行代码,适合初学者入门。

关于这一部分,各位可以自己找找看网上的 Pico 教程,或是问问 AI ,相信应该不难弄明白。

至于说这段代码的实现原理?不知道,反正即便是在没有 ChatGPT 的时代,我也差不多就是这样看着 API 说明文档以及网上教程来边试错边操作的。这一次总之就是用 python 程序控制 Pico 成为一个 HID键盘,循环输出键盘按键(截图组合快捷键、翻页用箭头方向按键)。

而通过简单观察代码可知:

    # 模拟左箭头按键翻页
    keyboard.press(Keycode.LEFT_ARROW)

这一行代码是控制翻页的,这里是用向左方向键来进行翻页。如果你的电子书是按别的方向键翻页的话,则请按需调整:

# 左方向键
keyboard.press(Keycode.LEFT_ARROW)

# 右方向键
keyboard.press(Keycode.RIGHT_ARROW)

# 上方向键
keyboard.press(Keycode.UP_ARROW)

# 下方向键
keyboard.press(Keycode.DOWN_ARROW)

你看,虽然具身人工智能机器人还没有来到我们身边,但是通过树莓派小小的硬件,以及通过与 ChatGPT 的问答进行简单学习,我已经实现了简化操作!整理和写这篇博客的时候,我的 iPad 连上 Pico W ,已经差不多截图了 3 本电子书了~

这次分别对 ChatGPT、Claude 以及最近刚用上的 Cursor 程序(我忘了是哪个引擎( API )回答的了),提出如下指示:

请你帮我做一个动态网页,用CSS、JS等生成,不需要用到服务器。
这是一个用于冥想呼吸的网页,它的色调和动作要柔和、缓慢,帮助人们宁静。
画面充满整个网页浏览器,上面有许许多多的柔和的线条(或许是分形图形)会不断随着时间缓慢变化,表现流动、韵律。背景色底色也会不断缓慢且随机地变化。

ChatGPT 的回答是:

继续阅读

十多年前网络上有句流行的宣传语——「空谈误国,实干兴邦」。最近偶然想起来,仔细想了想,总觉得有哪里不太对劲。于是来做个头脑体操,真・「换位思考」一下,然后也来和生成式 AI ChatGPT 讨论一下,看看能不能帮助我解明困惑吧。

在具体讨论这句话之前,我想到了中学时读少科站的作文补习班,当时有一位教作文的老师,好像也是什么学科带头人或什么先进老师。我印象里她有一个观念,就是鼓励大家重新解读成语,并从中找出新的意义。我记得她有一个具体的例子,就是她会将成语「东施效颦」作积极理解:一个人虽然天资不怎么样,但后天努力去模仿美丽的人的行为举止,这种模仿的努力应该得到肯定。所以她换了个解读角度,肯定了东施。

题外话至此,来说一说「空谈误国,实干兴邦」吧。来,真・「换位思考」是这样的:

空干( ),实谈( )。

这要怎么填空呢?我询问了 ChatGPT 的建议。它的回答是:

继续阅读

今日速读了这本《努力革命 ラクをするから成果が出る! アフターGPTの成長術》( ISBN : 9784344042407),因为副标题里有提及 生成式人工智能 GPT ( ChatGPT ),而且这本是可以在 Amazon 包月读书套餐中畅读的,于是就下载到 Kindle APP 中来看看。

本书的内容应该说是属于日本市面上相当常见的「人生啓発」(我想可以对应简体中文出版物中的自我成长、成功学一类的书),一如既往的,又提出了各种奇怪的「 XX 力」——例如在决策时,不仅依靠理性而更需要直觉和勇气的「飛ぶ力」(飞跃力?),以及作者所称以好奇心发现新奇事物时的「すげー、やべー力」(好棒棒喔!力)。尽管我基本上很少读日本的这类自我成长的书,但爱逛书店的我,总是难以避免会在畅销书籍的书柜上看到莫名其妙的「 XX 力」,而这一本也自然不例外。至于说关于 AI 的内容,在本书中大约只有不到 1/3 甚至不到 1/4 左右。我读下来很是失望,我觉得这位作者恐怕既不懂 AI ,也不懂人生。

比如在给出 AI 的用例建议时,作者提出 AI 可以这样用:请 AI 概括孙正义先生的著作,并扮演孙正义先生,给我提出 10 条建议。嗯……作者你是认真的吗?我觉得这不是说明 ChatGPT 的回答不行,可能是说明了名人名言的成功经验和那一套成功学根本不行。不信?我把作者的该建议贴给 ChatGPT 了,并且得到了回答。在本博客的最后,你能看到我得到的「 AI 概括・孙正义成功学十条!」以及翻译后的版本。读了后你觉得能有多大用处?

继续阅读