Archives

All posts for the month 10 月, 2024

随着新冠大流行的风险降低,日本这两年也恢复了旅游热潮。而从国外来的旅游行者,尽管都有很好的排队意识(我还没见过有故意插队的),但其中一些人似乎不太明白日本商店,特别是便利店的排队习惯,因此拖延了结账时间,引起了微小的混乱。

下面我就简单说一下日本便利店结账排队的习惯。简单来说三个字:看标志。看哪里的标志呢?地上的。

而展开来说的话是这样的:在通常情况下,日本便利店内有多个结账柜台,而店铺设计则会引导待结账的顾客排成一行(并不一定是直线,也有可能是有曲折的线)。在结账柜台前,通常地面上会贴有醒目的引导排队的标志,图形通常是一双脚印——在前几年新冠流行病扩大期间,引导线上还会提醒人们互相之间隔开一段距离排队。而每个柜台只为 1 位(或 1 组)客人结账,结账完当前的客人走开、柜台空开之后,服务员会出声招呼排在最前头的第 1 位(或第 1 组)客人走到刚空开的柜台前结账。

继续阅读

京都的气候算是入秋了。过往几年秋冬,我总发现自己穿的衣服不是黑就是灰,感觉有些单调,于是想买一件新的衣服。然而走进日本著名的连锁品牌优衣库,那里的衣服颜色也大多偏素,至于无印良品( MUJI )的设计寡淡风格那就更不用谈了。

最近发现还有一家连锁店叫 GU ,嗯,这次走进之后,听店内广播才知道原来也是优衣库的附属品牌。颜色嘛,虽然也大差不差,但好像比优衣库略微丰富一些。这次就买了一件格子的较厚衬衫。

由于我关注产地多样性,所以特意看了看标签。 MADE IN BANGLADESH 。 嗯?不认识的单词,一时之间也联想不到与之相近的拼音,所以我刚开始还以为它是产自欧洲某个国家的呢。结果发现,其实是孟加拉国。

以往买这类衣服,基本上都是越南的,没想到这次还有孟加拉国——查了一下位置,是在印度和缅甸之间。嗯,感受到了产地多样化。

ダイソー( Daiso 、 大创)在众多廉价耳机的产品线中,出了一款造型很有特色的拉链耳机,型号是 3175 。其售价仅为 220 日元(含消费税价),在日本百元商店内一众低则 110 日元,高(内置 DAC 品种)则 550 日元的有线耳机中,这款算是比较便宜的。本来我以为它就是看个造型设计玩玩,但没想到……嗯,真是没想到。

如果让我用一句话来说明的话,就是:从音质上来说,我竟然听不出这款耳机的短处,然而其设计最大的败笔,就在于其拉链线缆。

继续阅读

去年上半年 AI 作画(主要是 Stable Diffusion Webui )刚刚走入大众视野,同时也是刚引发我的兴趣时,我独自发起过一个《百度贴吧NovelAI吧txt2img七题挑战赛》但基本上没有收到什么回答。

于是,现在我就来自问自答一下,看看现在用 ChatGPT 能做到什么程度,以及需要反复试几才能出现一张比较像样的作品。

这次自问自答的是:第二题 用用看旧设备

一共试了 2 张。打字机这张可谓马马虎虎。虽说仔细看的话,打字机的那个金属字母的部分(就是实际敲打在纸上的那一个个小金属片)有点凌乱,看上去不像有完整字母的样子。

另一张……铅笔绕磁带,嗯,看来这一题对于现在的 AI 来说,还有点太早,难度太高……我试了大概 7 、 8 张,没有成功表现笔杆穿过磁带孔洞的。

本次的产地多样性观察,发现的是一件小型生活用品(浴室挂钩),产自越南( MADE IN VIETNAM )。

这类非电子器件的产地也有不少已经向东南亚转移了,所以这个于是这一对在ダイソー( DAISO 、大创)买的挂钩的产品包装上写的产地是越南,也算是意料之中。价格么就是标准的 110 日元(含税)。

继续阅读

以前有个耳熟能详的故事:《达芬奇画蛋》。说是大画家达芬奇在童年时刚开始学习绘画时,老师让他什么都不要问,先画一万个鸡蛋。他画啊画地,就这样水平见长,成为了了一代绘画大师。

我不确定达芬奇画蛋的故事是不是真有其事,但现在仔细想起来这种学习指导思想可谓相当原始。如果当真「读书千遍其义自现」的话,那是不是一切的教育理论、教育家和教育实践都白搭了?更何况,这种「先画一万个鸡蛋」的学习方法,其有一个前提条件,这个前提条件如果未被确实证明,那么这个学习方法也就是无稽之谈。这个前提条件就是:人脑确实适合于在这样在反复练习中,进行观测,从中增长经验,并反馈、体现在下一次练习中。可是,有谁证实了人脑是具有这样观察-反馈的机制吗?如果被证实的话,有没有定量的分析呢?

诸如此类种种悬而未决的事项,在我看来,人脑未必就是适合这样反复练习并能从中有效提高技能的。

然而,峰回路转,现在来到了机器学习的时代。人脑不行,但机器或许行啊,因为机器可以被设计成这样,而机器学习大概就是被这么设计的。

继续阅读

纯粹的购物报道——略带一些感叹。对,那个著名的日本百元商店—— DAISO (ダイソー、大创),居然出了 iPad 用的兼容笔!

虽说功能不同于 Apple 公司自家的苹果,而是属于那种第三方代用品,因此不支持压感,但是,它很便宜啊!哪怕是相比于亚马逊日本的同类产品(通常需要 1500 日元到 2000 日元左右),它的价格就很 DAISO 了!只要 1100 日元(含税)。这个价格虽说已是 DAISO 标准价格( 110 日元含税)的 10 倍了,但是没想到这么一家在闹市区有连锁实体店的品牌百元店,售出的价格居然能比没有实体店的网店中的同类产品要便宜一截。

近年来 DAISO 也出了不少电子产品,从鼠标、键盘,到层出不穷的耳机、移动电源还有蓝牙音箱,不过能直接出 iPad 的代用笔,也算是又多了个梗又更进一步了!

至于这支笔的功能,我想应该就和其他同类第三方 iPad 笔一样吧。但是它是 DAISO 自有品牌商品啊!这才是看点。

顺便一说,我有原厂笔的,不过近几年也没怎么用……

这几天看到一条有关 Softbank (软银)的孙正义在一场演讲上预测了未来 AI 的发展的报道,他提到:2 ~3 年内 AGI (通用人工智能)就会出现,而 10 年内 ASI (超级人工智能,孙正义定义为 相当于 AGI 1万倍智能的人工智能)将会出现。

关于孙正义,我只知道他的一些有关马云还有雅虎,以及近几年收购 ARM 的佳话,却不清楚他这个人说话倾向,到底是习惯于站在扎实的数据基础上来预判呢,还是倾向于相当前瞻式的宣传鼓吹。特别是考虑到最近看到新闻说 Softbank 准备投资 OpenAI ,那么他的话里存在较大宣传成分的可能性就更大了一些。

我不清楚,但我可以问问 AI 呀!于是我问了问 ChatGPT 有关过去孙正义演讲的倾向以及后来是否被证实或落空。当然需要注意的是,目前的 ChatGPT 依然是基于大语言模型的,说到底是概率算法,而非验证事实。不过还是姑且做一个参考吧,总比我自己去调查和核实孙正义在过去几十年里做过的预言要省时省力。

我先问了有关 AGI 和 ASI ,在 IT 业界是否有什么普遍共识性的预测或者数据支持。 ChatGPT 回答说:

继续阅读

前几天的 ChatGPT 的 2024 年开发者大会上,宣布了一项面向开发者的图像识别微调功能。在其中举出的例子中,有一项是一家名为 Grab 的拼车公司使用该方法,改进了对于道路标志和车道分割线的识别能力。

看到这里,我想到了一个旁门左道:是不是可以经过图像识别微调,做一个能够看人的面相以及手相的算命 AI 呢?

其实在这个使用场景中,完全不必在乎目前生成式 AI 的一个明显缺点:幻觉。反倒是在算命领域,不仅不排斥幻觉,而且幻觉(说胡话的能力?)还是必须的。但是,在算命的第一步,必须要与用户建立起信任关系,也就是最初对于面相和手相的识别要准确——如果对于同样一张脸的照片,第一次回答是瓜子脸,第二次回答是鹅蛋脸;或者对于同样一张手相(手掌)的照片,第一次回答事业线长,第二次回答变成了生命线长,那就显得不可靠了。

而如果只要在物理外表上能够准确识别面相、手相的特征,那么之后的下一步——面相与手相所反应的命运,则可以通过读取一些固定的算命资料,加上被算命者的生辰八字啦等等,再加上 AI 特有的幻觉——你看,幻觉在这里成了一种积极因素了!对!此乃「人工智能天命」!——之后就能给出像模像样的算命结果了吧。所以,如果这次 OpenAI 所改善并提供的图像微调如果真能让 AI 能准确且稳定地识别脸型、手掌纹理的话,那或许就能真的做成一个算命 AI 。

听起来这有点不务正业,是不是?但……可以引导用户步入正业啊!可以在后台对接一些靠谱的服务提供者,比如正规的心理咨询啦,理财咨询啦,婚恋介绍啦,教育培训啦……等等等等!把用户对未来或对自身的不确定的担忧,用算命的方式作为能够轻松入门的一个通道,去将用户介绍给正规的、专业的咨询服务业者,这岂不是一件很光明正大且很有趣的事吗?

继续阅读

据说 OpenAI 在刚过去的 10 月 2 日开了场开发者大会,宣布了开放几个 API 。因为会议内容是真的面向开发者的,所以与我这样的普通用户似乎关系不大。不过呢,在会议结束后,有用户注意到即便是之前的 4o 模型,在回答之前也会有一个「正在分析」的过程提示(也有可能之前就有?),展开后是一系列 python 代码。甚至在我今天的使用例中,因为处理过程太长,它还连续进行了 2 次「正在分析」。

今天我看到 Reddit 上有个帖子,说 ChatGPT 可以生成各种各样的文件然后提供下载。我记得这个功能原本就有,而今天我尝试了 PDF 、 Markdown 格式的纯文本都说可以的。之后我又顺便问了句:还支持生成什么格式的文件?得到的回答是:

我可以输出多种文件格式,以下是一些常见的格式:

  1. 文本文件(.txt):简单的纯文本格式。
  2. PDF文件(.pdf):适用于排版精美的文档。
  3. CSV文件(.csv):用于表格数据的导出,常用于处理数据集或表单信息。
  4. JSON文件(.json):常用于存储和传输结构化数据,尤其在编程和API调用中。
  5. Markdown文件(.md):用于编写带格式的文本,常用于文档和博客平台。
  6. Excel文件(.xlsx):适用于复杂表格数据的存储和管理。
  7. HTML文件(.html):用于网页内容的创建和编辑。

你想要生成哪种格式的文件?

我看有 Excel ,于是我就要求它制作了一个有些复杂的,类似行程表、时间表的 Excel 。

但是,做现代人的行程表似乎有些无趣,于是就来让他模拟做了一张奇幻故事中一个牧师兼白魔法师的时间表。

接着我还别出心裁,心想:如果这时一个 NPC ,是不是还会有一些随机的、闲聊式的台词呢?于是我就追加一项要求:按照每个时间段的活动安排,为该牧师写一些台词。

在此之后,我又告诉它:假设有6种不同的表情:{A_faceimage_ं喜.png}{A_faceimage_怒.png}{A_faceimage_哀.png}{A_faceimage_乐.png}{A_faceimage_平常.png}{A_faceimage_困倦.png},请在对话开始的第一句之前选择并添加合适的1种表情。

于是就生成了下面的表格。看起来还挺有 RPG 里那种站在固定区域内徘徊的NPC的说话风格的?

虽然这目前还不是连接到 API 进行实时生成,但只要生成的数据量够大,应该就不会出现很多台词重复。此外,如果在指定条件时,不仅仅给出「一位奇幻世界的牧师兼白魔法师」这样简单的条件,而是将人物身世、性格特征等,以及其周边的人物关系,近期大事件等做成一套(大约几千字?)的设定交给 ChatGPT 的话,或许它还能想出更加符合故事背景的闲聊台词吧。

下面就是今天得到的效果:

继续阅读