一次比赛路演逐字稿

unsplash.com

1.说明

2019 年参加的一次基于 TOF 技术的小比赛。当时48小时,做了一个小 Demo ,再瞎扯了一些东西作为路演内容,还意外拿了奖。

发现写逐字稿很花时间,但对于演讲能力没到驾轻就熟的阶段而言,挺有帮助的。

基本写了逐字稿之后,在讲的时候就不用去现场思考用词顺序和逻辑,可以把更多的精力放在临场更重要的地方,比如语气节奏,和听众的肢体动作、眼神交流。

并且这种讲话的锻炼也是一步一步就能练出来的,小时候当众说话就很紧张脸自然红,也不知道怎么说。曾经非常佩服个种能当众瞎BB很久的大佬。

不过后来试着多鼓起勇气尝试几次,慢慢能力也提升了不少,甚至作为公司年会的主持人之一也没怯啥,当然,主持人的比如控制气氛、控制进度节奏、临场应变等等方面能力暂时还不够强。

讲稿的内容相关资料主要来自知乎和一些杂书。


2.逐字稿

大家好,我是PPDM组的PP。不过由于DM没来,这次比赛其实我这组只有PP。

我先给大家简单介绍一下Demo。

我做的东西比较简单,想要的效果也很简单,那就是让人们可以用耳朵来看。一旦做好了,我们可以为盲人提供一片珍贵的视野,同时也能为我们自己带来一些新鲜有趣的体验。

Demo中,做了一个简单的可视化,背景是TOF的深度信息,越近越亮,越远越黑。在中部,我设置了24个区域,从左到右每一块区域对应钢琴的一个琴键,频率从左到右由低到高。

刚说好的用耳朵看呢?确定这真能提供视觉?

当区域检测到物体距离信息之后,根据距离远近,弹出相应的音,物体越近弹得越重,物体越远,弹得越轻。

再略加了一点固定节奏,控制不和谐音不同时出现,优先出现和弦等等,让整体感觉好听一些。

通过这种方式将TOF得到的部分空间信息,变成了音乐。

比如面前有人从左到右走动,将大致听到由低音到高音的一段旋律。

有人逐渐接近,将听到由轻变强的一段旋律。

但是!

看个串串。

别急,我先简要介绍一些神经心理学方面的有趣知识,这些构成这次的想法的来源兼理论基础。

主要谈谈我们的感知方式。应该很多人也都清楚,就简要说一下。

比如一只傻狗在我们面前。我们怎么感知到面前有只傻狗的呢。

首先是他体表会反射出大量光波。

对于每一个点,反射出的通常都是个连续的光谱,这里仅截了可见光部分。人眼通过RGB三种视锥细胞和视杆细胞各自对其进行采样,以神经冲动电信号方式,传给大脑。大脑再经过神经网络奇葩的运算,最后才认知到,嗯,面前有一条傻狗。

而听歌呢,也类似,琴键按下后,发出声波,耳朵里有很多毛细胞,每个细胞接收一种频率的震动。噢,这里图找错了,他们的频率分布是呈指数增长的。这些细胞也将以电信号告知大脑,大脑处理后认知到这是什么什么音,进一步知道是什么曲子等等。

这个过程有挺多有意思的细节。但我觉得最有意思的是大脑处理这部分。

我们的脑回路非常混乱,以至于很多处理过程非常难以追踪和理解,这也是神经学家反编译大脑的意识进展非常缓慢的原因。看着好香、听着好痛、闻着好酸都或多或少体现了一些这种交叉混乱性。

但这种混乱的同时又展现出了一种强大的灵活性,体现在通过刻意训练或者强化学习,我们可以比较容易地改变我们脑回路。让其扭曲,弯折,甚至可以把两种感受交叉起来认知。

这样说还有点抽象,举个例子

我们可以颠倒我们的视野,再一段时间之后,大脑会帮助我们把这颠倒的世界转回来,让自己都不再能意识到,面前一切被颠倒过。

奥地利一个神经学家曾经就做过这么一个视野上下颠倒的实验,还有纪录片。

然而,除了这些实验,还有一些我们更熟悉的例子。

他让学生带上特殊的眼镜,眼镜通过三次反光使面前视野上下颠倒。

一开始,得扶着学生走路。并且尝试用木棍戳学生的时候,学生将挡板举向了错误的方向。

但是,只经过7天左右的适应,学生已经完全感觉不到视野有问题了,骑自行车也不会有问题。

最后,后来将眼镜取下来,学生又感觉自己视野被颠倒了,花了几天才重新颠倒回来。

充分证明大脑的灵活和可塑性,虽然强化学习这个过程需要一些时间。

也比如眼镜产生的视野形变,特别是镜片边缘。特别是我们第一次戴眼镜的时候,种形变产生的不适,晕眩感可能比较明显。当时去打羽毛球的话,大概率会接不到球。不过适应一段时间后就没问题了。甚至长期佩戴眼镜后,不刻意去看都会忘了有形变这回事。

这也是归功于大脑的学习能力或者可塑性。使眼镜扭曲光纤,但扭曲不了心灵。

当然了,想扭曲心灵,也是没问题的。只要在大脑学习的时候输入一些错误的信息。

这是知乎上找到的一个移魂换体的实验介绍。

实验中,为被试展示一个假手,同时将真手用挡板挡住。之后为假手和真手同步施加刺激,比如拿毛刷去刷。被试会产生错觉,潜意识慢慢相信假手就是自己的。

这时用一把刀或锤子去准备砸假手,人脑产生的反应和真手快背伤害时几乎一样。

这张图就是被试被吓得大叫并且缩手的一张截图。

如果不刺激手,直接刺激大脑皮层对应位置,也可以达到相同效果。

这张是类似的另外一个实验。被试带上VR眼睛,用这个小假人的视角,同步加上刺激。最终将会认同自己就是这个小人,并且忘了正常的自己才是自己,表现在用刀去威胁真正的自己时,透过VR眼镜看着,大脑却没有一丝慌张。

okay,分享一下那些实例,除了本身比较有趣,主要还是想说明大脑的灵活和可塑性。

基于这样的可塑性那我们也可以做些正事。

比如对于盲人,也许是眼睛这里有问题,无法感应外界的光。那这条通路就断了。

怎么办呢?我们可以通过一些手段,将外界的视觉相关的信息包装成其他形式的信息,通过其他通路,经过一段时间适应,也理应可以让人产生视觉。

其实对于这样的方式已经有一些研究探索了

这是知网上找的的几篇论文里面相关介绍的截图,大部分是10年以前的。

所以我也就这次尝试一下另外途径的解决方案。

左边这种是用超声波测距。通过振动进行反馈,越近振动越强。昨天做PPT的时候搜了一下,淘宝上还有卖的。

右边这种是通过图像边缘识别,用电极矩阵给人皮肤传达信号。

大部分论文都是用的右边这种,尝试身体各个不同的地方,肚子,舌头,受臂等等。

但这两种方式都有明显的局限性。

左边振动信息太单一,和视觉的丰富度相去甚远。

右边这种用的是电极。如果电压太低,会没有感觉,分辨不清。电压太高呢,又头皮发麻。

有了这么一个Demo。

最后讲一讲,这种功能的应用场景也对应市场空间。

为什么要选择TOF呢?已有解决方案都用的图像识别模式。事实上图像信息虽然重要,但对多数动物来说,深度信息其实才更重要,你看蝙蝠有眼睛也要装个雷达测距,猫狗牛羊颜色视觉一两种,很单薄,视力通常也不怎么样,但也会不遗余力地长两只眼睛去测距。

足可见深度信息对于感知的重要性。

所以我觉得TOF等高密度的深度监测技术,有可能为这个领域提供新的发展可能性。

所以这次也尝试以TOF作为信息输入。因为手机不好做电极,电极表现也没有音乐那么优雅。

所以有了这么一个听觉-深度信息视觉的方案尝试。

首先是一直提到的盲人市场。

不过除了盲人市场,我认为也还有其他一些应用空间。

但要效果好,还需要挺多优化和尝试。

第一,需要更广角的TOF

第二,可以尝试加更多的乐器,对应空间不同的区域,更多的信息,同时还能听交响乐。

第三,需要更便携,面向盲人,手机的大部分组件是可以不要的,可以改成眼镜、手环、项链等等形式的设备。

第四,如果效果很好,也可以尝试TOF加电极的组合。

比如为低头族探距。

这个时候如果能用耳朵看路,就能解放脖子和眼睛,悠悠哒哒看小说,多好。

我们走在一些熟悉又安全的路上时,用眼睛看路是对低头族来说是一种严重的资源浪费。

最后,是我个人最偏好的一种应用方向。

有些人,比如黄渤,比如我,看着不好看。但说不定好听啊!

我们人的感受器其实也很局限,大部分只能接受很局限的信息。你看光谱那么长,我们却只能看到其中一小段,一小段里面还只能有采样三种颜色。很多鸟儿都是四个颜色。意味着同样一张图,我们看起来可能是纯色,啥都没有,它们就能看出是一个害羞男孩子的情书。

同样,正如臭豆腐闻着臭,吃着香。

谢谢大家

2 thoughts on “一次比赛路演逐字稿”

Leave a Comment