记一次比赛的路演逐字稿

1. 内容

大家好，我是PPDM组的PP。

不过由于DM没来，这次比赛其实我这组只有PP。

我先给大家简单介绍一下Demo。

我做的东西比较简单，想要的效果也很简单，那就是让人们可以用耳朵来看。

一旦做好了，我们可以为盲人提供一片珍贵的视野，同时也能为我们自己带来一些新鲜有趣的体验。

Demo中，做了一个简单的可视化，背景是 TOF 的深度信息，越近越亮，越远越黑。在中部，我设置了24个区域，从左到右每一块区域对应钢琴的一个琴键，音频从左到右由低到高。

当区域检测到物体距离信息之后，根据距离远近，弹出相应的音，物体越近弹得越重，物体越远，弹得越轻。

再略加了一点固定节奏，同时控制不出现不和谐因，优先出现常见和弦等等，让整体感觉好听一些。

通过这种方式将TOF得到的部分空间信息，变成了音乐。

比如面前有人从左到右走动，将大致听到由低音到高音的一段旋律。

有人逐渐接近，将听到由轻变强的一段旋律。

但是！

看个串串。刚说好的用耳朵看呢？确定这真能提供视觉？

别急，我先简要介绍一些神经心理学方面的有趣知识，这些构成这次的想法的来源兼理论基础。

主要谈谈我们的感知方式。应该很多人也都清楚，就简要说一下。

比如一只傻狗在我们面前。我们怎么感知到面前有只傻狗的呢？

首先是他体表会反射出大量光子。

对于眼睛中的每一个点或像素，获得的通常都是个连续的光谱，这里仅截了可见光部分。人眼通过RGB三种视锥细胞和视杆细胞各自对其进行采样，以神经冲动电信号方式，传给大脑。大脑再经过神经网络奇葩的运算，最后才认知到，嗯，面前有一条傻狗。

而听歌呢，也类似，琴键按下后，发出声波，耳朵里有很多毛细胞，每种毛细胞对不同的音频比较敏感，进而分频采样。这里图找错了，他们的频率分布是呈指数增长的。这些细胞也将通过电信号的方式告知大脑，大脑处理后认知到这是什么什么音，进一步知道是什么曲子等等。

这个过程有挺多有意思的细节。但我觉得最有意思的是大脑处理这部分。

我们的脑回路非常混乱，以至于很多处理过程非常难以追踪和理解，这也是神经学家反编译大脑的进展非常缓慢或困难的原因之一。

”看着好香“、”听着好痛“、”闻着好酸“都或多或少体现了一些这种交叉混乱性。

但这种混乱的同时又展现出了一种强大的灵活性，体现在通过刻意训练或者强化学习，我们可以比较容易地改变我们脑回路

进而有目的地让其扭曲，弯折，甚至可以把两种感受交叉起来认知。

这样说还有点抽象，举些例子

我们可以颠倒我们的视野，再一段时间之后，大脑会帮助我们把这颠倒的世界转回来，让自己都不再能意识到，面前一切被颠倒过。

奥地利一个神经学家曾经就做过这么一个视野上下颠倒的实验，还有纪录片。

他让学生带上特殊的眼镜，眼镜通过三次反光使面前视野上下颠倒。

一开始，得扶着学生走路。并且尝试用木棍戳学生的时候，学生将挡板举向了错误的方向。

但是，只经过7天左右的适应，学生已经完全感觉不到视野有问题了，骑自行车也不会有问题。

最后，后来将眼镜取下来，学生又感觉自己视野被颠倒了，花了几天才重新颠倒回来。

充分证明大脑的灵活和可塑性，虽然强化学习这个过程需要一些时间。

然而，除了这些实验，还有一些我们更熟悉的例子。

也比如眼镜产生的视野形变，特别是镜片边缘。特别是我们第一次戴眼镜的时候，这种形变产生的不适，晕眩感可能非常明显。

这时，如果去打羽毛球的话，大概率会接不到球。

不过适应一段时间后就没问题了。甚至长期佩戴眼镜后，不刻意去看都会忘了有形变这回事。

这也是归功于大脑的学习能力或者可塑性。

使眼镜扭曲光线，但扭曲不了我们的心灵。

当然了，如果一定想扭曲我们的心灵，也是没问题的。

只要在大脑学习的时候输入一些错误的信息。

这是知乎上找到的一个移魂换体的实验介绍。

实验中，为被试展示一个假手，同时将真手用挡板挡住。之后为假手和真手同步施加刺激，比如拿毛刷去刷。被试会产生错觉，潜意识慢慢相信假手就是自己的。

这时用一把刀或锤子去准备砸假手，人脑产生的反应和真手快背伤害时几乎一样。

这张图就是被试被吓得大叫并且缩手的一张截图。

如果不刺激手，直接刺激大脑皮层对应位置，也可以达到相同效果。

这张是类似的另外一个实验。被试带上VR眼睛，用这个小假人的视角，同步加上刺激。最终将会认同自己就是这个小人，并且忘了正常的自己才是自己，表现在用刀去威胁真正的自己时，自己透过VR眼镜看着，大脑却没有一丝慌张，以为那是别人

okay,分享一下那些实例，除了本身比较有趣，主要还是想说明大脑的灵活和可塑性。

基于这样的可塑性，我们也可以做些正事。

比如对于盲人，也许是眼睛这里有问题，无法感应外界的光。那这条通路就断了。

怎么办呢？我们可以通过一些手段，将外界的视觉相关的信息包装成其他形式的信息，通过其他通路，经过一段时间大脑适应，也理应可以让人产生视觉。

其实对于这样的方式已经有一些研究探索了

这是知网上找的的几篇论文里面相关介绍的截图，大部分是10年以前的。

左边这种是用超声波测距。通过振动进行反馈，越近振动越强。昨天做PPT的时候搜了一下，淘宝上还有卖的。

右边这种是通过图像边缘识别，用电极矩阵给人皮肤传达信号。

大部分论文都是用的右边这种，并尝试身体各个不同的地方，如肚子，舌头，手臂等等。

但这两种方式都有明显的局限性。

左边振动信息太单一，和视觉的丰富度相去甚远。

右边这种用的是电极。如果电压太低，会没有感觉，分辨不清。电压太高呢，头皮发麻。

所以，我有了这么一个想法和 Demo。

为什么要选择 TOF 呢？已有解决方案都用的图像识别模式。

事实上图像信息虽然重要，但对多数动物来说，深度信息可能更重要。

你看蝙蝠，有眼睛也要装个雷达去测距。

再比如猫狗牛羊颜色视觉一两种，很单薄，视力通常也不怎么样，但也会不遗余力地长两只眼睛去测距。

足可见深度信息对于感知的重要性。

所以我觉得 TOF 等高密度的深度监测技术，有可能为这个领域提供新的发展可能性。

因此这次也尝试以 TOF 作为信息输入。又因为手机不好做电极，电极表现也没有音乐那么优雅。

所以有了这么一个听觉-深度信息视觉的方案尝试。

最后讲一讲，这种功能的应用场景和对应的市场空间。

首先是一直提到的盲人市场。

不过现在来看，要效果好，还需要挺多优化和尝试。

第一，需要更广角的 TOF

第二，可以尝试加更多的乐器，对应空间不同的区域，更多的信息，同时还能听交响乐。

第三，需要更便携，面向盲人，手机的大部分组件是可以不要的，可以改成眼镜、手环、项链等等形式的设备。

第四，如果效果很好，也可以尝试 TOF 和电极矩阵的组合。

除此之外

还可以为低头族探距。

我们走在一些熟悉又安全的路上时，用眼睛看路是对低头族来说是一种严重的资源浪费。

这个时候如果能用耳朵看路，就能解放脖子和眼睛，悠悠哒哒看小说，多好。

最后，是我个人最偏好的一种方向。

我们人的感受器其实也很局限，大部分只能接受很局限的信息。

你看那光谱，它那么长，我们却只能看到其中一小段。对这一小段里面还只能有采样三种颜色。

很多鸟儿都是四个颜色。

这意味着同样一张图，我们看起来可能是纯色，啥都没有，鸟就能看出这是一个害羞男孩子的情书。

同样，正如臭豆腐闻着臭，吃着香。

有些人，比如黄渤，比如我，看着不好看。

但说不定好听啊！

谢谢大家

记一次比赛的路演逐字稿

1. 内容

《记一次比赛的路演逐字稿》有2条评论

发表评论取消回复

1. 内容

《记一次比赛的路演逐字稿》有2条评论

发表评论 取消回复

发表评论取消回复