空中接口学园--由语言是怎么传递信息而产生的联想

使用帮助
关注公众微信

读懂通信

LTE学习大使

登陆

搜索

>> 交流与空中接口无关的方方面面

空中接口学园 → 杂谈 → 无限人生 → 由语言是怎么传递信息而产生的联想

您是本文的第 2113 个阅读者　　

* 主题：由语言是怎么传递信息而产生的联想

bakarru

  等级：学友
  文章：119
  积分：
  注册：2017-05-04

	楼主

由语言是怎么传递信息而产生的联想
最近在看了一篇文章，讲解人类说话是如何传递信息的，感觉很有趣，立马就和通信联系到一起了，先把这篇文章重点内容摘抄下来供大家学习，然后我再谈谈自己的一些有趣的想法，哈哈哈

2018-05-24 09:25:55

鲜花(0)

鸡蛋(0)

bakarru

  等级：学友
  文章：119
  积分：
  注册：2017-05-04

	第2楼

语言的发声、传播、感知过程，是生理、物理、心理的综合过程，非常复杂。楼主提到的只是物理层面，其实心理层面在其中的作用是非常重要的，许多时候它的影响要大过物理层面，换句话说，人们对语音的感知很多时候非常不客观。
既然提到生理、物理、心理过程，那就先简单地叙述一下生理和物理环节的问题。
当我们要说话时，大脑给发音器官一系列指令，肺部推动气流冲向声带及口鼻。若发清音，即声带不振动的音时，声带不闭合，气流正常通过，在喉腔或口腔某处受到阻碍（比如汉语拼音的 j q x 就是气流在舌面上受阻，b p 就是在嘴唇处受阻），发出声音。若发浊音，即声带振动的音，那么喉部肌肉驱动软骨，拉紧声带使其闭合，气流冲过闭合声带中间的缝隙，驱动声带振动，发出声带音（大概就是一阵嗞嗞声）。声带音经过口鼻等共鸣腔调制，改变泛音强度配比，形成某种浊音。由于口腔肌肉运动很快，可以快速改变共鸣腔形状，所以我们可以快速发出一连串的浊音。
以上是发音的简单生理过程。将清音浊音根据需要连成串，说出口，传到空气中，它就是个物理问题了，如楼主所说，语音有几项要素，但不是三项，而是四项。除了音色、音高（频率）、音强（响度）之外，还有一个音长（持续时间）。语言当中除了音强可能确实不常用来区别意义之外，其它三项都常用来区别意义，只是比较少有语言同时使用这三项而已。
首先说音强一般不用来区别意义，用一个例子就可以说明。假定音强可以区别意义，一个词、一句话，大声说和小声说意思不一样，那这个世界就太混乱了。所以大多数语言中音强不区别意义。背后说悄悄话所带有的言外之意不在此列，这种情况一般算是副语言信息，因为它在语言系统里通常不具有强制性。所谓不具有强制性，就是说，我把一句正常的话说成悄悄话，不必然造成其意义的改变，如果有改变，也不能确定或预测其意义会发生什么样的改变。实际上把正常话说成悄悄话所带来的意义改变不是语言内部的因素造成的。
第二说音色，楼主对音色的理解有些狭窄。不同的人说话声不一样，那是音色的不同；同一个人，说a 或 i 或 u，听起来是不同的元音，这也是音色不同。音色并不仅仅是声带固有的特征（即人际区别），在语言中，音色变化更重要是诸如a 或 i 或 u的不同。这种不同主要取决于口腔及鼻腔通道形状的变化带来的共振特征变化。说到这里，就需要简单说一下音色是怎么产生的。
元音的音色主要来源于泛音的强度配比。这个世界上只由单纯的一个周期波构成的声音（纯音）是比较少的（类似电话的忙音），绝大多数声音都是复合音。复合音是由多个周期波叠加在一起产生的。人类语音的复合音，由一个基音和一系列泛音（或者叫谐波）构成。基音就是这一组波当中频率最低的一个，比如说150Hz。它的泛音一般是它的整数倍频率，组成一组，比如300、450、600、750Hz……这样一组波合在一起，如果它们每一个的强度都一样，或者强度比较有规律地递增或递减，听起来就还是和电话忙音差不多（只是音色上厚实一些）。但是如果我们有办法特意地加强某一个，减弱另一些，比如450Hz很强，但600、750Hz很弱，之后900Hz又很强，这样就可能形成一个特定的音色，诸如a、o之类。当我们说一个与其它元音不一样的元音，我们嘴里的舌头位置，嘴的开度大小等等肯定也不一样。这种不一样，就改变了口腔的共振特性，也就可以改变声带音中的泛音配比，从而改变音色。

看上面的图，这是我说的一句话。上半部分的横图是原始波形（紫色）和语谱图（灰黑色），下半部分是我这句话中某一瞬间的声音分析。左图是声带音（也就是没有经过口腔调整的，单纯的声带发出的声音），当中每一个小尖峰都是一个谐波，横轴是频率，纵轴是强度。可以看出，我的声带音由多个谐波组成，这些谐波从低频到高频，强度递减。中间的图是在这一瞬间我的口腔形状所决定的共振特征。声带音本来挺整齐的，但经过中间图的这条线一“过滤”，某些谐波被增强了，某些被减弱了，就“过滤”成了右边图的样子。可以看到，右边的图由左图声带音的那些小尖峰组成，但大致轮廓却是中间图的样子，高频部分的声音基本上被中间图的“筛子”给滤没了（注意中间图纵轴零点的位置，就可以理解为啥会滤没了）。只有中间图最左侧高峰在右边图里还能看到。我们听辨别人说的是 a、o、 i 还是 u，主要就是靠最左边的两个高峰。我们说话时嘴里的器官在不停地变换着位置，会使得中间图上的这个“筛子”的形状不停地变化，从而右图的输出结果也就不停地变化，于是我们就发出了一个个的元音。
我们能听出说话人是谁，主要靠左图的声带音以及右图中最左侧两个高峰之外的部分。我们能听出某人说的是什么，靠的主要是右图中最左侧的两个高峰。所以，不论是不同的人说话，还是同一个人说不同的话，都是音色变化。音色是区别意义，理解语义的重要依据，也是基本手段，各种语言都会使用音色的不同以及不同音色的组合来区别意义（每种语言都有不同的元音嘛，只是数量多少的问题）。
以上关于基音泛音的这些内容，“黑话"叫做“元音共振峰分析”，主要说的是元音音色的构成。像 b、p、f 等辅音变化，也是音色变化。但由于多数辅音是噪音，没有基频和泛音列这些成分，所以它们音色的构成和元音不太一样。我们识别辅音的方式与辅音的不同类型有关，这里就不多说了，总之它与元音一样，也属于音色变化。
第三说音高区别意义，也就是频率。说话中频率的变化主要来自声带音的高低变化，与口腔形状等这些影响音色的因素关系不大。也就是说，音高和音色变化是相对独立的，可以在时间上叠加起来，同时变化。使用音高变化来区别意义的语言也就是我们一般说的有声调的语言。我们熟悉的汉语就是个典型，妈、麻、马、骂不一样，汤、糖、躺、烫也不一样。这对于许多无声调语言（英法德等多数大语种）的使用者来说，是特别不可理解的一件事。但对于中国人来说很好理解，这里就不多说了。
第四说音长区别意义，这一点在汉语里不是，但许多其它语言里都有，比如英语、日语中都存在，词中的某个元音说长了或短了，意思就不一样了。由于汉语不靠音长辨义，所以我们学习这种类型的语言的时候，也常常在音长上有问题。
所以，再总结一下，语音的四项要素中，除了音强之外，都可以区别意义。
以上是说话的物理层面。当我们听一句话的时候，从听见到明白意思，又是一个生理加心理的过程了。
听话的生理过程是，声波经介质传到耳朵，经过外耳道到达耳鼓，推动鼓膜，鼓膜推动三块听小骨将振动传到卵圆窗，进而传进耳蝸，驱动膜迷路的基底膜，基底膜对不同频率的声音有着不同的响应方式，各种不同的方式将压力传给内淋巴液及毛细胞，毛细胞将压力信号转换为电信号，传给听神经，听神经将电信号传给大脑听觉中枢，于是我们就听到了声音。
我们的听觉对音强、音长、音色和音高都可以有敏感的反应，但是因为音强在语言传达信息的过程中不重要，又因为不同的音节之间有固有的强度比例，我们已经习惯了，所以我们在听人说话时，对音强的变化并不特别敏感。比如上图中上半部紫色的原始波形部分，其上下的宽度就是振幅，也就是声音大小，可以看出每一个字的声音大小都不太一样，有些变化还挺大的，但是我们一般并不会觉得别人说话声音忽大忽小，字字不同。
除音强之外，音高、音色、音长这些信息，我们的耳朵都会捕捉到。之后送给大脑进行分析，这是一个心理过程。
首先，语言能传递信息的前提，是使用这种语言的群体有一套约定俗成的语音符号系统用来编码信息，或者说是承载信息。也就是大家都知道“手”是“手”，“脚”叫做“脚”，如果你发明一种语言，不这样叫，也不是不可以，但是没有其它群体成员与你达成共识，你的语言推广不出去，也没用。
在整个语言社会对于世间事物和事件指称使用同一套声音信号的时候，我们就有机会通过声音来传递信息了。在社会的约定俗成之下，我们每个人都有个心理词库，当我们听到 du4 zi，可以知道这个词是存在的，我们的心理词库里有；当我们听到 pia3 xiu2，我们大约可以判断它是不存在的。当我们听到 shou3 的时候，就会想到手、首、守……等一系列，当听到 shou3 的后面还有个 xian1 ，那么基本可以确定是“首先”了。
楼主说，“难道说每个字的音调都不同？这不科学呀！”，对，当然不可能每个字的音调都不同。同声调，同读音的字词太多了，在会话中，我们是通过上下文、话题、预设甚至说话的情景、环境来判断的。较小范围的上下文判断过程如上。大到话题层面，如果我们在谈音乐，说到 shu4 di2 可能是指“竖笛”；如果我们在谈为人处事、职场之道，说到 shu4 di2 可能是指“树敌”。这些可以帮助我们听辨或者说“猜测”对方说的是什么的条件，有时非常强大。在根本听不清对方的语音时，我们可能根据这些语言之外的条件来“脑补”缺失的信息。这种脑补过程，在字词语义这种高级层面上，依据的是我们的语言经验。而事实上，这种“脑补”从音节层面、听觉生理的层面就开始了。电话线路为了节省通道占用，将300Hz以下及3500Hz以上的频率都切掉了，而大部分人说话的基频都在100-400Hz之间，300Hz以下切除，意味着基频基本切掉了，可是我们还是能听懂对方在说什么。这部分基频信息，就是我们的大脑自动补出来的，其实我们没有真正地听到它们。
我们的大脑可以听到没有听到的声音，可以猜测出没有听清的词句，同样，也可以忽略我们的语言中不重要的声音，忽略意义不大的词句。所以说我们的语言感知其实一点也不客观，心理过程的影响是巨大的。
总结一下，语言从发出到听懂，经过了生理、物理、心理的综合过程。首先大脑将要说的意思进行语音编码，驱动发音器官发出一系列声音，这些声音利用音长、音高、音色的不同变化和组合区别意思，传到空气中，被听话的人听到，进行解码，利用同样的编码规则反查意义。当语音信号质量不好的时候，我们的大脑可以根据语言经验和其它一系列线索进行纠错，利用信息冗余进行推定（听得清时就听，听不清时那就是猜的）。最终获得了说话者传来的信息。这个过程转瞬即逝，但环节众多。任何一环有问题，都可能影响信息传达。所以，我们生活中才会有“说错了”、“没说清楚”、“听不清”、“没听清”、“听错了”、“理解错了”等诸多情况。

2018-05-24 09:26:48

bakarru

  等级：学友
  文章：119
  积分：
  注册：2017-05-04

	第3楼

很有趣，上面说到，是通过音色，音高（频率）和音长的组合来区别含义
第一个传递信息的要素是音色，音色这个特别有趣，也是基波150hz和它的各次谐波（基波频率的整数倍）的叠加（有没有联想到OFDM，虽然用不到积分和正交的概念），声带相当于载波发生器，口腔是个调制器，根据大脑传来的基带信号对各次谐波进行幅度调值（多载波幅度调制？），然后发射出去，只不过没有上变频，功放和滤波了，直接发射中频信号。这只是元音，辅音文章里没说，就不去研究了，应该差不错吧；
然后另外一个传递信息的要素是音高（频率），第2，3，4声应该就是声带输出基波和它的各次谐波的整体搬移吧，也就是载波在频域的整体搬移,这里就只有第一声是基波150hz和它的各次谐波的叠加？不过我猜测也有可能是第2，3，4声是基波和各次谐波的倍乘，当然这样子载波间隔就被拉大了；
第三个传递信息的要素是音长，可以这样理解，一个词语由若干个元音和辅音组成，就是一个可变的帧长的帧，一个元音和辅音就是帧内里的时隙，改变音长就是复制（或删减）帧内的某个元音的时隙数，相当于TDM；
通过声色，音高和音长这三个元素的组合来区别含义，这可是个复杂的广播信号发射机，哈哈哈，音色是多载波幅度调制，音高是对载波的频移（只传递4种信息，第一声，第二声，第三声和第四声）相当于频率调制，音长是调整帧内元音时隙的数量；

然后接收时，通过音色来区别个体，就是调谐接收广播的过程，文章里说到，区别个体是通过区别载波和接收到已调信号的高频分量来实现，也就是载波频谱＋已调信号高频分量频谱分多址，听起来很复杂，哈哈；
然后调解先是对收到的每个TDM帧（一个汉字），分时隙进行解调，对收到的已调信号的低频分量进行解调获取音色内含信息即解调出这个时隙对应的元音/辅音字母，然后再组合还原这个TDM帧对应的汉字的拼音（例如，妈，麻，马，骂-MA);解调音高是通过载波的频域分布来判断是第几声（例如，麻，第二首），然后解码音长是在时域接收TMD帧时，判断元音和辅音的时隙占用情况（这个汉语好像用不到，我就不举例了哦）；通过解调出的音色，音高和音长信息的组合来判断接收的含义

[此贴子已经被作者于2018-5-24 11:35:13编辑过]

2018-05-24 09:53:36

bakarru

  等级：学友
  文章：119
  积分：
  注册：2017-05-04

	第4楼

然后，又联想到，其实声带和口腔相当于一个天馈+RRU发信机，通过光纤拉远（神经网络）将基带信号（神经冲动）由大脑BBU传至声带和口腔RRU，基带信号在大脑处理，这是单工通信系统（广播发射）；而耳朵是天馈+RRU收信机，和大脑BBU组成另外一套广播接收系统。
人耳接收到的声波其实也是多径信号，也有频偏，相偏和路径损耗，不同的是声波是横波，语言交流还真是不简单，大脑这个BBU除了控制声带和口腔的调制（神经冲动变声波），控制耳朵进行解调（声波变神经冲动），还得有频率跟踪，信道估计能力，两个耳朵相当于分集接收，还得利用自适应均衡器或者RAKE接收，用以克服多径效应；
因为收发是两套独立的广播系统，所以不用考虑接收侧的上下行的帧对齐问题（没有TA了），但是由于大脑的处理能力有限，实际上这两套收发系统还是以类似TDD的方式协调工作的，只不过GP长度是动态改变的，别人何时说完，GP就何时结束，然后再开始发射。一些性子急的人，可能会把工作模式变成FDD，别人说别人的，我说我的，哈哈哈

[此贴子已经被作者于2018-5-24 23:46:47编辑过]

2018-05-24 10:21:31

tom

  等级：LTE学习大使
  文章：4544
  积分：
  注册：2003-06-10

	第5楼

总体而言，就是语音合成技术的声学基础。
150Hz只是一个例子，声音毕竟不是乐音，不可能是单一基波。

----------------------------------------------

2018-05-24 21:04:42

本主题文章数5，分页： [1]

管理选项：锁定 | 解锁 | 提升 | 删除 | move | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告