2.3.2 流数据的多路复用,同步和描述
必须要在传输层从网络连接或存储设备来的数据中获得各基本流。在MPEG-4系统模型中每个网络连接或文件被单独看成一个TransMux通道。依应用而异复用部分或完全地作用于MPEG-4范围之外的层。MPEG-4唯一定义的复用工具是FlexMux工具,它对于低延迟、低负载复用及为节省网络连接资源来说是可选的。
为了在系统环境中集成MPEG-4的目的,DMIF应用接口成为可作为同步层--打包流访问的基本流的参考点。DMIF网络接口确定了同步层-打包流-无FlexMux或FlexMux流如何从TransMux层得到的。这就是不被MPEG定义的传输功能的接口。这里考虑接口的数据部分,控制部分由DMIF处理。
与MPEG-1和MPEG-2以位流语法和语意描述理想解码设备的方式相同,MPEG-4定义了系统解码模型。这就允许不做非必要假设和精确细节准确定义终端操作。这对于以不同方式自由地实现设计真实MPEG-4终端和解码设备是必要的。这些设备包括从不能与发端通信的电视接收机到能完全双向交互的计算机。一些设备通过同步网络MPEG-4流,另一些通过非同步方式(例如Internet)交换MPEG-4信息。系统编码模块提供所有MPEG-4终端应用基于的通用模块。确定缓冲和延迟模型对不知道如何接收编码流的编码设备是必要的。虽然MPEG-4使编码设备可通知资源需求的解码设备,如前所述,该设备也可能不响应发端。同样有可能一个MPEG-4会话同时接受不同设备的信息。但这将根据设备的容量来进行。
2.3.3 语法描述
MPEG-4定义了一种语法描述语言来描述位流传送媒体对象和景象描述信息位流的精确位语法。该语言从C语言出发,是C++语言的扩展,用来以综合方式描述对象的句法表达、所有媒体对象的类定义和景象描述信息。这提供了精确地恒定统一描述语法的方式,同时简化位流依从测试。软件工具可用来进行语法描述,产生进行判定的程序的必要代码。
2.3.4音频对象编码
MPEG-4音频对象编码为表达自然声音(例如话音和音乐)和基于机构化描述的合成声音都提供工具。合成声音的表达可从文本数据或所谓的结构描述,以编码参数提供反射、空间定向等效果的方式实现。该方式提供压缩和其他例如可伸缩性和效果处理等其他功能。覆盖6kbit/s到24kbit/s速率的MPEG-4语音编码工具已和NADIB合作通过AM数字语音广播 应用检验性测试。为辩识合适的数字语音广播格式以改进现有的AM模式服务,包括MPEG-4 CELP、TwinVQ、和AAC工具一些编码设置与一个参考AM系统进行了比较。发现数字技术可在同样带宽上实现更高质量,而且编码设置提供了优于联播的效果。MPEG还进行了附加检验测试,把话音和普通语音编码的工具与现存标准进行比较。
2.3.5 视频对象(VO)编码
为了支持基于内容的交互性,即支持对内容(场景中的物理对象)独立地进行编解码,MPE G-4视频检验模型(即发展完善中的视频编码算法和工具集)引入了视频对象面(VOP)的概念。假设输入的视频序列的每一帧都被分割成多个任意形状的图像区域(视频对象面),每个区域可能覆盖场景中特定的感兴趣的图像或视频内容。输入进行编码的VOP可以是任意形状的,且形状和位置可随帧而变。属于场景中同一物理对象的连续VOP序列称为视频对象(VO)。同一视频对象的VOP序列的形状、运动和纹理信息被编码传输,或者编码为一个隔离的视频对象层(VOL)。除此之外,辨别各个视频对象层,以及接收端合成不同的视频对象层以重建完整的原序列所需的相关信息也包含在比特流中。这使得可以对每个VOP独立地进行编解码,且可以对视频序列进行灵活操作。输入进行编码的源视频对象序列可以是独立实体,也可以由在线或脱线的分割算法产生。
有些多媒体业务需要提供面向对象的操作和编辑功能,如远程数据库访问、视频编辑等。 有些情况下,人们只对场景中的某个对象感兴趣,如多媒体会议,人们感兴趣的只是与会者的头肩像,而不关心背景。因此,为了节省带宽,可以只传送头肩像的视频信息,接收端再把收到的头肩像信息解码重建,并置于一间虚拟会议室中。基于内容的视频编码系统可以在比特流层支持这种基于对象的访问和操作功能。
有两种类型的视频编码系统支持基于内容的交互性,一种是模型基编码;另一种是在传统 的基于块的视频编码系统的基础上扩充而成的。对于前者,在此不做讨论。而后者则是传统的,基于块的混合运动预测/补尝编码系统扩展到任意形状的视频序列而成的。传统的、基于块的编码方法已被MPEG-1/2和H.261/3等标准所采用。这种系统主要由场景分析和对象分割、形状编码、运动编码、纹理编码等模块构成,具体的编码算法则做为实现系统中各个功能模块的工具,可根据实际需要选取组合。首先对输入的原图像序列进行场景分析和对象分割,以划分不同的VOP,得到各个VOP的形状和位置信息。VOP的形状和位置信息可以用上文提到的alpha平面来表示。发送端只需传送alpha平面,接收端就可以确定VOP的形状和位置。alpha平面所需的比特数是比较多的,需要进行压缩编码。显然,只要对VOP的轮廓进行编码和传送,接收端就可以恢复alpha平面,轮廓信息在轮廓编码器中进行编码。提取出的形状和位置信息又用来控制VOP的运动和纹理编码。对运动和纹理信息编码仍然采用经典的类似 停校牛呛虷.261/3标准的运动预测/补偿法。输入的第N帧的VOP与帧存储器中存储的N-1帧的VOP进行比较,找到运动矢量,然后对两帧VOP的差值进行量化、编码 。对不同对象的运动和纹理信息的编码可因地制宜地采用不同的方法,以提高编码效率。编码后得到的纹理信息,与运动编码器和形状编码器输出的运动信息和形状信息复接形成该VOP的比特流层。不同视频对象的VOP序列分别进行编码,形成各自的比特流层,经复接后在信道上传送。传送的顺序依次为形状信息、运动信息和纹理信息。接收端的解码过程是编码过程的逆操作。当VOP的形状为矩形时,不需要进行形状编码,该系统退化为传统的规则形状的视频编码系统,保持了后向兼容性基于内容的视频编码技术,可以对任意形状的视频对象序列进行编码,编码后的视频对象的比特流以"对象层"的形式而存在。同一场景中的不同视频对象可分别独立地进行编码和传输,因此,接收端可独立地有选择地解码和重建视频对象,也可灵活地在比特流层对视频对象进行操作而改变原场景。基于内容的视频编码技术在远程监控、移动多媒体、信息娱乐(infotainment)、多媒体会议、交互购物、电影和电视的后期制作、虚拟现实、计算机支持的协同工作(CSCW)等领域具有十分广阔的应用前景,它必然对多媒体事业产生巨大的冲击
三.应用部分
3.1 MPEG-4技术动态
ACTS是欧洲的一个研究与技术开发组织,其MCM子组的工作与MPEG-4系统、算法和工具、 脸部特征跟踪及动画等密切相关。目前项目研究和开发一族PSTN等低比特率可视电话视频编码算法,允许异质网间视频会议的比特流可伸缩性。
VIDAS项目为时间相关表现、编码和AV流操纵设计一个合适算法,在可视电话场景(编码器)分析、(解码器)合成时充分利用语音和脸动的相关性,在真实帧之间插入合成帧提高帧率,平滑显示与语音同步的唇部运动,面向分布式创作和分布式虚拟现实。蓝室(BlueRoom)、计算机、合成三者可分布在不同地点,蓝室视频信号、控制信号和跟踪信号由远地传来,而背景和动画则在本地实时绘制,它们与蓝室视频信号合成后生成最终信号。分布式虚拟现实系统中一次性传送基本3D模型,然后只传输动态交互引起的模型变化量,人们通过高速网络可以在虚拟世界里交互。最近东芝公司