MPEG-4

发布时间:2024-05-24 13:06:20 作者:汉语成语

MPEG4的目标定义大致来源于两方面:一是极低比特率下的多媒体通信,一是多工业多媒体通信的融合。一方面,MPEG4要求有高效的压缩编码方法,另一方面,MPEG4要求有独立于网络的基于视频/音频对象(AV对象)的交互性。

MPEG4的主要技术

MPEG4是一个庞大的有关交互多媒休编码与通信的标准,目前已出台的委员会草案CD,多达上千页。我们重点概述了AV对象的编码技术。

1多媒体传送集成框架DMIF

DMIF主要解决交互网络中、广播环境下以及磁盘中多媒体应用的操作问题,通过传输多路合成比特信息,建立客户端和服务器端的握手和传输。与过去不同的是,由于MPEG4码流中,包括许多的AV对象,一般而言,这些AV对象都有各自的缓冲器,而不仅仅是视频缓充器和音频缓充器。

2语法描述

MPEG4定义了一个句法描述语言来描述AV对象比特流表示和场景描述信息。这个句法描述语言是对C++的扩展,不仅易于表达其AV对象特性,而且也易于软件仿真实现与模型验证。与MPEG4相比,MPEG1和MPEG2则采用一种类C语言的描述,MPEG4描述语言反映了面向对象技术来描述对象。

3音频对象的编码

视频音频的压缩编码自然仍是MPEG4的核心所在。不过,与以前的MPEG1、MPEG2不同的是:MPEG4不仅支持自然的声音(如语音和音乐),而且支持基于描述语言的合成声音(如MIDI之类)。而且,支持音频的对象特征。即一个场景中,同时有人声和背景音乐,它们也许是独立编码的音频对象。

1.1自然声音编码

MPEG4研究比较了现有的各种音频编码算法,支持2~64K的自然声音编码。如8KHz采样频率的2~4Kbps的语音编码,以及8KHz或16KHz采样频率4~16Kbps的音频编码,一般采用参数编码;6~24Kbps的语音编码,一般采用码激励线性预测CELP(CodeExcitedLinearPredicitive)编码技术;16Kbps以上码率的编码,则可采用时频(T/F)变换编码技术。这些技术实质上借鉴了已有的音频编码标准如G723、G728以及MPEG1和MPEG2等。图1是MPEG4的可伸缩自然音频编码器示意图,包括三种编码技术。

图1通用MPEG4音频编码方框图

1.2合成声音

在合成声音编码当中,MPEG4引入了两个极有吸引力的编码技术:文本到语音(Text-to-Speech)编码和乐谱驱动合成编码技术。这为网络上低比特率下交互的带有语音的游戏铺平了道路。事实上,合成声音编码技术即是一种基于知识库的参数编码。

4视觉对象的编码

同样,MPEG4也支持对自然和合成的视觉对象编码。合成的视觉对象如2D、3D动画,人的面部表情动画等,这些合成图像单独编码,不仅可有效压缩,而且还便于操作。对自然视觉对象的编码,也是MPEG4的重点。比对于静止图像,MPEG4采用零树小波算法(ZerotreeWAVeletalgorithm)以提供高压缩比,同时还提供多达11级的空间分辨率和质量的可伸缩性。对于运动视频对象的编码,MPEG4采用了如图2所示的编码框图,以支持图象的编码。

图2MPEG4视频编码方块图

可见,MPEG4为了支持基于对象的编码,引入了形状编码模块。为了支持高效压缩,MPEG4仍然采用了MPEG1、MPEG2中的变换、预测混合编码框架。对于一般的任意形状的视频对象,

MPEG4编码后的码流结构见图3。

图3通用MPEG4视频编码

对于实时的极低比特率的应用,如可视电话,MPEG4视频编码采用VLBV(极低比特率视频)核进行编码,类似于ITU的H263直接对矩形视频编码,而不采用形状编码模块。因而,编码后的码流结构见图4:

可见,MPEG4采取了向前兼容H263,同时,也提供了一些高层特性,如基于内容的编码。其扩充的方式,如图5。与此同时,MPEG4还支持有误码信道传输下的健壮性,提供了更好的同步和误码恢复机制。

图5MPEG4的视频功能扩充

5场景描述及其它场景措述主要用于描述以上单个的AV对象如何在一具体AV场景座标下的组织与同步等问题。同时还有AV对象和AV场景的知识产权保护等问题。,就是我们如何欣赏MPEG4为我们提供的丰富多彩的AV场景了。

MPEG4的内容和特点

制定中的MPEG4将提供一系列技术以满足视听内容的提供者、网络服务和最终用户的要求。对于网络服务商,MPEG4将使多媒体信息在不同网络中提供透明的传输,便于保护知识产权。MPEG4的多媒体信息将独立于网络特性并能针对不同网络特性进行优化传输。对于最终用户,MPEG4将支持更多的功能,尤其是支持对AV对象的交互作用。

为了达到这些目标,MPEG4采用如下方法:

(1)采用“AV对象”AVOs(audio/VisualObjects)来表示听觉、视觉或者视听组合内容。在MPEG4中,可交互的“AV对象”一改过去图像帧或音频帧的结构,加入了更大的灵活性和交互性。这是MPEG4的主要特征—基于内容的编码。

(2)允许组合已有的AV对象以生成复合AV对象,并由此生成视听场景(AV)场景)。在MPEG4中,一个场景已不再是一帧帧的视频、音频序列组成的,而是由许多“AV对象”按照一定的坐标和层次组织起来的。MPEG4采用一种叫做合成—自然混合编码SNHC(Synthetic-naturalhybridCoding)的方法来组织这些“AV对象”,SNHC的许多观念实际上来源于虚拟现实建模语言VRML。

(3)允许对“AV对象”的数据灵活地多路合成与同步,以便选择合适的网络来传输这些“AV对象”数据。在MPEG4中,一个AV对象用一个或多个基本流来表达。这些流还带有一些有关传输服务质量QoS的参数(如码流率、比特误码率等等)和一些其它参数,如流类型信息和流同步信息。一般而言,我们将这些多路合成和同步的AV对象数据流分成四层:基本流层(ElementaryStreamLayer)、访问单元层(AccessUnitLayer)、灵活多路合成层(FlexibleMultiplexingLayer)和传输层(TransportMultiplexingLayer)。

(4)允许用户在接收端生成的AV场景中与AV对象进行交互操作。在接收端,MPEG4允许用户进行如下的操作,如改变场景的视角来欣赏AV场景,将AV场景中的AV对象拖到不同的地方,通过点击(click)一个具体的AV对象来触发一系列事件,选择不同的语种等等。当然,这些场景的交互性取决于AV场景设计者,而MPEG4为这种设计提供了可能。

(5)支持AV对象的知识产权的标识与保护。由于MPEG4的语法,支持广泛的AV对象和AV对象的编辑组合,因此,区分不同AV对象、AV场景的知识产权应当在MPEG4的语法中得到体现。

MPEG4的框架级别及其应用

MPEG4的应用面非常的广泛,既可以用于高质量的数字电视,又可以应用于极低码率的移动多媒体通信系统,还可以以交互的方式工作。框架就是针对特定的应用确定要采用的编码工具,它是MPEG4提供的工具集的一个子集。不同框架的码流句法结构各不相同,而且各视频、音频和图形框架中支持的对象类型各不相同。每个框架又有一个或多个级别来限制计算的复杂度。MPEG4针对不同的媒体内容和场景描述定义了4类框架:视频框架、音频框架、图形框架、场景描述框架。在选用不同的框架时各部分是相互独立的。由于其丰富的工具集,而且通过下载,MPEG4标准还将支持使用不在标准中出现的工具、算法和轮廓,所以MPEG4能满足多种多样的应用需求,如:(1)实时通信(realtimecommunications);(2)远程监控(surveillance);(3)移动多媒体(mobilemultimedia);(4)基于内容的存储与检索(contentbasedstorageandretrieval);(5)网上视频流(streamingvideoontheInternet);(6)数字调幅广播(digitalAMbroadcasting);(7)广播(broadcast);(8)电影电视后期制作(studioandtelevisionpostproduction);(9)DVD;(10)虚拟会议(virtualmeeting)。目前MPEG4的产品已在市场上出现了,网上也有许多视频文件是以MPEG4的格式压缩的。

MPEG4展望

MPEG-4这个标准支持新的方法进行通信,存取和处理影音数据。影音通信正出现许多新的要求,现有标准并不能符合这些要求。新标准的一个特点就是用户能根据内容存取和处理视频信号。MPEG4的应用将是广泛而深远的。

这一新的工业标准将至少可以应用于以下场合:

(1)实时多媒体监控:

(2)极低比特率下的移动多媒体通信:

(3)基于内容存储和检索多媒体系统:

(4)Internet/Intranet上的视频流与可视游戏:

(5)基于面部表情模拟的虚拟会议:

(6)DVD上的交互多媒体应用:

(7)基于计算机网络的可视化合作实验室场景应用:

(8)演播室和电视的节目制作。