视频编码标准H.264及其快速实现算法q

来源：汇意旅游网

摘要　　　　Ｈ．２６４／ＡＶＣ是由ＩＴＵ－Ｔ的ＶＣＥＧ（视频编码专家组）和ＩＳＯ的ＭＰＥＧ（运动图像专家组）共同制定的新的视频编码标准。Ｈ．２６４使用很多先进的视频编码方法，与现有标准相比，它可以获得更高的压缩性能，同时由于其结构上合理的设计，使得Ｈ．２６４具有良好的网络适配性，因此Ｈ．２６４在无线和ＩＰ信道上能够得到更广泛的应用。然而在实际应用中，特别是当Ｈ．　　　　２６４应用在一些实时多媒体业务〔如ＶＯＤ＞流媒体）时，由于Ｈ．２６４压缩性能高，导致算法运算复杂度较高，这样对其应用产生很大影响。为了使Ｈ．２６４能够更好地应用于实时多媒体通信，就必须使用多种降低视频编码运算复杂度的快速算法。本文在详细研究了Ｈ．　　　　２６４视频编码特点的基础上，分析了Ｈ．２６４帧内编码及变换、量化技术的原理及特点，提出了多种降低视频编码复杂度的算法，这些技术包括一种新颖实用的帧内预测快速算法，整数变换和量化过程中零块的预先判决算法，以及使用ＳＩＭＤ（单指令多数据流）技术来提高Ｈ．２６４帧内编码的速度等。　　　　帧内预测快速算法通过充分利用视频信号时间及空间上的相关性，减少帧内预测的候选模式的个数；整数变换零块预先判决算法通过计算ＳＡＤ值来判断是否为零块，减少了ＤＣＴ变换和量化的次数，并且提前终止了位移估值；ＳＩＭＤ技术提高了帧内编码程序的并行运行能力。实验表明，通过使用本文提出的帧内预测Ｊ决速算法和零块预先判决等方法可使得Ｈ．２６４编码速度获得显著的提高。关键词：Ｈ．２６４／ＡＶＣ帧内预测整数变换零块预先判决ＳＩＭＤ（单指令多数据流）ＡｂｓｔｒａｃｔＨ．　　　　２６４／ＡＶＣ　ｉｓ　ｔｈｅ　ｎｅｗｅｓｔ　ｖｉｄｅｏ　ｃｏｄｉｎｇ　ｓｔａｎｄａｒｄ　ｏｆ　ｔｈｅ　ＩＴＵ－Ｔ　Ｖｉｄｅｏ　ＣｏｄｉｎｇＥｘｐｅｒｔｓ　Ｇｒｏｕｐ　（ＶＣＥＧ）　ａｎｄ　ｔｈｅ　ＩＳＯ／ＩＥＣ　Ｍｏｖｉｎｇ　Ｐｉｃｔｕｒｅ　Ｅｘｐｅｒｔｓ　Ｇｒｏｕｐ　（ＭＰＥＧ），Ｔｈｅｍａｉｎ　ｇｏａｌｓ　ｏｆ　ｔｈｅ　Ｈ．２６４／ＡＶＣ　ｓｔａｎｄａｒｄｉｚａｔｉｏｎ　ｅｆｆｏｒｔｈ　ａｖｅ　ｂｅｅｎ　ｅｎｈａｎｃｅｄ　ｃｏｍｐｒｅｓｓｉｏｎｐｅｒｆｏｒｍａｎｃｅ　ａｎｄ　ｐｒｏｖｉｓｉｏｎ　ｏｆ　ａ　＂ｎｅｔｗｏｒｋ－ｆｒｉｅｎｄｌｙ＂　ｖｉｄｅｏ　ｒｅｐｒｅｓｅｎｔａｔｉｏｎ　ａｄｄｒｅｓｓｉｎｇ＂ｃｏｎｖｅｒｓａｔｉｏｎａｌ＂　（ｖｉｄｅｏ　ｔｅｌｅｐｈｏｎｙ）　ａｎｄ　＂ｎｏｎｃｏｎｖｅｒｓａｔｉｏｎａｌ＂　（ｓｔｏｒａｇｅ，　ｂｒｏａｄｃａｓｔ，　ｏｒｓｔｒｅａｍｉｎｇ）　ａｐｐｌｉｃａｔｉｏｎｓ．　Ｈ．２６４／ＡＶＣ　ｈａｓ　ａｃｈｉｅｖｅｄ　ａ　ｓｉｇｎｉｆｉｃａｎｔ　ｉｍｐｒｏｖｅｍｅｎｔ　ｉｎｒａｔｅ－ｄｉｓｔｏｒｔｉｏｎ　ｅｆｆｉｃｉｅｎｃｙ　ｒｅｌａｔｉｖｅ　ｔｏ　ｅｘｉｓｔｉｎｇ　ｓｔａｎｄａｒｄｓ．　Ｂｕｔ　ｔｈｅ　ｈｉｇｈ　ｃｏｍｐｌｅｘｉｔｙ　ｃｏｍｅｓｗｉｔｈ　ｔｈｅ　ｈｉｇｈ　ｃｏｍｐｒｅｓｓｉｏｎ，　ｗｈｉｃｈ　ｍａｋｅｓ　Ｈ．２６４　ｈａｒｄｌｙ　ａｐｐｌｉｅｄ　ｉｎ　ｔｈｅ　ｒｅａｌ　ｔｉｍｅｓｅｒｖｉｃｅｓ．（ｌｉｋｅ　Ｖｉｄｅｏ　ｏｎ　Ｄｅｍａｎｄ，　Ｓｔｒｅａｍｉｎｇ　Ｍｅｄｉａ）Ｔｈｉ　　　　ｓ　ａｔｒｉｃｌｅ　ｐｒｏｖｉｄｅｓ　ａｎ　ｏｖｅｒｖｉｅｗ　ｏｆ　ｔｈｅ　ｔｅｃｈｎｉｃａｌ　ｆｅａｔｕｒｅｓ　ｏｆ　Ｈ．２６４／ＡＶＣ，ｄｅｓｃｒｉｂｅｓ　ｔｈｅ　ｔｈｅｏｒｙ　ｏｆ　ｉｎｔｒａ　ｐｒｅｄｉｃｔｉｏｎ，　ｔｒａｎｓｆｏｒｍ　ａｎｄ　ｑｕａｎｔｉｚａｔｉｏｎ　ｉｎ　ｄｅｔａｉｌ，　ａｎｄｐｒｏｐｏｓｅｓ　ａ　ｎｏｖｅｌ　ｆａｓｔ　ａｌｇｏｒｉｔｈｍ　ｏｆ　ｉｎｔｒａ　ｐｒｅｄｉｃｔｉｏｎ　ａｎｄ　ａｎ　ａｌｇｏｒｉｔｈｍ　ａｂｏｕｔ　ｄｅｃｉｓｉｏｎ　ｏｆａｌｌ－ｚｅｒｏ　ｂｌｏｃｋｓ　ｂｅｆｏｒｅ　ｉｎｔｅｇｅｒ　ｔｒａｎｓｆｏｒｍ　ａｎｄ　ｑｕａｎｔｉｚａｔｉｏｎ．　Ｍｏｒｅｏｖｅｒ，　ｗｅ　ａｌｓｏ　ｐｒｏｖｉｄｅ　ａｍｅｔｈｏｄ　ｕｓｉｎｇ　ＳＩＭＤ（ｓｉｎｇｌｅ　ｉｎｓｔｕｒｃｔｉｏｎ　ｍｕｌｔｉｐｌｅ　ｄａｔａ）　ｔｏ　ｉｎｃｒｅａｓｅ　ｔｈｅ　ｓｐｅｅｄ　ｏｆ　ｉｎｔｒａｐｒｅｄｉｃｔｉｏｎ　ｃｏｄｉｎｇ．Ｅｘｐｅ　　　　ｒｉｍｅｎｔａｌ　ｒｅｓｕｌｔｓ　ｓｈｏｗ　ｔｈａｔ　ｔｈｅ　ｓｐｅｅｄ　ｏｆ　ｃｏｄｉｎｇ　ｉｓ　ｏｂｖｉｏｕｓｌｙ　ｉｍｐｒｏｖｅｄ　ｗｈｅｎｕｓｉｎｇ　ｐｒｏｐｏｓｅｄ　ｔｅｃｈｎｉｑｕｅｓ．Ｋｅｙｗｏｒｄ：　Ｈ．２６４／ＡＶＣ　　Ｉｎｔｒａ　ｐｒｅｄｉｃｔｉｏｎ　　ｉｎｔｅｇｅｒ　ｔｒａｎｓｆｏｒｍ　　ＳＩＭＤＹ　６９５３６８创新性声明　　　　本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人己经发表或撰写过的研究成果；也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处，本人承担一切相关责任。　　　　本人签名．司和份）００５．　Ｉ加。期．关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定，即：研究生　　　　在校攻读学位期间，论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后，发表论文或使用论文工作成果时署名单位仍为西安电子科技大学。学校有权保留送交论文的复印件，允许查阅和借阅论文：学校可以公布论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存论文。（保密的论文在解密后遵守此规定）本人签名：导师签名：．习宁Ｊ匕Ｊ酒．脚口期日叙珠ｏｏ了．ｍｚ．期日第一章绪论第一章绪论１．１引言随着信息技术的发展和社会的进步，人们对信息的需求越来越丰富。人们希　　　　望无论何时何地都能够方便、快捷、灵活地通过语音、数据、图像与视频等多种方式进行通信。视觉信息给人们直观、生动的形象，图像／视频的传输更受到人们广泛地关注。超大规模集成电路（ＶＬＳＩ）技术和宽带数字网技术的发展，使人们对数字视频业务如可视电话、视频会议、视频监控、高清晰度电视（ＨＤＴＶ）、视频点播（ＶＯＤ）、远程教学和远程购物等产生了越来越浓厚韵兴趣。数字化视频信息数据量庞大，给存储器的存储容量、通信信道的传输率（　　　　带宽）以及计算机的处理速度增加了极大的压力。解决这个问题单纯用增加存储器容量和通信信道的带宽及提高计算机的运算速度等办法是不经济也是不现实的。视频数据压缩编码技术是行之有效的方法。采用先进的数字视频压缩技术将数字化的视频信息的数据量压缩，既节省了存储空间，又提高了通信的传输效率，使得视频及其通信业务成为可能。　　　　图像压缩编码从１９４８年电视信号数字化提出以来，已有五十多年的历史，不仅在理论研究上取得了重大进步，而且在实际应用中也获得了很大成果。近十年来，图像编解码技术得到了迅速发展和广泛应用，并且日臻成熟，其标志就是多个关于图像编解码的国际标准的制定，即国际标准化组织ＩＳＯ和国际电工委员会ＩＥＣ关于静止图像的编码标准ＪＰＥＧ／ＪＰＥＧ２０００，关于运动图像的编码标准ＭＰＥＧ－Ｉ，　ＭＰＥＧ－２，　ＭＰＥＧ－４等，以及国际电信联盟ＩＴＵ－Ｔ制定的视频编码标准Ｈ．２６Ｘ系列。这些标准采用的图像编码算法融合了各种性能优良的图像编码方法，代表了目前图像编解码的发展水平。而由ＩＴＵ－Ｔ和ＩＳＯ／ＩＥＣ两个组织共同完成的新的视频编码标准Ｈ．２６４／ＡＶＣ更是结合了许多种视频编码的先进技术（１１１２１，从而获得了比以往各种编码标准效果更好的性能，因而必将获得更加广泛的应用。Ｈ．　　　　２６４／ＡＶＣ提出了许多新的先进技术，例如：Ｈ．２６４将视频编码结构上分为两个独立的层：视频编码层ＶＣＬ（ｖｉｄｅｏ　ｃｏｄｉｎｇ　ｌａｙｅｒ）和网络适配层ＮＡＬ（ｎｅｔｗｏｒｋａｂｓｔｒａｃｔｉｏｎ　ｌａｙｅｒ）。视频编码层的主要任务是用高效的方式表述视频数据，也就是进行视频数据的压缩；网络适配层则根据网络的特性对数据进行封装打包，使其适于网络传输；Ｈ．２６４仍然采用基于块的运动补偿和变换编码，但它采用了一些先进的编码技术来提高了压缩效率，例如：运动矢量具有亚像素精度，对于亮度信号来说可以达到１／４像素精度。运动补偿使用了块大小可变的运动补偿，允许西安电了科技大学硕士学位论文视频编码标准１１．２６４及其快速实现算法ｑ（究使用多个参考帧，帧内编码使用帧内预测，自适应环路滤波，还有自适应于内容的算术编码和变长编码，这些编码算法大大提高了１１．２６４的编码效率。然而，这些高效的视频编码技术也使得１　　　　１．２６４的编码复杂度大大增加，这对现在的硬件设备提出了巨大的考验，尤其是对实时性要求特别高的应用（如实时会话业务），１１．２６４的高复杂度将影响其在这些领域的应用。为此需要使用一些快速实现算法，在不明显降低１１．２６４编码性能下，降低１１．２６４的编码复杂度。１．２论文的研究工作１．２．　１论文所完成的研究工作本文主要做了以下几点研究工作：》详细介绍了１１．２６４的编码结构、技术特点及性能复杂度等；》深入研究了１１．２６４帧内编码的特点，在此基础上提出了一种新颖实用的帧内预测编码快速算法。并使用并行指令技术提高帧内编码速度；》在深入研究１１．２６４整数变换的基础上，提出了一种提前判断零块来提高编码速度的方法１．２．２论文所使用的开发平台本论文在配置为Ｐｅｎｔ　　　　ｉｕｍ　ＩＶ　２．ＯＧＨｚ　／　Ｗｉｎｄｏｗｓ２０００的ＰＣ平台下，分别使用ＭｉｃｒｏｓｏｆｔＶｉ　ｓｕａｌ　Ｃ＋＋６．０和Ｉｎｔｅｌ　Ｃ＋＋　Ｃｏｍｐｉｌｅｒ　８．０作为开发和编译平台，改进和优化的性能分析使用了Ｉｎｔｅｌ　ＶＴｕｎｅＴＭ　Ｐｅｒｆｏｒｍａｎｃｅ　Ａｎａｌｙｚｅｒ　７．０，并使用自主开发的１．２６４视频编解码器。１．２．３论文各章节安排本论文的各章节内容安排如下：　　　　　　　　第二章首先介绍１１．２６４视频编码标准的基本结构及主要算法特点，然后详细给出１１．２６４的网络适配层和视频编码层的特点，并给出其性能和复杂度，最后实验比较了１１．２６４与１１．２６３＋的性能差别。第三章首先详细讨论１　　　　１．２６４帧内预测编码算法，然后提出了一种快速帧内预测快速算法，最后给出快速算法的实验结果。第四章首先介绍了１　　　　１．２６４帧间预测以及整数变换的特点，然后结合这些特点提出了一种预先判决零块的方法，最后给出快速算法的实验结果。第二章Ｈ．　２６４视频编码标准第二章Ｈ．　２６４视频编码标准２．　１　Ｈ．　２６４标准简介Ｈ．　　　　２６４／ＡＶ　Ｃ是最新的国际视频编码标准，它的制定过程最早是从１９９８年开始的。当时，ＩＴＵ－Ｔ第１６研究小组在对Ｈ．２６３不断改进的同时，还启动了另一个研究项目Ｈ．２６Ｌ，目标是制定一个新的数字视频编码标准，使其编码效率能够比当时已投入使用的标准提高一倍。这个项目是由视频编码专家组（ＶＣＥＧ一ＩＴＵ－ＴＳＧ１６　Ｑ．６）负责，２００１年１２月，运动图像专家组（ＭＰＥＧ）也加入进来，成立了联合视频小组（Ｊｏｉｎｔ　Ｖｉｄｅｏ　Ｔｅａｍ：　ＪＶＴ），共同来完成了标准的制订工作。２００３年３月，标准的最终草案公布并改名为Ｈ．２６４，由于Ｈ．２６４是由两个组织共同创建完成，所以它分别被称为ＩＴＵ－Ｔ建议Ｈ．２６４和ＩＳＯ／ＩＥＣ国际标准１４４９６－１０（　　ＭＰＥＧ－４第十部分）ＡＶ　Ｃ（先进视频编码）。最终标准于２００３年５月发布１１１Ｈ．　　　　２６４编码的标准化范围如图２．１所示：１标准适用范围图２．　　　　　　　　　　　　　　　　　　　　　　　　　　　　１视频编码标准化范围图２．　　　　１给出一个典型的视频编码／解码系统流程，和以前的ＩＴＵ－Ｔ和ＭＰＥＧ所制定的编码标准一样，只有视频的解码部分被标准化。通过影响和限制比特流和语法，定义视频解码过程的语法单元，所有符合标准的解码器在给定一段编码后的码流经过解码后都会有相同的结果输出。标准的这种范围限制最大可能地提高了使用各自最适合的方式进行性能优化的自由度。与以前的视频编码标准不同，Ｈ．　　　　２６４在结构上分为两层（如图２．２所示）：一个规定视频编码算法的视频编码层（ＶＣＬ）和一个规定网络传输规范的网络抽象层〔ＮＡＬ）。视频编码层的主要任务是用高效的方式表述视频数据，也就是进行视频数据的压缩；网络适配层则根据网络的特性对数据进行封装打包，使其适于网络传输。西安电子科技人学硕士学位论文：视频编码标准Ｈ．２６４及其快速实现算法研究＿＿＿￣［视频编码层（ＶＣＬ）　　蒸（：４：１（ＲＶｍＡＣＬｆ）一Ｐ　２网络抽象层：Ｌ６４－ＮＡ背ＬＩＡ票粤别网络抽象层（　　　　ＮＡＬ）（ＮＡＬ）　　　　　　　　　　告传输层｝噢一ＨＨ．２．６３４　２０ｏｒ覃〕覃鸳延一ＭＰＨ．２Ｅ６４　Ｇｔ－ｏ２Ｈ．２６４　ｔｏＨ．３２４／ＭＨ［Ｌ．Ｔ２ｉｆＰ４　／ＩＰｔｏ罗，”薰“，・图２．　　　　　　　　　　　　　　　　　　　　　　　　　　２　Ｈ．２６４的结构和传输环境　　　　Ｈ．２６４／ＡＶＣ标准在制定时其努力的目标就是针对“会话业务”（视频电话等）和“非会话业务”（存储媒体，广播和流媒体等）的应用，提高压缩性能并提供友好的网络接口，这使得Ｈ．２６４的应用变得非常广泛。Ｈ．２６４可以被广泛应用在以下几个方面：》在电缆、卫星、ＤＳＬ等不同信道上的广播业务；》交互式的或连续的光介质或磁介质存储媒体（如ＤＶＤ等）；》在ＩＳＤＮ、以太网、局域网、ＤＳＬ、无线网络等不同网络上的会话业务；》在ＩＳＤＮ、以太网、局域网、ＤＳＬ、无线网络等不同网络上的视频点播和流媒体业务；》在ＩＳＤＮ、以太网、局域网、ＤＳＬ、无线网络等不同网络上的多媒体短信业务（ＭＭＳ）ａ２．　２　Ｈ．　２６４编码的设计特点　　　　Ｈ．２６４与以前的视频编码标准相比性能获得了很大的提高，但它仍采用的是传统的混合编码框架，Ｈ．２６４编码效率的提高也不是其中某一种新的编码技术所产生的决定性的结果，而是多种新算法结合而产生积累效果而致。相对于以前的视频编码标准，Ｈ．２６４具有如下主要特点：１．提高预测编码部分能力（ＭＣ／ＭＥ）的设计：》具有更小的块并且块大小可变的运动补偿：Ｈ．２６４标准与己往任何标准相比在运动补偿块的大小和形状上的选择都更为灵活。其亮度运动补偿块大小最小可以是４Ｘ４大小。》四分之一像素精度的运动补偿：以前大多数的标准最多支持运动矢量精确到第二章Ｈ．　２６４视频编码标准二分之一象素。而Ｈ．２６４标准中通过使用四分之一像素精度的运动矢量，使得运动补偿更为精确。Ｄ可超越图像边界的运动矢量：ＭＰＥＧ－２及其以前的标准，运动矢量只允许指向己解码的参考图像内的点。图像边界外延技术，首先被Ｈ．２６３作为一个可选项而采用，在Ｈ．２６４中也被包含进来，这使得Ｈ．２６４的运动矢量可以指向超出图像边界的点。》多参考帧运动补偿：在ＭＰＥＧ一及其以前的编码方案中，预测帧（称为Ｐ帧）只允许用前一帧图像来预测下一帧的图像。而Ｈ．２６４扩展了Ｈ．２６３十＋中的参考帧选择技术，允许编码器根据运动补偿原则在大量的己解码并存储在解码器的图像中选择参考帧，来达到高效编码的目的。Ｈ．２６４中同样也对双向预测参考帧的参考能力根据双向运动补偿作了扩展。》去除显示图像顺序和参考图像顺序的辐合性：在以前的标准中，运动补偿的参考帧使用顺序严格依赖于图像播放的顺序。Ｈ．２６４标准彻底去除了这些限制，允许编码器灵活选择参考图像的顺序和播放图像的顺序，其灵活性只受到存储器的总容量必须确保解码能力的限制。同时，这些限制的去除也消除了以前由双向预测编码带来的附加延时。》去除图像参考能力和图像表示方法的相关性：在以前的标准中，使用某些编码方法生成的图像（如：双向预测编码帧）不能用作预测视频序列中其它图像的参考帧。去掉这一限制后，新标准的编码器更为灵活，而且在很多情况下，可以选择与待编码图像更接近的某一幅图像作为参考帧。》权重预测：Ｈ．２６４中的又一个创新是允许编码器对运动补偿预测信号加权。这使得包含淡入淡出效果的图像和其它一些图像在编码效率上有很大提高。》改进的“ｓｋｉｐｐｅｄ”和“ｄｉｒｅｃｔ”模式推断：在以前的标准中，己编码图像中模式为“ｓｋｉｐｐｅｄ”的图像区域的场景内容不能运动，这对包含整体运动的图像是有害的。所以Ｈ．２６４对“ｓｋｉｐｐｅｄ”区域进行运动推断。对双向预测编码区域（Ｂｓｌｉｃｅｓ），　Ｈ．２６４还包含增强的运动推断方法：＂ｄｉｒｅｃｔ”模式的运动补偿，它进一步改善了Ｈ．２６３＋和ＭＰＥＧ－４　Ｖｉｓｕａｌ中“ｄｉｒｅｃｔ”预测的设计。》帧内编码中不同方向的空间预测：在帧内编码的图像中使用了新的空间预测技术，将当前图像中己编码的部分预先解码，将解码区域边缘的象素用于帧内编码区域的空间预测。这一技术增强了预测图像的质量，并允许由邻近区域中非帧内编码的图像预测当前图像。》环路去方块滤波：基于块的视频编码所产生的效应就是块效应，这是源于预测和重构是在解码过程中是不同阶段。自适应去方块滤波的应用是一种为人所熟知的改进图像质量的方法，如果设计得当，它对图像的主观和客观质量都有改进。与Ｈ．２６３＋的选项中的去方块滤波不同的是，Ｈ．２６４的这一设计是在运动补偿预测西安电子科技大学硕士学位论文：视频编码标准Ｈ．２６４及其快速实现算法研究环路中提出的，所以它对图像质量的改善也可应用于帧间预测，进而增强预测其它图像的能力。２．提高变换和编码部分效率的设计：》小的块变换：以前所有主要的视频编码标准都使用大小为８Ｘ８的块进行变换，而新的Ｈ．２６４的设计主要是采用４Ｘ４的变换。这使编码器可以更好的根据当时的场景来表现信号，有效减少了振铃（ｒｉｎｇｉｎｇ）效应。》块大小灵活可变：在大多数情况下，使用大小为４Ｘ４的较小的块进行变换就可以了。但有一些信号的相关性很强，这种情况下的变换就可以使用更长的基函数。Ｈ．２６４标准对这种情况的处理有两种方法：一是通过使用分级变换来扩充有效的块大小，对频率较低的色度信号，将其组成８Ｘ８的数组；二是通过允许编码器在帧内编码时选择特殊的编码类型，使得对频率较低的亮度信号的变换长度扩充到１６　Ｘ　１６的块大小，这与色度信号的处理方法很类似。》短整型字长的变换：所有以前标准的编解码器对变换的计算的设计中，处理都较为复杂，所以以前的标准中都采用３２比特的处理，而在Ｈ．２６４中仅要求１６比特的计算。》精确匹配的逆变换：在以前的视频编码标准中，用于表现视频的变换通常被限定在误差允许的范围内，因为得到精确匹配的理想的逆变换是不现实的。所以，不同的解码器设计解得的视频图像有微小的差异，产生编解码器所表现的视频信号的“漂移”，使视频质量下降。Ｈ．２６４是第一个达到解码的视频内容精确等价于编码质量的标准。》算术嫡编码：Ｈ．２６４包含了一种先进的嫡编码方法一算术编码。算术编码作为Ｈ．２６３的可选项出现过，Ｈ．２６４中更为有效地利用了这一技术，提出了功能非常强大的嫡编码算法一ＣＡＢＡＣ（基于内容的自适应算术编码）。》基于内容的自适应嫡编码：Ｈ．２６４中的两种嫡编码方法分别是：ＣＡＶＬＣ〔基于内容的自适应变长编码）和ＣＡＢＡＣ，它们都是用基于内容的自适应手段来提高编码效率。３．提高抗误码／丢包以及增强在不同网络环境下操作的灵活性的设计：》参数集结构：参数集的设计为头信息的鲁棒性和高效安全性提供了保障。在以前的标准中如果关键信息丢失了几个比特（比如序列的头或图像的头信息）可能严重影响解码过程，在Ｈ．２６４中对这些关键信息用更为灵活的方法单独处理。》ＮＡＬ单元语法结构：Ｈ．２６４的每个语法结构都按逻辑数据打包，称为ＮＡＬ单元。与以前的视频标准强制系统使用特定的比特流接口不同，Ｈ．２６４的ＮＡＬ单元语法结构允许根据特定的网络自定义合适的方法来传送视频内容。》灵活的ｓｌｉｃｅ大小：与ＭＰＥＧ－２中定义的固定的ｓｌｉｃｅ结构不同，Ｈ．２６４中的第二章Ｈ．２６４视频编码标准ｓｌｉｃｅ大小与早些的ＭＰＥＧ－１一样是非常灵活的。》灵活的宏块顺序（ＦＭＯ　）：提出了一种将图像划分成被称为ｓｌｉ。组的新方法，ｓｌｉｃｅ组中的每一个ｓｌｉｃｅ都可以作为一个单独的解码单位。有效利用了这一点，灵活的宏块顺序就可以显著增强抗数据丢失的鲁棒性。》任意的ｓｌｉｃｅ顺序（ＡＳＯ）：因为编码图像的每一个ｓｌｉｃｅ基本都可以与图像中的其他ｓｌｉｃｅ独立地进行解码，所以在Ｈ．２６４的设计中，可以以任意顺序发送和接收图像中的ｓｌｉｃｅ。这种能力可以改善实时应用中端到端的延时，尤其是乱序发送的网络。》冗余图像：为了增强抗数据丢失的鲁棒性，Ｈ．２６４的设计中允许编码器发送图像某些区域的冗余表示，这样当基本表现部分在传输过程中丢失时，仍可以表现图像的某些区域。》数据分割：在表现视频内容时，某些编码信息比别的信息更为重要或更有价值〔如运动矢量或其它预测信息），因此，Ｈ．２６４允许每个ｓｌｉｃｅ的语法可以按语法元素的范畴被分为三个不同的部分进行传输。Ｄ　　ＳＰ／Ｓｉ同步彻换帧：ＳＰ／ＳＩ帧是Ｈ．２６４设计的两种新的图像类型，通过使用ＳＰ／Ｓｉ帧就可以在解码端做到与其他解码器正在产生的视频流精确同步，而无需对所有解码器都传送一个Ｉ帧而造成效率下降。这就使得解码器可以在以不同的数据传输速率播放的视频内容间进行切换，以及抗数据丢失和数据错误，并且能够使用ｔｉｒｃｋ模式（如快进、快倒等）。２．　３　Ｈ．　２６４网络适配层（ＮＡＬ）网络适配层被设计成提供“友好”网络，使得对于不同的传输系统能够简单　　　　有效的组织和使用视频编码的数据。网络适配层能够方便地将Ｈ．２６４视频编码层的数据影射到不同类型的传输层上（如图２．１所示），例如：》任何种类实时的有线和无线Ｉ　　　　ｎｔｅｒｎｅｔ业务的ＲＴＰ／ＩＰ传输协议层。》文件格式，例如，Ｉ　　　　ＳＯ用于存储的ＭＰ４和ＭＭＳ等。应用于有线和无线会话业务的Ｈ．３２Ｘｅ卜卜用于广播业务的ＭＰＥＧ－２系统等。２．　３．　１　ＮＡＬ单元编码以后的数据以ＮＡＬ单元的形式组织起来，每一个ＮＡＬ单元可以是一个　　　　有效的包含整数个字节的分组。每一个ＮＡＬ单元的第一个字节包含了对ＮＡＬ单元中数据类型的指示，而剩下的字节包含了相应类型的有效载荷数据。西安电子科技大学硕上学位论文视频编码标准Ｈ．２６４及其快速实现算法研究在ＮＡＬ单元中的数据为了避免与可能加入到ＮＡＬ单元前面的开始码前缀冲　　　　突加入了冲突避免字节，通过加入特定的字节ＮＡＬ单元中的数据就不会出现与开始码前缀一样的码子了。ＮＡＬ单元结构定义说明了一个一般的格式，它可以被使用在面向数据分组和　　　　面向比特流传输的两种不同的系统。一系列由编码器产生的ＮＡＬ单元就形成了ＮＡＬ单元流。２．　３．　２　ＮＡＬ单元以字节流格式使用一些系统（如Ｈ．　　　　３２０和ＭＰＥＧ－２／Ｈ．２２２．０系统）需要将整个或者部分ＮＡＬ单元以有顺序的字节流或比特流的形式进行发送，在这些ＮＡＬ单元之间的边界位置就必须通过这些编码后的数据本身来进行识别。为了在这种系统中进行应用，Ｈ．　　　　２６４专门定义了一个字节流格式。在字节流格式中，每个ＮＡＬ单元前面放上了３个字节的开始码前缀。这样ＮＡＬ单元的边界就可以通过在码流中寻找独一无二的开始码前缀部分来识别。通过使用冲突避免字节（ｅｍｕｌａｔｉｏｎ　ｐｒｅｖｅｔｉｏｎ　ｂｙｔｅｓ）保证了开始码前缀在每一个ＮＡＬ单元中是可以被独一无二地识别的。２．　３．　３　ＮＡＬ单元以分组传输系统使用而在一些系统里（如使用Ｉ　　　　Ｐ／ＲＴＰ协议的系统），编码后的数据按照系统传输层协议以分组的形式进行传输，并且在这样的系统里ＮＡＬ单元的边界的不使用开始码就可以被识别。因此，为了减少数据冗余，在这样的系统中ＮＡＬ单元没有加入开始码前缀。２．３．４　ＶＣＬ－ＮＡＬ单元和非ＶＣＬ－ＮＡＬ单元　　　　ＮＡＬ单元可以被分为ＶＣＬ－ＮＡＬ单元和非ＶＣＬ－ＮＡＬ单元。ＶＣＬ－ＮＡＬ单元包含了表示视频图像的采样数据，而非ＶＣＬ－ＮＡＬ单元包含任何与附加信息相关的数据，如参数集（可以被应用到大量ＶＣＬ－ＮＡＬ单元的重要头信息）和附加信息域（如时间信息或者是别的附加信息）。２．３．　５参数集参数集就是包含了一些很少改变的并且被应用到很多ＶＣＬ－ＮＡＬ单元进行解第二章Ｈ．　２６４视频编码标准码的一些信息数据。参数集分为两种：》序列参数集：序列参数集被应用在一系列连续的编码后的视频序列中。》图像参数集：图像参数集被应用在一个视频编码序列中一个或更多个图像中。序列参数集和图像参数集这种机制使得将一些不经常改变的信息的传输与编　　　　码后的表示视频图像采样值信息的数据的传输分离开来。每个ＶＣＬ－ＮＡＬ单元包含一个标识用来说明参考相关图像参数集的内容，而每一个图像参数集又包含一个标识用来说明对相关序列参数集内容的参考。用这种方法，一些少量的数据就可以用来对大量信息的参考而不用在每个ＶＣＬ－ＮＡＬ单元中重复传输这些信息。　　　　序列参数集和图像参数集可以发送在需要使用的ＶＣＬ－ＮＡＬ单元之前。为了增强抵抗丢失数据的健壮性，序列参数集和图像参数集可以被重复发送。在一些应用中，参数集可以与发送视频数据的信道一同传输，而在另一些应用中，参数集还可以通过比发送视频数据所用的信道更可靠的信道进行传输。２．３．６　Ａｃｃｅｓｓ单元　　　　一组以指定的形式组合的ＮＡＬ单元被称为Ａｃｃｅｓｓ单元。通过对每个Ａｃｃｅｓｓ单元的解码就可以解出一帧的图像数据。每一个Ａｃｃｅｓｓ单元的格式如图２．３所示图２．　　　　　　　　　　　　　　　　　　　　　　　　　　３　Ａｃｃｅｓｓ单元结构　　　　每个Ａｃｃｅｓｓ单元包含了一组ＶＣＬ甲ＮＡＬ单元所组成的基本编码图像，而在基本编码图像前面可以加入一个Ａｃｃｅｓｓ单元分隔符用来帮助定位Ａｃｃｅｓｓ单元的起始位置。在附加信息域中包含了一些诸如图像时间信息等一些可能用于对基本编码图像进行处理的附加信息西安电子科技大学硕士学位论文：视频编码标准Ｈ２６４及其快速实现算法研究基本编码图像包含了一组ＶＣＬ－　　　　ＮＡＩ单元，而这些ＶＣＬ－ＮＡＬ单元又包含了表示视频图像采样的ｓｌｉｃｅ和ｓｌｉｃｅ数据分割。　　　　在基本编码图像后面可以是一些附加的冗余的编码后图像数据的ＶＣＬ－ＮＡＬ单元，当解码端数据丢失或者基本编码图像解码失败后即可以使用这些冗余编码图像　　　　最后如果编码图像是序列中最后一个图像，那么一个序列结束ＮＡＬ单元就可以被加入其中；如果编码图像在一个完整的ＮＡＬ单元流中是最后一个编码图像，那么一个流结束ＮＡＬ单元可以被加入其中来说明整个码流的结束。２．３．７编码后的视频序列　　　　一个编码后的视频序列包含一系列的由连续ＮＡＬ单元组成的Ａｃｃｅｓｓ单元，并且只使用一个序列参数集。每个编码后的视频序列在给定必要的参数集后可以独立于任何别的视频序列进行解码。在每个编码视频序列的开始是一个立即解码刷新（ＩＤＲ）　Ａｃｃｅｓｓ单元，一个ＩＤＲ　Ａｃｃｅｓｓ单元包含一个帧内编码帧。一个ＮＡＬ单元流可以包含一个或者多个视频编码序列。　　　　２．　４　Ｈ．　２６４视频编码层（ＶＣＬ）　　　　视频编码层被用来高效的表示视频数据。自Ｈ．２６１标准制定以来，所有以前的ＩＴＵ－Ｔ和ＩＳＯ／ＩＥＣ　ＪＴＣ１视频编码标准中，视频编码的设计都采用基于块的混合视频编码方法，每幅编码图像都以宏块为单位表示。其基本的编码算法思想是通过帧间图像预测来减少时间统计相关性：通过对预测残差信号进行变换编码来减少空间统计相关。虽然Ｈ．２６４的每一项新技术没有大幅提高编码效率，但是，诸多小改进组合起来就使Ｈ．２６４在性能上获得了显著的提高。　　　　图２．４说明了Ｈ．２６４中基于块的ＶＣＬ结构，从图中可以看出一个宏块的所有的亮度和色度采样都进行了空间上的预测和时间上的预测，并且预测残余信号被使用变换来进行编码，为了变换的目的，每个预测残余信号被分割成更小的４ｘ４块。每个块使用整数变换，并且对变换后的系数进行量化后使用嫡编码。西安电子科技大学硕士学位论文：视频编码标准Ｈ．２６４及其快速实现算法研究２．　４．　３图像的划分Ｓｌｉｃｅ和ｓｌｉｃｅ　ｇｒｏｕｐ当不使用ＦＭＯ（　　　　ｌｆｅｘｉｂｌｅ　ｍａｃｒｏｂｌｏｃｋ　ｏｒｄｅｒｉｎｇ）时，由一系列宏块按光栅扫描顺序组成的宏块序列即为ｓｌｉｃｅ。一个图像可以被分成一个或几个ｓｌｉｃｅ（如图２．５所示）。因此在Ｈ．２６４中一个图像是一个或多个ｓｌｉｃｅ的组合。给定有效序列和图像参数集，ｓｌｉｃｅ就可以从比特流中解析出语法元素，继而对ｓｌｉｃｅ表示的图像区域的采样值正确解码，而无需使用其它ｓｌｉｃｅ提供的数据。但Ｓｌｉｃｅ边界的去方块滤波可能需要其它ｓｌｉｃｅ的一些信息。曰口门门下「门下「「门曰弓１ｌｉ曰口门口巴口］Ｆ门门门习ｏ－Ｉ口口口口－ｒ－ｒ门门门尸门门口口口口［口－７｝一曰ｌｉ曰１口口口口口口ｒ］门门Ｆ门｝］口门曰尸－「门曰口口口口口口口口口口口ｌ１曰网」图２．　　　　　　　　　　　　　　　　　　　　　　５将图像分成ｓｌｉｃｅ（未使用ＦＭＯ）　　　　ＦＭＯ通过使用ｓｌｉｃｅ　ｇｒｏｕｐ的概念改变了把图像分成很多的ｓｌｉｃｅ和很多的宏块的方式。每个：ｌｉｃｅ　ｇｒｏｕｐ是根据宏块到ｓｌｉｃｅ　ｇｒｏｕｐ的映射图而定义的一组宏块，它是由图像参数集的内容和ｓｌｉｃｅ头中说明的一些信息指定的。宏块到ｓｌｉｃｅ　ｇｒｏｕｐ映射图对图像中的每一个宏块都分配一个ｓｌｉｃｅ　ｇｒｏｕｐ标志数字，标识宏块所属的ｓｌｉｃｅ　ｇｒｏｕｐ。每个ｓｌｉｃｅ　ｇｒｏｕｐ又可以分成一个或多个ｓｌｉｃｅ，这样一个ｓｌｉｃｅ就是在同一ｓｌｉｃｅ　ｇｒｏｕｐ中的一组宏块，而这些宏块在一个特定的ｓｌｉｃｅ　ｇｒｏｕｐ中是按光栅扫描的顺序被处理的。（不使用ＦＭＯ的情况可被看作是整个图像只包含一个ｓｌｉｃｅｇｒｏｕｐ的特殊情况。）不考虑是否使用ＦＭＯ，每个ｓ　　　　ｌｉｃｅ可以使用如下不同的编码方式进行编码：　　　　Ｉ　ｓｌｉｃｅ：　ｓｌｉｃｅ内的所有宏块都使用帧内预测进行编码。Ｐ　　　　　ｓｌｉｃｅ：除了有Ｉ　ｓｌｉｃｅ的编码方式外，Ｐ　ｓｌｉｃｅ中的一些宏块还可以使用最多有一个运动补偿预测信号的帧间预测进行编码。Ｂ　　　　　ｓｌｉｃｅ：除了具有Ｐ　ｓｌｉｃｅ可使用的编码方式的外，Ｂ　ｓｌｉｃｅ中的一些宏块还可以使用有两个运动补偿预测信号的帧间预测。以上的三种编码模式除了对参考图像的使用有所不同外与以前的标准十分相　　　　似。以下是两种新的ｓｌｉｃｅ的编码模式：ＳＰ和ＳＩ　Ｓｌｉｃｅ．ＳＰ　　　　　ｓｌｉｃｅ：切换Ｐ　ｓｌｉｃｅ，目的是为了在不引起类似于插入Ｉ－Ｓｌｉｃｅ所带来的比特率开销的情况下，进行码流间的切换。它的使用可使不同预测编码图像之间的高效切换成为可能。第二章Ｈ．　２６４视频编码标准ＳＩ　　　　　ｓｌｉｃｅ：切换Ｉ　ｓｌｉｃｅ，和ＳＰ－Ｓｌｉｃｅ的用途一样，所不同的是ＳＩ－Ｓｌｉｃｅ的预测使用帧内预测而不是运动补偿，因此它主要用于从一个码流切换到另一个完全不同的码流，在这种情况下，因为两个序列之间没有相关性，所以运动补偿将没有帧内预测的效率高。它可被应用于随机访问和错误掩盖。２．４．４帧内预测　　　　如果一个宏块以帧内编码模式进行编码，则可根据已编码重建的块来形成一个预测块，从而进行帧内预测。就亮度信号来说，预测块可以是１６Ｘ　１６的块，或是４Ｘ４的块。对于１６Ｘ１６的块有４个可选的预测模式，而对于４Ｘ４的亮度块则有９个可选的预测模式。根据ｓ　　　　ｌｉｃｅ编码类型的不同，每个宏块都可以以几种编码类型中的一种进行传输。在所有ｓｌｉｃｅ编码类型中，８２６４支持以下类型的帧内编码：亮度帧内４Ｘ４预测模式、亮度帧内１６Ｘ　１６预测模式、色度帧内８Ｘ８预测模式和Ｉ　ＰＣＭ四种预测模式。亮度帧内４ｘ４预测模式对每个４Ｘ４亮度块都单独进行预测，它对图像部分　　　　区域的细节描述效果很好。亮度帧内１６Ｘ　１６预测模式则对整个１６Ｘ　１６的亮度块进行预测，它更适合于图像中平滑区域的编码。作为帧内亮度１６Ｘ　１６预测模式和帧内亮度４Ｘ４预测模式的替代，Ｉ　ＰＣＭ编码模式允许编码器简单的避免预ＡＪ和变换编码过程，直接传输编码采样值。使用Ｉ一ＣＭ模式具有以下几个目的：１）允许编码器精确表达采样值：２）为精确表示不规则图像内容提供了方法，且数据量没有显著增加；３）可以给解码器在处理一个宏块时必须处理的比特数作一个硬性限制而不损失编码效率。　　　　　　　　以前的视频编码标准中帧内预测通常在变换域进行，而在Ｈ．２６４中，预测通常用己进行编码的相邻块的采样点预测（一般是预测块的上方或左方的块），在空间域进行。在存在传输错误并导致帧间编码宏块出错的环境，这种做法可能导致错误扩散。在这种情况下，可以采取严格的帧内编码模式，要求参与预测的相邻宏块必须是以帧内模式编码的。亮度４Ｘ４预测模式根据不同的预测方向共分为９种预测模式，他们是：模　　　　式。：垂直预测模式，模式１：水平预测模式，模式２：　ＤＣ预测模式，模式３：左斜下预测模式，模式４：右斜下预测模式，模式５：垂直偏右预测模式，模式６：水平偏下预测模式，模式７：垂直偏左预测模式，模式８：水平偏上预测模式。亮度帧内１６　Ｘ　１６预测模式支持四种预测模式。模式０：垂直预测模式，模式１：水西安电子科技大学硕上学位论文：视频编码标准Ｈ．２６４及其快速实现算法研究平预测模式，模式２：　ＤＣ预测模式，模式３：　Ｐｌａｎｅ预测模式。由于色度信号通常在很大范围内都很平滑，宏块中的色度采样点的预测使用与帧内亮度１６　Ｘ　１６预测模式相似的预测技术，其预测模式也是４种分别为：模式０：　ＤＣ预测、模式１：水平预测、模式２：垂直预测、模式３：平面预测。（在第三章本文将进行更详细的讨论）为了保证所有ｓ　　　　ｌｉｃｅ之间相互独立，当跨越边界时不使用帧内预测（及所有其它形式的预测）。２．４．７帧间预测Ｉ，　Ｐ　Ｓｌｉｃｅ的帧间预测　　　　在Ｐ　Ｓｌｉｃｅ中的宏块除了帧内宏块的编码类型外，还有帧间编码类型的宏块一Ｐ宏块。对Ｐ宏块类型还定义了各种帧间预测或运动补偿编码类型。每个Ｐ宏块类型都对应了一种宏块的划分方式，划分出的块可用于运动补偿预测。语法定义支持亮度信号的每一个宏块（１６Ｘ　１６）可以有四种划分形式（如图２．６）：　１６Ｘ１６，１６Ｘ８，　８Ｘ１６和８Ｘ８。当选择８Ｘ８的块时还要传送一个附加的语法元素，这个语法单元说明这个８Ｘ８的块是否进行了进一步的划分。如果采用８Ｘ８模式，则每一个块还可以进一步的划分为（如图２．６）：　８ｘ８，　８Ｘ４，　４Ｘ８或４Ｘ４．１６ｘ１６　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　１６ｘ８　　　　　　　　　　　　　８ｘ１６　０８ｘ８０ｌ宏块划分１２３００ｌ亚宏块划分ｌ２３图２．　　　　　　　　　　　　　　　　　　　　　　　　　　　　６宏块、亚宏块划分采取这样的宏块划分和亚宏块划分，在每一宏块内可以为运动预测提供多种　　　　可选的块组合方式。在Ｈ．２６４标准中是采用率失真优化的方式来进行划分的，一般来说，对于帧内较平滑的区域选择比较大的块，而对于细节部分则应选择较小的块。每个预测编码的ＭＸＮ亮度块的预测信号通过置换参考图像的相应区域得　　　　到，它由可译的运动矢量和一个图像参考索引详细说明。这样，如果宏块使用四个８Ｘ８的块进行编码，每个８Ｘ８的块又进一步分成四个４Ｘ４的块，对一个Ｐ第二章Ｈ．　２６４视频编码标准宏块最多要传送一共１６个运动矢量。Ｈ．　　　　２６４中的运动矢量具有亚像素精度（不同于Ｈ．２６３中的半像素精度），对于亮度信号来说可以达到１／４像素精度。亚像素精度比整像素精度的性能要好得多，但它增加了运算复杂度。当运动矢量指向一个整数采样位置时，预测信号由参考图像的相应采样点组成，否则预测值将通过使用内插法产生非整数位置而得到。二分之一位置的采样信号的预测值是通过应用一维的水平和垂直六阶ＦＩＲ滤波器得到的。四分之一位置的采样信号的预测值是通过将整数和二分之一采样位置的采样点插值得到的。口　　　　　　　　　　　　　　　　口囚ａａ，，国口口口回画回口口口沉国圃回口一图口口回回口国国口　　　　图２．７说明了采样点ａ一ｋ，”一，的分数采样内插方法。要得到二分之一采样点ｂ和ｈ，先是通过六阶滤波器分别计算中间值ｂ１，　ｈｌ，如下式所示：ｂ和ｈ的最后预测值再经过如下计算，并将结果限制在０到２５５．　　　　在位置１处的二分之一采样点是通过下式得到的：　　　　．ｆ｝的中间值的得到方法与ｈｌ类似。最后的预测值其中标为ｃｃ，　ｄｄ，　ｅｅ，　ｍｉ，并限制其范围在。到２５５。两种方法都可以得到Ｊｌ１的计算是１＝　（Ｊｉ十５１２）＞＞１０，图同一国口口口口口　　　　　　　　　　　　　　口口画回口图２．　　　　　　　　　　　　　　　　　　　　　　　　７分像素精度运动补偿的滤波ｂ　　　　　　　　　　　　　　　　　　　　，　＝　（Ｅ一５Ｆ　＋　２０Ｇ　＋　２０Ｈ一５１　＋　Ｊ）　　　　　　　　　　　　　　　（２－１）ｈ，　　　　　　　　　　　　　　　　　　　　　＝　（Ａ一５Ｃ　＋　２０Ｇ　＋　２０Ｍ一５Ｒ　＋　Ｔ）　　　　　　　　　　　　　　　（２－２）ｂ＝（　　　　　　　　　　　　　　　　　　　　　　　ｂ，　＋１６）＞＞５　　　　　　　　　　　　　　　　　　（２－３）ｈ＝（　　　　　　　　　　　　　　　　　　　　　　　　权＋１６）　＞　５　　　　　　　　　　（２－４）Ｊ，　＝ｃｃ一５ｄｄ　＋　２０４　＋　２０ｍ，一５ｅｅ＋　ｆ　　　　　　　　　　　　　　　（２－５）西安电子科技大学硕上学位论文：视频编码标准Ｈ．２６４及其快速实现算法研究这说明在生成这一位置的１／２像素时，滤波操作确实是可分离的。四分之一采样点ａ，　ｃ，　ｄ，　ｎ，不ｉ，　ｋ，　ｑ是通过平均两个最近的整数和二分之一采样点得到的。ａ＝（Ｇ＋ｂ＋ｌ）＞＞１（２－６）四分之一采样点。，９，Ｐ，；是通过平均对角线上两个最近的二分之一采样点得到的。ｅ＝（ｂ＋ｈ＋ｌ）＞＞（　　　　　　　　　２－７）色度分量的预测值通常是通过双向线性内插得到的。因为色度信号的采样分辨率比亮度分量低，色度信号位移矢量的精度是八分之一像素。使用整像素、１　　　　／２像素、１／４像素精度的运动预测与过去的标准相比取得了显著的进步，原因如下：１．最显著的原因是运动估值／　　　　运动补偿更精确。　　　　２．另一个原因是预测滤波器更为灵活。整像素、１／２像素、１／４像素精度预测，表示了不同的ｆ氏通滤波程度，它由运动估计过程自动选择。六阶滤波器既有效进行了预测环路的滤波，又能够保存预测环路中的高频内容。语法允许所谓的运动矢量超出图像边界，即运动矢量指向了图像区域之外。　　　　在这种情况下，参考帧通过将边界采样点在内插前复制而进行扩边。运动矢量的各分量采用差分编码，预测值通过对相邻块进行中值预测或方向　　　　预测而得到。所有运动矢量成分的预测（或其它任何预测）都不会超出ｓｌｉｃｅ边界。语法支持多参考图像的运动补偿预测以提高编码效率。这样编码时可作使用　　　　以前编码后重建的一帧或一帧以上图像作为参考进行运动预测补偿。这在自然场景周期变换和两个场景交替转换等很多场合尤其有效。多参考帧运动补偿预测要求编解码器都在多图像缓存中存储用于帧间预测的　　　　参考图像。解码器根据比特流中定义的存储器管理控制操作，复制编码器的多图像缓存。除非多帧图像缓存的大小被设置成一帧图像，否则必须指明多帧图像缓存中参考图像的索引（ｉｎｄｅｘ）。对每个进行运动补偿的１６Ｘ１６，　１６ｘ８，　８ｘ１６，　８Ｘ８亮度块都必须传送参考索引参数。运动补偿预测区域小于８Ｘ８时在整个８Ｘ８区域内使用相同的参考索引。除了上面所讲的运动补偿宏块模式，Ｐ宏块还可以按所谓的Ｐ　　　　　ｓｋｉｐ类型进行编码。对这种编码类型，既不传输量化后的预测误差信号，也不传送运动矢量以及参考索引参数。重建信号的获得方法与在多图像缓存中索引为。的Ｐ＿　１６　Ｘ　１６宏块类型参考图像的预测信号相似。重建Ｐ　Ｓｋｉｐ宏块所需的运动矢量与１６Ｘ　１６块的运动矢量预测类似。Ｐ＿　Ｓｋｉｐ编码类型的定义适用于没有变化或连续运动的较第二章Ｈ．　２６４视频编码标准大区域，比如缓慢的镜头移动用很少的比特就可以表示。２，　　　　　Ｂ　Ｓｌｉｃｅ的帧间预测与以前的视频编码标准相比，Ｈ．　　　　２６４提出了Ｂ　ｓｌｉｃｅ的新概念。其它图像在进行运动补偿预测时可以参考含有Ｂ　ｓｌｉｃｅ的图像，这取决于多帧图像缓存的存储器管理控制操作。这样Ｂ　ｓｌｉｃｅ和Ｐ　ｓｌｉｃｅ的真正区别在于，Ｂ　ｓｌｉｃｅ的编码中有些宏块或块可以对两个截然不同的运动补偿预测值进行加权平均得到预测信号。Ｂ　ｓｌｉｃｅ使用两个不同的参考图像列表，它们分别被称为第一参考图像列表（（ｌｉｓｔ　０）和第二参考图像列表〔ｌｉｓｔ　１）。究竟是哪幅图像存放在每个参考图像列表中，是多帧图像缓存控制和操作的问题。Ｂ　　　　　ｓｌｉｃｅ支持四种不同的帧间图像预测：ｌｉｓｔ　０，　ｌｉｓｔ　１，双向预测和直接预测。对双向预测模式，预测信号是由运动补偿ｌｉｓｔ　０和ｌｉｓｔ　１预测信号加权平均得到的。直接预测模式是由以前传输的语法元素推得的，既可以是ｌｉｓｔ　０或ｌｉｓｔ　１预测，也可以是双向预测。Ｂ　　　　　ｓｌｉｃｅ的宏块划分方式与Ｐ　ｓｌｉｃｅ类似。除了Ｐ　１６Ｘ１６，　Ｐ　１６Ｘ８，　Ｐ　８ｘ１６，Ｐ－８　Ｘ８和帧内编码模式，Ｂ　ｓｌｉｃｅ还支持双向预测和另一种被称为直接预测的预测方式。每个１６Ｘ１６，　１６Ｘ８，　８Ｘ１６，　８Ｘ８区域可以独立选择预测方法（ｌｉｓｔ　０，　ｌｉｓｔＩ，双向预测）。Ｂ宏块中的８Ｘ８区域也可以使用直接模式编码。如果直接宏块模式没有传送预测误差信号，它也可被称为Ｂ　＿Ｓｋｉｐ模式，其编码与Ｐ　ｓｌｉｃｅ中的Ｐ　＿Ｓｋｉｐ模式相似，效率也很高。运动矢量编码方法与Ｐ　ｓｌｉｃｅ相似，并针对Ｂ　ｓｌｉｃｅ的相邻块可以使用不同的预测模式而作了改进。２．４．８变换和量化　　　　与以前的视频编码标准相似，Ｈ．２６４对预测残留信号进行变换编码。在Ｈ．２６４中，是对４Ｘ４的块进行变换，并且用与４　Ｘ　４　ＤＣＴ特征类似的可分离的整数变换替代了８ｘ８离散余弦变换（ＤＣＴ　）。因为其逆变换也被定义为精确的整数运算，所以避免了逆变换不匹配问题。基本变换编码过程与以前的标准类似。　　　　前面己经提到帧内１６Ｘ　１６亮度预测模式和８Ｘ８色度帧内模式用于对平滑区域的编码。因此ＤＣ系数要进行二次变换，得到的变换系数覆盖整个宏块。对每四个４Ｘ４块色度分量的ＤＣ系数也要再进行一个２Ｘ２的变换。平滑内容的二维变换采样点的相关性接近１。在这种情况下重建精度与一维变　　　　换的大小成反比。因此对很平滑的区域，８Ｘ８块变换的重建误差与４Ｘ４块变换相比减半。二次变换的原理与之相似。使用较小变换的原因如下：　　　　１．当前标准的主要改进之一就是帧内预测和帧间预测。因此残留信号的空间　　　　西安电子科技大学硕士学位论文：视频编码标准Ｈ．２６４及其快速实现算法研究相关性减小。这意味着变换对去相关性的贡献减少。这也意味着４Ｘ４变换与较大的变换在去除统计相关性上的效率基本相同。２．客观压缩能力差不多时，较小的４Ｘ４变换在边界处的视觉噪声更小（称　　　　作“蚊子噪声”或“振铃（ｒｉｎｇｉｎｇ）效应”）３．较小变换的计算更少，处理字长更小。因为Ｈ．　　　　２６４中的变换过程只包含加法和位移，这就避免了编解码器的不匹配〔而在早期的８Ｘ８ＤＣＴ变换中就存在着个问题）。Ｈ．　　　　２６４／ＡＶ　Ｃ使用量化参数来决定变换系数的量化值。量化参数可以取５２个值，量化参数被设置为每增加一对应量化步长增加１２％〔也就是说量化参数每增加６量化步长增加一倍）。而量化步长每增加１２％也就意味着码流大概减少１２％．量化后的变换系数被以‘　　　　Ｚ’字形扫描并经嫡编码后传输。在Ｈ．２６４／ＡＶＣ中所有的变换、反变换操作可以只使用１６位的加法和移位操作，量化也只使用了乘法避免了除法。２．４．９嫡编码　　　　Ｈ．２６４／ＡＶＣ使用两种可相互替换的嫡编码方法：一个是低复杂度基于内容的自适应变长编码叫作ＣＡＶＬＣ，而另一种是更复杂的基于内容自适应的算术编码。这两种方法与使用在以前的视频编码标准上的传统统计编码技术相比有了很显著的改进。Ｈ．２６４对于Ｓｌｉｃｅ层以上的数据采用Ｅｘｐ－Ｇｏｌｏｍｂ码，这是一种没有自适应能力的ＶＬＣ。而对于Ｓｌｉｃｅ层以下的数据，如果是残差信号，Ｈ．２６４有两种嫡编码的方式：基于上下文的自适应变长码（ＣＡＶＬＣ）和基于上下文的自适应二进制算术编码（（ＣＡＢＡＣ）；如果不是残差信号，Ｈ．２６４采用Ｅｘｐ－Ｇｏｌｏｍｂ码或ＣＡＢＡＣ编码，视编码器的设置而定。　　　　ＣＡＶＬＣ：　ＶＬＣ的基本思想就是对出现频率大的符号使用较短的码字，而出现频率小的符号采用较长的码字。这样可以使得平均码长最小。在ＣＡＶＬＣ中，Ｈ．２６４采用若干ＶＬＣ码表，不同的码表对应不同的概率模型。编码器能够根据上下文，如周围块的非零系数数或系数的绝对值大小，在这些码表中自动地选择，最大可能地与当前数据的概率模型匹配，从而实现了上下文自适应的功能。ＣＡＢＡＣ：算术编码是一种高效的嫡编码方案，其每个符号所对应的码长被认　　　　为是分数。由于对每一个符号的编码都与以前编码的结果有关，所以它考虑的是信源符号序列整体的概率特性，而不是单个符号的概率特性，因而它能够更大程度地逼近信源的极限嫡，从而降低码率。为了绕开算术编码中无限精度小数的表示问题以及对信源符号概率进行估计，现代的算术编码多以有限状态机的方式实现，Ｈ．２６４的ＣＡＢＡＣ便是一个例子，其他的例子还有ＪＰＥＧ２０００。在ＣＡＢＡＣ中，第二章Ｈ．　２６４视频编码标准每编码一个二进制符号，编码器就会自动调整对信源概率模型（用一个“状态”来表示）的估计，随后的二进制符号就在这个更新了的概率模型基础上进行编码。这样的编码器不需要信源统计特性的先验知识，而是在编码过程中自适应地估计。显然，与ＣＡＶＬＣ编码中预先设定好若千概率模型的方法比较起来，ＣＡ￥ＡＣ有更大的灵活性，可以获得更好的编码性能。２．４．　１０环路去方块滤波基于块进行编码的一个缺点就是会产生可见的块结构。重建的块边界比内部　　　　图像的精确度低，“分块化”通常被看作是当前压缩方法最显著的特征之一。正因为如此，Ｈ．２６４定义了一种自适应的环路去方块滤波，其滤波的强度由几个语法元素的值控制。Ｈ．　　　　２６４中使用一个环路滤波器对１６Ｘ　１６宏块和４Ｘ４块的边界进行去方块滤波。在编码端反变换后，也就是在此宏块重建和存储用于预测其它宏块之前，应用去方块滤波：在解码端，在重建和显示此宏块之前也要应用去方块滤波。对１６Ｘ１６宏块进行去方块滤波主要针对的是由于相邻宏块之间的编码方式不同（运动补偿或是帧内编码）以及量化步长不同而引起的块效应；而对４Ｘ４宏块进行的去方块滤波主要针对的是由于相邻块之间的变换、量化和运动矢量不同而引起的方块效应。去方块滤波有两个优点：平滑了块边界，尤其是在高压缩率的情况下，可以　　　　获得非常可观的主观质量改进；经过滤波后的宏块用于运动补偿预测可以使预测后的差值信号减少。４Ｘ４块的边界　　　　　　图２．８去方块滤波原理４。及Ｐｉ、９，是否需要滤波取决于图２．　　　　８表示去方块滤波的原理。采样点Ｐｏ，。这样Ｐ。和９。的滤波只有当下列由量化参数（ＱＰ）决定的门限ａ（ＱＰ）和ＡＱＰ）条件满足时才进行。１）ＩＰ。一。。卜ａ（ＱＰ）西安电了科技大学硕士学位论文视频编码标准Ｈ．２６４及其快速实现算法研究２）　Ｉｐ、一Ｐｏ卜１６（ＱＰ）３）　Ｉｇ，一Ｒｏ卜ｆ　（ＱＰ）（２－８）其中ｆ（ＱＰ）比“（ＱＰ）小得多。因此当下述条件满足时，对Ｐ，或４，滤波。（　　　　　　　　　　　　　　Ｐ２一ＰｏＩ　＜，６（ＱＰ）或１９２一。ｏＩ　＜　Ｑ（Ｑｐ）　　　　　　　　　　　　　　（２－９）其基本思想是如果测出块边缘附近的采样点间的差的绝对值相对较大，则很　　　　有可能产生方块效应。然而如果差得很多，而且这个差值不可能是由于编码中的量化噪声所产生，则这个边缘更有可能是反映了源图像真实的情况，不应滤波。方块效应减小了，而轮廓清晰度基本没有改变。因此图像的主观质量大为改　　　　盖２．　５　Ｈ．　２６４的性能与复杂度　　　　Ｈ．２６４的视频编码层采用了多种新技术，这些技术单独使用效果并不明显，但是融合在一起以后带来了编码效率的显著提高。各种编码技术对Ｈ．２６４性能及复杂度的影响如下所示：　　　　１）可变块大小：帧间预测支持模式选择，即可以选择不同的预测块形状。使用较小的块在细节情况下，尤其是高比特率的时候效果较好。使用可变块大小可以节省４％－２０％比特率，但模式的增加将使得复杂度将呈线性增长，大约每增加一种模式复杂度增加２．５％０２）　　　　　ＲＤＯ（率失真优化）：通过使用率失真优化可以使得图像的ＰＳＮＲ提高０．３５ｄＢ并且比特率节省９％。但使用率失真优化将会极大地增加编码复杂度，当使用一个参考帧１６ｘ１６块大小运动补偿时，率失真优化将使得复杂度提升４０％．３）　　　　　Ｂ帧：使用Ｂ帧最多可以使得比特率节省１０％．４）　　　　　ＣＡＢＡＣ；　ＣＡＶＬＣ与ＣＡＢＡＣ相比，具有运算较简单，易于实现的特点。但与ＣＡＶＬＣ相比，是ＣＡＢＡＣ较之可以提高５％＾－１０％的编码效率；　　　　５）亚像素精度运动补偿：１１４象素精度不仅增加了运算复杂度，并且产生了大量的开销，但是预测更加准确，预测误差更小，适用于高分辨率视频的情况。使用亚象素空间精度与使用整数象素空间精度相比，在高分辨下能节省大于３０％的比特率，但因此带来的时间开销将增加１０％．６）多参考帧预测：多参考帧预测的性能取决于视频的内容，对于低码率视频，　　　　多参考帧预测平均可以节省大约２％的比特率，而对于高码率的视频多参考帧将节省１４％的比特率；每增加一个参考帧运算复杂度将提高２５％．　　　　７）环路滤波：使用环路去方块滤波，除了获得一定的客观信噪比提高外，还能获得非常可观的主观质量改进。使用环路滤波使比特率降低大约５－１０％０第止章Ｈ．　２６４视频编码标准２．６实验结果实验对Ｈ．　　　　２６４与Ｈ．２６３十性能进行比较，图像序列选取ＣＩＦ格式的ｆｏｒｎｔａｎ图像序列和ｃｏｎｔａｉｎｅｒ图像序列。Ｈ．２６４编码器使用ＪＭ８．５参考程序，使用ｂａｓｅｌｉｎｅｐｒｏｆｉｌｅ，设定帧率为３０Ｈｚ，编３００帧，参考帧为一帧，搜索范围为１６个像素点，不使用Ｂ帧；Ｈ．２６３＋使用ｂａｓｅｌｉｎｅ　ｐｒｏｆｉｌｅ。实验结果如下所示：坛色ｎ．们口Ｆ　　　　　　　　　　　　　　　　　７Ｍ白。团！一们．仁下３口日砚率下Ｈ．２６４比Ｈ．２６３＋提高了２－３ｄＢ，而在相同的信噪比下Ｈ．２６４比Ｈ．２６３＋节省了５０％的码率。编码层两方面进行了讨论，然后分析了Ｈ．２６４各种编码方法的性能及编码复杂度，最后通过实验比较了Ｈ．２６４与Ｈ．２６３十性能。从实验结果可以充分说明Ｈ．２６４视频编码标准与以前的视频编码标准Ｈ．２６３＋相比性能有了显著的提高，从中可以看出Ｈ．２６４视频编码标准有着广泛的应用前景。犯们幼毖Ｍ幻３０（国　　７，　望　少　理　侧　帐　　　　　　　　　从实验结果可以看出Ｈ．　　　　２６４与Ｈ．２６３＋性能有了非常明显的提高，在相同的码本章详细的介绍了Ｈ．　　　　２６４视频编码标准，主要从Ｈ．２６４的网络适配层和视频厂扩，１１卜．．．．ｒ‘１一一一ＪＩ｜｜｜门｜｜｜ＪｌｌｌＴ｜｜「一一—一‘一＿Ｌ　　　　一十司川｜｜「｜月ｌｌＴ｜十十ｗｅ刁ｅｓｓｅ之＿＿一聋（．可蕊ｄ分华侧锹　　洲胡习老汀＿＿，一卜一已Ｈ７Ｗ＂｝１５０幻口口筑３ＢＦ＇，，Ｌ＿＿＿＿立－－一比特串Ｉ｝ｕｎｌＬ＿Ｔ　Ｊ＇刁Ｕ比口一　　　　　　　　　　　　　　　　ｔ卫ｎ们濡Ｉ　　　　　　　　　　　　　　　　　　　　　　　　　　　　ｔ特甲仁‘抽抽）图２．　　　　　　　　　　　　　　　　　　　　　　　　　　　　９　Ｈ．２６４与Ｈ．２６３＋性能比较２．７小结西安电子科技大学硕士学位论文：视频编码标准Ｈ．２６４及其快速实现算法研究第三章Ｈ．　２６４帧内编码及快速实现３．　１引言１　　　　１．２６４标准的帧内预测算法充分利用图像的空间相关性，使用帧内块周围的像素来进行帧内宏块的预测，提高了编码效率，从而减少了编码输出码率。然而，高效的帧内预测算法也大大增加了编码器的运算复杂度。这是因为在Ｈ．　２６４标准中，无论是预测帧（（Ｐ帧或Ｂ帧）还是帧内帧（Ｉ帧），编码时对每一个宏块都需要做帧内预测，预测模式包括：对亮度信号既要做４ｘ４预测（（９种模式）还要做１６ｘ１６预测（４种模式），还有４种８ｘ８色度预测模式。另外，这么多种模式势必加大模式选择所耗费的时间，特别当使用ＲＤＯ（率失真优化）模式时，帧内预测的编码时间还要成倍增加。因此，为了满足实时视频通信的要求，必须提高帧内预测编码的速度。一般来说，提高编码运算速度的方法主要有两种：一是优化算法，这是依靠　　　　使用各种快速算法从算法结构本身来降低程序的运算复杂度，这种方法是最显著有效的；二是采用多媒体增强指令集技术，提高程序的并行处理能力，从而在同样的硬件环境中显著提高程序的运行速度。文中将分别使用这两种方法来实现Ｈ．２６４的快速帧内预测编码。３．　２　Ｈ．　２６４的帧内预测　　　　以往的视频编码标准对帧内宏块编码时直接进行变换、量化和墒编码，这样没有充分利用帧内宏块的空间冗余信息，造成编码输出码率较大。为了提高帧内宏块的编码效率，Ｈ．２６４利用相邻宏块的空间相关性来进行帧内预测编码：对于亮度分量，Ｈ．２６４对包含较多空间细节信息的宏块采用４Ｘ４预测，而对图像变化较平坦的区域采用１６Ｘ　１６的预测模式；对于色度分量，使用８Ｘ８的预测模式。其中亮度４Ｘ４预测模式共有９种，亮度１６Ｘ　１６预测模式共有４种，色度８ｘ８预测模式共有４种。下面详细给出所有这些帧内预测模式。３．２．１　４Ｘ４亮度预测模式　　　　在４ｘ４亮度预测模式中，Ｈ．２６４把１６Ｘ　１６的宏块划分成１６个４Ｘ４的子块，每个子块用与其相邻的上面和左面己经编码并重建后的像素点来进行预测，如图第二章Ｈ．２６４帧内编码快速算法３．１所示，子块的ａ，　ｂ，，Ｐ等像素的预测值通过相邻的Ａ，　Ｂ，．．．，Ｍ等像素的值进行一定的计算后得到。一：７　　　　　　　　　０　　　ｓ图３．　　　　　　　　　　　　１子块像素点的位置分布图３．２　４Ｘ４亮度预测模式　　　　Ｈ．２６４中４Ｘ４亮度预测依据预测方向的不同共有９种预测模式，如图３．２所示。在亮度４ｘ４帧内预测时，其中ＤＣ预测（模式２）、垂直预测（模式０）和水平预测（模式Ｕ总是被认为有效的，即使在编码块上面像素或左边像素不可用的情况下（这时候上面像素或左边像素的值就使用１２８这个值来代替），而其它模式仅当所有需要利用的预测象素点都可用的情况下才可以使用（如果Ｅ，　Ｆ，　Ｇ，Ｈ不可用，可以用Ｄ的值来代替）。这儿所说的像素点可用（ａｖａｉｌａｂｌｅ）是指此像素所在的子块存在并且与当前编码的子块属于同一个ｓｌｉｃｅ。具体这９种预测模式如图３．３所示：０（垂直）Ｉ（水平）ＸＩ＾ＩＢＩＣ（ＩＤＤＣＩ）ｅ！ＦＩＧＩＨ３〔左斜下）４（右斜下）５（垂直偏右）６〔水平偏下）７（垂直偏左）８〔水平偏上）图３．３　　９种亮度４ｘ４帧内预测模式１．模式０（垂直预测模式）：使用上面相邻子块的像素点Ａ，　Ｂ．　Ｃ，　Ｄ分别来预测各像素所对应列的像素的值。西安电子科技大学硕士学位论文视频编码标准Ｈ．２“及其快速实现算法研究２．模式１（水平预测模式）：使用左边相邻子块的像素点Ｉ　　　　，　Ｊ，　ｋ，　Ｌ分别来预测各像素所对应行的像素的值。３．模式２　　　　　（ＤＣ预测模式）：使用上面相邻子块的像素点Ａ，　Ｂ，　Ｃ，　Ｄ和左边相邻子块的像素点１，　Ｊ，Ｋ，Ｌ对这８个像素点值相加求平均后的值来作为当前块中所有像素的预测值。　　　　４．模式３（左斜下预测模式）：使用上面相邻子块的像素点Ａ，　Ｂ，　Ｃ，　Ｄ，　Ｅ，Ｆ，　Ｇ，　Ｈ进行线性插值后对当前块相应方向上的像素进行预测。５．模式４（右斜下预测模式）：使用上面相邻子块的像素点Ａ，　　　　　Ｂ，　Ｃ，　Ｄ，　１，Ｊ，　Ｋ，　Ｌ，　Ｘ进行线性插值后对当前块相应方向上的像素进行预测。　　　　６模式５（垂直偏右预测模式）：使用上面相邻子块的像素点Ａ，　Ｂ，　Ｃ，　Ｄ，１，　Ｊ，　Ｋ，　Ｌ，　Ｘ进行线性插值后对当前块相应方向上的像素进行预测。７。模式６〔水平偏下预测模式）：使用上面相邻子块的像素点Ａ，　　　　　Ｂ，　Ｃ，　Ｄ，Ｉ，　Ｊ，　Ｋ，　Ｌ，　Ｘ进行线性插值后对当前块相应方向上的像素进行预测。８．模式７（垂直偏左预测模式）：使用上面相邻子块的像素点Ａ，　　　　　Ｂ，　Ｃ，　Ｄ，Ｅ，　Ｆ，Ｇ，Ｈ进行线性插值后对当前块相应方向上的像素进行预测。９．模式８（水平偏上预测模式）：使用上面相邻子块的像素点１　　　　，　Ｊ，　Ｋ，　Ｌ进行线性插值后对当前块相应方向上的像素进行预测。３．２．２　　１６Ｘ１６亮度预测模式和８Ｘ８色度预测模式在图像变化比较平坦的区域，整个宏块的亮度分量将作为一个整体来预测，共有４中不同的预测模式：Ｍｏｄｅ　０垂直预测、Ｍｏｄｅ　１水平预测、Ｍｏｄｅ　２　ＤＣ预测、Ｍｏｄｅ　３平面预测块为单位预测，它与１６　Ｘ　１６亮度预测类似，也有４种预测色度分量以８Ｘ８　　　　模式，只是预测模式的顺序不同：模式０：　ＤＣ预测、模式１：水平预测、模式２：垂直预测、模式３：平面预测。相同位置的两个色度块Ｃｙ，　Ｃ，具有相同的最佳预狈ｉＩ模式。一１，模式０（垂直预测模式）：利用与宏块上方相邻的像素Ｈ来分别对当前编码块Ｖ图３．　　　　　　　　　　　　　　　　　　　　　　４　　４种亮度１６Ｘ　１６帧内预测模式第三章Ｈ．　２６４帧内编码快速算法相应的列上的像素进行预测。２，模式１（水平预测模式）：利用与宏块左方相邻的像素Ｖ来分别对当前编码块相应的行上的像素进行预测。３。模式２　（ＤＣ预测模式）：对宏块左边像素和上面像素求平均后的值对当前编码的整个宏块的像素进行预测。４．模式３　（ｐｌａｎｅ预测模式）：利用一个线性平面函数对上方和左方的像素进行外插后对编码宏块相应像素进行预测。３．２．３模式选择在Ｈ．　　　　２６４帧内编码中，每个宏块亮度信号都要完成９种４ｘ４预测模式和４种１６ｘ１６预测模式，然后通过预测模式选择，得出一种最佳预测模式使得编码后的图像在码流和图像质量两者权衡后的获得一个最佳。Ｈ．２６４中模式选择方法有两种：１、使用率失真优化（ＲＤＯ）模式选择。使用这种ＲＤＯ方式的模式选择过程如下：１）在给定最后解码的帧及宏块的量化因子ＱＰ后，计算拉格朗日因子：　　　　２）在帧内亮度４ｘ４预测的９种预测模式中，通过计算下面的函数使得其值最小，从中选择最佳的帧内亮度４ｘ４预测模式。　　Ｊ（　　　　　　　　　　　　ｓ，　ｃ，　ｍ　Ｉ　ＱＰ，　Ｘｍ　）＝ＳＳＤ（ｓ，　ｃ，　ｍ　Ｉ　ＱＰ）＋Ｘ．－Ｒ（ｓ，ｃ，ｍＩＱＰ）　　　　（３－２）Ｘ．＝０　　　　　　　　　　　　　　　　　　　　　　．８５　．２Ｑ０＂　　　　　　　　　　　　　　　　　　（３－１）式中ＱＰ是宏块的量化参数，丸是（　　３－１）中的拉格朗日因子，ＳＳＤ是原始的亮度块ｓ与预测模式为ｍ的重建块‘的平方差的和，Ｒ表示与选择模式ｍ相关联的　　比特数，包括模式编帧内模式及ＤＣＴ系数所需的比特数。　　　　３）在帧内１６ｘ１６预测模式中，通过计算４种１６ｘ１６宏块的ＳＡＴＤ（绝对变换差和）使得其值最小来确定最佳１　　６ｘ１６亮度帧内预测模式。　　４）通过比较一个宏块使用４ｘ４预测模式时计算的ＲＤ代价值与使用１６ｘ１６帧内预测模式时计算得到的最小代价值，选取代价最小的作为最佳预测模式。　　２、基于ＳＡＤ（或ＳＡＴＤ）和速率估计的模式选择方法。对于这种模式选择方法，其亮度４ｘ４预测模式的代价函数的计算方法如下所示：Ｃｏｓ　　　　　　　　　　　　ｔ．　＝Ｓ　ＡＤ４，４　＋　４Ｒａ．（妙少（３－３）式中从印）是印的指数函数，４Ｒ是对使用某种预测模式后比特数的估计，Ｒ根据当前模式是否为最有可能的模式取值为０或１。式中ＳＡＤ，，，（绝对差值和）计算的差值是预测值与图像像素值的差值，为了更准确的比较每种模式的〔＇ｏｓｔ，ｘ，西安电子科技大学硕士学位论文：视频编码标准Ｈ．２６４及其快速实现算法研究值，Ｈ．２６４还对这些差值进行Ｈａｄａｍａｒｄ变换，将差值（这些值最后要变换到频域进行编码）变换到频域求绝对差值和，这样计算得到的值叫作绝对变换差和（ＳＡＴＤ）。这里使用Ｈａｄａｍａｒｄ变换而不是使用ＤＣＴ变换主要考虑到Ｈａｄａｍａｒｄ变换比较简单，而又比较接近ＤＣＴ变换。在计算４ｘ４块的每一种模式的〔＇ｏｓｔ󰀀、值后，将〔＇ｏｓ标，值最小的模式判决为最佳亮度４ｘ４预测模式。对于亮度信号的１６ｘ１　　　　６模式选择，其开销计算函数如下所示：Ｃｏｓ　　　　　　　　　　　　　　　　　　ｔ，６，６　＝ＳＡＴＤ，６，６　　　　　　　　　　　　　　　　　　　　　　　　（３－４）式中的ＳＡＴＤ，６＝ｒ。也是绝对变换差和，其计算时也是将预测值与图像像素值的差值通过使用Ｈａｄａｍａｒｄ变换，变换到频率域后求和　　　　最后比较一个宏块做一次１６ｘｌ６预测后的开销值Ｃｏｓｔ，６，‘和做１６次４ｘ４预测后Ｃｏｓｔ󰀀、值相加得到的总的开销值Ｃｏｓｔ的大小，选取Ｃｏｓｔ最小的作为最后宏块的预测模式。如果Ｃｏｓｔ值相同４ｘ４预测模式将被优先选取，而如果９种４ｘ４预测模式或４种４ｘ４预测模式中出现相同Ｃｏｓｔ值时，序号较小的预测模式将被选为最佳预测模式。　　　　比较两种模式选择方法可以看出，在ＲＤＯ模式中，Ｒ值被精确地计算出，从而使得其模式选择的准确度大大提高，但为了计算Ｒ值需要非常复杂的计算，从而使得其运算复杂度很高；而基于ＳＡＤ的模式选择由于Ｒ值是一个估计值避免了复杂的计算，所以速度大大提高，但选择的准确度也会下降。使用ＲＤＯ模式选择的方法与使用基于ＳＡＤ的模式选择方法相比，基于ＳＡＤ的模式选择计算复杂度平均为ＲＤＯ模式选择的７％，但与使用ＲＤＯ模式选择相比基于ＳＡＤ的模式选择方法ＰＳＮＲ平均降低。Ａ７ｄＢ　ｅ由上面的讨论可知，对于亮度信号既要做９种４ｘ４预测还要做４种１　　　　６ｘ１６预测，而且还要对这么多种模式进行模式选择，因此，必须使用快速帧内预测算法，来降低Ｈ．２６４编码器的运算复杂度，满足实时视频通信的要求。３．３自适应帧内预测快速算法在Ｈ．　　　　２６４中，除了编码帧内帧时对每个宏块要做帧内预测外，在帧间预测帧也需要对每个宏块进行帧内预测来完成帧间编码模式的选择。另外，由前面的讨论可知，对于亮度信号既要做４ｘ４预测还要做１６ｘ１６预测。因此，必须使用快速帧内预测算法，来降低Ｈ．２６４编码器的运算复杂度，满足实时视频通信的要求。　　　　实现快速帧内预测算法的关键是尽可能减少每个宏块帧内预测模式的数量，但又尽量不降低预测的准确度。本文提出的快速算法的主要思想是：利用前一帧和当前帧对应位置宏块的帧内预测模式来预测，从而减少当前宏块的预测模式数量，降低编码复杂度，如图３．５所示。第三章Ｈ．　２６４帧内编码快速算法第Ｎ－１帧到｝ＭＮ￥ｊｒｑ图３．５帧内预测模式的选择过程　　　　图３．５给出了第Ｎ帧中的一个块Ｍｏ（可以是亮度４ｘ４块、亮度１６ｘ１６块或色度８ｘ８块）的帧内预测模式的选择过程：通过第Ｎ－Ｉ帧的块Ｍｏ＇．　Ｍ犷，、・一、ＭＳ－，和第Ｎ帧的块Ｍ、Ｍ２、Ｍ；的最佳预测模式来进行预测。这样，对第Ｎ帧的Ｍ忿所做的帧内预测模式要远少于９种或４种，从而大大提高了帧内预测的速度。为了方便后面叙述，我们将Ｍ；，、Ｍ扩一，、ＭＺ＇．　Ｍ竺一，、ｍ，，－，，　　Ｍ穿，、Ｍ＂６　　｀－＇Ｍ２－＇、Ｍ８－，和Ｍ；、Ｍ２、Ｍ；称为Ｍｏ的预测块。３．　３．　１亮度４ｘ４预测由于序列图像的相邻帧之间存在很大的相关性（时间相关），而且当前帧相邻　　　　宏块间也存在相关性（空间相关）。因此，本文对当前帧的一个４ｘ４块Ｍｏ的最佳预测模式与前一帧对应的４ｘ４块ｍｇ一，、相邻块ｍ尸、Ｍ｝２｝１、ｍｇ一，、ｍ牙一，、ｍ；一，、Ｍ　６　－　＇　１　Ｍ７、ｍ舒，以及当前帧相邻块Ｍ＇．、Ｍ，和ｍ璧的最佳预测模式进行统计比较，并给出与ｍｇ的相关性，如表３．１所示。这里所说的相关性是指预测块（Ｍ吕一，、Ｍ黔・・…）的最佳预测模式与Ｍ忿最佳预测模式的相同概率。表３　　　　　　　　　　　　　　　　　　　　．１不同预测块与Ｍ：的相关性比较图像序列ｆｏｒｅｍａｎｃｌａｉｒｅｎｅｗｓＭ０５４乡％７４．９％８０．１Ｍｒ月３３．９％５４．６％４６．５％ＭＴ｀３４．９％５５．７％Ｍ３＂－＇３５．６％Ｍ＂４－＇３８．４％５２．０％Ｍ　＂５－＇２９７％４０．６％３５乡％４９．７％４７．５％４７．７％４８．５％图像序列ｆｏｒｅｍａｎｃｌａｉｒｅｎｅｗｓＭ＂－６－＇２７．７％４２．８％Ｍ罕‘，２７力％４１．７％３６．９％Ｍ＂－＇３２７％４３．８％Ｍ０－４２．１％Ｍ母４６．４％５８．４％５１．８％Ｍ望３４．９％４５．０％３７３％６２．４％４９．６％３６．７％３７石％　　　　由表３．１可以看出，Ｍ忿的最佳预测模式与Ｍ：一，的相关性最大，其次是Ｍｒ、Ｍ翌，再次是Ｍｒ一，、Ｍ全一，、Ｍ盆一，、Ｍ二一，，相关性较小的是Ｍ梦一，、Ｍ忿一，、Ｍ号一，、Ｍｇ－＇和Ｍ；。因此为了利用图像在空间和时间上的相关性，减少预测模式的数量，本文选取下面５个块的最佳帧内模式来预测Ｍ召的帧内预测模式（见图３．５中阴影西安电子科技大学硕士学位论文视频编码标准Ｈ．２６４及其快速实现算法研究宏块）：．前一帧对应的４ｘ４块Ｍ；，及其相邻右块Ｍ又一，和相邻下块Ｍ宝一‘．当前帧的相邻上块Ｍ；和当前帧的相邻左块Ｍｚ由于所选择的５个块的最佳预测模式很大程度上存在有相同的预测模式，因　　　　此实际中Ｍｏ的帧内预测模式将少于５种。表３．１给出了使用这种算法后，预测的准确度及平均所需做的预测模式个数。３．３．２亮度１６ｘ１６预测和８Ｘ８色度预测与亮度４ｘ４预测相比，亮度１６ｘ１６预测和色度８ｘ８预测的预测模式个数减少了一半多，所以对于亮度１６ｘ１６预测和色度８ｘ８预测，只选取Ｍ孟一，、Ｍ；和Ｍ盆块的最佳预测模式作为候选预测模式进行帧内预测。帧内预测的准确度及平均所需做的预测模式个数如表３．２所示：　　　　　　　　　　　　　　　　　　　　表３．２预测准确度和平均预测模式个数的比较图像序列预测准确度平均预测模式个数（ＱＣＩＦ）　Ｑｐ－－２８亮度４ｘ４亮度１６ｘ１６色度８ｘ８亮度４ｘ４亮度１６ｘ１６色度８ｘ８ｆｏｒｅｍａｎ８５．７％９３．２％８８．８％２．７９２．５９２．５８ｃｌａｉｒｅ９４．３％９５．２％９４．４％２．２７２．４７２．５２ｎｅｗｓ９３．５％９７滩％９５．２％２．５４２．４４２．５２由表３．２可以看出使用快速算法的预测准确度非常高，而平均预测模式个数　　　　与未使用快速算法相比也减少了很多，特别是亮度４ｘ４预测，预测模式个数由原来的９种减少为２．５种左右。另外，在进行帧内预测时，不能对所有的编码帧都使用上述快速算法，为了　　　　保证帧内预测的准确性，本文使用下列方法：　　　　首先，对第一帧图像不能使用帧内预测快速算法，必须将４ｘ４预测和１６ｘ１６预测的所有模式都完整做一遍，以便后续帧的预测更加准确。其次，由于快速算法的预测不能保证完全准确，这就必然导致接下来的编码　　　　帧存在预测误差积累。为了保证快速算法的准确性，需要每隔一定的帧数Ｎ后加入一帧Ｆ＿，对Ｆ使用各种帧内预测模式来彻底去除帧内预测误差。对于Ｎ值的计算将在下一节中详细说明。３．３．３基于量化因子的自适应快速算法Ｈ．　　　　２６４中量化因子（（ＱＰ）对帧内预测快速算法会产生一定影响，特别当ＱＰ比较大时，影响更为明显。其影响表现为，当ＱＰ较小时，使用快速算法后ＰＳＮＲ下降较少，码流增加不多，而当ＱＰ较大时，由于图像信息丢失较多，不同预测模第三章Ｈ．　２６４帧内编码快速算法式重建出来的块差值变化较大，从而当使用快速算法后ＰＳＮＲ下降变大，码流增加变多。为了减少ＱＰ对ＦＩ　　　　ＰＡ算法的影响，本文在ＦＩＰＡ算法的基础上，采用自适应帧内预测快速算法（ＡＦＩＰＡ　），即通过自适应改变上一节中提到的Ｎ值的大小和候选预测块的数量，来减少ＱＰ对ＦＩＰＡ算法性能的影响。Ｉ）根据ＱＰ选择Ｎ值由前面讨论可知当ＱＰ增大时，ＦＩ　　　　ＰＡ算法性能变差，此时可以减小Ｎ值来提高预测的准确度，反之，当ＱＰ减少时，可以增大Ｎ值以获得快速编码的性能。本文对大量标准图像序列和实时采集的图像序列进行编码统计后，使用下式来选择Ｎ值：Ｎ＝Ｎｏ　　　　　　　　　　　　　　　　　　　　　　　＇＇Ｉ（ＱＰ）　　　　　　　　　　　　　　　　　　　　　　（３－５）式中Ａ（ＱＰ）　　　　　＝　０．２５　Ｘ　２－１２Ｐ－１２１／６从为ＱＰ等于０时Ｎ的取值。２）根据ＱＰ选择预测块由前面的讨论可知，当ＱＰ较小时，快速算法的码流及信噪比下降不大，可　　　　以在快速算法的基础上再减少几个预测块；而当ＱＰ较大时，快速算法的码流及信噪比变化较大，就要在原来算法的基础上再增加几个预测块。本文将预测块Ｍｏ－＇，　Ｍ；＂＇，　ＭＺ－＇，　Ｍ雪一，、Ｍ犷，、Ｍ尹、Ｍｚ进行分组，ｍ，＂，－　，　Ｍ、Ｍｚ分为一组记作Ｅ，Ｍ犷，和Ｍ军一，分为一组记为乓，Ｍ护一，和Ｍ璧一，分为一组记作只。表３．３给出根据ＱＰ选择预测块的方法。表３．　　　　　　　　　　　　　　　　　　　　　　　　３不同ＱＰ下预测块的选择方法预测模式Ｑｐ＜八Ｆ，Ｆ，戊＜Ｑｐ＜几Ｆ，　＋Ｆ２Ｆ，Ｑｐ＞几量度４ｘ４Ｆ，十Ｆ２＋ＦｓＦ，＋ＦＺ量度１６ｘ１６、色度８ｘ８３．４使用并行指令技术提高帧内编码速度３．　４．　１　ＳＩＭＤ（单指令多数据流）技术Ｓ工　　　　ＭＤ（单指令多数据流）技术可由一条单一指令完成多条操作，这种并行技术使运算速度得到显著提高。工ｎｔｅｌ公司推出多项Ｓ工ＭＤ技术，包括ＭＭＸ（ＭｕｌｔｉｍｅｄｉａＥｘｔｅｎｓｉｏｎｓ），　ＳＳＥ（Ｓｔｒｅａｍｉｎｇ　ＳＩＭＤ　Ｅｘｔｅｎｓｉｏｎｓ）．　ＳＳＥ２等。其中，ＳＳＥ技术是Ｉｎｔｅｌ　Ｐｅｎｔｉｕｍ　ＩＩＩ处理器（将体系结构扩展至１２８位）推出后对最初的ＳＩＭＤ运算体系的加强，ＳＳＥ具有浮点运算能力，大大提高了运算精度，而Ｐｅｎｔｉｕｍ　４处理器的ＳＳＥ２技术又进一步增强了处理器的并行处理能力。西安电子科技大学硕士学位论文：视频编码标准Ｈ．２６４及其快速实现算法研究３．４．２帧内预测的快速实现在帧内预测时，亮度预测模式有９种４ｘ４预测模式和４种１６ｘ１６预测模式，　　　　除此之外每个色度块又有４种预测模式，因此对这些预测模式的快速实现能很大程度上提高帧内编码的速度，从而整体上提高Ｈ２６４编码的速度。下面，对帧内预测中运算量较大的部分使用上一节介绍的ＳＩＭＤ技术来实现快速预测。对于亮度１　　　　６ｘ１６预测，因为ＳＳＥ寄存器是１２８位刚好能放下１６个编码块上边或者左边的１６个预测值，于是就可以使用ＳＳＥ提供的指令ＰＳＡＤＢＷ进行优化，指令ＰＳＡＤＢＷ是完成求绝对差值和的功能，通过指令ＰＳＡＤＢＷ　ｘｍｍ０，ｘｍｍｌ，可以将ｘｍｍ０与ｘｍｍ　１对应字节相减求绝对值后相加。在进行ＤＣ预测模式时，只要将ｘｍｍ　Ｉ置零再与ｘｍｍ０做绝对差和，就可以完成ｘｍｍ０中前８个像素值和后８个像素值的相加功能，在经过一些操作（如移位操作），最终即可完成对所有用来预测的像素求平均值的功能。在亮度１　　　　６ｘ１６预测中，还有一种运算量较大的预测模式那就是Ｐｌａｎｅ（平面）预测模式　　　　其预测的计算公式如下：尸ｒ　　　　　　　　ｅｄ［ｘ，ｙ］一ｃｌｉｐ］　（（ａ＋ｂ（ｘ－７）＋ｃ（ｙ－乃十１６）／３２）ａ＝１６（　　　　　　　　ｐ【一］，１５］＋ｐ［１５，一］］）ｂ＝（５Ｈ＋３２ｙ６４　ｃ＝（５Ｖ＋３２ｙ６４Ｈ一艺（ｘ＇＋１）（ｐ［８　＋　ｘ＇，－］］一，［‘一ｘ＇，－１］）Ｖ＝艺（　　ｙ＇＋１）　（ｐ［－１，　８＋　ｙ＇］－　ｐ［一］，６　ｙ＇］）　　　　　　　　　　　　　　　　　　（３－６）Ｙ０口　　　　　　　　　　　　　　式中Ｐｒ　　　　ｅｄ［ｘ，ｙ］是指像素点（（ｘ，　ｙ）的预测值，ｃｌｉｐ］表示钳位到０－２５５的范围内，ｐ［ｘ＇．一门（ｘ＇＝－１，０，…１５）是宏块上方用来预测的像素值，而ＰＩ－４１　（Ｙ＇＝０，１，　．．．　，１５）表示宏块左边用来预测的像素值。显然对Ｈ．　Ｖ的计算可以对其展开后使用并行指令来优化，只要使用一个并行减法（ＰＳＵＢＷ）和一个并行乘法（ＰＭＵＬＬＷ）以及ＰＳＡＤＢＷ进行求和即可完成。另外，Ｐｒｅｄ［ｘ刃可以逐行计算，每一行用一个ＳＳＥ寄存器来表示，从而快速完成预测值的计算。对于色度信号的帧内预测，可以使用与亮度１　　　　６ｘ１６预测类似的方法进行优化。３．４．３　Ｈａｄａｍａｒｄ变换的快速实现　　　　在Ｈ．２６４中，Ｈａｄａｍａｒｄ变换用于亮度１６ｘ１６块变换后的１６个ＤＣ系数和色度８ｘ８块变换后的４个ＤＣ系数的去相关性计算，以及在模式选择时Ｃｏｓｔ值的计第二章Ｈ．２６４帧内编码快速算法算项。其中对４ｘ４亮度预测和８ｘ８色度预测的帧内模式选择Ｈａｄａｍａｒｄ变换是可选，而１６ｘ１６亮度预测中Ｈａｄａｍａｒｄ变换是必需项。使用Ｈａｄａｍａｒｄ变换后，峰值信噪比（ＰＳＮＲ）大约能提高０．０３ｄＢ到０．１　ｄＢ，码流将节省２％到５％。一维Ｈａｄａｍａｒｄ变换的公式为：Ｘ［ｋ］［ｎ］（＿１）Ｅ＇－＿＂－ｂ；＇ｂ　，（ｋ），ｎ一０，１，一，Ｎ－　１＝骊Ｉ写Ｘ（３－７）式中Ｎ＝２＇．　　　　　ｂ；（ｚ）表示ｚ的二进制表示的第ｉ位值，指数位置上的加法使用模二加。Ｈａｄａｍａｒｄ变换还可以写成矩阵形势，例如对于４ｘ４的二维Ｈａｄａｍａｒｄ变换可以写成如下形式：－！１．ｅｅ－ｌｅｓ卫．．ｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓＪ一一曰布＋Ｘ，　＋毛＋Ｘ，１１１二１－１Ｗ󰀀　　　　Ｈ．２６４中计算ＳＡＤ时所用的Ｈａｄａｍａｒｄ变换就是式（３－８）给出的二维的Ｈａｄａｍａｒｄ变换。矩阵的二维的Ｈａｄａｍａｒｄ变换可以看作是由一维的列变换和一维的行变换叠加而成，对于每一列或一行的一维Ｈａｄａｍａｒｄ变换都可以用蝶形运算来完成，具体算法如下所示：耳ＸＪ兀　　　　由图３．６可知，对４ｘ４矩阵的二维ｈａｄａｍａｒｄ变换可以用以下方法快速实现：首先，将１６个１６比特数据分成两组，分别存放在两个ｘｍｍ０寄存器和ｘｍｍ　１寄存器中；然后，将ｘｍｍ０与ｘｍｍ　１的和存放在ｘｍｍ２中，ｘｍｍ０与ｘｍｍｌ的差放到ｘｍｍ３中，一次可同时完成８组数据的蝶形运算；接下来，调整数据在寄存器中的顺序后，继续做上述操作即可实现对４ｘ４矩阵的列变换。使用相同的方法同样可以完成对４ｘ４矩阵的行变换。　　　　　　几（３－８）　　　　　　　　　　－－．ｅｓｅｓＩＬ二１－ＬＸｏ十ｘ，一Ｘａ　－Ｘ，Ｘｏ　－Ｘ，　－Ｘ２十ｘ３Ｘｏ　－Ｘｉ十Ｘｚ一从Ｘｏ＋Ｘ３＋Ｘｉ＋Ｘｉ（３－９）兀Ｘｏ一Ｘ３＋Ｘｉ一ＸＺＸｏ＋　Ｘ３一Ｘｉ一Ｘ２Ｘｏ一Ｘ〕一Ｘ，　＋Ｘ，图３．　　　　　　　　　　　　　　　　　　　　　　　　　　６蝶形变换西安电子科技大学硕士学位论文：视频编码标准Ｈ．２６４及其快速实现算法研究另外，由于需要对数据存放位置的调整，这儿可以使用ＰＵＮＰＣＫＨＷＤ，ＰＵＮＰＣＫＬＷＤ，　ＰＳＨＵＦＤ等指令来完成。３．４．４绝对误差和（ＳＡＤ）计算的快速实现ＳＡＤ的计算是对两组数据对应相减后求绝对值相加，如下式所示：ＳＡＤ（ｉ，　ｊ）　＝翼翼ｌＹ（一，＋ｎ）－ＹＲ‘一‘，，＋二，）Ｉ（３－１０）由于程序中有多种预测模式，而每种预测模式选择时都要计算ＳＡＤ，因此，　　　　对ＳＡＤ计算的快速实现显得非常重要。例如，使用ｖｔｕｎｅ软件测试，对于ＱＣＩＦ图像序列，平均每做一次帧内编码，大约要调用１００００多次ＳＡＤ的计算。　　　　本文使用ＳＳＥ指令ＰＳＡＤＢＷ快速完成ＳＡＤ的计算。这条指令既能对６４位的ｍｍｘ　（ｘ代表０－７）寄存器操作，也可以对１２８位的ｘｎｕｎｘ（最后的ｘ代表０－７）寄存器操作。当对ｍｍｘ寄存器操作时，ＰＳＡＤＢＷ指令将两个ＭＭ寄存器的对应为８比特数相减求绝对值后放入第一个ｍｍｘ寄存器的低１６位，其余高位均置零，而对ｘｍｍｘ寄存器操作时，相当于对两组ｍｍｘ寄存器的操作。由式（３－１０）可知，完成８ｘ８的矩阵的ＳＡＤ需要６４次减法，６４次加法，以及６４次的条件判断（求绝对值）。而使用ＰＳＡＤＢＷ指令后，只需要８次指令操作就可以了，大大提高了程序的运行速度。３．　５实验结果　　　　实验使用三个具有代表性的ＱＣＩＦ　（１７６ｘ１４４　Ｙ．Ｕ：Ｖ是４：２：０）标准图像序列进行研究，一个是低速运动的视频序列”ａｉｒｅ＂，另一个是快速运动的视频序列】＇ｆｏｒｅｍａｎ＂，还有一个是介于两者之间的视频序列＂ｎｅｗｓ＂。实验平台是ＰＩＶ　２ＧＨｚ计算机，和自主开发的Ｈ．２６４软件编解码器，符合日．２６４日ａｓｅｌｉｎｅ　Ｐｒｏｆｉｌｅ，下面实验中测出的时间均以此开发平台上的时间为准。并使用亮度信号的ＰＳＮＲ和编码输出的比特率作为衡量快速算法性能的测度。３．５．　１使用帧内预测快速算法的试验结果首先，对使用ＦＩ　　　　ＰＡ算法与使用ＡＦＩＰＡ算法的性能进行比较，ＦＩＰＡ算法Ｎ值固定使用２０，　ＡＦＩＰＡ算法Ｎ使用式（（３－５）来计算获得。另外，式（３－５）中的Ｎ。取值为２００，表３．３中乃、八的取值分别为１２．　３６。测试结果如图３．７所示。第三章Ｈ．　２６４帧内编码快速算法犷ｊ任于一使用Ｆ中Ａ耳法ｚ－一使用ＡＦＩＰＡ肺拿法比特甲Ｃｋ卜．图３．　　　　　　　　　　　　　　　　　　　　７．　ＦＩＰＡ算法与使用ＡＦＩＰＡ算法性能比较　　　　由图３．７中的实验结果可知，当ＱＰ较大时ＡＦＩＰＡ算法与ＦＩＰＡ算法相比，在相同码率下比ＦＩＰＡ算法提高了Ｏ．１ｄＢ左右，从而弥补了ＦＩＰＡ算法在ＱＰ较大时Ｊ性能下降较多的缺点，而在ＱＰ较小时使得编码性能基本不变的情况下增加了Ｎ的值，从而减少了做所有预测模式的Ｆ帧的插入，提高了编码速度。从实验结果可以看出ＡＦＩＰＡ算法性能要优于ＦＩＰＡ算法。接下来，对采用ＡＦＩ　　　　ＰＡ算法和未采用帧内预测快速算法的Ｈ．２６４编码器进行比较。实验结果见表３．４，其中ＯＲＧ表示未采用帧内预测快速算法，ＮＥＷ表示使用了ＡＦＩＰＡ算法。表３．　　　　　　　　　　　　　　４．未伸用快谏算法与Ｍ适应帧内预Ａｉｌ算注的性能比转图像ＰＳＮＲ（ｄＢ）比特率（ｋｂｐｓ）编码速度（ＶＳ）编码速度序列ＱｐＯＲＧＮＥＷＯＲＧＮＥＷＯＲＧＮＥＷ提高（％）１８４４．１９９４４．１７６１８７０．０１９０８．１３４力３９３１５石ｆｏｒｅｍａｎ２８３６７１９３６．６９１７６５．６０７９０．５３３９夕４６．９１７．５３８２９．８９４２９．８５２２７２．４５２７７．０７４５．５４９．９９．６１８４７．３４７４７．３２６８９１．７９０６．１３９．７４５．８１５．４ｃｌａｉｒｅ２８４０．６２８４０．５９３３９５．５１４００．９３４０．７５０．１２３．１３８３３．７２９３３．６９６１５３．２１１５５．０４４５．６５１．２１２３１８４５．１７３４５．１７１１７１４２１７３４．７３５．０４０．５１５．７ｎｅｗｓ２８３７．５２７３７．５１９８２９．５７８３８．８３３９．４４６３１７．５３８２９．８３７２９．８３５３３４．２０３３５．５８４３．７４９．０１２．１　　　　从表３．４的实验结果可以看出，使用本文提出的自适应帧内预测快速算法后，在比特数增加小于３％，　ＰＳＮＲ下降不到０．０４ｄＢ的情况下，编码速度提高了１０％到２０％，大大提高了Ｈ．２６４中帧内宏块的编码速度。３．５．２使用并行指令技术的帧内编码试验结果　　　　实验首先对Ｈ．２６３十帧内编码与Ｈ．２６４帧内编码的性能进行比较（Ｈ．２６３＋未使用先进帧内编码模式），图３．８给出使用图像序列ｆｏｒｅｍａｎ和ｃｌａｉｒｅ的实验结果。西安电子科技大学硕士学位论文：视频编码标准Ｈ．２６４及其快速实现算法研究＿＿止｝ｍａｏｃｒ　｝　ｇｕｎ己１创怕ＯＣＩＦ３旧Ｈ理ｗａｓＦｐ（田只比２．‘中埋侧帐（旧件毯２刃几中加一侧休必阵七１１一　　．一叹〔飞飞旧ｉｓｏａ比特串伪切，｝　　．一．　　　　　１ｆＲｔＷ，ａ３一ａｉａｏ　　　ｚｓｎｏ　婴　　　　ｎｏｍ　　　　　　　　　ｍｌ「．　－　：ｍ｝ｎｅｎａｕｉ｝｝，‘｛比特串压吮自ｌ　Ｊｅｓ　．１１１‘．ｅｓ‘‘１和肠卜一一一一一」１　　　　　　　　　　　　　　　　　　图３．８　Ｈ．２６３十与Ｈ．２６４的帧内编码性能进行比较由图中的实验结果可知，在相同的峰值信噪比下Ｈ．　　　　２６４比Ｈ．２６３十节省了大约４０％－５０％的码流，由此可见Ｈ．２６４的帧内预测显著提高了编码效率。接下来，对使用本文提出的快速算法和未使用快速算法的帧内编码速度进行　　　　比较，其结果如下表所示：图像序列ＦｏｒｅｍａｎＣｌａｉｒｅＮｅｗｓＣｏｎｔａｉｎｅｒ　　　　由表３．５可以看出，与未使用快速算法相比，使用本文提出的帧内预测快速实现算法后，编码速度提高了１７％－３０％，大大提高了Ｈ．２６４帧内编码的速度。　　　　Ｈ．２６４通过使用不同方向的帧内预测减少了空间冗余度，提高了编码效率，但这也增加了Ｈ．２６４的编码复杂度。通过使用前一帧以及当前帧周围块的最佳预测模式对当前块的帧内预测模式进行预测，从而减少预测模式的个数从而降低运算复杂度。由实验的结果可知，此算法使得Ｈ．２６４的编码速度提高了１０％－２０％．很大程度提高了Ｈ．２６４的编码速度，而恢复图像质量的主客观质量基本没有下降。另外，通过使用ＳＩＭＤ技术后，Ｈ．２６４的帧内编码速度也有了显著的提高，帧内帧的编码速度提高了１７％－３０％。因此，使用本文提出的方法，Ｈ．２６４编码速度得到显著的提高。匕卜匕。西湘　　　　　　　　　　　　　　　　　　　　　　　　表３．５　Ｈ．２６４帧内编码速度的比较未使用快速算法（帧砂）使用快速算法（帧砂）编码速度提高（％）７０．８８１．７６６．８７０．３８３．８１０６．１８２．１８２．８１８．４％２９．９％２２．９％１７．８％３．６小结第四章Ｈ．　２６４整数变换零块的预先判决第四章Ｈ．　２６４整数变换零块的预先判决４．　１引言　　　　Ｈ．２６４使用了许多新的视频编码方法，如编码块大小和形状可变，支持多种预测编码模式选择等，大大提高了Ｈ．２６４的编码效率。但是Ｈ．２６４高效编码算法导致算法复杂、运算量大，其中运动补偿和变换量化部分占整个编码器运算量的７０％以上，给其应用于实时视频通信带来困难，成为Ｈ．２６４实时编码的瓶颈。４．　２　Ｈ．　２６４预测帧的编码算法　　　　与目前使用最广泛的Ｈ．２６３十标准相比，Ｈ．２６４视频编码算法有许多提高编码效率的新技术，特别是帧间预测编码时，Ｈ．２６４的编码块大小和形状可变，有多个可选参考帧用于预测，位移估值具有１／４像素精度等。为了讨论预测帧中预先判决零块快速算法，下面再简要给出Ｈ．２６４中有关算法。》１／４像素精度：Ｈ．２６４使用了１／４像素精度的位移估值和运动补偿算法，与Ｈ．２６３＋的１／２像素精度相比可得到２ｄＢ编码增益，具体算法是：使用一个６阶滤波器（（１，－５，２０，　２０，－５，　１）计算得到１／２像素的值，再使用整像素和半像素的线性插值得到１／４像素位置的亮度预测值。》多参考帧编码：在Ｈ．２６４中，支持采用多个参考帧进行帧间预测，这在场景交替切换等情况下，可以提高编码效率。》多种预测编码模式：Ｈ．２６４支持７种大小和形状的编码块：１６Ｘ１６，　１６Ｘ８，８Ｘ１６，　８Ｘ８，　８Ｘ４，　４Ｘ８，　４Ｘ４，如图４．１所示。根据采用块大小的不同，宏块的编码模式分为４种：Ｐ１６Ｘ１６，　Ｐ１６Ｘ８，　Ｐ８Ｘ１６和Ｐ８Ｘ８。其中，在Ｐ　８Ｘ８模式下，每个宏块又被分为４个８Ｘ８子块，而每个子块又有４种可能的预测模式：ＰＳ　８ｘ８，　ＰＳ　８Ｘ４，　ＰＳ　４Ｘ８和ＰＳ　４Ｘ４．　Ｈ．２６４采用尺寸可变块编码，大大提高宏块位移估值的准确性，从而提高编码效率。西安电子科技大学硕士学位论文：视频编码标准Ｈ．２６４及其快速实现算法研究Ｐ　１６ｘ１６　　　　　　　　Ｐ　１６ｘ８Ｐ　８ｘ１６Ｐ凡．８ＰＳ　８ｘ８　　　　　ＰＳ　８ｘ４　　　　　　ＰＳ　４ｘ８　ＰＳ　４ｘ４图４．　　　　　　　　　　　　　　　　　　　　　　１　Ｈ．２６４中大小和形状可变的编码块》整数变换和量化：Ｈ．２６４使用４ｘ４整数变换，避免了由于浮点运算引起变换和反变换之间的误差。并且该变换算法的计算过程避免了乘法，只需要加法和移位即可实现。另外，通过使用表格，Ｈ．２６４的量化过程只使用乘法，避免了除法运算。Ｈ．２６４的整数变换和量化降低了运算复杂度，且对ＰＳＮＲ的影响小于０．０２ｄＢ．在Ｈ．　　　　２６４预测帧中，每个宏块都要对图４．１给出的４种预测模式以及４种子预测模式预运行一遍，然后选择编码效率最佳的模式，其运算量非常大，影响实时视频通信。本文根据整数变换和量化的特点，优化Ｈ．２６４多种帧间预测编码模式的选择过程，提高Ｈ．２６４的实时编码能力。４．　３　Ｈ．　２６４整数变换零块的预先判决算法在Ｈ．　　　　２６３等基于块的视频编码标准中，使用变换性能较好的ＤＣＴ（离散余弦变换），但是ＤＣＴ的变换矩阵元素有些是无理数，如果采用浮点运算就会引起变换和反变换之间的误差。因此Ｈ．２６３要求ＤＣＴ变换和反变换都要有足够的精度，来保证解码图像的恢复精度，同时ＤＣＴ变换和反变换的运算量也都较大。而Ｈ．２６４与以前的视频编码标准相比一个显著的特点就是引入了４ｘ４整数变换。４．　３．　１　Ｈ．　２６４的整数变化和量化Ｈ．　　　　２６４根据差值信号的种类采用三种类型的变换：第一种类型是应用于所有的帧间预测残差块和帧内预测残差块包括亮度块和色度块的ＤＣＴ变换，块的大小为４ｘ４；第二种类型是使用在帧内１６Ｘ　１６预测模式的宏块，其每个４ｘ４块经过ＤＣＴ变换后，所有亮度直流系数ＤＣ形成了一个４Ｘ４的矩阵，对它所进行的Ｈａｄａｍａｒｄ变换；最后一种是对所有色度信号经过４ｘ４块ＤＣＴ变换后的直流系数组成的两个２ｘ２矩阵进行的Ｈａｄａｍａｒｄ变换；第四章Ｈ．　２６４整数变换零块的预先判决Ｈ．　　　　２６４中使用较小的块进行变换，减轻了块效应的影响，下面将以４Ｘ４残差信号的ＤＣＴ变换为例详细说明Ｈ．２６４中的变换和量化过程。４．３．１．１　Ｈ．２６４中的ＤＣＴ变换根据ＤＣＴ变换的定义可以得出输入数据Ｘ的４　　　　　Ｘ　４　ＤＣＴ变换的矩阵表示形式为：ａ－－ｂａ－－ｃａ　ａ　　ａｂ　　ａ　　ｃ　　　　Ｘｂ　　ｃ　－ｃａ一ａ一ａｃ　－ａ　－ｂ－ｃ　－ａ　ｂ－ｂ　ａ　－ｃ其中ａ　　　　厅，二、厅３７ｃ，２’０一Ｖ２　ｃｏｓｔ百），“＝Ｖ百ｃｏｓｔ了，‘干ｒ．．．ｌｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓＬ飞！．！上式的矩阵乘法等价于：矿ａｂ十矿ａｂＬ１　　１Ｐ＝（ＣＸＣｒ）公ＥＣＸＣＴ是二维变换的核心部分。Ｅ是伸缩因子矩阵，符号⑧表示（　　　　ＣＸＣＴ）的每个元素都与矩阵Ｅ内相同位置的伸缩因子相乘。常数ａ和ｂ同上，ｄ定义为ｃ／ｂ（约等于０．４１４）．为简化变换的执行，取ｄ＝０．　　　　５。为确保变换保持正交性，ｂ也作相应的修正，因此：。一工，。二。厄，　ｄ＝生。２　　　　　　　　　　　　丫５　　　　　　　　　２矩阵Ｃ的第二和第四行，己的第二和第四列都乘了伸缩因子２，为了保证等　　　　式成立，由矩阵Ｅ对其进行补偿。这样一来就避免了核心变换ＣＸＣＴ中有１／２的乘法，以避免整数运算带来的精度损失。将ｄ值代入（４－２）式中可得如下结果：洲　　　　　　　　　　一工（４－１）ｃ－ｂｂ１－－ｄ－－ｌ１，．．月．．，．１．ＩｌｌｌＪ１－－１１书，．１．．．．．．．！１‘ＩＪ一少ａｂ矿ａｂｄ－－１１　，口　ｌ　　１　　１　　，乃ａ　　　　Ｘ２１ｄ１　ｄ一１１　－１ｄ一１１一ｄ一１（４－２）　　　　　　⑧１－１１－ｄ１１胜ｌｅｓＪ．ｈＺａｈ干１魂２－－ｌ；：１　　　　１２　　１ａ｀　　　ａｂ１２　　ａ｀　　　ａｂ１２－１　－２－１　１１　－１ａｂ１２　ｂ＇／４　ａ６／２　ｂ＇１４ａｓ　　　ａ６１２　　ａ＇　　　ａｂ１２ａｂ１２　６＇１４　ａｂ／２　ｂ２　ｌ４　　　　Ｘ（４－３）ｌｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓＬ由于因子ｄ和ｂ的变化，式（　　　　４－３）中的变换己不是真正的ＤＣＴ变换了，而是４Ｘ　４　ＤＣＴ变换的近似，因此变换后的输出与原来的４Ｘ４　ＤＣＴ变换后的输出是不同的。伸缩因子矩阵Ｅ所要做的乘法运算最后被并入到后面的量化过程中。这样　　　　ＣＸＣ　　　　　　Ｏ－１一Ｉ－２　１ＩＪ－２　２－１西安电子科技大学硕士学位论文：视频编码标准Ｈ．２６４及其快速实现算法研究Ｈ．２６４中的４ｘ４块ＤＣＴ变换就变为下面非常简洁的式子了：厂卫．ｌｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓＬ门ｌｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓＪｒｌｌＬ门ｌｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓ　　１．Ｊ１　Ｉ　Ｉ　　１２　　１　　１１　－１　－２　　　　Ｘ飞．．月Ｙ　＝　（ＣＸＣ２　１一１　－２１一１　－１　１（４－４），．Ｊｌ．．月－１一１　２－２　１一１１一２２－１根据式（（４－３）可得Ｈ．２６４的反ＤＣＴ变换表示为：１　　　　　１　　１／２　ｌ厂　ｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓＬ矛一．ｔ、　『．　胜‘！．．．．．．ＩＪ一ａ２　ａｂ　ａｌ　ａｂａｂ扩ａｂ护ａ＇　ａｂ了ａｂ　　　　　　　　　　　　　　　　　　　　２　ｌ门　ｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓｅｓＪ１／２－－Ｉ－－１Ｉ　　　　　　ｌ　　　　　　ＹＸ＇＝吓（Ｙ（９Ｅ，）Ｃ，１／２　－１一１－１／２　－１　　１－１／２一】－１　　　　　１１一１／２　　（４－５）　　　　　　　　公‘！－１　　１　－１／２ａｂ夕ａ６护和Ｈ．２６４的ＤＣＴ变换一样，伸缩因子双也被并入到反量化后Ｈ．２６４的反ＤＣＴ变换就转化为：厂一‘Ｌ１／２－－ｌ－－１　　且１气．去１　　　　　１　　１／２　　　　ＹＩ　　　　　　１－１／２　－１－１　　　１１　－１／２Ｘ　Ｉ　＝叮　（Ｙ）ＣＩ　　　　　　　　　　一ｌ１／２一１一１－１／２　－１　１－１　　　１一１／２（４－６）　　　　通过式（４－４）和式（４－６）可以看出，由于矩阵中的乘上２与除上２可以通过可以通过左移和右移实现，所以Ｈ．２６４的４ｘ４ＤＣＴ变换只需要加法和移位操作即可完成不仅保证了精度还降低了变换的复杂度。４．　３．　１．　１　Ｈ．　２６４中的量化过程基本的量化过程可以表示为Ｚ（　　　　ｉ，　ｊ）　＝　ｒｏｕｎｄ　（Ｙ（ｉ，　ｊ）　ｌ　Ｑｓｔｅｐ），其中Ｙ（ｉ．　ｊ）是式（４－３）变换后的系数，Ｑｓｔｅｐ是量化步长，Ｚ（ｉ，ｊ）是量化后的系数。标准中Ｑｓ　　　　ｔｅｐ共有５２个值，它们以量化系数ＱＰ为索引，它们的对应关系如表４．１所示。ＱＰ每增加６，　　Ｑｓｔｅｐ加倍；ＱＰ每增加１，Ｑｓｔｅｐ增加１２．５。量化步长较宽的范围使得编码器可以精确而灵活的兼顾比特率和质量。量化步长１２．５％的变化也意味着比特率约１２．５％的下降。亮度和色度信号的ＱＰ值可以不同，二者的参数范围都是在０－５１之间。ＱＰ０１２３４１３０５１．１２５．‘胜１．１．ＬＪｌ咭．．表４．　　　　　　　　　　　　　　　　　　　　　　　　　　　　１　Ｑｐ与Ｑｓｔｅｐ关系６１．２５３６４０　　　　　　　　　　　　　　　　　　２７１．３７５８１．６２５４２８０９１．７５１０２５１２２４６８７５｝０．６２５０．Ｑｓｔｅｐ１ＱＰ｝１２．２５０．８１２５０．８７５１８５Ｑｓｔｅｐ２０Ｈ．２６４将变换中的伸缩因子集成到了量化过程中。首先，输入Ｘ经过变换，ｙＣＴ。接下来每一个系数Ｗ　得到了未经量化的系数：Ｗ＝已，（ｉ，力在同一步中完成第四章Ｈ．　２６４整数变换零块的预先判决‘，缩‘口量化，良。：Ｚ（ｉ，ｊ）一“　（　Ｗ（ｉ，ｊ）　）・其中，当“４ｘ‘块中的位置ＰＦ（ｉ，　ｊ）Ｑｓｔｅｐ为（０，０），　（２，０），（０，２）或（２，２）时，ＰＦ（ｉ，　ｊ）＝ａ２；当在４ｘ４块中的位置为（１，１），　（１，３），（３，１）或（（３，３）时ＰＦ（ｉ，　ｊ）一叹；在其它位置ＰＦ（ｉ，　ｊ）一咧。在Ｈ．２６４参考模型中，因子（ＰＦ（ｉ，　ｊ）／Ｑｓｔｅｐ）被乘性因子ＭＦ（Ｑｐ，　ｉ，　ｊ）及右移运算代替，以避免除法。所以量化过程可表示为：Ｚ（ｉ，　ｊ）　＝ｒｏｕｎｄ（Ｗ（ｉ，　ｊ）　ＭＦ（２Ｑｇｂｐｉｅ，ｉ，　ｊ））其中ＭＦ（ＱＰ　ｉｄ）计算如下式所示：尸Ｆ（ｉ，　ｊ）ＭＦ（Ｑｐ，　ｉ　ｊ）＝２ｇｂｉｃｃ，ｇｂｉｔｓ＝１５　＋　ｊｌｏｏｒ（ＱＰ　ｌ６）。Ｑｓｔｅｐ（４－７）（４－８）在运算过程中，式（４－７）被执行为：Ｚ（　　　　ｉ，　ｊ）　＝　ｓｉｇｎ（Ｗ　（ｉ＞　ｊ））（！　Ｗ　（ｉ，　ｊ）卜ＭＦ（Ｑｐ，ｉ，　ｊ）　＋　ｆ　．２ｑｌ，ｌ，）　＞ｇ　ｂｉｔｓ　（４－９）其中＞＞表示二进制右移。在参考模型中，ＭＦ（ＱＰ，　ｉ　ｊ）的最初６个值可以根据ＱＰ和系数的位置（动通过式（４－８）计算得到，其具体的值如表４．２所示。当ＱＰ＞５时，ＭＦ（ＱＰ　ｉ　ｊ）的值保持不变，但每当ＱＰ增加６，除数２ｇｂｉ“就乘以２。对帧内模式ｆ是１／３，对帧间模式ｆ是１６／６　［４　１ＱＰ０１２３４５１３１０７１１９１６　　　　　　　　　　　　　　　　　　　　　　　　表４．２乘性因子ＭＦ（Ｑｐ，　ｆ　ｔ）的取值｝洁Ｗ＇．．，，。。、，。，、，。。、｝其他位置Ｍ｝＼ｕ，ｕｈｌ｝Ｎｈ＼０＞０ｌ＞ｌ｝＞０Ｉ位置（１，　１），（１，３），（３，１），（３，３）５２４３４６６０４１９４３６４７３３５５２８９３８０６６７４９０６５５４１００８２９３６２８１９２７２８２５８２５５２４３４５５９　　　　Ｈ．２６４设计的整数变换和量化算法，其运算复杂度低、计算精度准确，且适应Ｈ．２６４编码块大小和形状可变的特点。根据整数变换和量化的特点，下面将给出预测编码模式选择过程中的预先判决零块快速算法。４．　３．　２　Ｐ５４　Ｘ　４预测模式的零块预先判决算法　　　　在Ｈ．２６４预测帧中，为了更加精确的进行帧间预测，每个宏块（ＭＢ）都要将图４．１给出的所有预测模式进行预测一遍，然后选择编码效率最佳的预测模式作西安电子科技大学硕士学位论文：视频编码标准Ｈ．２６４及其快速实现算法研究为最佳预测模式。在进行模式选择时，其选择依据是在每种预测模式下，运动补偿后，得到的帧间ＳＡＤ（绝对差值和）最小。如果预测模式是ＰＳ４Ｘ４，那么宏块中每个４Ｘ４块的ＳＡＤ值为艺艺｝Ｘ（ｉ，ｊ）Ｉ－ｏ　ｍ＝０其中Ｘ　（ｉｊ）表示运动补偿后的帧间预测差值。另外，由式（４－４）可以看出，整数变换后Ｙ的直流分量以０，０）为艺艺Ｘ（ｉ，　ｊ），将以０，０）代入式子（４－８）就可计算出直１　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　＝ｏ　；＝ｏ流系数的量化值为：２Ｚ。（；０，。＿０）＝，ｓ，片３ｉＲ｝Ｙ３　５＂Ｘ（ｔ，ｉ）｝［｝　Ｙ３３ＹＸ（ｉ，ｉ）ＩＶ＇（ｐＱ，０，０）＋ｆ．２００１　；Ｑｂｉｔｓｌ　　（４－１０）在预先判决零块算法中，我们近似认为如果Ｚ（　　０，０）为零，则此时Ｚ（ｉ，ｊ）　（ｉ，ｊ＝０，１，２，３　）中所有值均为零，即整个块的变换系数量化后全为零。由此可以从式（４－１０）推出，ＰＳ４Ｘ４模式下判决４Ｘ４块在整数变换系数量化后全为零的条件是：Ｌ　　　　　　　　　　　　　ｍｏ　Ｊ＝Ｏ　　　　　　　Ｊ　ＬＷ＝０　；＝ｏ　　　　　　ｉ　　　　　　　　　　　　　　　　　　ｊ」Ｉ　１＝＇０ｊ＝＇妇Ｑｏ　ｇ，０，０）＋ｆ　．２１＂＂　）　＞＞　ｑｂｉｔｓ一继续化简可得：（４－１０）１｝Ｇ３　．｝Ｇ３．Ｘ（ｔ，ｊ）Ｉ＜（１－ｆ）　＂２ｇｌ，ｌＩＷ（＆，０，０）、飞（４－１１）另外，由于｝艺艺Ｘ　（ｉｊ艺酬Ｘ　（ｉ，ｊ小那么式（４－１１）全零块的判决条件可，＝ｏ　；＝ｏ１＝ｏ　Ｊ＝ｏ　　＜用下式替代：ＹＩＩＸ（ｉ，ｊ）ｌ　＜（１－ｆ）．２ｑ＂，ＩＪｂＦ（９，０，０）一Ｔ，４ｉ司　ｊ＝ｏ（４－１２）由式（　　　　（４－１１）可以看出，不等号左边项即为４Ｘ４块运动补偿后ＳＡＤ值。因此，在ＰＳ　４Ｘ４预测模式选择过程中，可对４Ｘ４块进行全零块判决。下面给出算法的具体步骤：　　　　步骤一计算４Ｘ４块位移矢量为零的ＳＡＤ值ＳＡＤＯ，ｏ。首先，判断ＳＡＤＯ，ｏ否满足式（（４－１１），如果ＳＡＤＯ，ｏ小于判决门限Ｔ４ｘ４，则终止当前块的位移估值，录该块的位置Ｌ．．，，　（ｘ．　ｙ表示在ＭＢ中４Ｘ４块位置的行、列坐标），然后执行步骤二；否则，继续完成位移估值，得到最小ＳＡＤ值，并计算４Ｘ４块的帧间预测是记第四章Ｈ．　２６４整数变换零块的预先判决差值后，再执行步骤二。步骤二完成４Ｘ４块整数变换和量化。首先判断当前块是否属于Ｌｘ　　，Ｙ，如果４Ｘ４块是全零块，则对该块不再进行整数变换和量化，直接对４Ｘ４块取全零值；否则，对该块帧间预测差值进行整数变换和量化。通过使用基于ＰＳ　　　　　４Ｘ４预测模式的预先判决零块算法，可以大大减少４Ｘ４块位移估值时ＳＡＤ的计算次数，同时还减少了整数变换和量化的运算，且对ＰＳ　４Ｘ４预测模式的编码性能和效率基本没有影响。４．３．　３其它预测模式的预先判决零块算法由于Ｈ．　　　　２６４支持不同大小和形状的编码块，因此可选预测模式除了ＰＳ４　Ｘ　４模式以外，还包括图４．１中给出的其它预测模式。为了在预测模式Ｐ１６Ｘ１６，　Ｐ１６Ｘ８，　Ｐ８　Ｘ　１６和Ｐ８Ｘ８，以及子预测模式ＰＳ８Ｘ８，　ＰＳ８Ｘ４，　ＰＳ４Ｘ８中，也能使用４．３．２节给出的预先判决零块算法，来提前终止位移估值，减少ＳＡＤ的计算次数，提高Ｈ．２６４编码速度，具体算法如下：（　　　　１）在所有预测模式和子预测模式中，将不同大小和形状的块一律分为４Ｘ４大小，这样就可以对不同预测模式下的每个４Ｘ４块使用判决门限毛ｘ４进行预先判决。（　　　　２）计算４Ｘ４块位移矢量为零的ＳＡＤ值ＳＡＤｏ，ｏ，如果ＳＡＤ，，。满足式（（４－１１），则记录该块的位置Ｌ，，ｙ，然后继续计算当前预测模式下的其它４Ｘ４块ＳＡＤｏ，ｏ，同样使用式（（４－１１）进行判断，直到所有４Ｘ４块全部完成ＳＡＤｏ，。的计算。（　　　　３）在计算得到当前预测模式下全部４Ｘ４块的ＳＡＤＯ，ｏ后，进行全零块的预先判决：如果所有４Ｘ４块的ＳＡＤｏ，ｏ均满足式（４－１１），那么就终止该预测模式下块的位移估值，当前块即为全零块。例如：在Ｐ　１６Ｘ８模式下，如果该模式下８个４Ｘ４块的ＳＡＤＯ，。均小于判决门限几、；，则１６ｘ８块可以提前终止位移估值，即判决该１６ｘ８块为全零块。（　　　　４）进行整数变换和量化。为了保证编码效率，只有在最佳预测模式是子预测模式ＰＳ８Ｘ８，　ＰＳ８Ｘ４，　ＰＳ４Ｘ８和ＰＳ　４Ｘ４的情况下，才将对应Ｌ、二位置的４Ｘ４块直接取全零值，即不再进行整数变换和量化，否则，要对所有４Ｘ４块的帧间预测差值做整数变换和量化。　　　　本文提出的预先判决零块算法，不仅对ＰＳ　４Ｘ４预测模式实现全零块判决，而且可用于全部预测模式和子预测模式的全零块判决，有效降低了帧间预测的运算复杂度，便于实时视频通信系统的实现。西安电子科技大学硕士学位论文：视频编码标准８２６４及其快速实现算法研究４．４实验结果实验使用三个典型的标准图像序列“ｆ　　　　ｏｒｅｍａｎ＂（运动剧烈、、＂ｎｅｗｓ＂（中等运动）、＂ｃｌａｉｒｅ＂（运动较小）共３００帧进行实验研究，它们是ＱＣＩＦ格式，Ｙ：Ｕ：Ｖ是４：２：０。实验平台是ＰＩＶ　２ＧＨｚ计算机和自主开发的Ｈ．２６４软件编解码器，下面实验结果中的数据均以此开发平台上的时间为准。并用恢复图像亮度信号的平均ＰＳＮＲ和编码比特数作为衡量Ｈ．２６４编码性能和效率的测度。在Ｈ．２６４编码器中，帧间预测可以使用图４．１中给出的所有预测编码模式，满足Ｈ．２６４基本框架（Ｂａ　　ｓｅｌｉｎｅ　Ｐｒｏｆｉｌｅ）要求。　　　　３给出在ＰＳ４Ｘ４预测模式下，使用不同量化参数ＱＰ时预先判决首先，表４．零块算法的实验结果。从表４．３中可以看出，随着ＱＰ的增加，使用４．３．２节中提出的预先判决零块快速算法后，全零４Ｘ４块最多可占８０％以上，当然全零块所占比例与图像序列的内容和ＱＰ的取值相关。另外，这一算法误判率非常低，对Ｈ．２６４编码性能和效率基本没有影响。表４．　　　　　　　　　　　　　　　　　　　　３　ＰＳ　４Ｘ４预测模式下全零块所占百分比ＱＰ１８２８Ｃｌａｉｒｅ４６．４１７２．２２％ＮｅｗＳ２３．４２％Ｆｏｒｅｍａｎ２．１％４８．８７％６８．２９％２１．１４％引７６％３８８７．３５％将预先判决零块算法应用于Ｈ．　　　　２６４的所有预测模式和子预测模式，在表２给出实验结果。表４．４中比较了不使用预判零块算法（ＮＯＰ）和使用本文提出的预先判决零块算法（ＤＡＺＡ）的编码性能和效率，以及编码速度。表４．　　　　　　　　　　　　　　　　　　４比较ＮＯＰ算法与ＤＡＺＡ算法的实验结果图像序列ｆｏｒｅｍａｎＱＰ２８３８２８ＰＳＮＲ（ｄＢ）ＮＯＰ３５．５８２９．０１３６．５９２９．１４ＤＡＺＡ编码比特数少ｉｔｓ）ＮＯＰ编码速度（帧砂）编码速度提ＮＯＰ３６名３９．９４５．２４８．１ＤＡＺＡＤＡＺＡ高的百分比４石％１１．８％２２．６％３８７％４７．４％５８．４％３５．５１２８．９６３６．５３１６０４８８０４２２７２８８３５３１２２６７９４４１５６７８７２４３１１７６８０５６４８３８．５４４．６５５．４６６．７７１．２８３．３ｃｌａｉｒｅ３８２８２９．１２３９．７８３２．９８２６３６８８３９６４２４２０３５４４３９．８５３３．０７４０９００８２０２６８８４８３５２．６ｎｅＷＳ３８从表４．　　　　４可以看出，对所有预测编码模式都使用预先判决零块算法后，与不使用预判零块算法相比，编码速度最多可以提高５８．４％，当然这与图像序列的内容和ＱＰ的取值相关。另外，解码恢复图像的平均ＰＳＮＲ下降不到Ｏ．１ｄＢ，恢复图像主观质量良好。因此，使用本文提出的预先判决零块算法，在保证编码性能和效率的前提下，大大提高了Ｈ．２６４的编码速度。第四章Ｈ．　２６４整数变换零块的预先判决４．５小结本文基于Ｈ．　　　　２６４整数变换和量化的特点，在选择最佳预测编码模式的过程中，通过判断ＳＡＤ的值来预先判决变换量化系数全部为零的块，提出了提前终止位移估值的快速算法。实验结果表明，使用零块预先判决快速算法，在基本没有降低Ｈ．２６４编码性能和效率的前提下，显著提高了视频编码的速度，特别对于运动较小的图像序列，在量化因子比较大的时候效果更加明显，大大的提高了Ｈ．２６４的编码速度。结束语结束语Ｈ．　　　　２６４是最新的视频编码标准，它采用多种先进的编码技术，大幅度提高了编码效率，并可以灵活而高效地应用于不同网络类型和应用领域，在技术上体现了很大的进步。由于其优良的性能和巨大的发展潜力，Ｈ．２６４必将在今后的网络多媒体通信和视频传输中广泛应用。因此，对Ｈ．２６４标准的研究具有十分重要的实际意义，它有助于我们进行视频压缩编码、多媒体通信以及网络性能优化等方向的研究。但Ｈ．２６４编码算法的运算复杂度与以前的视频编码标准相比大大增加，这就给视频软件编解码器的实时处理带来了困难。为了达到实时处理视频业务的技术要求，必须研究提高编码速度的方法。这正是本文所研究的重点。本文主要进行了一下几点研究：　　　　１．对Ｈ．２６４视频编码器的原理和实现方法进行了深入研究，特别是对Ｈ．２６４帧内编码、整数变换量化过程进行了详细的研究，并用实验比较了Ｈ．　　　　２６４与　　　　Ｈ．２６３十的性能差别。２．在对Ｈ．２６４帧内编码过程进行了详细的研究的基础上提出了帧内预测快速算法。实验表明，使用帧内预测快速算法使得Ｈ．　　　　２６４的编码速度提高了１　　　　０％－２０％。另外，通过使用ＳＩＭＤ技术后，Ｈ．２６４的帧内编码速度也有了显著的提高，帧内帧的编码速度提高了１　　　　７％－３０％．３．在对整数变换量化过程进行了详细研究的基础上提出了零块的预先判决算法，实验表明使用零块预先判决算法后Ｈ．　　　　２６４的编码速度甚至提高了５８．４％　　　　但使用这些算法后图像质量却并未下降多少。本文对Ｈ．　　　　２６４的帧内预测编码及整数变换提出了快速实现算法，综合使用这些方法将极大的提高了Ｈ．２６４的编码速度。不过本文研究的内容只是Ｈ．２６４高效编码算法的一部分，Ｈ．２６４中还有相当一部分运算复杂度较高编码算法，如多帧预测，１／４像素精度插值等，这些都是今后应该研究的方向。致谢致谢　　　　深深感谢我的导师常义林教授。非常感谢他多年以来无论是在学习上还是在生活上对我的深切关怀和无私帮助，我所取得的每一份成果，都是和常老师的悉心指导和严格要求分不开的。非常感谢宋彬无论是在生活上还是在学习上对我关心和帮助，我所取得的很　　　　多成果也离不开他的帮助。感谢李立中老师、张健康老师给予的帮助和支持。　　　　　　　　感谢马林华、张新、艾达、吴炜、沈中、贾杰、万帅、杨福正、潘敏、林磊、林都平、武银枝、武福平、王俊生、马彦卓、屈兴建、任军刚、霍俊彦、胡晓斌、孙方涛、刘砚等师兄、师弟、师姐、师妹们，还有已经毕业的王新岱、张杰、李春林、李国兵、惠惠、李篙泉、石军等师兄、师姐，感谢他们对我的帮助。在实验室这个大集体中，我们相互帮助，相互促进。从他们的身上，我学到了很多的知识。　　　　我还要特别感谢我的家人，我所取得的一切离不开他们一直以来的无私奉献和默默支持。参考文献４９参考文献［１］　ＩＴＵ　Ｔｅｌｅｃｏｍ．　Ｓｔａｎｄａｒｄｉｚａｔｉｏｎ　Ｓｅｃｔｏｒ　ｏｆ　ＩＴＵ．　Ａｄｖａｎｃｅｄ　ｖｉｄｅｏ　ｃｏｄｉｎｇ　ｆｏｒ　ｇｅｎｅｒｉｃａ　　　　ｕｄｉｏｖｉｓｕａｌ　ｓｅｒｖｉｃｅｓ［Ｓ］．　ＩＴＵ－Ｔ　Ｒｅｃｏｍｍｅｎｄａｔｉｏｎ　Ｈ．２６４，　Ｍａｙ．　２００３．［２］　ＴｈｏｍａｓＷｉｅｇａｎｄ，　Ｇａｒｙ　Ｊ．　Ｓｕｌｌｉｖａｎ．　Ｏｖｅｒｖｉｅｗ　ｏｆ　ｔｈｅ　Ｈ．２６４／ＡＶＣ　Ｖｉｄｅｏ　ＣｏｄｉｎｇＳｔ　　　　ａｎｄａｒｄ［Ｊ］．　ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｃｉｒｃｕｉｔｓ　ａｎｄ　Ｓｙｓｔｅｍｓ　ｆｏｒ　Ｖｉｄｅｏ　Ｔｅｃｈｎｏｌｏｇｙ，２００３，　　　　１３（７）：　５６０－５７６．［３１　Ｊｏｒｎ　Ｏｓｔｅｒｍａｎｎ，　Ｊａｎ　Ｂｏｒｍａｎｓ，　Ｐｅｔｅｒ　Ｌｉｓｔ，　ｅｔ　ａｌ．　Ｖｉｄｅｏ　Ｃｏｄｉｎｇ　ｗｉｔｈ　Ｈ．２６４／ＡＶＣ：Ｔｏｏｌ　　　　ｓ，　Ｐｅｒｆｏｒｍａｎｃｅ，　ａｎｄ　Ｃｏｍｐｌｅｘｉｔｙ．　ＩＥＥＥ　Ｃｉｒｃｕｉｔｓ　ａｎｄ　Ｓｙｓｔｅｍ　Ｍａｇａｚｉｎｅ．　ＦｉｒｓｔＱｕａｒ　　　　ｔｅｒ　２００４．［４１　ｌａｉｎ　Ｅ　Ｇ　Ｒｉｃｈａｒｄｓｏｎ．　Ｈ．２６４／ＭＰＥＧ－４　Ｐａｒｔ　１０　Ｗｈｉｔｅ　Ｐａｐｅｒ．　ｈｔｔｐ：／／ｗｗｗ．ｖｅｏｄｅｘ．ｃｏｍ，Ｏｃｔ　　　　ｏｂｅｒ　２００２．［５］　Ｔ．　Ｗｅｄｉ．　Ｍｏｔｉｏｎ　Ｃｏｍｐｅｎｓａｔｉｏｎ　ｉｎ　Ｈ．２６４／ＡＶＣ．　ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｃｉｒｃｕｉｔｓ　ａｎｄＳｙｓ　　　　ｔｅｍｓ　ｆｏｒ　Ｖｉｄｅｏ　Ｔｅｃｈｎｏｌｏｇｙ，　Ｊｕｌｙ　２００３．［６１　Ｂｏｊｕｎ　Ｍｅｎｇ，　Ｏｓｃａｒ　Ｃ．　Ａｕ．　Ｆａｓｔ　Ｉｎｔｒａ－Ｐｒｅｄｉｃｔｉｏｎ　Ｍｏｄｅ　Ｓｅｌｅｃｔｉｏｎ　ｆｏｒ　４ｘ４　Ｂｌｏｃｋｓ　ｉｎＨ．　　　　２６４［Ｊ］．　ＩＥＥＥ　Ｉｎｔｅｎａｒｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ａｃｏｕｓｔｉｃｓ，　Ｓｐｅｅｃｈ，　ａｎｄ　ＳｉｇｎａｌＰｒ　　　　ｏｃｅｓｓｉｎｇ，　２００３，　ｖｏｌ．　３：　３８９－３９２［７］　Ｆｅｎｇ　ＰＡＮ，　Ｘｉａｏ　ＬＩＮ．　Ｆａｓｔ　Ｍｏｄｅ　Ｄｅｃｉｓｉｏｎ　ｆｏｒ　Ｉｎｔｒａ　Ｐｒｅｄｉｃｔｉｏｎ．　ＪＶＴ－Ｇ０１３，　７｀ｈ　　　　Ｍｅｅｔｉｎｇ：　Ｐａｔａｙａ　ＩＩ，　Ｔｈａｉｌａｎｄ，　７－１４　Ｍａｒｃｈ，　２００３［８］　Ｈｅｎｒｉｑｕｅ　Ｓ．　Ｍａｌｖａｒ，　Ａｎｔｔｉ　Ｈａｌｌａｐｕｒｏ，　Ｍａｒｔａ　Ｋａｒｃｚｅｗｉｃｚ，　ｅｔ　ａｌ．　Ｌｏｗ－ＣｏｍｐｌｅｘｉｔｙＴｒ　　　　ａｎｓｆｏｒｍ　ａｎｄ　Ｑｕａｎｔｉｚａｔｉｏｎ　ｉｎ　Ｈ．２６４／ＡＶＣ　［Ｊ］．　ＩＥＥＥ　Ｔｒａｎｓ．　Ｏｎ　Ｃｉｒｃｕｉｔｓ　ａｎｄＳｙｓ　　　　ｔｅｍｓ　ｆｏｒ　Ｖｉｄｅｏ　Ｔｅｃｈ，２００３，　１３（７）：　５９８－６０３．［９］　Ｚｈｏｕ　Ｘｕａｎ，　Ｙｕ　Ｚｈｅｎｇｈｕａ　ａｎｄ　Ｙｕ　Ｓｏｎｇｙｕ．　Ｍｅｔｈｏｄ　ｆｏｒ　ｄｅｔｅｃｔｉｎｇ　ａｌｌ－ｚｅｒｏ　ＤＣＴｃ　　　　ｏｅｆｆｉｃｉｅｎｔｓ　ａｈｅａｄ　ｏｆ　ｄｉｓｃｒｅｔｅ　ｃｏｓｉｎｅ　ｔｒａｎｓｆｏｒｍａｔｉｏｎ　ａｎｄ　ｑｕａｎｔｉｓａｔｉｏｎ　［Ｊ］．ＥＬＥＣＴＲＯＮＩ　　　　ＣＳ　ＬＥＴＴＥＲＳ，　１９９８，３４（１９）：１８３９－１８４０［１０１周宁兆，宋彬Ｈ．　２６４中帧内编码算法及其快速实现研究中国有线电视２００４年第２４期杂志　　　　［１ｌ］宋彬，常义林，周宁兆Ｈ．　２６４整数变换零块的预先判决算法西安电子科技大学学报已录用待发表　　　　研究成果研究成果在硕士研究生期间取得的研究成果如下：、参加科研情况１，研究内容：基于Ｈ．　２６３十的可变速率视频解码器优化，国防预研项目：变速率信源编码体制和方法研究２．研究内容：在ＰＮＸ１３００平台上实现Ｈ．　２６３十的视频编解码及音频的编解码，大唐合作项目：大唐音频、视频解决方案３．研究内容：Ｈ．２６４帧内编码实现与优化，源传合作项目：视频编码Ｈ．２６４的实现与优化二、发表论文情况仁１〕周宁兆，宋彬Ｈ．　２６４中帧内编码算法及其快速实现研究中国有线电视已发表在２００４年第２４期杂志上［２〕宋彬，常义林，周宁兆Ｈ．　２６４整数变换零块的预先判决算法西安电子科技大学学报已录用待发表

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

视频编码标准H.264及其快速实现算法q