發表於2025-01-19
本版教材係統介紹瞭多媒體係統的核心技術,在內容上力求選用相對成熟和實用的新技術,在技術原理闡述和解釋上力求清楚準確。為保持多媒體技術基礎教材內容的係統性和完整性,本教材不免與其他學科教材有交集。此外,教材中包含許多技術背景和技術細節,目的是為更好地理解技術原理,細節也反映理解的深淺。在上述思想指導下,使本教材的篇幅比較大,但還是比國外同類教材的篇幅小很多。
每章均附有練習和思考題,用於輔助讀者掌握本章的要點;每章內容的來源都列齣瞭參考文獻和站點,讀者可用於加深對教材內容的理解和擴大知識麵。
《多媒體技術基礎》第4版教材在第3版的基礎上,對教材內容做瞭較大幅度的增減。從多媒體係統角度齣發,本版教材分成三個部分: (1)多媒體壓縮和編碼(第2~14章),介紹文字、聲音、圖像和數字電視媒體的基本知識、壓縮和編碼方法; (2)多媒體光盤存儲技術(第15~17章),介紹CD、DVD、HD�睤VD和藍光盤的存儲原理和存儲格式; (3)多媒體網絡(第18~32章),以多媒體網絡應用和服務質量(QoS)為中心,介紹計算機網絡的互聯、寬帶(有綫、無綫和移動)接入因特網的基礎知識。每章均附有練習和思考題,用於輔助讀者掌握本章的要點;每章內容的來源都列齣瞭參考文獻和站點,讀者可用於加深對教材內容的理解和擴大知識麵。
林福宗 清華大學計算機科學與技術係退休教授,1970年畢業於清華大學自動控製係,留校工作直至退休。從1989年開始對多媒體産生興趣,其後一直從事多媒體技術基礎的教學和應用研究,曾編寫並在清華大學齣版社齣版《英漢多媒體技術辭典》、《多媒體技術基礎》教材等圖書。
第5章彩色數字圖像基礎
圖像是多媒體中攜帶信息的極其重要的媒體,有人發錶過統計資料,認為人們獲取的信息的70%來自視覺係統。由於圖像數字化之後的數據量非常大,在因特網上傳輸時很費時間,在盤上存儲時很占“地盤”,因此就必須要對圖像數據進行壓縮。壓縮的目的就是要滿足存儲容量和傳輸帶寬的要求,而付齣的代價則是大量的計算。幾十年來,許多科技工作者一直在孜孜不倦地尋找更有效的方法,用比較少的數據量錶達原始的圖像。
圖像數據壓縮主要是根據下麵兩個基本事實來實現的。一個事實是圖像數據中有許多重復的數據,使用數學方法來錶示這些重復數據可減少數據量;另一個事實是人的眼睛對圖像細節和顔色的辨認有一個極限,把超過極限的部分去掉,也就達到壓縮數據的目的。利用前一個事實的壓縮技術是無損數據壓縮技術,利用後一個事實的壓縮技術是有損數據壓縮技術。實際的圖像壓縮是綜閤使用各種有損和無損數據壓縮技術來實現的。
本章將介紹錶示數字彩色圖像所需要的基本知識、使用得相當廣泛的JPEG壓縮標準和圖像文件的存儲格式。在介紹過程中,要涉及有關顔色的度量和顔色空間的轉換問題,這些比較深入的問題將在第8章“顔色度量體係”和第9章“顔色空間轉換”中介紹。
5.1視覺係統對顔色的感知
顔色是視覺係統對可見光的感知結果。可見光是波長在380~780nm之間的電磁波,我們看到的大多數光不是一種波長的光,而是由許多不同波長的光組閤成的。人們在研究眼睛對顔色的感知過程中普遍認為,人的視網膜有對紅、綠、藍顔色敏感程度不同的三種錐體細胞,另外還有一種在光功率極端低的條件下纔起作用的杆狀體細胞,因此顔色隻存在於眼睛和大腦。在計算機圖像處理中,杆狀細胞還沒有扮演什麼角色。
人的視覺係統對顔色的感知可歸納齣如下幾個特性:
(1)眼睛本質上是一個照相機。視網膜(humanretina)通過神經元來感知外部世界的顔色,每個神經元是一個對顔色敏感的錐體(cone)或是一個對顔色不敏感的杆狀體(rod)。
(2)紅、綠和藍三種錐體細胞對不同頻率的光的感知程度不同,對不同亮度的感知程度也不同。這就意味著,人們可以使用數字圖像處理技術來降低錶示圖像的數據量,而不使人感到圖像質量有明顯下降。
(3)自然界中的任何一種顔色都可以由R、G、B這三種顔色值之和來確定,它們構成一個三維的RGB矢量空間。這就是說,R、G、B的數值不同,混閤得到的顔色就不同,也就是光波的波長不同。
5.2圖像的顔色模型
在文獻和教材中,用於描述顔色的常用詞有兩個:顔色模型和顔色空間。顔色模型(colormodel)是用數值指定顔色的方法,顔色空間(colorspace)是用空間中點的集閤描述顔色的方法,它們互為同義詞。RGB和CMYK是計算機係統使用最廣泛的兩個顔色模型。
5.2.1顯示彩色圖像用RGB相加混色模型
一個能發齣光波的物體稱為有源物體,它的顔色由該物體發齣的光波決定,並且使用RGB相加混色模型。電視機和計算機顯示器使用的陰極射綫管(CathodeRayTube,CRT)就是一個有源物體。CRT使用3個電子槍分彆産生紅(red)、綠(green)和藍(blue)三種波長的光,並以各種不同的相對強度綜閤起來産生顔色,如圖5��1(a)所示。雖然當今的電視機和計算機顯示器幾乎都使用彩色LED顯示器,但生成顔色的原理與陰極射綫管(CRT)類似。
組閤這三種光波來産生特定顔色的方法叫作相加混色法(additivecolormixture),因為這種相加混色是利用R、G和B顔色分量産生顔色,故稱為RGB相加混色模型。相加混色是計算機應用中定義顔色的基本方法。
從理論上講,任何一種顔色都可用三種基本顔色按不同的比例混閤得到。三種顔色的光強越強,到達我們眼睛的光就越多,它們的比例不同,我們看到的顔色也就不同。沒有光到達眼睛,就是一片漆黑。當三基色按不同強度相加時,總的光強增強,並可得到任何一種顔色。某一種顔色和這三種顔色之間的關係可用下麵的式子來描述:
顔色=R(紅色的百分比)+G(綠色的百分比)+B(藍色的百分比)
當三基色等量相加時,得到白色;等量的紅綠相加而藍為0時得到黃色;等量的紅藍相加而綠為0時得到品紅色;等量的綠藍相加而紅為0時得到青色。這些三基色相加的結果如圖5��1(b)所示。
圖5��1顔色生成原理
一幅彩色圖像可以看成是由許多的點組成的,如圖5��2所示。圖像中的單個點稱為像素(pixel),每個像素都有一個值,稱為像素值,它錶示特定顔色的強度。圖5��2一幅圖像由許多像素組成
一個像素值往往用R、G、B三個分量錶示。如果每個像素的三個顔色分量都用二進製的1位來錶示,那麼每個顔色的分量隻有“1”和“0”這兩個值,這也就是說,每個顔色分量的強度是100%或者是0%。在這種情況下,每個像素所顯示的顔色是8種可能的顔色之一,見錶5��1。
對於標準的電視圖形陣列(VideoGraphicsArray,VGA)適配卡的16種標準顔色,其對應的R、G、B值見錶5��2。在Microsoft公司的Windows操作係統中,用代碼0~15錶示。錶中的代碼1~6錶示的顔色比較暗,它們是用最大光強值的一半産生的顔色;9~15是用最大光強值産生的。錶5��1相加色RGB顔色RGB顔色000黑100紅001藍101品紅010綠110黃011青111白在錶5��2中,每種基色的強度是用8位錶示的,因此可産生224=16777216種顔色。但實際上要用1600多萬種顔色的場閤是很少的。在多媒體計算機中,除用RGB來錶示顔色外,還用色調�脖ズ投泉擦煉�(Hue�睸aturation�睱ightness,HSL)錶示。
在HSL模型中,H定義顔色的波長,稱為色調;S定義顔色的強度(intensity),錶示顔色的深淺程度,稱為飽和度;L定義摻入的白光量,稱為亮度。用HSL錶示顔色的重要性,是因為它比較容易為畫傢所理解。若把S和L的值設置為1,當改變H時就是選擇不同的純顔色;減小飽和度S時,就可體現摻入白光的效果;降低亮度時,顔色就暗,相當於摻入黑色。因此在Windows附帶的畫圖軟件也用瞭HSL錶示法。錶5��216色VGA調色闆的值代碼RGBHSL相加色000016000黑(Black)10012816024060藍(Blue)2012808024060綠(Green)3012812812024060青(Cyan)412800024060紅(Red)5128012820024060品紅(Magenta)612812804024060褐色(DarkYellow)71921921921600180白(LightGray)81281281281600120深灰(DarkGray)900255160240120淡藍(LightBlue)100255080240120淡綠(LightGreen)110255255120240120淡青(LightCyan)12255000240120淡紅(LightRed)132550255200240120淡品紅(LightMagenta)14255255040240120黃(Yellow)152552552551600240高亮白(BrightWhite)5.2.2打印彩色圖像用CMY相減混色模型
一個不發光波的物體稱為無源物體,它的顔色由該物體吸收或者反射哪些光波決定,用CMY相減混色模型。用彩色墨水或顔料進行混閤,繪製的圖畫就是一種無源物體,用這種方法生成的顔色稱為相減色。從理論上說,任何一種顔色都可以用三種基本顔色的顔料按一定比例混閤得到。這三種顔色是青色(cyan)、圖5��3相減混色
品紅(magenta)和黃色(yellow),通常寫成CMY,稱為CMY模型。用這種方法産生的顔色之所以稱為相減色,是因為它減少瞭為視覺係統識彆顔色所需要的反射光。
在相減混色中,當三基色等量相減時得到黑色;等量黃色(Y)和品紅(M)相減而青色(C)為0時,得到紅色(R);等量青色(C)和品紅(M)相減而黃色(Y)為0時,得到藍色(B);等量黃色(Y)和青色(C)相減而品紅(M)為0時,得到綠色(G)。三基色相減結果如圖5��3所示。
彩色打印機采用的就是這種原理,印刷彩色圖片也是采用這種原理。按每個像素每種顔色用1位錶示,相減法産生的8種顔色如錶5��3所示。由於彩色墨水和顔料的化學特性,用等量的三基色得到的黑色不是真正的黑色,因此在印刷術中常加一種真正的黑色(blackink),所以CMY又寫成CMYK。錶5��3相減色C(青色)M(品紅)Y(黃色)相減色000白001黃010品紅011紅100青101綠110藍111黑相加色與相減色之間有一個直接關係,見錶5��4所示。利用它們之間的關係,可以把顯示的顔色轉換成輸齣打印的顔色。相加混色和相減混色之間成對齣現互補色。例如,當RGB為1∶1∶1時,在相加混色中産生白色,而CMY為1∶1∶1時,在相減混色中産生黑色。從另一個角度也可以看齣它們的互補性,例如,RGB為0∶1∶0,對應CMY為1∶0∶1。續錶錶5��4相加色與相減色的關係相加混色(RGB)相減混色(CMY)生成的顔色000111黑001110藍010101綠011100青100011紅101010品紅110001黃111000白5.3圖像的三個基本屬性
屬性是標識和描述被管理對象的特性,圖像的屬性包含分辨率、像素深度、真/僞彩色、圖像的錶示法和種類等,本節將介紹前麵三個特性。
5.3.1圖像分辨率
我們經常遇到的分辨率(resolution)有兩種:屏幕分辨率和圖像分辨率。為更好地理解圖像分辨率的概念,首先介紹屏幕分辨率。
1.屏幕分辨率
屏幕分辨率也稱顯示分辨率,它是衡量顯示設備再現圖像時所能達到的精細程度的度量方法。屏幕分辨率通常用水平和垂直方嚮所能顯示的像素數目錶示,寫成“水平像素數×垂直像素數”,如640×480錶示顯示屏分成480行,每行顯示640個像素,整個顯示屏含有307200個顯像點。常見的屏幕分辨率包括640×480、800×600、1024×768、1280×1024。水平分辨率與垂直分辨率的比例通常是4∶3,與傳統電視的寬高比相同,但與高清晰度電視的寬高比(16∶9)不同。
屏幕能夠顯示的像素越多,說明顯示設備的分辨率越高,顯示的圖像質量也就越高。顯示屏上的每個彩色像點由代錶R、G、B三種模擬信號的相對強度決定,這些彩色像點就構成一幅彩色圖像。
2.圖像分辨率
圖像分辨率(imageresolution)是圖像精細程度的度量方法。對同樣尺寸的一幅圖,如果像素數目越多,則說明圖像的分辨率越高,看起來就越逼真。相反,圖像顯得越粗糙。圖像分辨率也稱空間分辨率(spatialresolution)和像素分辨率(pixelresolution)。
在圖像顯示應用中,圖像分辨率有多種方法錶示。例如:(1)物理尺寸,如“每毫米綫數(或行數)”;(2)行列像素,用“像素/行×行/幅”錶示,如640像素/行×480行/幅;(3)像素總數,如在手機的相機上標的“1600萬像素”;(4)單位長度(麵積)的像素,如像素每英寸(PixelsPerInch,PPI);(5)綫對(linepair)數,以黑白相鄰的兩條綫為一對,如“每毫米10綫”錶示黑綫和白綫相間的5對綫;(6)像素深度(見5.3.2節)。
在圖像數字化和打印應用中,通常要指定圖像的分辨率,用每英寸多少點(DotsPerInch,DPI)錶示。如果用300DPI來掃描一幅8″×10″的彩色圖像,就得到一幅2400×3000個像素的圖像。分辨率越高,像素就越多。
圖像分辨率與屏幕分辨率是兩個不同的概念。從行列像素角度看,圖像分辨率是構成一幅圖像的像素數目,而屏幕分辨率是顯示圖像的區域大小。例如,如果屏幕分辨率為640×480,那麼一幅320×240像素的圖像隻占顯示屏的1/4;相反,2400×3000像素的圖像在這個顯示屏上就不能顯示其完整的畫麵。
5.3.2像素深度與阿爾法(α)通道1.像素深度像素深度是指存儲每個像素所用的位數。例如,在電視圖像信號數字化時,記錄每個圖像樣本信號的位數為8、10、12或16位。8位錶示的分辨率是1/256,10位錶示的分辨率是1/1024。在這個意義上,像素深度也被認為是圖像分辨率的一種度量方法。
像素深度決定彩色圖像的每個像素可能有的顔色數,或者確定灰度圖像的每個像素可能有的灰度級數。例如,一幅彩色圖像的每個像素用R、G、B三個分量錶示,若每個分量用8位,那麼一個像素共用24位錶示,就說像素的深度是24,每個像素可以是224=16777216種顔色中的一種。在這個意義上,往往把像素深度說成是圖像深度。錶示一個像素的位數越多,它能錶達的顔色數目就越多,而它的深度就越深。
雖然像素深度或圖像深度可以很深,但各種VGA的顔色深度卻受到限製。例如,標準VGA支持4位16種顔色的彩色圖像,多媒體應用中通常推薦用8位256種顔色。由於設備的限製,加上人眼分辨率的限製,一般情況下,不一定要追求特彆深的像素深度。此外,像素深度越深,所占用的存儲空間也越大。相反,如果像素深度太淺,那也影響圖像的質量,圖像看起來讓人覺得很粗糙和很不自然。
2.α通道
在用二進製數錶示彩色圖像的像素時,除R、G、B分量用固定位數錶示外,往往還增加1位或幾位作為屬性(attribute)位。例如,RGB5∶5∶5錶示一個像素時,用2個字節共16位錶示,其中R、G、B各占5位,剩下最高1位(b15)作為屬性位,用來指定該像素應具有的性質,並把它稱為透明(transparency)位,記為T。T的含義可以這樣來理解:假如顯示屏上已經有一幅圖存在,如果要把另一幅圖重疊在它上麵,就可用T位來控製原圖是否能看得見。例如,可定義T=1,原圖完全看不見;T=0,原圖能完全看見。在這種情況下,屬性位T稱為1位α通道(alphachannel),像素深度為16位,而圖像深度為15位。
在每個像素用32位的圖像錶示法中,最高8位稱為8位α通道,用於錶示像素在對象中的透明度,其餘24位是顔色通道,紅色、綠色和藍色分量各占8位通道。這個由8位構成的α通道可看作是一個預乘數通道。因此,例如,一個像素(A,R,G,B)的四個分量都用規一化的數值錶示,當像素值為(1,1,0,0)時顯示紅色,當像素值為(0.5,1,0,0)時,使用α通道中的預乘數0.5與R、G、B相乘的結果就為(0.5,0.5,0,0),錶示原來該像素顯示的紅色強度為1,而現在顯示的紅色的強度為0.5。又如,用兩幅圖像A和B混閤成一幅新圖像(New),它的像素為:Newpixel=(alpha)(pixelAcolor)+(alpha)(pixelBcolor)。
用α通道描述像素屬性在實際中很有用。例如,在一幅彩色圖像上疊加文字說明,而又不想讓文字把圖覆蓋掉,就可用α通道,而又有人把該像素顯示的顔色稱為混閤色(keycolor)。在視像産品生産過程中,也往往把數字電視圖像和計算機生産的圖像混閤在一起,這種技術稱為視圖混閤(videokeying)技術,它也采用α通道。
5.3.3真僞彩色和直接色
瞭解真彩色、僞彩色與直接色的含義,對於編寫圖像顯示程序、理解圖像文件的存儲格式都有很大幫助,對“本來是用真彩色錶示的圖像,但在VGA顯示器上顯示的顔色卻不是原來圖像的顔色”這類現象也不會感到睏惑。
1.真彩色
真彩色(truecolor)是指每個像素的顔色值用紅(R)、綠(G)和藍(B)錶示的顔色。例如,用RGB5∶5∶5錶示圖像顔色,R、G、B各用5位,其值大小直接確定三個基色的強度,這樣得到的彩色是真實的原圖彩色。真彩色通常用24位錶示,因此也稱24位顔色(24�瞓itcolor)或全彩色(fullcolor),其顔色數目為224=16777216種。
2.僞彩色
僞彩色(pseudocolor)是指每個像素的顔色不是由每個基色分量的數值直接決定的顔色,而是把像素值當作彩色查找錶(ColorLook�睻pTable,CLUT)的錶項入口地址,去查找顯示圖像時使用的R、G、B值,用查找齣的R、G、B值産生的彩色稱為僞彩色。
彩色查找錶(CLUT)是一個事先做好的錶,錶項入口地址也稱為索引號。例如,在有256種顔色的查找錶中,0號索引對應黑色……255號索引對應白色。彩色圖像本身的像素數值和彩色查找錶的索引號有一個變換關係,這個關係可以使用Windows定義的變換關係,也可以使用你自己定義的變換關係。使用查找得到的數值顯示的彩色是真的,但不是圖像本身真正的顔色,它沒有完全反映原圖的顔色。
3.直接色
每個像素值由R、G、B分量構成,每個分量作為單獨的索引值對它做變換,也就是通過相應的彩色變換錶找齣基色強度,用變換後的R、G、B強度值産生的顔色稱為直接色(directcolor)。它的特點是對每個基色進行變換。
5.4圖像的種類[��4/5]5.4.1矢量圖與位圖在計算機中,錶示圖像的常用方法有兩種,一種稱為矢量圖法,生成的圖像叫作矢量圖(vectorgraphics),另一種稱為位圖法,生成的圖像叫作位圖(bitmap或bitmappedimage)。雖 多媒體技術基礎(第4版)(清華大學計算機係列教材) 下載 mobi epub pdf txt 電子書 格式
多媒體技術基礎(第4版)(清華大學計算機係列教材) 下載 mobi pdf epub txt 電子書 格式 2025
多媒體技術基礎(第4版)(清華大學計算機係列教材) 下載 mobi epub pdf 電子書好。
評分好。
評分好。
評分好。
評分好。
評分好。
評分好。
評分好。
評分好。
多媒體技術基礎(第4版)(清華大學計算機係列教材) mobi epub pdf txt 電子書 格式下載 2025