MPEG-2 là một tiêu chuẩn mã hóa nén (thường được gọi tắt là chuẩn nén) trong bộ tiêu chuẩn MPEG dùng để mã hóa luồng dữ liệu hình có kết hợp với các thông tin về âm thanh. Đây là một phương thức mã hóa dữ liệu có tổn hao cho phép lưu trữ và truyền phim ảnh trên nền hệ thống và băng thông hiện thời. MPEG-2 được mở rộng dựa trên chuẩn MPEG để hỗ trợ việc nén dữ liệu để truyền Video số chất lượng cao. Để hiểu được tại sao nén Video là rất quan trọng, ta cần tìm hiểu băng thông (Bandwidth) cần thiết để truyền các khung hình Video số không nén.
Tín hiệu video số sau khi nén MPEG-2 có dạng một dòng dữ liệu cơ sở video (Elementary Stream - ES) với chiều dài gần như vô tận và chỉ chứa những thông tin tối cần thiết để có thể khôi phục lại hình ảnh ban đầu.
PAL (Phase Alternate Line) là chuẩn để truyền tín hiệu TV tuần tự (Analog) được sử dụng ở khá nhiều nước trên thế giới. Khung hình TV dùng PAL không nén đòi hỏi băng thông rất lớn tới 216 Mbps, lớn hơn rất nhiều khả năng của truyền sóng radio. Một số nước dùng hệ thống Analog TV là NTSC. Hệ thống này cung cấp các thông tin về màu sắc kém trung thực hơn với tỉ lệ truyền các khung khác nhau. Tín hiệu NTSC không nén đòi hỏi dung lượng đường truyền thấp hơn không đáng kể ở mức 168 Mbps. TV độ phân giải cao HDTV (High Definition TV) yêu cầu băng thông tối thiểu là 1 Gbps.
Do chuẩn MPEG-2 cung cấp khả năng nén rất cao bằng cách dùng các thuật toán tiêu chuẩn, nó trở thành chuẩn cho TV số với các đặc tính:
+Nén Video tương thích với MPEG-1.
47 trang |
Chia sẻ: ngtr9097 | Lượt xem: 2705 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Đồ án Truyền dẫn tín hiệu số, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
MỤC LỤC
Chương I
MÃ HÓA
MÃ HÓA VIDEO
Mã hóa MPEG -2 :
Khái quát chung
MPEG-2 là một tiêu chuẩn mã hóa nén (thường được gọi tắt là chuẩn nén) trong bộ tiêu chuẩn MPEG dùng để mã hóa luồng dữ liệu hình có kết hợp với các thông tin về âm thanh. Đây là một phương thức mã hóa dữ liệu có tổn hao cho phép lưu trữ và truyền phim ảnh trên nền hệ thống và băng thông hiện thời. MPEG-2 được mở rộng dựa trên chuẩn MPEG để hỗ trợ việc nén dữ liệu để truyền Video số chất lượng cao. Để hiểu được tại sao nén Video là rất quan trọng, ta cần tìm hiểu băng thông (Bandwidth) cần thiết để truyền các khung hình Video số không nén.
Tín hiệu video số sau khi nén MPEG-2 có dạng một dòng dữ liệu cơ sở video (Elementary Stream - ES) với chiều dài gần như vô tận và chỉ chứa những thông tin tối cần thiết để có thể khôi phục lại hình ảnh ban đầu.
PAL (Phase Alternate Line) là chuẩn để truyền tín hiệu TV tuần tự (Analog) được sử dụng ở khá nhiều nước trên thế giới. Khung hình TV dùng PAL không nén đòi hỏi băng thông rất lớn tới 216 Mbps, lớn hơn rất nhiều khả năng của truyền sóng radio. Một số nước dùng hệ thống Analog TV là NTSC. Hệ thống này cung cấp các thông tin về màu sắc kém trung thực hơn với tỉ lệ truyền các khung khác nhau. Tín hiệu NTSC không nén đòi hỏi dung lượng đường truyền thấp hơn không đáng kể ở mức 168 Mbps. TV độ phân giải cao HDTV (High Definition TV) yêu cầu băng thông tối thiểu là 1 Gbps.
Do chuẩn MPEG-2 cung cấp khả năng nén rất cao bằng cách dùng các thuật toán tiêu chuẩn, nó trở thành chuẩn cho TV số với các đặc tính:
+Nén Video tương thích với MPEG-1.
+Chế độ Full-screen kết hợp với cải tiến chất lượng Video (cho TV và màn hình PC).
+Cải tiến mã hoá Audio (chất lượng cao, mono, stereo...).
+Truyền phối hợp nhiều thành phần.
+Các dịch vụ khác.
Các hệ thống sử dụng MPEG-2 đang rất phát triển như: TV số, VoD, Digital Versatile Disc (DVD)... Thuật toán nén Video MPEG-2 đạt được khả năng nén cao nhờ lợi dụng sự dư thừa in thông tin Video. MPEG-2 loại bỏ cả dư thừa về không gian và dư thừa về thời gian trong các cảnh Video.
Dư thừa thời gian xuất hiện khi các khung Video liên tiếp hiển thị hình ảnh của những hình ảnh giống nhau. Nó chứa các hình ảnh gần như không đổi hoặc thay đối rất nhỏ giữa các khung hình liên tiếp. Dư thừa không gian xảy ra khi một phần của ảnh được tái tạo lại (với thay đổi không đáng kể) trong một khung Video.
Dữ liệu từ các Macroblock cần được mã hoá sẽ được đưa đến cả bộ trừ (Subtractor) và bộ đoán chuyển động (Motion Estimator). Bộ đoán chuyển động sẽ so sánh các Macroblock mới được đưa vào này với các Macroblock đã được đưa vào trước đó và được lưu lại dùng để tham khảo. Kết quả là bộ đoán chuyển động sẽ tìm ra các Macroblock trong khung hình tham khảo gần giống nhất với Macroblock mới này. Bộ đoán chuyển động sau đó sẽ tính toán Vector chuyển động (Motion Vector), Vector này sẽ đặc trưng cho sự dịch chuyển theo cả hai chiều dọc và ngang của Macroblcok mới cần mã hoá so với khung hình tham khảo. Lưu ý rằng Vector chuyển động có độ phân giải bằng một nửa do thực hiện quét xen kẽ.
Hình 1: Dự đoán chuyển động.
Bộ đoán chuyển động cũng đồng thời gửi các Macroblock tham khảo được gọi là các Macroblock tiên đoán (Predicted Macroblock) tới bộ trừ để trừ với Macroblock mới cần mã hoá. Từ đó ta sẽ được các sai số tiên đoán (Error Prediction) hoặc tín hiệu dư, chúng sẽ đặc trưng cho sự sai khác giữa Macroblock cần tiên đoán và Macroblock thực tế cần mã hoá.
Tín hiệu dư hay sai số tiên đoán này sẽ được biến đổi DCT, các hệ số nhận được sau biến đổi DCT sẽ được lượng tử hoá để làm giảm số lượng các bits cần truyền. Các hệ số này sẽ được đưa tới bộ mã hoá Huffman, tại đây số bits đặc trưng cho các hệ số tiếp tục được làm giảm đi một cách đáng kể. Dữ liệu từ đầu ra của mã hoá Huffman sẽ được kết hợp với Vector chuyển động và các thông tin khác (thông tin về I, P, B-picture) để gửi tới bộ giải mã.
Đối với trường hợp P-picture, các hệ số DCT cũng được đưa đến bộ giải mã nội bộ (nằm ngay trong bộ mã hoá). Tín hiệu dư hay sai số tiên đoán được biến đổi ngược lại dùng phép biến đổi IDCT và được cộng thêm vào khung hình đứng trước để tạo nên khung hình tham khảo (tiên đoán). Vì dữ liệu khung hình trong bộ mã hoá được giải mã luôn nhờ vào bộ giải mã nội bộ ngay chính bên trong bộ mã hoá, do đó có thể thực hiện thay đổi thứ tự các khung hình và dùng các phương pháp tiên đoán ở trên.
Cơ chế nén MPEG-2
Tất cả các chuẩn quốc tế hiện tại cho nén video như là MPEG-1,2,4, ITU-T H261, H263, H264 đều là các sơ đồ mã hóa lai . Các sơ đồ này dựa trên các nguyên lý của dự đoán bù chuyển động và mã hóa chuyển đổi trên cơ sở khối.
Hình 2: Mô hình sơ đồ khối bộ mã hóa MPEG-2
Các khung mã hóa Intra (các khung I) được phân chia thành các khối 8x8 pixels. Các khối này tiếp theo được nén sử dụng DCT, lượng tử hóa (Q), quét zigzag, mã hóa Entropy (sử dụng kỹ thuật mã hóa có độ dài từ mã thay đổi VLC). Các khung mã hóa Inter (các khung B và P) là kết quả của bù chuyển động bằng cách trừ đi một dự đoán đã được bù chuyển động. Các khung dư (khung sai số) sau đó được chia thành các khối 8x8 pixel và được nén theo cách giống như với các khối của khung I.
Biến đổi cosine rời rạc (DCT)
Biến đổi cosine rời rạc là một công cụ toán học xử lý các tín hiệu như ảnh hay video. Nó sẽ chuyển đổi các tín hiệu từ miền không gian sang miền tần số và biến đổi ngược lại từ miền tần số quay trở lại miền không gian mà không gây tổn hao đến chất lượng. Lý do chọn biến đổi cosine cho xử lý ảnh số là: đầu tiên, nó có thể loại bỏ sự tương quan giữa các pixel ảnh trong miền không gian. Thứ hai là biến đổi cosine rời rạc yêu cầu ít sự phức tạp tính toán và tài nguyên hơn .
Lượng tử hóa các hệ số DCT
Sau khi biến đổi cosine rời rạc, sự tương quan giữa các pixel của một ảnh trong miền không gian đã được giải tương quan thành các tần số rời rạc khác nhau trong miền tần số. Do sự cảm nhận thị giác của con người là rất nhạy với hệ số DC và các tần số thấp, một phương pháp lượng tử hóa vô hướng được thiết kế cẩn thận có thể giảm sự dư thừa dữ liệu mà vẫn dữ được tính trung thực của ảnh.
Quét zigzag các hệ số DCT.
Sau khi biến đổi DCT ta thu được các khối 8x8 biểu diễn cho các hệ số tần số. Trong khối này thì các hệ số tần số thấp sẽ tụm lại ở góc cao phía trái của ma trận DCT. Quét zigzag sẽ sắp xếp lại thứ tự của ma trận để các hệ số được sắp xếp theo tần số theo thứ tự tăng dần.
Mã hóa Entropy
Sau DCT và lượng tử hóa là các thuật toán miền mã. Các thuật toán này thường được gọi là mã hóa Entropy, bao gồm mã hóa Huffman, mã hóa số học…, đây là phương pháp mã hóa không tổn hao. Ý tưởng cơ bản của mã hóa Entropy là các biểu tượng thường xuyên xuất hiện sẽ được mã hóa bằng các bít ngắn, trong khi đó các biểu tượng ít xuất hiện hơn sẽ được mã hóa bằng các bít dài hơn. Phương pháp này còn gọi là mã hóa có độ dài từ mã thay đổi (VLC), và một phương pháp cho hiệu quả cao là mã hóa Huffman. Điều này sẽ làm cho tốc độ bit của luồng giảm đáng kể.
Ước lượng và bù chuyển động
Nén video có thể đạt được với việc lấy mẫu không gian màu, loại bỏ các hệ số DCT tần số cao, lượng tử hóa, mã hóa không tổn hao, dự đoán và bù chuyển động trong miền thời gian. Chuẩn MPEG chấp nhận việc dự đoán và bù chuyển động dựa trên khối trong miền không gian. Thực tế, dự đoán và bù chuyển động cũng làm việc trong miền DCT vì các biến vị trí trong miền không gian có thể chuyển đổi với các biến tần số trong miền DCT.
Quá trình khôi phục lại khung hình tại bộ giải mã là hoàn toàn ngược lại. Từ luồng dữ liệu nhận được ở đầu vào, Vector chuyển động được tách ra và đưa vào bộ bù chuyển động (Motion Compensator), các hệ số DCT được đưa vào bộ biến đổi ngược IDCT để biến tín hiệu từ miền tần số thành tín hiệu ở miền không gian. Đối với P-picture và B-picture, Vector chuyển động sẽ được kết hợp với các Macroblock tiên đoán để tạo thành các khung hình tham khảo.
Không cần thiết phải luôn nén mọi khung hình Video cùng một mức độ, một phần của Clip có thể có độ dư thừa không gian thấp (ví dụ các hình ảnh phức tạp) trong khi đó các phần khác của Clip lại có độ dư thừa thời gian thấp (ví dụ các cảnh chuyển động nhanh). Vì thế dữ liệu Video đương nhiên sẽ ở các tỉ lệ nén (Bit rate) thay đổi trong khi việc truyền dữ liệu thường yêu cầu tốc độ cố định. Chìa khoá để điều khiển tốc độ truyền là trật tự dữ liệu đã nén trong bộ đệm (Buffer).Việc nén có thể được tiến hành với việc loại bỏ một vài thông tin đã được lựa chọn. Ảnh hưởng nhỏ nhất đối với chất lượng toàn bộ khung hình có thể đạt được bằng cách bỏ bớt các thông tin chi tiết. Điều này đảm bảo giới hạn tỉ lệ nén dữ liệu trong khi chất lượng của khung hình suy giảm tối thiểu.
Remove Intra-Frame Redundancy
Rate Control
Quantise Sample
Run-Length Compress
Buffer Store
Remove
Inter-Frame Redundancy
Analogue video sampling
Hình 3: Cơ chế nén MPEG II.
MPEG-2 bao gồm cơ chế nén trong một phạm vi rộng. Một bộ mã hoá với cơ chế nén phải phù hợp với một hoặc đoạn cảnh riêng biệt. Nói chung bộ mã hoá rất phức tạp, nó phải lựa chọn được cơ chế nén thích hợp nhất bởi vậy tăng chất lượng khung hình đối với tỉ lệ nén dữ liệu truyền. Bộ giải mã MPEG-2 cũng có nhiều kiểu, khả năng đa dạng và các lựa chọn khi kết nối.
Số lượng các Level và Profile được định nghĩa cho việc nén Video MPEG-2. Hệ thống MPEG-2 được phát triển trên một tập nào đó các Level và Profile:
+Profile: chất lượng của Video.
+Level: độ phân giải của Video.
Hệ thống cơ bản với tên MPML (Man Profile Man Level) nén dữ liệu Video từ 1-15 Mbps. Các Level khác nhau như: High Level, High Level 1440, Low Level và các Profile như: Simple, SNR, Spatial, 4:2:2 & High.
Các bộ giải mã điển hình:
+ 720 x 576 x 25 fps (PAL CCIR 601).
+ 352 x 576 x 25 fps (PAL Half-D1).
+ 720 x 480 x 30 fps (NTSC CCIR 601).
+ 352 x 480 x 30 fps (NTSC Half-D1).
Hầu hết các bộ giải mã đều hỗ trợ MPEG-1:
+ 352 x 288 x 25 fps (PAL SIF).
+ 352 x 240 x 30 fps (NTSC SIF).
Chuẩn MPEG-2 định nghĩa một sự phối hợp mã hoá Audio. Audio số có thể được mã hoá trong các dạng mã hoá khác nhau ở các tỉ lệ nén khác nhau.MPEG-2 cũng cung cấp các hỗ trợ cho việc truyền dữ liệu. MPEG-2 phân biệt hai kiểu dữ liệu:
+ Service Information: thông tin về Video, Audio và Data truyền bởi MPEG-2.
+ Private Data: thông tin người sử dụng hoặc thiết bị thu.
MÃ HÓA AUDIO
Tín hiệu Audio số
Hiện nay ,các thiết bị Audio số đã dần chiếm lĩnh và thay thế các thiết bị Audio tương tự trong phát sóng và sản xuất.
Ưu điểm của tín hiệu Audio số như:
Độ méo tín hiệu nhỏ một cách lý tưởng (0.1%).
Dải động âm thanh lớn gần ở mức tự nhiên (> 90dB).
Tuyến tần số bằng phẳng (±0.5 dB)
Việc tìm kiếm dữ liệu nhanh chóng, dễ dàng, độ bền ổn định lâu dài… . Kết quả là đã cải thiện chất lượng ghi xử lý âm thanh, đồng thời nó đáp ứng được nhu cầu lưu trữ và các hệ thống sản xuất chương trình bằng máy tính.
Tiêu chuẩn Audio số ra đời với sự liên kết giữa hai Hiệp hội kỹ thuật : Audio AES và EBU (Hiệp hội truyền thanh truyền hình châu Âu) . Nó hạn chế hiện tượng méo tín hiệu âm thanh trong hai quá trình biến đổi tương tự – số và ngược lại, từ đó chất lượng âm thanh được nâng cao rõ rệt.
Nguyên tắc chuyển đổi A/D
Các bước của quá trình biến đổi A/D tín hiệu âm thanh là:
Lấy mẫu (rời rạc hoá theo thời gian).
Lượng tử hoá (rời rạc hoá theo biên độ).
Mã hoá (gán giá trị nhị phân cho các mẫu).
Lấy mẫu
Lấy mẫu lí tưởng
Nguyên lý lấy mẫu là quá trình lấy biên độ của dạng sóng tương tự tại từng thời điểm theo một chu kỳ nhất định.
Thực chất quá trình lấy mẫu bao gồm việc nhận các tín hiệu tương tự với một chuỡi xung truyền lặp đi lặp lại theo thời gian có tần số là tần số lấy mẫu.
Chúng ta sẽ tìm hiểu trường hợp lấy mẫu lý tưởng với khoảng thời gian xung lấy mẫu gần bằng 0.
Biên độ
t
Phổ tín hiệu Audio
Fmax
Biên độ
t
fs-fmax
2fs
Phổ tín hiệu Audio lấy mẫu
Điều chế
biên độ
fs
2fs
3fs
t
Phổ tần số lấy mẫu “sóng mang”
fs
Phổ của dãy PAM (trong miền tần số)
Tín hiệu lấy mẫu
(PAM)
Biên độ
t
Biên độ
t
fs
2fs
Phổ tín hiệu Audio lấy mẫu
Lọc thông thấp
Biên độ
Tín hiệu Audio
t
Biên độ
t
Phổ tín hiệu Audio
Fmax
Khôi phục tín hiệu Audio tương tự
t
Biên độ
Tín hiệu Audio
t
Điều chế
biên độ
Biên độ
t
Xung lấy mẫu
Biên độ
Tín hiệu lấy mẫu
(PAM)
Quá trình lấy mẫu và kết quả dãy PAM (trong miền thời gian)
Lấy mẫu thực tế
Biên độ
Tín hiệu Audio
t
Điều chế biên độ
Xung lấy mẫu
t
Biên độ
Tín hiệu đã lấy mẫu
t
Biên độ
Trong thực tế, trong thời gian cho phép của bộ chuyển đổi A/D, giá trị biên độ xung cho mỗi mẫu sẽ được duy trì đến tận thời gian mẫu tiếp theo được lấy.Vì vậy, tạo ra tín hiệu Audio tương tự đã được lấy mẫu có dạng bậc thang, khoảng thời gian tồn tại này đúng bằng chu kỳ lấy mẫu (1/fsa).
Quá trình lấy mẫu thực tế
Lượng tử hóa
Từng mẫu của tín hiệu tương tự nguyên thuỷ được ấn định cho một giá trị mã số nhị phân bởi một thiết bị còn gọi là bộ lượng tử hoá. VD : 4 bít -> 16 bit giá trị nhị phân để mã hoá tương ứng biên độ xung cho mỗi mẫu.
Tín hiệu Audio tương tự có biên độ thấp được lượng tử hoá với rất ít các mức rời rạc. Điều này gây nên lỗi lượng tử của các tín hiệu vào mức thấp. Vì vậy, để giảm độ lớn của lỗi lượng tử có thể bằng cách tăng mức số rời rạc.
Nếu biên độ tín hiệu Audio tương tự vượt qua vùng lượng tử, khi đó quá trình cắt số sẽ được thực hiện.
Mã hóa
Mỗi giá trị nhị phân sau khi lượng tử hoá được mã hoá theo một cấu trúc thích hợp để tạo nên cấu trúc mẫu tín hiệu phục vụ cho truyền dẫn và các thiết bị lưu trữ. Hầu hết, các hệ thống mã hoá đều sử dụng phương pháp điều xung mã (PCM), điều chế xung rộng (PWM), mã hoá vi sai (DPCM), điểm di động .
Điều chế xung mã PCM
Điều xung mã PCM là quá trình biến đổi tương tự sang số ( A/D ) trong đó thông tin đầu vào dưới dạng các mẫu tín hiệu tương tự được biến đổi thành các tổ hợp mã nối tiếp ở đầu ra
Điều xung mã PCM bao gồm 3 quá trình:
1. Lấy mẫu
2. Lượng tử hoá
3. Mã hoá
Để chuyển đổi tín hiệu analog thành tín hiệu digital dùng phương pháp PCM, cần thực hiện 3 bước như hình dưới.
Trước hết phải lấy mẫu tín hiệu thoại, tức là chỉ truyền các xung tín hiệu tại các thời điểmnhất định.
Bước thứ hai là lượng tử hoá biên độ, nghĩa là chia biên độ của xung mẫu thành các mứcvà lấy tròn biên độ xung đến mức gần nhất.
Bước thứ ba mã hoá xung lượng tử thành từ mã nhị phân có m bit.
PCM vi sai (DPCM)
Đây là phương pháp dựa trên tính chất tương quan của tín hiệu tiếng nói , chỉ truyền đi độ chênh lệch giữa các mẫu cạnh nhau của tín hiệu tiếng nói :
Tín hiệu tiếng nói tương tự vào qua bộ lọc thông thấp , hạn chế băng tần của tín hiệu vào (thường là một nữa tần số lấy mẫu ) máy phát lượng tử và mã hóa lượng tử chênh lệch giữa xung lấy mẫu tương tự xn và tín hiệu dự đoán xn lấy từ đầu ra bộ dự đoán xn’ . Giá trị dự đoán của mẫu tiếp theo có được là nhờ loại suy từ p giá trị mẫu cho trước .
Điều chế PWM
Điều chế PWM có tên tiếng anh là Pulse Width Modulation là phương pháp điều chỉnh điện áp ra tải hay nói cách khác là phương pháp điều chế dựa trên sự thay đổi độ rộng của chuỗi xung vuông dẫm đếm sự thay đổi điện áp ra.
0
0
0
12V
12V
20% duty cycle
40% duty cycle
90% duty cycle
Các PWM khi biến đổi thì có cùng 1 tần số và khác nhau về độ rộng của sườn dương hay hoặc là sườn âm.
Đồ thị xung điều chế PWM
Trên là đồ thị dạng xung khi điều khiển bằng PWM. Với độ rộng xung đầu ra tương ứng và được tính bằng %. Tùy thích do chúng ta điều khiển.
Chương II
ĐÓNG GÓI
Dòng cơ sở (elementary stream) và dòng cơ sở đóng gói (packetized elementary stream)
Dòng cơ sở (elementary stream)
Tín hiệu video số dạng thức CCIR-601(tiêu chuẩn truyền hình số cơ bản) sau khi nén MPEG có dạng một dòng dữ liệu video cơ sở (Elementary Stream - ES). Dòng ES chỉ chứa những thông tin cần thiết để khôi phục lại hình ảnh ban đầu.
Tương tự, tín hiệu audio số dạng thức AES/EBU (Tần số lấy mẫu 48kHz, 24bit/mẫu, tốc độ bít 1152kbps) được mã hóa thành dòng cơ sở audio (audio ES).
Mã hóa Video
Mã hóa audio
(AES/EBU)
(REC 601)
Dữ liệu video
Dữ liệu audio
Dòng cơ sở Elementary Stream ES
Dòng cơ sở Elementary Stream ES
Dòng cơ sở về cơ bản là tín hiệu gốc tại đầu ra của bộ mã hóa và chỉ chứa những thông tin cần thiết để giúp bộ giải mã tái tạo lại hình ảnh, âm thanh ban đầu.
Sơ đồ dòng cơ sở
Hình trên mô tả cách thức tạo ra dòng cơ sở. Tín hiệu video sau khi qua bộ mã hóa hai chiều, cho kết quả là các thông tin về các vector chuyển động, bảng lượng tử, và các dữ liệu về không gian. Những dữ liệu này sau khi được mã hóa bằng các phương thức khác nhau sẽ được trộn vào thành một dòng cơ sở duy nhất. Dữ liệu sau bộ ghép (mux) nhiều hay ít là tùy vào lượng thông tin có trong ảnh. Nhưng tốc độ bit của dòng cơ sở là không đổi nhờ qua một bộ đệm. Bộ đệm này có khả năng cảm nhận tốc độ dữ liệu đi ra để điều khiển tốc độ mã hóa dữ liệu đầu vào.
Mã hóa 2 chiều
Mã hóa entropy và mã hóa độ dài từ mã thay đổi
Mã hóa vi sai
Bộ ghép
Bộ đệm
Tín hiệu Video
Đồng hồ yêu cầu
Vector chuyển động
Điều khiển tốc độ
Slice
Dữ liệu không gian
Bảng lượng tử
Dòng cơ sở
Tốc độ của dòng đi ra được qui định bởi thiết bị đồng hồ yêu cầu (demand clock). Đồng hồ này là do kênh truyền hoặc thiết bị lưu trữ quyết định.
Hình thành dòng cơ sở.
Cấu trúc dòng cơ sở được mô tả như sau:
Khối các hệ số DCT
Macro block
Slice
Ảnh
Nhóm ảnh
Video sequence
x n
x n
x n
x n
x n
Vector chuyển động
Tín hiệu đồng bộ
I/P/B
Tín hiệu định thời
Mở/ Đóng
Cỡ ảnh
Tỉ lệ khuôn hình
Đồng bộ
Quét liên tuc/ xen kẽ
Loại mẫu
Tín hiệu ra
Tốc độ ảnh
Ma trận lượng tử
Level
Profile
Cấu trúc dòng cơ sở
Đầu tiên là một tập hợp hợp các hệ số biểu diến khối DCT. Sáu hoặc tám khối DCT tạo nên một macro block. Ở ảnh B và ảnh P mỗi macro block sẽ tương ứng với một vector bù chuyển động. Một số macro block sẽ tạo thành một lát ảnh (slice) biểu thị sọc ngang của hình ảnh từ trái sang phải. Tập hợp các lát ảnh tạo thành một ảnh, ảnh này thì cần biết giá trị cờ I/P/B để biết được loại ảnh tương ứng. Một số ảnh tạo thành một nhóm ảnh (GOP - Group of Picture). Một nhóm ảnh bắt đầu bằng ảnh I, giữa hai ảnh I liền nhau là một số ảnh P và có thể có thêm ảnh B. Một tập hợp các nhóm ảnh tạo thành đoạn dữ liệu video. Bắt đầu mỗi chuỗi video đều có phần tiêu đề chứa những thông tin quan trọng hỗ trợ cho bộ giải mã.
Dòng cơ sở đóng gói (packetized elementary stream)
Giới thiệu chung về dòng cơ sở đóng gói
Đóng gói
Đóng gói
(Audio ES)
(Video ES)
Dòng cơ sở video
Dòng cơ sở audio
Video PES
Audio PES
Do dòng dữ liệu cơ sở là liên tục, có chiều dài tùy thuộc vào lượng dữ liệu đưa vào bộ mã hóa, để có thể truyền đi với độ tin cậy cao, dòng ES được đóng gói thành dòng cơ sở đóng gói ( Packetized Elementary Stream - PES ). Mỗi gói PES gồm một tiêu đề và dữ liệu của dòng cơ sở.
Start code
Stream ID
PTS
DTS
Data
Hình 2.1: Dòng cơ sở đóng gói
Hình 2.2: Cấu trúc gói PES
Dòng cơ sở video là dòng bit liên tục mang thông tin về hình ảnh. Trong việc lưu trữ và truyền dẫn thì sẽ thích hợp hơn nhiều nếu sử dụng những khối dữ liệu rời rạc, do vậy dòng cơ sở được đóng gói tạo thành dòng cơ sở đóng gói PES (packetized elementary stream). Tương tự như vậy, dữ liệu audio cũng cần được đóng gói. Cấu trúc của một gói được mô tả trong hình 2.2. Gói được bắt đầu bằng phần tiêu đề chứa một mã bắt đầu gói và một mã để phân biệt loại dữ liệu chứa trong gói. Ngoài ra có thể có thêm một số nhãn thời gian để đồng bộ với bộ giải mã hình ảnh trong thời gian thực và đồng bộ với âm thanh.
27 MHz
: 300
90 kHz
33-bit count
Encoder clock
Time stamp
Hình 2.3 chỉ ra rằng nhãn thời gian thực chất là lấy mẫu trạng thái của một bộ đếm được điều khiển bởi đồng hồ 90kHz. Đồng hồ này có được nhờ chia tần một đồng hồ chủ 27MHz cho 300. Có hai loại nhãn thời gian là nhãn thời gian trình diễn PTS (presentation time stamp) và nhãn thời gian giải mã DTS (decode time stamp). Nhãn thời gian trình diễn được dùng để xác định khi nào thì hình ảnh sẽ được thể hiện trên màn ảnh, còn nhãn thời gian giải mã xác định khi nào hình ảnh được giải mã. Trong mã hóa hai chiều,