Qúa trình số hoá âm thanh – Tài liệu text
chú ý đảm bảo tần số lấy mẫu phải lớn hơn hoặc bằng hai lần tần số lớn nhất của
sóng âm tương tự để tránh hiện tượng giả tần số. Nếu tần số lớn nhất của tín hiệu
của sóng âm thanh tương tự F(Hz) thì tần số lấy mẫu lớn hơn hoặc bằng 2F (gọi
là tần số Nyquist), chẳng hạn nếu ta số hoá tín hiệu lời nói ở tần số 5kHz thì tần
số lấy mẫu phải là 10kHz hoặc lớn hơn.
Hình: Quá trình số hoá thành dạng sóng file Wave
2.2 Quá trình lượng tử hoá
Đây là quá trình rời rạc biên độ tín hiệu của sóng âm tương tự.
Quá trình này lấy biên độ của tín hiệu tại mỗi lần lấy mẫu và biểu diễn các
biên độ đó dưới dạng nhị phân. Để lựa chọn cách thức lượng tử cần phải xem xét
hai kía cạnh: giá trị nhỏ nhất của tốc độ dữ liệu (data rate) và giá trị lớn nhất của
chất lượng âm (quality).
è
Tốc độ dữ liệu được tính bằng bps (bits per sencond) dùng để định
dạng sóng âm, nó là tích của số mẫu được lấy trong một giây (sample per
second) và số bit tương ứng một mẫu đã được lấy. Do tốc độ lấy mẫu là cố định
7
nên ta phải đảm bảo số bit để biểu diễn một mẫu càng lớn càng nghe trung thực
với âm thanh thật (do nó ảnh hưởng đến sự phân giải tiêu chuẩn của tín hiệu
tương tự tại mỗi thời điểm lấy mẫu, và do đó ảnh hưởng đến chất lượng âm
thanh cần thu).
è
Giá trị lớn nhất của chất lượng âm: nghĩa là khi chuyển đổi ngược
sóng âm số sang sóng âm tương tự phải đảm bảo lỗi xảy ra là nhỏ nhất. Điều này
đồng nhất với sóng âm tương tự sau khi được chuyển ngược từ sóng âm số phải
nghe giống sóng âm tương tự ban đầu được số hoá.
Việc lấy mẫu của tín hiệu không gây ra sự mất mát thông tin của tín hiệu
tương tự cần lấy mẫu, quá trình lượng tử hoá ngược lại gây ra mất mát thông tin
(hay còn gọi là lỗi lượng tử hoá) và gây ra nhiễu. Hệ số nhiễu tín hiệu (Signal –
to – noise) được dùng để đánh giá chất lượng âm thanh, được tính theo công
thức:
N
∑x
i =1
N
∑e
2
(i )
2
(i )
i =1
Tróng đó x(n) là mẫu thứ n, e(n) là lỗi lượng tử hoá đối với mẫu x(n) đó.
Tín hiệu tiếng nói sau khi được lượng tử hoá sẽ được lưu vào máy tính dưới
dạng các file âm thanh khác nhau, tuỳ thuộc vào mục đích sử dụng, như có thể
được lưu trữ nguyên mẫu như đã lượng tử hoá, hoặc đựơc nén rồi mới lưu trữ. Ta
xem xét các loại file phổ biến sau.
3. Cấu trúc file WAVE
3.1 Các loại file âm thanh:
8
Có rất nhiều dạng file âm thanh, như dạng file “.MP3”, “.MIDI”,
“.WAV”, “.RA”, “AIFF”, “.WMA”. Song phổ biến hơn là ở dạng “.wav”. Dạng
file này đưa ra ở dạng thô, dữ liệu âm thanh không được nén. Được phát minh
đầu tiên bởi Microsoft, các file wave vẫn được sử dụng một cách rộng rãi (ví dụ
các âm thanh lúc khởi động và tắt Window). Chất lượng âm thanh rất tốt nhưng
kích thước file rất lớn. Một bài hát pop đầy đủ ở dạng Wave có thể chiếm 40 MB
của không gian đĩa hoặc nhiều hơn.
3.2.Cấu trúc file WAVE
(1) Cấu trúc file wave: File wave là tập hợp con file RIFF của Window cho lưu
trữ các file multimedia. Một file RIFF có header file là một chuỗi các chunk dữ
liệu. Một file Wave thường là file RIFF cùng với một chunk wave đơn giản, nó
có chứa 2 chunk con: một chunk “fmt” đặc tả dữ liệu và một chunk dữ liệu có
chứa các mẫu dữ liệu thực. Gọi dạng này là “Canonical form”.
9
Dạng Header WAVE bắt đầu cùng với RIFF header
offset Size
Name
Description
0
4
ChunkID
Có chứa các chữ cái “RIFF”
4
4
ChunkSize
36+SubChunk2Size,
chính
xác
hơn:
4+(8+SubChunk1Size)
+(8+SubChunk2Size). Kích thước phần
10
còn lại của chunk, đó là kích thước của
toàn bộ file tính theo byte trừ đi 8 byte cho
2 trường không chứa trong nó là ChunkID
và ChunkSize.
8
4
Format
Có chứa các chữ cái “WAVE”
Dạng file Wave có chứa 2 Subchunk :”fmt” và “data”
Subchunk “fmt” mô tả dạng của dữ liệu âm thanh
Offset
Size Name
Description
12
4
Có
Subchunk1ID
chứa
các
chữ
cái
“fmt”
(dạng
0x666d7420 big – endian)
16
4
Subchunk1Siz 16 cho PCM, nó là kích thước phần còn lại
e
20
2
của subchunk
AudioFormat
PCM=1 (ví dụ lượng tử hoá tuyến tính),
các giá trị khác 1 chỉ ra một số dạng nén
22
2
NumChannels
Mono=1, Stereo=2
24
4
SampleRate
Ví dụ: 8000,44100
28
4
ByteRate
=SampleRate*NumChannels*BitPerSampl
e/8
32
2
BlockAlign
=Numchannels*BitPerSample/8
Số các byte cho một mẫu có chứa tất cả
các kênh
34
2
BitsPerSample 8bits=8, 16bits=16
2
ExtraParamSi
Nếu là PCM thì không tồn tại.
ze
X
ExtraParams
Không gian cho các tham số thêm vào
Subchunk “data” có chứa kích thước của dữ liệu và âm thanh thực
11
Offset
Size Name
Description
36
4
Có chứa các chữ cái “data”
SubChunk2ID
(dạng 0x64617461 big – endian)
40
4
SubChunk2Si
=NumSamples*NumChannels*BitPerSamp
ze
le/8
Số các byte trong dữ liệu
44
*
Data
dữ liệu âm thanh thực
Từ việc hiểu cấu trúc lưu trữ file. wav trong máy tính mà ta hoàn toàn có thể
thao tác xử lý các file wav một cách đơn giản như: việc cắt, dán, nối ghép, và
điều chỉnh phát 1 đoạn trong 1 file wav bất kỳ để nghe.
4. Xử lý file WAVE
Một file wave bao giờ cũng có phần header và phần dữ liệu. Trong đó
header chứa các thông tin như độ dài file, số bit/mẫu, kiểu kênh mono hay
stereo,…
Header
Dữ liệu
Muốn thao tác xử lý các file wave thì chúng ta phải thay đổi một số thông
số trong header như độ dài file,…sau đó ghi các dữ liệu cần thiết sau khi ghi
header mới vào.
+ Các trường cần thay đổi khi thực hiện các thao tác xử lý File wav
– 2 trường SubChunk1Size và SubChunk2Size tất nhiên là phải được
cộng thêm với phần dữ liệu của File 2
12
– Nếu 2 File khác tôc độ lấy mẫu, giả sử 2 File cùng số kênh, cùng mức
lượng tử, mà File 2 có tốc độ lấy mẫu lớn hơn File 1, thì khi ghép File2
vào File 1; khi phát, âm thanh File 1 như ban đầu còn file 2 sẽ phát chậm
hơn (điều này tương đương với 1 dọng trầm được phát thay vì dọng
cao). Ngược lại, File 2 có tốc độ lấy mẫu bé hơn File 1, thì khi ghép
File2 vào File 1, khi phát, âm thanh File 1 như ban đầu còn file 2 sẽ
phát nhanh hơn (điều này tương đương với 1 dọng cao được phát thay vì
dọng trầm).
– Nếu 2 File cùng tốc độ lấy mẫu:
+ Giả sử cùng cùng kênh là 1 hoặc 2, nhưng mức lưọng tử khác nhau,
chẳng hạn File1 là 8Bit/mẫu, File2 là 16Bit/mẫu khi ghép 2 File lại với
nhau ta cần phải thực hiện 1 phép ánh xạ 1 File về dạng cùng mức lượng tử
của File kia bằng cách, thực hiện biến đổi giá trị mẫu từ miền [0,255] tới
miền [0,65535] hoặc ngược lại.
+ Nếu cùng mức lượng tử, cùng kênh thì sao chép bình thường
+ Nếu cùng mức lượng tử nhưng khác kênh. Ta cần biến đổi 1 File về
dạng cùng kênh với File kia bằng cách: Biến 1 File Mono Stereo thì mỗi
mẫu của File Mono được nhân lên thêm 1 mẫu nữa và chèn vào sau mẫu đó.
Biến Stereo Mono bằng cách chỉ lấy mẫu của kênh trái hoặc kênh phải.
Lúc này từ File Stereo ta được 2 File MonoLeft và MonoRight.
13
CHƯƠNG 2: TIẾNG VIỆT VÀ CÁC ĐẶC TRƯNG
1 Quá trình phát âm
Với một vị trí quan trọng trong nhiều lĩnh vực, tiếng Việt và nhận dạng
tiếng Việt cần phải được quan tâm nghiên cứu nhiều hơn nữa. Dưới góc độ
nghiên cứu học hỏi, bước đầu tôi đã nghiên cứu âm thanh, tiếng nói và nhận
dạng với các phát âm từ đơn và nghiên cứu các nguyên âm và phụ âm trong
Tiếng Việt.
Quá trình phát âm của con người có thể được mô tả như sau:
+ Khí được đẩy từ phổi qua vòm họng ra miệng phát thành âm.
+ Khi dây thanh quản rung tạo ra các xung âm thanh và phát ra tiếng kêu
(voiced sound).
+ Nếu dây thanh quản không rung nhưng mở liên tục tạo ra âm câm
(Unvoice).
+ Khi nói hình dạng vòm họng, thanh quản thay đổi tạo ra các âm khác
nhau.
14
+ Hình dạng vòm họng thay đổi chậm trong khoảng từ 10 đến 100ms.
+ Lượng khí từ phổi đẩy ra xác định âm lượng phát ra .
Cách tạo ra tiếng nói như trên là nguyên lý cơ bản cho các tiếng nói chung
trên thế giới nhưng đi sâu vào nghiên cứu thì mỗi tiếng nói của các nước khác
nhau có điểm chung và điểm riêng biệt khác nhau, chính điểm riêng biệt khác
nhau này là một thuộc tính quan trọng để có thể nhận dạng tốt được các loại
tiếng nói của các nước khác nhau. Vì vậy cần phải hiểu rõ cấu trúc ngữ âm tiếng
Việt.
2 Ngữ âm tiếng Việt
2.1 Khái niệm âm tiết
Chuỗi lời nói của con người được chia ra thành nhiều đoạn nhỏ như câu,
từ, cụm từ … và cuối cùng là âm tiết. Âm tiết là đơn vị phát âm nhỏ nhất, không
phân chia được nữa dù nói chậm đến đâu (mà vẫn giữ đúng ý nghĩa âm tiết đó).
Mỗi âm tiết bao gồm nhiều yếu tố ngữ âm tạo thành và các yếu tố ngữ âm
hầu như phát âm cùng lúc để tạo nên đúng âm tiết đó. Bên cạnh đó người ta còn
xem âm tiết bao gồm nhiều yếu tố đoạn tính – là các yếu tố có giới hạn phân
đoạn trong âm tiết như phụ âm, nguyên âm và âm đệm – và các yếu tố siêu đoạn
tính – các yếu tố mà không giới hạn trong âm tiết như ngữ điệu, thanh điệu. Đặc
điểm riêng của âm tiết tiếng Việt là đơn âm và mang thanh điệu.
2.2 Cấu trúc âm tiết tiếng Việt.
Cấu trúc âm tiết tiếng Việt được xem xét theo nhiều cách, nhưng chúng ta
cũng có thể xem xét theo hai quan điểm sau:
2.2.1 Quan điểm truyền thống
Cấu trúc âm tiết:
15
Thanh điệu
Âm đầu
Phần vần
Âm đệm
Âm chính
Âm cuối
Một âm tiết tiếng Việt gồm 3 phần:
+ Thanh điệu: Là yếu tố luôn có mặt trong mọi âm tiết tiếng Việt. Tiếng
Việt bao gồm 6 thanh điệu: Ngang, huyền, sắc, hỏi, ngã, nặng.
+ Âm đầu : yếu tố mở đầu âm tiết, thường độc lập với phần còn lại.
+ Phần vần : gồm 3 phần:
Âm đệm: Là một bán nguyên âm chiếm vị trí trung gian giữa phụ âm và
phần vần. Có thể có hay không trong âm tiết. Âm đệm có chức năng tu chỉnh âm
sắc của âm tiết. Âm đệm có nhiệm vụ làm trầm hoá âm tiết. Tiếng Việt có hai âm
đệm là [o] và [u] được phát âm tương đối giống nhau.
Âm chính: Là một nguyên âm (đơn hay đôi), luôn có mặt trong âm tiết, giữ
vai trò là đỉnh của âm.Trong Tiếng Việt điểm thanh tính bao giờ cũng là nguyên
âm, các tiêu chí để phân biệt nguyên âm bao gồm các tiêu chí về âm sắc và âm
lượng. Các âm chính là các thành phần dễ phân biệt nhất.
Âm cuối: Là phụ âm hay bán nguyên âm để kết thúc âm tiết. Tiếng Việt có
hai bán nguyên âm cuối là [i] và [u].
Mỗi một ngôn ngữ có những đặc điểm về ngữ âm và ngữ pháp khác nhau.
Ta có thể áp dụng một phương pháp xử lý tiếng nói trên ngôn ngữ này rất hiệu
quả. Nhưng cùng phương pháp đó áp dụng cho một ngôn ngữ khác thì không
phải lúc nào cũng đúng. Đặc điểm của ngôn ngữ tiếng Anh là một từ được cấu
trúc từ một hoặc nhiều âm vị khác nhau. Vì vậy nói một từ trong ngôn ngữ này
có thể chia nhỏ ra làm một hoặc nhiều đoạn âm thanh. Với ngôn ngữ tiếng Việt
16
mỗi một từ được phát âm riêng biệt, không có sự biến đổi chu kỳ âm trong một
từ.
Với cách quan niệm này thì để nhận dạng một từ ta phải nhận dạng lần
lượt các yếu tố về thanh điệu, âm đầu và vần; trong vần ta lại chia nhỏ để nhận
dạng các phần âm đệm, âm chính, âm cuối. Và như vậy ta hình dung thấy rằng,
bài toán nhận dạng từ đọc của ta trở nên quá phức tạp, độ phức tạp về thời gian
là lớn, rồi việc phân chia ranh giới giữa các phần như thế nào là chuẩn, là đảm
bảo yêu cầu. Đây mới là vấn đề quan tâm hàng đầu. Chính vì những điều khó
khăn này mà ta phải nghĩ tới một hướng khác về cấu trúc từ. Và đây là quan
điểm mới mà tôi muốn thảo luận.
2.2.2 Quan điểm mới
Đây là quan điểm mới về cấu tạo từ ngữ trong tiếng Việt mà tôi đang
quan tâm nghiên cứu.
Ta thấy rằng quan niệm truyền thống tiếng Việt có bảng chữ cái gồm 17
phụ âm, 10 nguyên âm và 5 dấu, trên cơ sở đó tất cả các từ đơn được sinh ra. Các
từ đơn này là cơ sở tạo ra tất cả các từ trong tiếng Việt. Với cách quan niệm trên,
người ta có thể phân tích, nghiên cứu tiếng Việt ở nhiều khía cạnh khác nhau
như vần, điệu, ngữ pháp, ngữ nghĩa, cách phát âm, v.v.
Tuy nhiên với cách quan niệm trên làm cho chúng ta gặp nhiều khó khăn
về thuật toán như làm tăng dung tích bộ nhớ, tăng thời gian xử lý. Do đó để đơn
giản hoá khi nghiên cứu nhận dang tiếng Việt người ta có thể quan niệm toàn bộ
tiếng Việt được xây dựng từ một bảng gồm 26 phụ âm và 620 nguyên âm, đồng
thời có 620 vần ( Báo cáo khoa học 2006 của PGS.TS Nguyễn Văn Xuất ).
Như thế chúng ta có thể xem mọi từ trong tiếng Việt có cấu trúc như sau:
[] & [] (*)
17
Xem thêm: Hướng dẫn chọn mua nồi cơm điện
Source: https://dvn.com.vn
Category: Cảm Nang