Qúa trình số hoá âm thanh – Tài liệu text

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản không thiếu của tài liệu tại đây ( 981.97 KB, 84 trang )

chú ý đảm bảo tần số lấy mẫu phải lớn hơn hoặc bằng hai lần tần số lớn nhất của

sóng âm tương tự để tránh hiện tượng giả tần số. Nếu tần số lớn nhất của tín hiệu

của sóng âm thanh tương tự F(Hz) thì tần số lấy mẫu lớn hơn hoặc bằng 2F (gọi

là tần số Nyquist), chẳng hạn nếu ta số hoá tín hiệu lời nói ở tần số 5kHz thì tần

số lấy mẫu phải là 10kHz hoặc lớn hơn.

Hình: Quá trình số hoá thành dạng sóng file Wave

2.2 Quá trình lượng tử hoá

Đây là quá trình rời rạc biên độ tín hiệu của sóng âm tương tự.

Quá trình này lấy biên độ của tín hiệu tại mỗi lần lấy mẫu và biểu diễn các

biên độ đó dưới dạng nhị phân. Để lựa chọn cách thức lượng tử cần phải xem xét

hai kía cạnh: giá trị nhỏ nhất của tốc độ dữ liệu (data rate) và giá trị lớn nhất của

chất lượng âm (quality).

è

Tốc độ dữ liệu được tính bằng bps (bits per sencond) dùng để định

dạng sóng âm, nó là tích của số mẫu được lấy trong một giây (sample per

second) và số bit tương ứng một mẫu đã được lấy. Do tốc độ lấy mẫu là cố định

7

nên ta phải đảm bảo số bit để biểu diễn một mẫu càng lớn càng nghe trung thực

với âm thanh thật (do nó ảnh hưởng đến sự phân giải tiêu chuẩn của tín hiệu

tương tự tại mỗi thời điểm lấy mẫu, và do đó ảnh hưởng đến chất lượng âm

thanh cần thu).

è

Giá trị lớn nhất của chất lượng âm: nghĩa là khi chuyển đổi ngược

sóng âm số sang sóng âm tương tự phải đảm bảo lỗi xảy ra là nhỏ nhất. Điều này

đồng nhất với sóng âm tương tự sau khi được chuyển ngược từ sóng âm số phải

nghe giống sóng âm tương tự ban đầu được số hoá.

Việc lấy mẫu của tín hiệu không gây ra sự mất mát thông tin của tín hiệu

tương tự cần lấy mẫu, quá trình lượng tử hoá ngược lại gây ra mất mát thông tin

(hay còn gọi là lỗi lượng tử hoá) và gây ra nhiễu. Hệ số nhiễu tín hiệu (Signal –

to – noise) được dùng để đánh giá chất lượng âm thanh, được tính theo công

thức:

N

∑x

i =1

N

∑e

2

(i )

2

(i )

i =1

Tróng đó x(n) là mẫu thứ n, e(n) là lỗi lượng tử hoá đối với mẫu x(n) đó.

Tín hiệu tiếng nói sau khi được lượng tử hoá sẽ được lưu vào máy tính dưới

dạng các file âm thanh khác nhau, tuỳ thuộc vào mục đích sử dụng, như có thể

được lưu trữ nguyên mẫu như đã lượng tử hoá, hoặc đựơc nén rồi mới lưu trữ. Ta

xem xét các loại file phổ biến sau.

3. Cấu trúc file WAVE

3.1 Các loại file âm thanh:

8

Có rất nhiều dạng file âm thanh, như dạng file “.MP3”, “.MIDI”,

“.WAV”, “.RA”, “AIFF”, “.WMA”. Song phổ biến hơn là ở dạng “.wav”. Dạng

file này đưa ra ở dạng thô, dữ liệu âm thanh không được nén. Được phát minh

đầu tiên bởi Microsoft, các file wave vẫn được sử dụng một cách rộng rãi (ví dụ

các âm thanh lúc khởi động và tắt Window). Chất lượng âm thanh rất tốt nhưng

kích thước file rất lớn. Một bài hát pop đầy đủ ở dạng Wave có thể chiếm 40 MB

của không gian đĩa hoặc nhiều hơn.

3.2.Cấu trúc file WAVE

(1) Cấu trúc file wave: File wave là tập hợp con file RIFF của Window cho lưu

trữ các file multimedia. Một file RIFF có header file là một chuỗi các chunk dữ

liệu. Một file Wave thường là file RIFF cùng với một chunk wave đơn giản, nó

có chứa 2 chunk con: một chunk “fmt” đặc tả dữ liệu và một chunk dữ liệu có

chứa các mẫu dữ liệu thực. Gọi dạng này là “Canonical form”.

9

Dạng Header WAVE bắt đầu cùng với RIFF header

offset Size

Name

Description

0

4

ChunkID

Có chứa các chữ cái “RIFF”

4

4

ChunkSize

36+SubChunk2Size,

chính

xác

hơn:

4+(8+SubChunk1Size)

+(8+SubChunk2Size). Kích thước phần

10

còn lại của chunk, đó là kích thước của

toàn bộ file tính theo byte trừ đi 8 byte cho

2 trường không chứa trong nó là ChunkID

và ChunkSize.

8

4

Format

Có chứa các chữ cái “WAVE”

Dạng file Wave có chứa 2 Subchunk :”fmt” và “data”

Subchunk “fmt” mô tả dạng của dữ liệu âm thanh

Offset

Size Name

Description

12

4

Subchunk1ID

chứa

các

chữ

cái

“fmt”

(dạng

0x666d7420 big – endian)

16

4

Subchunk1Siz 16 cho PCM, nó là kích thước phần còn lại

e

20

2

của subchunk

AudioFormat

PCM=1 (ví dụ lượng tử hoá tuyến tính),

các giá trị khác 1 chỉ ra một số dạng nén

22

2

NumChannels

Mono=1, Stereo=2

24

4

SampleRate

Ví dụ: 8000,44100

28

4

ByteRate

=SampleRate*NumChannels*BitPerSampl

e/8

32

2

BlockAlign

=Numchannels*BitPerSample/8

Số các byte cho một mẫu có chứa tất cả

các kênh

34

2

BitsPerSample 8bits=8, 16bits=16

2

ExtraParamSi

Nếu là PCM thì không tồn tại.

ze

X

ExtraParams

Không gian cho các tham số thêm vào

Subchunk “data” có chứa kích thước của dữ liệu và âm thanh thực

11

Offset

Size Name

Description

36

4

Có chứa các chữ cái “data”

SubChunk2ID

(dạng 0x64617461 big – endian)

40

4

SubChunk2Si

=NumSamples*NumChannels*BitPerSamp

ze

le/8

Số các byte trong dữ liệu

44

*

Data

dữ liệu âm thanh thực

Từ việc hiểu cấu trúc lưu trữ file. wav trong máy tính mà ta hoàn toàn có thể

thao tác xử lý các file wav một cách đơn giản như: việc cắt, dán, nối ghép, và

điều chỉnh phát 1 đoạn trong 1 file wav bất kỳ để nghe.

4. Xử lý file WAVE

Một file wave bao giờ cũng có phần header và phần dữ liệu. Trong đó

header chứa các thông tin như độ dài file, số bit/mẫu, kiểu kênh mono hay

stereo,…

Header

Dữ liệu

Muốn thao tác xử lý các file wave thì chúng ta phải thay đổi một số thông

số trong header như độ dài file,…sau đó ghi các dữ liệu cần thiết sau khi ghi

header mới vào.

+ Các trường cần thay đổi khi thực hiện các thao tác xử lý File wav

– 2 trường SubChunk1Size và SubChunk2Size tất nhiên là phải được

cộng thêm với phần dữ liệu của File 2

12

– Nếu 2 File khác tôc độ lấy mẫu, giả sử 2 File cùng số kênh, cùng mức

lượng tử, mà File 2 có tốc độ lấy mẫu lớn hơn File 1, thì khi ghép File2

vào File 1; khi phát, âm thanh File 1 như ban đầu còn file 2 sẽ phát chậm

hơn (điều này tương đương với 1 dọng trầm được phát thay vì dọng

cao). Ngược lại, File 2 có tốc độ lấy mẫu bé hơn File 1, thì khi ghép

File2 vào File 1, khi phát, âm thanh File 1 như ban đầu còn file 2 sẽ

phát nhanh hơn (điều này tương đương với 1 dọng cao được phát thay vì

dọng trầm).

– Nếu 2 File cùng tốc độ lấy mẫu:

+ Giả sử cùng cùng kênh là 1 hoặc 2, nhưng mức lưọng tử khác nhau,

chẳng hạn File1 là 8Bit/mẫu, File2 là 16Bit/mẫu khi ghép 2 File lại với

nhau ta cần phải thực hiện 1 phép ánh xạ 1 File về dạng cùng mức lượng tử

của File kia bằng cách, thực hiện biến đổi giá trị mẫu từ miền [0,255] tới

miền [0,65535] hoặc ngược lại.

+ Nếu cùng mức lượng tử, cùng kênh thì sao chép bình thường

+ Nếu cùng mức lượng tử nhưng khác kênh. Ta cần biến đổi 1 File về

dạng cùng kênh với File kia bằng cách: Biến 1 File Mono  Stereo thì mỗi

mẫu của File Mono được nhân lên thêm 1 mẫu nữa và chèn vào sau mẫu đó.

Biến Stereo  Mono bằng cách chỉ lấy mẫu của kênh trái hoặc kênh phải.

Lúc này từ File Stereo ta được 2 File MonoLeft và MonoRight.

13

CHƯƠNG 2: TIẾNG VIỆT VÀ CÁC ĐẶC TRƯNG

1 Quá trình phát âm

Với một vị trí quan trọng trong nhiều lĩnh vực, tiếng Việt và nhận dạng

tiếng Việt cần phải được quan tâm nghiên cứu nhiều hơn nữa. Dưới góc độ

nghiên cứu học hỏi, bước đầu tôi đã nghiên cứu âm thanh, tiếng nói và nhận

dạng với các phát âm từ đơn và nghiên cứu các nguyên âm và phụ âm trong

Tiếng Việt.

Quá trình phát âm của con người có thể được mô tả như sau:

+ Khí được đẩy từ phổi qua vòm họng ra miệng phát thành âm.

+ Khi dây thanh quản rung tạo ra các xung âm thanh và phát ra tiếng kêu

(voiced sound).

+ Nếu dây thanh quản không rung nhưng mở liên tục tạo ra âm câm

(Unvoice).

+ Khi nói hình dạng vòm họng, thanh quản thay đổi tạo ra các âm khác

nhau.

14

+ Hình dạng vòm họng thay đổi chậm trong khoảng từ 10 đến 100ms.

+ Lượng khí từ phổi đẩy ra xác định âm lượng phát ra .

Cách tạo ra tiếng nói như trên là nguyên lý cơ bản cho các tiếng nói chung

trên thế giới nhưng đi sâu vào nghiên cứu thì mỗi tiếng nói của các nước khác

nhau có điểm chung và điểm riêng biệt khác nhau, chính điểm riêng biệt khác

nhau này là một thuộc tính quan trọng để có thể nhận dạng tốt được các loại

tiếng nói của các nước khác nhau. Vì vậy cần phải hiểu rõ cấu trúc ngữ âm tiếng

Việt.

2 Ngữ âm tiếng Việt

2.1 Khái niệm âm tiết

Chuỗi lời nói của con người được chia ra thành nhiều đoạn nhỏ như câu,

từ, cụm từ … và cuối cùng là âm tiết. Âm tiết là đơn vị phát âm nhỏ nhất, không

phân chia được nữa dù nói chậm đến đâu (mà vẫn giữ đúng ý nghĩa âm tiết đó).

Mỗi âm tiết bao gồm nhiều yếu tố ngữ âm tạo thành và các yếu tố ngữ âm

hầu như phát âm cùng lúc để tạo nên đúng âm tiết đó. Bên cạnh đó người ta còn

xem âm tiết bao gồm nhiều yếu tố đoạn tính – là các yếu tố có giới hạn phân

đoạn trong âm tiết như phụ âm, nguyên âm và âm đệm – và các yếu tố siêu đoạn

tính – các yếu tố mà không giới hạn trong âm tiết như ngữ điệu, thanh điệu. Đặc

điểm riêng của âm tiết tiếng Việt là đơn âm và mang thanh điệu.

2.2 Cấu trúc âm tiết tiếng Việt.

Cấu trúc âm tiết tiếng Việt được xem xét theo nhiều cách, nhưng chúng ta

cũng có thể xem xét theo hai quan điểm sau:

2.2.1 Quan điểm truyền thống

Cấu trúc âm tiết:

15

Thanh điệu

Âm đầu

Phần vần

Âm đệm

Âm chính

Âm cuối

Một âm tiết tiếng Việt gồm 3 phần:

+ Thanh điệu: Là yếu tố luôn có mặt trong mọi âm tiết tiếng Việt. Tiếng

Việt bao gồm 6 thanh điệu: Ngang, huyền, sắc, hỏi, ngã, nặng.

+ Âm đầu : yếu tố mở đầu âm tiết, thường độc lập với phần còn lại.

+ Phần vần : gồm 3 phần:

Âm đệm: Là một bán nguyên âm chiếm vị trí trung gian giữa phụ âm và

phần vần. Có thể có hay không trong âm tiết. Âm đệm có chức năng tu chỉnh âm

sắc của âm tiết. Âm đệm có nhiệm vụ làm trầm hoá âm tiết. Tiếng Việt có hai âm

đệm là [o] và [u] được phát âm tương đối giống nhau.

Âm chính: Là một nguyên âm (đơn hay đôi), luôn có mặt trong âm tiết, giữ

vai trò là đỉnh của âm.Trong Tiếng Việt điểm thanh tính bao giờ cũng là nguyên

âm, các tiêu chí để phân biệt nguyên âm bao gồm các tiêu chí về âm sắc và âm

lượng. Các âm chính là các thành phần dễ phân biệt nhất.

Âm cuối: Là phụ âm hay bán nguyên âm để kết thúc âm tiết. Tiếng Việt có

hai bán nguyên âm cuối là [i] và [u].

Mỗi một ngôn ngữ có những đặc điểm về ngữ âm và ngữ pháp khác nhau.

Ta có thể áp dụng một phương pháp xử lý tiếng nói trên ngôn ngữ này rất hiệu

quả. Nhưng cùng phương pháp đó áp dụng cho một ngôn ngữ khác thì không

phải lúc nào cũng đúng. Đặc điểm của ngôn ngữ tiếng Anh là một từ được cấu

trúc từ một hoặc nhiều âm vị khác nhau. Vì vậy nói một từ trong ngôn ngữ này

có thể chia nhỏ ra làm một hoặc nhiều đoạn âm thanh. Với ngôn ngữ tiếng Việt

16

mỗi một từ được phát âm riêng biệt, không có sự biến đổi chu kỳ âm trong một

từ.

Với cách quan niệm này thì để nhận dạng một từ ta phải nhận dạng lần

lượt các yếu tố về thanh điệu, âm đầu và vần; trong vần ta lại chia nhỏ để nhận

dạng các phần âm đệm, âm chính, âm cuối. Và như vậy ta hình dung thấy rằng,

bài toán nhận dạng từ đọc của ta trở nên quá phức tạp, độ phức tạp về thời gian

là lớn, rồi việc phân chia ranh giới giữa các phần như thế nào là chuẩn, là đảm

bảo yêu cầu. Đây mới là vấn đề quan tâm hàng đầu. Chính vì những điều khó

khăn này mà ta phải nghĩ tới một hướng khác về cấu trúc từ. Và đây là quan

điểm mới mà tôi muốn thảo luận.

2.2.2 Quan điểm mới

Đây là quan điểm mới về cấu tạo từ ngữ trong tiếng Việt mà tôi đang

quan tâm nghiên cứu.

Ta thấy rằng quan niệm truyền thống tiếng Việt có bảng chữ cái gồm 17

phụ âm, 10 nguyên âm và 5 dấu, trên cơ sở đó tất cả các từ đơn được sinh ra. Các

từ đơn này là cơ sở tạo ra tất cả các từ trong tiếng Việt. Với cách quan niệm trên,

người ta có thể phân tích, nghiên cứu tiếng Việt ở nhiều khía cạnh khác nhau

như vần, điệu, ngữ pháp, ngữ nghĩa, cách phát âm, v.v.

Tuy nhiên với cách quan niệm trên làm cho chúng ta gặp nhiều khó khăn

về thuật toán như làm tăng dung tích bộ nhớ, tăng thời gian xử lý. Do đó để đơn

giản hoá khi nghiên cứu nhận dang tiếng Việt người ta có thể quan niệm toàn bộ

tiếng Việt được xây dựng từ một bảng gồm 26 phụ âm và 620 nguyên âm, đồng

thời có 620 vần ( Báo cáo khoa học 2006 của PGS.TS Nguyễn Văn Xuất ).

Như thế chúng ta có thể xem mọi từ trong tiếng Việt có cấu trúc như sau:

[] & [] (*)

17

Source: https://dvn.com.vn
Category: Cảm Nang

Alternate Text Gọi ngay