Klasifikace hudebních stylů

Podobné dokumenty

ADA Semestrální práce. Harmonické modelování signálů

Úvod do zpracování signálů

CW01 - Teorie měření a regulace

Číslicové zpracování signálů a Fourierova analýza.

B2M31SYN SYNTÉZA AUDIO SIGNÁLŮ

Akustika. 3.1 Teorie - spektrum

ROZPOZNÁNÍ TITULU GRAMOFONOVÉ DESKY PODLE KRÁTKÉ UKÁZKY

KTE/TEVS - Rychlá Fourierova transformace. Pavel Karban. Katedra teoretické elektrotechniky Fakulta elektrotechnická Západočeská univerzita v Plzni

Lineární a adaptivní zpracování dat. 2. SYSTÉMY a jejich popis v časové doméně a frekvenční doméně

A2B31SMS 2. PŘEDNÁŠKA 9. října 2017 Číslicové signály

Zvuková karta. Zvuk a zvuková zařízení. Vývoj, typy, vlastnosti

fluktuace jak dob trvání po sobě jdoucích srdečních cyklů, tak hodnot Heart Rate Variability) je jev, který

Algoritmy a struktury neuropočítačů ASN P09. Analýza emocionální řeči neuronovými sítěmi Proč?

Lineární a adaptivní zpracování dat. 2. SYSTÉMY a jejich popis v časové doméně a frekvenční doméně

Multimediální systémy

Osnova. Idea ASK/FSK/PSK ASK Amplitudové... Strana 1 z 16. Celá obrazovka. Konec Základy radiotechniky

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Algoritmy a struktury neuropočítačů ASN - P11

doc. Dr. Ing. Elias TOMEH Elias Tomeh / Snímek 1

Zpráva k semestrální práci z B2M31SYN Syntéza audio signálů

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

P7: Základy zpracování signálu

Whale detection Brainstorming session. Jiří Dutkevič Lenka Kovářová Milan Le

Náhodné signály. Honza Černocký, ÚPGM

Synth challange 2016

Návrh frekvenčního filtru

14 - Moderní frekvenční metody

Transformace obrazu Josef Pelikán KSVI MFF UK Praha

Vlastnosti Fourierovy transformace

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Analýza a zpracování digitálního obrazu

3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Mezilaboratorní porovnání při vibračním zkoušení

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Zpráva k semestrální práci

Zpracování obrazů. Honza Černocký, ÚPGM

Analýza dat na PC I.

31ZZS 9. PŘEDNÁŠKA 24. listopadu 2014

Detektor anomálií DNS provozu

Lineární a adaptivní zpracování dat. 2. SYSTÉMY a jejich popis v časové doméně

Rozpoznávání písmen. Jiří Šejnoha Rudolf Kadlec (c) 2005

Moderní multimediální elektronika (U3V)

A HYPERMEDIÁLNÍ MULTIMEDIÁLNÍ SYSTÉMY ZÁKLADNÍ VLASTNOSTI. Zvuk a jeho nahrávání ZVUK. reakce logaritmická, frekvenčně závislá

Zvuk a jeho vlastnosti

VOLBA ČASOVÝCH OKEN A PŘEKRYTÍ PRO VÝPOČET SPEKTER ŠIROKOPÁSMOVÝCH SIGNÁLŮ

Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS)

Fourierova transformace

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Circular Harmonics. Tomáš Zámečník

Cvičná bakalářská zkouška, 1. varianta

Direct Digital Synthesis (DDS)

Grafika na počítači. Bc. Veronika Tomsová

Spektrální analýza a diskrétní Fourierova transformace. Honza Černocký, ÚPGM

Václav Syrový: Hudební akustika, Praha 2003, s. 7

Akustika pro posluchače HF JAMU

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

AKUSTIKA. Tón a jeho vlastnosti

Lineární a adpativní zpracování dat. 3. Lineární filtrace I: Z-transformace, stabilita

Architektura počítačů. Zvukové karty

Semestrální práce: Rozpoznání hláskované řeči a převedení na text

MĚŘENÍ A ANALÝZA ELEKTROAKUSTICKÝCH SOUSTAV NA MODELECH. Petr Kopecký ČVUT, Fakulta elektrotechnická, Katedra Radioelektroniky

Mechanické kmitání a vlnění

Akustika pro posluchače HF JAMU

Jak bude zítra? Skoro jako dneska. Dan Lessner

Spektrální analyzátory

Vstupní signál protne zvolenou úroveň. Na základě získaných údajů se dá spočítat perioda signálu a kmitočet. Obrázek č.2

Vlastnosti a modelování aditivního

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

Číslicové filtry. Honza Černocký, ÚPGM

Popisná statistika. Statistika pro sociology

Signál v čase a jeho spektrum

Základy a aplikace digitálních. Katedra radioelektroniky (13137), blok B2, místnost 722

Komplexní čísla, Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

Pravděpodobnost, náhoda, kostky

Číselné charakteristiky

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

SIGNÁLY A LINEÁRNÍ SYSTÉMY

Laboratorní úloha č. 8: Elektroencefalogram

31SCS Speciální číslicové systémy Antialiasing

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

VYUŽITÍ MATLABU PRO PODPORU VÝUKY A PŘI ŘEŠENÍ VÝZKUMNÝCH ÚKOLŮ NA KATEDŘE KOMUNIKAČNÍCH A INFORMAČNÍCH SYSTÉMŮ

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Pravděpodobnost, náhoda, kostky

Jasové transformace. Karel Horák. Rozvrh přednášky:

Základní statistické charakteristiky

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

Metodologie pro ISK II

Taje lidského sluchu

A7B31ZZS 4. PŘEDNÁŠKA 13. října 2014

Zpracování zvuku v prezentacích

Kybernetika a umělá inteligence, cvičení 10/11

Charakteristiky zvuk. záznamů

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

OSNOVA. 1. Definice zvuku a popis jeho šíření. 2. Rozdělení zvukových záznamů (komprese) 3. Vlastnosti jednotlivých formátů

A/D převodníky - parametry

Využití metod strojového učení v bioinformatice David Hoksza

IDENTIFIKACE ŘEČOVÉ AKTIVITY V RUŠENÉM ŘEČOVÉM SIGNÁLU

Transkript:

Klasifikace hudebních stylů Martin Šimonovský (mys7@seznam.cz)

Rozpoznávání hudby úloha z oblasti DSP klasifikace dle hudebních stylů <<< zachycení obecných charakteristik, generalizace domněnka: úloha vhodná pro NS rozpoznání skladby na základě ukázky vypočtení robustního přesného otisku vzorků každé skladby oblast rozvoje (komerční nasazení) podobná úloha: rozpoznávání mluvčího/řeči existují relativně úspěšné algoritmy a charakteristiky

Krok stranou: lidský sluch tón - síla, výška, zabarvení frekvence rozsah vnímání: 2Hz - 2kHz stupnice je logaritmická: tj. 5Hz-1Hz a 1kHz-2kHz obsahují zhruba stejně informací oktáva = dvojnásobek frekvence vzdálenost tónů: *2^(1/12) nejdůležitější složka analýzy zvuku amplituda opět logaritmická stupnice: db v rámci jedné skladby se výrazně nemění -> používám lineární stupnici fázi dvou vln lidské ucho nerozlišuje

Spektrální analýza signálu dvě reprezentace signálu v daném časovém intervalu časová doména: y = f(vzorek) není vhodná frekvenční doména: y = f(frekvence) abs(fft(s)) 1 9 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9.8 s.6.4.2 -.2 -.4 -.6 -.8-1 1 2 3 4 5 6 7 8 9

Spektrální analýza signálu WAV: časová posloupnost amplitud - vzorků Windowing: technický krok DFT (FFT): časová doména -> frekvenční doména N vzorků -> N amplitud sinů + N amplitud cosinů číslo vzorku ve FD značí poměr ke vzorkovací frekvenci:» freq_vzorku = X/N * vzorkovací_freq převod do polární reprezentace (magnituda + fáze): A*cos(x) + B*sin(x) = M*cos(x+fi) fázi ignoruji Nyquistova věta: vzorkovací frekvence F -> nejvyšší frekvence v signálu F/2 potřebuji jen spodních N/2 vzorků příklad: 124 vzorků -> FFT -> 512 frekvenčních koeficientů, rozlišení: 441/2/512 = 43Hz

Spektrální analýza signálu 1 9 8 7 6 5 4 3 2 1 2 4 6 8 1 12 14 16

x 1 4 blues x 1 4 Rock 2 2 1.5 1.5 Frequency 1 Frequency 1.5.5.5 1 1.5 2 2.5 Tim e.5 1 1.5 2 2.5 Tim e x 1 4 Klasika x 1 4 Disco 2 2 1.5 1.5 Frequency 1 Frequency 1.5.5.5 1 1.5 2 2.5 Tim e.5 1 1.5 2 2.5 Tim e

Spektrální analýza signálu problém: jediný segment obsahuje příliš mnoho šumu a náhodných frekvencí ne: větší okno (zjemní analýzu, ale zachová šum) ano: průměr několika segmentů (zvýrazní frekvence vyskytující se ve všech vzorcích) ano: průměr několika sousedních frekvencí (bude dále)

Spektrální analýza signálu problém: vektor segmentu je na NS příliš dlouhý sdružení určitého intervalu frekvencí do jedné hodnoty sčítáním se zároveň dále odstraňuje šum a fluktuace volba intervalů ( kapes ) lineární (např. 1-5Hz, 5-1Hz,...) neodpovídá modelu ucha, vůbec nevystihuje nižší frekvence, neosvědčilo se logaritmická (např. 256-512Hz,512-124Hz) odpovídá modelu ucha, nejlepší výsledky oktávová (8 intervalů: 27.5(A)...74Hz(A8)) podstatou téměř shodná s logaritmickou, podobné výsledky tónová (12 nespojitých intervalů) jeden interval odpovídá všem tónům, nezávisle na oktávě (tóny zní stejně) -> invariance vůči transpozici průměrné výsledky všetónová (98 intervalů pro každou notu) motivace: každý styl má své oblíbené frekvence výsledek: charakter náhodného šumu ;-)

Spektrální analýza signálu 2 blues 2 Rock 1.8 1.6 1.4 1.2 1.8.6.4.2 2 4 6 8 1 12 1.8 1.6 1.4 1.2 1.8.6.4.2 2 4 6 8 1 12 2 Klasika 2 Disco 1.8 1.8 1.6 1.6 1.4 1.4 1.2 1.2 1 1.8.8.6.6.4.4.2.2 2 4 6 8 1 12 2 4 6 8 1 12

Sběr dat 5 kategorií, 7 skladeb, 4,5 hodin muziky, 2.8 GB dat: jazz (3 interpreti) klasika (3 interpreti) rock (4 interpreti) folk (3 interpreti) disco (2 interpreti) vstup: hlasitostně normalizované WAV soubory 44.1kHz, stereo výstup: 533 vzorků vynechání 15s ze začátku a konce skladby (nereprezentativní) vzorky dlouhé 1s, extrahované vždy po 3s

Analýza dat Nutná extrakce rysů vzorku délka nezpracovaného vstupního vektoru při vzorkovací frekvenci 44.1kHz a 1s vzorku je 441 Frekvenční doména vhodná pro zpracování detailní popis krátkého úseku (charakteristika) statistický popis dlouhého (dynamika)

Analýza dat - charakteristika provedení spektrální analýzy vzorku 1x po 1ms s polovičním překryvem sousedů (celkem: 1s) délka okna: 8192 vzorků (cca 2ms) -> detekuje 496 frekvencí volba logaritmického rozložení intervalů (16 kapes) dávalo ze všech rozložení nejlepší výsledky, ačkoliv rozdíl nebyl veliký obdrželi jsme 16 kapes s 1 hodnotami zisk dat pro NS součet všech 1 hodnot pro každou kapsu [16 hodnot] nejlepší výsledky sčítáním odstranění šumu a krátkodobých fluktuací směrodatná odchylka pro každou kapsu [16 hodnot] kvartily pro každou kapsu [48 hodnot] oba rovněž dobré výsledky, ale nakonec nepoužity

Analýza dat - dynamika provedení spektrální analýzy vzorku 28x po 15ms (celkem: 7s) délka okna: 124 vzorků (cca 3ms) -> detekuje 512 frekvencí volba logaritmického rozložení intervalů (16 kapes) opět dávalo ze všech rozložení nejlepší výsledky idea: vzít dynamiku rozloženou logaritmicky a charakteristiku např. podle tónů, čímž poskytnu více dat (v praxi bohužel nezlepšilo výsledek klasifikace) obdrželi jsme 16 kapes s 28 hodnotami zisk dat pro NS boxplot (kvartily a min/max bez odlehlých pozorování) pro každou kapsu [8 hodnot] výborné výsledky výraznost = max z hodnot kapsy / průměr z hodnot kapsy z toho průměr, medián, odchylka [3 hodnoty]

3 25 blues 6 5 Rock 2 4 15 3 1 2 5 1 2 4 6 8 1 12 14 2 4 6 8 1 12 14 16 Klasika 14 Disco 14 12 12 1 1 8 6 8 6 4 4 2 2 2 4 6 8 1 12 14 2 4 6 8 1 12 14

3 25 2 15 1 blues A A# H C C # D D # E F F# G G # 3 25 2 15 1 Rock A A# H C C # D D # E F F# G G # 5 5 2 4 6 8 1 12 14 2 4 6 8 1 12 14 6 Klasika 7 Disco 5 4 3 2 A A# H C C # D D # E F F# G G # 6 5 4 3 2 A A# H C C # D D # E F F# G G # 1 1 2 4 6 8 1 12 14 2 4 6 8 1 12 14

3 25 2 15 1 blues A+ A1+ A2+ A3+ A4+ A5+ A6+ A7+ 5 45 4 35 3 25 2 15 Rock A+ A1+ A2+ A3+ A4+ A5+ A6+ A7+ 5 1 5 2 4 6 8 1 12 14 2 4 6 8 1 12 14 15 Klasika 18 Disco 1 A+ A1+ A2+ A3+ A4+ A5+ A6+ A7+ 16 14 12 1 8 A+ A1+ A2+ A3+ A4+ A5+ A6+ A7+ 5 6 4 2 2 4 6 8 1 12 14 2 4 6 8 1 12 14

Analýza dat - dynamika další algoritmy (Matlabové skripty z Internetu) detekce beatu spolehlivé, používám průměrnou délku doby a její rozptyl Linear Predictive Coding, Mel Frequency Cepstral Coefs algoritmy pro charakteristiku mluvené řeči relativně dobré výsledky, ale jejich přidáním k finálnímu vektoru kupodivu úspěšnost nestoupla charakteristika beatu 1s vstupní vzorek analýzy rozdělen na úseky podle beatů vezmu prvních 9 celých (tj. nejméně 2 celé takty) každý úsek zanalyzován samostatně logaritmické rozdělení na 12 kapes, pro každou část tedy 12 hodnot z výsledných 9x12 hodnot opět spočten boxplot [6 hodnot] velmi dobré výsledky

Analýza dat - shrnutí celková délka vstupního vektoru: 161 16: charakteristika přes součty 8: boxplot dynamiky 2 : beat 3 : výraznost 6: charakteristika beatu PCA analýza vede ke zhoršení výsledků Vzorky rozděleny na učící, validační a testovací testovací sada se skládá z 1 písniček žádný vzorek z těchto skladeb se nevyskytl v učící množině

Učení BP síť (trainrp) výstup sítě: uspořádaná pětice hodnot..1 maximální složka je brána jako číslo třídy nejvhodnější architektura: [161, 24, 5] 1 P e rfo rm a nce is. 1 9 8 8 4, G o a lis 1-1 Training-Blue Validation-Green 1-2 1-3 1 2 3 4 5 6 7 8 8 9 E p o chs

Výsledky ZAŘAZEN PATŘÍ DISCO FOLK JAZZ KLASIKA ROCK úspěšnost: 97% DISCO 166 8 1 2 3 FOLK 1 185 7 6 1 JAZZ 2 345 7 3 KLASIKA 1 466 ROCK 2 2 376 data jsou z validační množiny síť již danou skladbu viděla

Výsledky ZAŘAZEN PATŘÍ DISCO FOLK JAZZ KLASIKA ROCK úspěšnost: 8% DISCO 113 15 1 5 2 FOLK 44 27 8 13 JAZZ 1 55 2 KLASIKA 7 1 7 7 ROCK 5 7 2 12 183 data jsou z testovací množiny síť během učení danou skladbu neviděla

Výsledky 1 Perform ance is.498853,g oalis Klasifikace interpretů stejné podmínky, stejná NS výstupní vektor: 15 složek pro 15 interpretů Training-Blue Validation-Green 1-1 1-2 1-3 Úspěšnost 94% pro data z validační množiny pouze 11% pro data z testovací množiny jen 2x lepší než náhodná volba 1-4 2 4 6 8 1 12 14 146 Epochs dáno malým množstvím vzorků jednoho interpreta (cca 3-4x menší množství než na jeden hudební styl)

Závěr Klasifikace byla vcelku úspěšná vhodná data: relativně ortogonální výběr stylů a skladeb záleží zejm. na množství zpracovaných dat, než na jejich přesném výběru a nastavení učícího algoritmu Doporučení: The DSP Guide (www.dspguide.com)