Zespół autorski:

dr hab. inż. Włodzimierz Kasprzak (CATID)

Instytut Automatyki i Informatyki Stosowanej PW

 

Teoria Rozpoznawania Obrazów i Sygnałów Mowy ( TROSM )

(ang. "Image and speech recognition theory")

 

 

Semestr zalecany:

 Studia III-go stopnia

 

Słowa kluczowe:

analiza sygnałów mowy, analiza obrazów cyfrowych, detekcja i klasyfikacja cech, „inteligentne” programowy komputerowe, rozpoznawanie wzorców, reprezentacja, uczenie i aktywacja wiedzy.

 

Krótka charakterystyka:

Celem przedmiotu jest zapoznanie z głównymi pojęciami teorii rozpoznawania wzorców - teoretycznych podstaw komputerowej analizy obrazów cyfrowych i sygnałów mowy. Wykład obejmuje cztery szerokie grupy zagadnień: 1) przetwarzanie na poziomie sygnału, 2) detekcja cech (poziom segmentacji), 3) klasyfikacja prostych i złożonych wzorców (poziom rozpoznawania obiektów), oraz 4) rozumienie wzorców (poziom wiedzy lingwistycznej.

 

Krótka charakterystyka w języku angielskim:

The goal is to introduce main concepts of the pattern recognition theory, acting as the theory for computer-based digital image recognition and speech signal recognition. The course covers four broad areas: 1) the signal level-based processing, 2) feature detection (the segmentation level), 3) the classification of simple and complex patterns (the object recognition level), and 4) pattern understanding (the cognitive level).

 

 

Treść wykładu:

 

1. Wprowadzenie (1 godz. ) Paradygmat systemu rozpoznawania wzorców. Główne zastosowania teorii rozpoznawania wzorców.

 

2. Przetwarzanie na poziomie sygnału (4 godz.)

Przekształcenia reprezentacji - separowalne przekształcenia i podejścia analityczne.

Rekonstrukcja sygnału użytecznego filtracja sygnałów, ślepa separacja i rozplatanie sygnałów.

 

3. Segmentacja obrazu i sygnału mowy (4 godz.)

Zaawansowane metody segmentacji obrazu - detekcja krzywych, tekstury, 3-W powierzchni i optycznego potoku.

Metody segmentacji sygnału mowy – detekcja fonemów lub bezpośrednia klasyfikacja ramek sygnału.

 

4. Klasyfikacja i rozpoznawanie wzorców ( 4 godz. )

Klasyfikator parametryczny Bayesa. Klasyfikator nieparametryczny – dyskryminant Fishera. Liniowe funkcje rozdzielające i ich uczenie z nadzorem. Tworzenie klastrów (uczenie bez nadzoru). Klasyfikatory syntaktyczne – metody dopasowania z modelem.

 

5. System z bazą wiedzy (2 godz.)

Reprezentacja sterowania i strategie sterujące. Reprezentacja i aktywacja wiedzy  - sieci semantyczne i reguły produkcji. Rozpoznawanie zdań i mowy ciągłej.

 

Literatura

 

Podstawowa:

1.       W. Kasprzak: Teoria rozpoznawania obrazów i sygnałów mowy.. Materiały wykładowe (będą dostępne w wersji elektronicznej).

 

Literatura uzupełniająca:

1.        R.O. Duda, P.E.Hart: Pattern classification and scene analysis. John Wiley & Sons, New York, 1973.

2.        R.C. Gonzalez, P.Wintz: Digital Image Processing. Second Edition. Addison Wesley Publ. Comp., Reading, MA., 1987.

3.        H. Niemann: Pattern Classification. Springer, Berlin, 1981.

4.        H. Niemann: Pattern Analysis and Understanding, Springer, Berlin, 1990.

5.        E.G. Schukat-Talamazzini: Automatische Spracherkennung - Grundlagen, statistische Modelle und effiziente Algorithmen. Vieweg, Wiesbaden, 1995.

6.        R. Tadeusiewicz, P. Korohoda: "Komputerowa analiza i przetwarzanie obrazów ", Kraków : Wyd. Fundacji Postępu Telekomunikacji, 1997.

7.        A. Cichocki, S. Amari, Adaptive Blind Signal and Image Processing, John Wiley, Chichester, UK, 2002.

8.        W. Kasprzak: Adaptive computation methods in image sequence analysis. Oficyna Wyd. PW, Prace naukowe - Elektronika, z. 127 / 2000.

9.        S. Osowski: "Sieci neuronowe w ujęciu algorytmicznym", WNT, Warszawa, 1996.

10.    W. Skarbek: Metody reprezentacji obrazów cyfrowych, Akademicka Oficyna Wydawnicza PLJ, Warszawa, 1993.