Zespół
autorski: |
dr hab. inż. Włodzimierz Kasprzak (CATID) Instytut
Automatyki i Informatyki Stosowanej PW |
Teoria
Rozpoznawania Obrazów i Sygnałów Mowy ( TROSM )
(ang. "Image and speech recognition
theory")
Semestr zalecany: |
Studia
III-go stopnia |
Słowa kluczowe: |
analiza sygnałów mowy,
analiza obrazów cyfrowych, detekcja i klasyfikacja cech, „inteligentne”
programowy komputerowe, rozpoznawanie wzorców, reprezentacja, uczenie i
aktywacja wiedzy. |
Krótka charakterystyka:
Celem
przedmiotu jest zapoznanie z głównymi pojęciami teorii rozpoznawania wzorców
- teoretycznych podstaw komputerowej analizy obrazów cyfrowych i sygnałów mowy.
Wykład obejmuje cztery szerokie grupy zagadnień: 1) przetwarzanie na poziomie
sygnału, 2) detekcja cech (poziom segmentacji), 3) klasyfikacja prostych i
złożonych wzorców (poziom rozpoznawania obiektów), oraz 4) rozumienie wzorców
(poziom wiedzy lingwistycznej.
Krótka charakterystyka w języku angielskim:
The goal is to introduce main
concepts of the pattern recognition theory, acting as the theory for
computer-based digital image recognition and speech signal recognition. The
course covers four broad areas: 1) the signal level-based processing, 2)
feature detection (the segmentation level), 3) the classification of simple and
complex patterns (the object recognition level), and 4) pattern understanding
(the cognitive level).
Treść wykładu:
1. Wprowadzenie (1
godz. ) Paradygmat systemu rozpoznawania wzorców. Główne
zastosowania teorii rozpoznawania wzorców.
2. Przetwarzanie na poziomie sygnału (4 godz.)
Przekształcenia reprezentacji - separowalne przekształcenia i podejścia analityczne.
Rekonstrukcja sygnału użytecznego – filtracja sygnałów, ślepa separacja i rozplatanie sygnałów.
3. Segmentacja obrazu i sygnału mowy (4 godz.)
Zaawansowane metody
segmentacji obrazu - detekcja krzywych, tekstury, 3-W powierzchni i optycznego
potoku.
Metody segmentacji sygnału
mowy – detekcja fonemów lub bezpośrednia klasyfikacja ramek sygnału.
4. Klasyfikacja i rozpoznawanie wzorców ( 4 godz. )
Klasyfikator parametryczny Bayesa. Klasyfikator nieparametryczny – dyskryminant Fishera. Liniowe funkcje rozdzielające i ich uczenie z nadzorem. Tworzenie klastrów (uczenie bez nadzoru). Klasyfikatory syntaktyczne – metody dopasowania z modelem.
5. System z bazą wiedzy (2 godz.)
Reprezentacja sterowania i strategie sterujące. Reprezentacja i aktywacja wiedzy - sieci semantyczne i reguły produkcji. Rozpoznawanie zdań i mowy ciągłej.
Literatura
Podstawowa:
1. W.
Kasprzak: Teoria rozpoznawania obrazów i sygnałów mowy.. Materiały
wykładowe (będą dostępne w wersji elektronicznej).
Literatura uzupełniająca:
1.
R.O. Duda, P.E.Hart: Pattern
classification and scene analysis. John Wiley & Sons, New York, 1973.
2.
R.C. Gonzalez, P.Wintz: Digital
Image Processing. Second Edition. Addison Wesley Publ. Comp., Reading, MA.,
1987.
3.
H. Niemann: Pattern
Classification. Springer, Berlin, 1981.
4.
H. Niemann: Pattern Analysis and Understanding,
Springer, Berlin, 1990.
5.
E.G. Schukat-Talamazzini: Automatische Spracherkennung - Grundlagen,
statistische Modelle und effiziente Algorithmen. Vieweg, Wiesbaden, 1995.
6.
R. Tadeusiewicz, P.
Korohoda: "Komputerowa analiza i przetwarzanie obrazów ",
Kraków : Wyd. Fundacji Postępu Telekomunikacji, 1997.
7.
A. Cichocki, S. Amari, Adaptive Blind
Signal and Image Processing, John Wiley, Chichester, UK, 2002.
8.
W. Kasprzak: Adaptive computation methods in image sequence analysis.
Oficyna Wyd.
PW, Prace naukowe - Elektronika, z. 127 /
2000.
9.
S. Osowski: "Sieci neuronowe w ujęciu algorytmicznym",
WNT, Warszawa, 1996.
10.
W.
Skarbek: Metody reprezentacji obrazów cyfrowych, Akademicka Oficyna
Wydawnicza PLJ, Warszawa, 1993.