Data mining podstawowy I zaawansowany, text mining



Pobieranie 28.09 Kb.
Data09.05.2016
Rozmiar28.09 Kb.
DATA MINING - PODSTAWOWY I ZAAWANSOWANY, TEXT MINING

magisterskie studia stacjonarne II poziom



Nr przedmiotu: 223120-0997
Prowadzący zajęcia: dr Wioletta Grzenda, dr Aneta Ptak-Chmielewska

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych



http://www.sgh.waw.pl/zaklady/zahziaw/
Harmonogram zajęć w semestrze zimowym - rok akademicki 2015/2016
Zajęcia odbywają się o godz. 17.10-18.50, 19.00-20.40, sala C-2a.


Zajęcia nr

Data




Treść

1 W/Ćw.

30-09-15 środa

WG


Wstęp do data mining: filozofia data mining i metodologia SEMMA;

Wprowadzenie do SAS Enterprise Miner: interfejs SAS Enterprise Miner; tworzenie projektu; tworzenie źródła danych; tworzenie diagramu modelowania; proces podziału zbiorów; wstępna eksploracja danych; metody próbkowania.

2 W/Ćw.

07-10-15 środa

WG


Dane w procesach data mining

Metody uzupełniania niepełnych danych i metody selekcji rekordów.

Brakujące wartości atrybutów - przyczyny i kategorie: sposoby przetwarzania niepełnych zbiorów danych; wybrane metody uzupełniania brakujących danych; selekcja rekordów: zastosowanie i wybrane metody.

Analiza danych w SAS Enterprise Miner


3 W/Ćw.

14-10-15 środa

APCh


Metody redukcji wymiarowości i selekcji zmiennych: analiza składowych głównych; jądrowa analiza składowych głównych; analiza czynnikowa.

Wstępne przetwarzanie danych na poziomie zmiennych i rekordów: redukcja wymiaru w eksploracji danych; analiza składowych głównych.

4 W/Ćw.

21-10-15 środa

WG


Modelowanie predykcyjne - regresja logistyczna:

regresja liniowa a regresja logistyczna, postać modelu; zastosowania regresji logistycznej.



Zastosowania regresji logistycznej w data mining:

przygotowanie danych wejściowych; imputacja danych; wybór zmiennych do modelu; transformacja zmiennych, budowa modelu regresji logistycznej i liniowej.



5 W

28-10-15 środa

WG


Naiwna estymacja bayesowska i sieci bayesowskie: klasyfikacja maksymalnego a posteriori; naiwny klasyfikator bayesowski.

6 W

04-11-15 środa

WG


Sieci neuronowe typu wielowarstwowy perceptron: podstawowy model neuronu i sieci neuronowej; działanie sieci neuronowej i jej uczenie; zalety i wady sieci neuronowych.

7 Ćw.

18-11-15

środa

WG


Sieci neuronowe - aplikacja w SAS Enterprise Miner: budowa modelu, dobór architektury sieci; uczenie sieci neuronowych; ograniczenia metod uczenia gradientowego sieci.

8 W

25-11-15

środa

APCh


Modelowanie predykcyjne - drzewa decyzyjne i lasy losowe: proces budowy drzew; reguły podziału drzew; przycinanie drzew; zalety i wady drzew; lasy losowe.

9 Ćw.

02-12-15

środa

APCh


Drzewa decyzyjne - aplikacja w SAS Enterprise Miner: wybrane zagadnienia modeli drzew decyzyjnych w SAS Enterprise Miner; budowa drzewa; wybór modelu; lasy losowe.

10 Ćw.

09-12-15

środa

APCh


Analiza modeli klasyfikacyjnych: oszacowanie dokładności modelu; metody dedykowane dla pojedynczej klasy i wielu klas; ocena statystycznej istotności uzyskanych wyników; metody graficzne oceny dokładności modeli.

11 W

16-12-15 środa

APCh


Maszyna wektorów podpierających: konstrukcja klasyfikatora; idea optymalnej hiperpłaszczyzny dla liniowo separowanych i nieseparowanych wzorców; zasady separacji klas; kluczowe parametry; przykłady geometryczne.

12 W/Ćw.

22-12-15

wtorek

APCh


Rozpoznawanie wzorców: sieci samoorganizujące; wykorzystanie analizy skupień w data mining; modelowanie danych transakcyjnych; analiza asocjacji i sekwencji.

13

04-01-16

poniedziałek


APCh


TM

Wprowadzenie do Text Mining.



Projekty

14

13-01-16

środa


WG

TM

Podstawowe problemy w analizach danych nieustrukturyzowanych. Kategoryzacja treści i metody ekstrakcji informacji z danych nieustrukturyzowanych.



Projekty


Literatura podstawowa:

D.T.Larose, Discovering Knowledge in Data: An Introduction to Data Mining, Wiley, New York 2005;

D.T.Larose, DataMining Methods and Models, Wiley, New York 2006;

J.Koronacki, J.Ćwik, Statystyczne systemy uczące się, WN-T,Warszawa 2005;

M.Lasek, Metody Data Mining w analizowaniu i prognozowaniu kondycji ekonomicznej przedsiębiorstw:Zastosowania SAS Enterprise Miner, Difin, Warszawa 2007;

I.H.Witten, H.Ian, Data Mining: Practical Machine LearningTools and Techniques, Second Edition, Morgan Kaufmann, New York 2005;

R.Matignon, Data Mining Using SASEnterprise Miner, Wiley, Hoboken, NJ, 2007.

R. Feldman, J. Sanger, The text mining handbook, Cambridge.

M. W. Berry, J.Kogan, Text Mining: Applications and Theory, Wiley

S.M. Weiss, N. Indurkhya, T. Zhang, F.Damerau, Text Mining: Predictive Methods for Analyzing Unstructured Information, Springer.

S. Haykin, Neural Networks and Learning Machines, Pearson, New Jersey 2009.

F. Provost,T. Fawcett, Data Science for Business: What you need to know about data mining and data-analytic thinking, O’Reilly, USA, 2013.

P. Flach, Machine Learning: The Art and Science of Algorithms that Make Sense of Data, Cambridge University Press, Cambridge, 2012.

N. Japkowicz, M. Shah, Evaluating Learning Algorithms: A Classification Perspective, Cambridge University Press, New York, USA, 2011.


Literatura uzupełniająca:

K.J.Cios, W.Pedrycz, R.W.Swiniarski, L.A.Kurgan, Data Mining: A Knowledge Discovery Approach, Springer Science, Business Media, New York, 2007;

Z.Pawlak, Rough Sets: Theoretical Aspects of Reasoning aboutData, Kluwer Academic Publishers, Norwell, MA, 1992;

T.H.Davenport, J.G.Harris, Competing on Analytics: The NewScience of Winning, Harward Business School Press, Boston, MA, 2007;

B.L.Bowerman, R.T.O’Connell, BusinessStatistics In Practice, McGraw-Hill, New York 2007.

T. Morzy, Eksploracja danych, Metody i algorytmy, PWN, Warszawa 2013.



J.P. Lander, R for Everyone: Advanced Analytics and Graphics, Pearson Education, USA, 2014.

Zasady zaliczenia

W skład oceny z przedmiotu wchodzi jeden projekt końcowy (50%) oraz egzamin teoretyczny
i praktyczny przy komputerze (50%). Zalicza minimum 60% punktów.


©absta.pl 2016
wyślij wiadomość

    Strona główna