Jakub Vrána - Dolování dat
(referát na seminář Dolování dat - 13. 12. 2001)
- analýza rozsáhlých dat za účelem zjistit neznámé vztahy a vytvořit přehledy, které nám poskytují nové informace
- pracuje s již získanými daty - druhotná analýza
- mezioborová úloha
- s velkými objemy dat jsou spojeny další problémy
- často chceme zobecnit ze vzorku na celek a předvídat do budoucna
- lze užít také jako ztrátovou kompresi
- chceme zjistit pouze neznámé vztahy (např. ne "těhotní pacienti jsou vždy ženy") - systémy obvykle neumožňují zadat, co už víme - otevřený problém
- snadné vztahy jsou snadněji pochopitelné
- dobývání znalostí je širší pojem než dolování dat
- postup: 1. zjistit strukturu dat, 2. zvolit vyhodnocovací funkci, 3. optimalizovat i, 4. navrhnout pro ni vhodné datové struktury
- regresní analýza: Y = aX + b (příjmy x výdaje)
Matice N x P
- N objektů, P vlastností (P-rozměrný prostor): výhodné takto redukovat, byť jde často o zjednodušení
- musíme se vypořádat s chybějícími a nepřesnými údaji (např. 100000), N různých pacientů, různý počet měření
- příklady: získávání textů (matice dokumenty x slova), nákupy v obchodě, web log
Příklady využití
- hledání vztahů mezi více proměnnými (jak závisí plat na ostatních údajích) - někdy se vyplatí zkoumat vztah na základě poměru dvou proměnných (např. plat / věk nebo příjmy - výdaje)
- hledání skupin lidí
- které proměnné se vyskytují spolu
Proměnné
- kategorie x hodnoty
- časové posloupnosti
Globální model x lokální vzorek
- p(Y > y | X > x) = a
- vzorky: odchylka od centrálního mráčku [otevřené účty mrtvých klientů]
- dvě strany téže mince: abychom zjistili odchylku, musíme mít normál
Úlohy dolování dat:
- (pouze rámcové dělení)
- 1. Exploratory data analysis: nevíme, co hledáme; obvykle interaktivní a vizuální; problém zobrazit velké množství dat - nižší rozlišení = ztráta důležitých detailů [coxcomb graf]
- 2. Descriptive modeling: popsat data nebo to, jak vznikají; pravděpodobnostní rozdělení, rozdělení do skupin (zadáme jejich počet), vztahy mezi proměnnými [skupiny zákazníků]
- 3. Predictive modeling: předvídat hodnotu jedné proměnné z ostatních [zařazování hvězd a galaxií, je telefon firemní nebo osobní?]
- 4. Discovering patterns and rules: lokální vzorky, asociační pravidla - společný výskyt proměnných [podvody, zajímavé hvězdy, basketbal: když hraje hráč X, tak hráči Y klesne úspěšnost střelby o 50%]
- 5. Retrieval by content: máme vzorek toho, co hledáme (texty, obrázky) [Google, Query by Image Content]
- společné: vzdálenost vektorů, ohodnocovací funkce - jsou různé, ale vždy tam nějaké jsou