TPDpreprocessingdodatkowe.pdf

(1675 KB) Pobierz
Data Mining
Data Preprocessing
JERZY STEFANOWSKI
Instytut Informatyki
Politechnika Poznańska
Wykład 3
TPD – Zaawansowana eksploracja danych
2008/2009
Proces odkrywanie wiedzy i etapy początkowe
Różne czynności w przetwarzaniu
wstępnym danych [rys. za J.Han]
Kilka pytań.
Jakie
źródła
danych są związane z zadaniem /
zastosowaniem?
Które z dostępnych danych są adekwatne do
celów zastosowania (data relevant)?
Czy mamy dostęp do innych
źródeł
danych?
Jakiej wielkości są dane historyczne (obiekty i
atrybuty)?
Kto dobrze zna posiadane dane (who is data
expert)?
Zróżnicowanie typów danych
Han’s book
Records (tablice danych)
Relational records
Data matrix, e.g., numerical matrix,
crosstabs
Document data: text documents:
term-frequency vector
Transaction data
Graph
World Wide Web
Social or information networks
Molecular Structures
Ordered events
Spatial data: maps
Temporal data: time-series
Sequential Data: transaction
sequences
Genetic sequence data
TID
Items
1
2
3
4
5
Bread, Coke, Milk
Beer, Bread
Beer, Coke, Diaper, Milk
Beer, Bread, Diaper, Milk
Coke, Diaper, Milk
Zgłoś jeśli naruszono regulamin