Esistono tanti metodi per importare dataset esterni affinché si possa lavorare con i dati contenuti al loro interno. Innanzitutto è necessario che i dati siano salvati in appositi editor di testo che abbiano determinate estensioni, la più utilizzata e conosciuta è l’estensione .csv, la maggior parte dei file si trovano in documenti con questa estensione. Questo file è tale che ogni riga di testo corrisponde a un record del dataset, e solitamente rappresentano una specifica unità statistica, mentre le colonne rappresentano i differenti attributi a cui ogni unità è associata. Ogni attributo è diviso da un separatore (solitamente la virgola o il punto e virgola).
Un esempio semplice è il seguente:
1 , “Mario” , “Rossi” , 17 , “Roma” 2 , “Luca” , “Bianchi” , 20 , “Milano” 3 , “Lucia” , “Aria” , 16 , “Napoli” 4 , “Sara” , “Toppi” , 16 , “Roma” 5 , “Matteo” , “Verdi” , 20 , “Milano” 6 , “Lorenzo” , “Gentile” , 24 , “Napoli”
Questo semplice dataSet ha 6 righe e 5 colonne. Ogni riga si può facilmente notare che rappresenta una unità statistica, delle persone, mentre ogni colonna gli attributi associati. Si può notare come il separatore sia l’elemento “,” . Inoltre i valori degli attributi Nome, Cognome, Città essendo variabili di stringhe vengono contenute nei doppi apici, usanza frequente nella programmazione.
