Daten, die wir heutzutage mit Computern bearbeiten, haben die unterschiedlichsten Ausprägungsformen. Angefangen bei normalen, unformatierten Texten, über gesetzte Texte, Bücher und Broschüren bis hin zu Bildern, ganzen Filmen und multimedialen Objekten, finden wir alle möglichen Datenformate auf den Massenspeichern der Rechnerfarmen wieder.
Der Fokus dieser Seite liegt bei Datenbanksystemen, daher unterscheiden wir zwischen zwei großen Kategorien von Daten:
- Unstrukturierte Daten
- Strukturierte Daten
Bei
unstrukturierten Daten handelt es sich im Wesentlichen um Datenströme und Fließtexte wie z.B. unformatierte Texte, bilder, Video- und Audiosequenzen. Ganz grob gesprochen haben Dateien, die unstrukturierte Daten enthalten eines gemeinsam: Es ist nicht möglich, eine Schablone auf die Datei zu legen und wiederkehrende Elemente darin aufzufinden.
Strukturierte Daten lassen sich unterteilen in einzelne, zum Teil wiederkehrende Elemente. Diese Elemente haben nicht alle den gleichen Inhalt, nur ein ähnliches Aussehen. Einen formatierten Text zum Beispiel kann man unterteilen in viele einzelne Paragraphen. Das Programm, das einen solchen formatierten Text bearbeitet, muss den Inhalt und die Eigenschaften der Paragraphen so in der Datei ablegen, dass es diese später wieder laden und voneinander unterscheiden kann. Im Prinzip entsteht hier eine Tabelle, deren Zeilen die Paragraphen und deren Spalten die Eigenschaften und der Inhalt der Paragraphen sind. Es wäre aber eine ungeheuere Verschwendung von Speicherplatz, wenn Computer alle Eigenschaften, die ein Paragraph prinzipiell annehmen könnte immer mitführen würde. Für dieses Dilemma gibt es mehrere Ansätze. Zum einen eine weitere Indizierung der Tabellenspalten, zum anderen die Einführung von Relationen.