Transcript: PP05 - Datenbanken

25. Februar 2019 · Back to episode

Full episode transcript. Timestamps refer to the audio playback.

Ja, hallo liebe Hörerinnen und Hörer, willkommen beim Python-Podcast in der mittlerweile fünften Episode.

Heute geht es ein bisschen um Datenmanken.

Ja, wir haben wieder den schönen Wintergarten vor uns.

Ich bin der Dominik und natürlich dabei ist wie immer der Jochen.

Jo, hallo. Genau, Datenmanken, ja, voll gut.

Da freue ich mich schon drauf. Das ist irgendwie ein Thema, mit dem ich schon viel zu tun hatte.

Wird wahrscheinlich eine ein bisschen längere Episode.

Wir versuchen wieder ein bisschen Struktur reinzubekommen.

Wir wissen noch nicht ganz, ob das gelingt.

Wir werden wieder hemmungslos abschweifen.

Wenn ihr Fragen, Anmerkungen dazu habt,

Kommentare, Lob, alles, was ihr uns mitteilen wollt,

schickt eine E-Mail an hallo at python-podcast.de

und wie immer

findet ihr die Links und zusätzliche Infos der Sendung

in den Shownotes.

Wollen wir das eigentlich noch erwähnen,

welches Datum wir haben? Heute ist der

24.02.2019.

Oh, wir machen jetzt mit Daten. Ja, finde ich gut.

Genau, wir haben das glaube ich schon mal gemacht.

Ja, haben wir das schon mal gemacht?

Dann haben wir es irgendwie nicht mehr gemacht, aber ich glaube,

es ist wahrscheinlich eigentlich ganz interessant,

wenn man das hört, von wann das

aufgenommen wurde. Ja, stimmt. Ende Februar

19. Und es ist gerade

ganz gutes Wetter und es ist ein Sonntag.

Normalerweise nehmen wir immer abends auf.

Heute ausnahmsweise mal nach dem

Brunchen. War irgendwie super lecker.

Ja, ich würde sagen, wir steigen fast direkt

ins Thema ein und es geht halt so

ein bisschen darum, ja, das ist glaube ich nicht

das erste Mal, dass wir versuchen, so eine Folge mit Datenbanken

zu strukturieren. Das war auch der Grund, warum

wir so ein bisschen länger auf die letzte Folge warten

mussten. Hatten wir ja kurz erwähnt.

Ja, was ist

überhaupt so eine Datenbank jochen und

wir versuchen halt immer wieder euch vielleicht kurz

zu erklären, was man damit noch mit Python machen kann

oder welche Modules es dafür gibt, aber

das vielleicht mal als Warnung. Python kommt in dieser

Folge nicht nur vor und nicht ganz so viel, sondern

es geht halt tatsächlich darum, wie man das, was man mit Python

macht, also die Datenbanknutzung

so ein bisschen euch erklären, näher bringen kann.

Ja, wobei ich denke, dass das halt

eigentlich für alle, die Python

entwickeln wollen, ein interessantes Thema ist,

weil da wird man, egal in welchem Bereich man sich

da tummelt, nicht drum herum

kommen, irgendwann etwas mit Datenbanken zu machen.

ja, dafür muss man sich halt dann auch

nicht nur mit Python auskennen, sondern man muss halt auch so ein bisschen verstehen,

wie das mit den Datenbanken funktioniert

und man kann halt nicht viel interessante Dinge machen, wenn man

halt von Datenbanken da gar nichts versteht

und insofern, ja.

Wir werden noch ein bisschen darauf eingehen, was ist das überhaupt,

eine Datenbank, unterschiedete einzelne Datenbanktypen

ein bisschen darstellen und wir wollen

anhand eines kleinen Beispiels euch so ein bisschen so

die Problematiken beim Skalieren und bei dem

Arbeiten mit der Datenbank erklären.

Genau.

Da hat man uns gedacht, nehmen wir einfach etwas, was man halt kennt. Ich meine, wozu ist das Internet da? Irgendwie Dinge einkaufen, klar, weiß man ja.

So ein Buchladen, habe ich gehört, können wir als Beispiel nehmen.

Und genau, Amazon hat bestimmt jeder schon mal benutzt und weiß halt, wie das funktioniert und das ist halt eigentlich, denke ich, ein ganz gutes Beispiel für, wofür braucht man eigentlich Datenbanken, weil die haben wahrscheinlich auch für fast alle Datenbanktypen irgendwie eine Anwendung und darin kann man das vielleicht ganz gut erklären.

Ja, dann fangen wir erstmal einfach an. Also mit was würde man einfacherweise anfangen? Wenn man jetzt Python hat, möchte Daten haben, man könnte ja einfach so ein Dictionary jetzt nehmen oder sich eine Liste erstellen und da irgendwie über Indizes iterieren, dann hätte man ja sowas wie einen kleinen Datensatz schon mal.

Ja, wenn man das Ganze jetzt mit etwas komplizierteren Daten braucht. Wir hatten eben, glaube ich, im Vorgespräch ganz kurz über Struktur gesprochen. Da gibt es eine Struktur, die man sich ausdenken muss. Das ist gar nicht so trivial. Das ist recht wichtig, dass man da so ein bisschen mehr gedanklich dazu macht. Wie sieht denn meine Struktur der Daten überhaupt aus? Was will ich denn damit machen? Wie würdest du da direkt vorgehen?

Ja, also das kommt tatsächlich auf den Anwendungsfall an und was sich halt in der Praxis in den letzten Jahrzehnten so durchgesetzt hat, sind relationale Datenbanken, aber es gibt halt auch diverse andere Arten von Datenbanken und die haben alle so ihre Berechtigungen.

Für alle, die das noch nicht drauf haben, ist es so SQL oder NoSQL, genannt oft.

Ja, es hängt halt davon ab. Also man kann natürlich auch einfach Python-Objekte nehmen, die irgendwie serialisieren, nennt man das. Also zum Beispiel gibt es in der Standardbibliothek das Pickle-Modul für, was halt aus einem Python-Objekt, das irgendwie beliebig aussehen kann, macht das halt eine String- oder Byte-Repräsentation.

Also eine Serialisierung ist tatsächlich irgendwie die Darstellung als Zeichenkette oder Byte-Strecke, damit man die übertragen kann über einen Kanal oder sowas.

Ja, genau, das nennt man Serialisierung, ist auch im Kontext von Datenmarken eine sehr wichtige Geschichte. Und man könnte jetzt zum Beispiel diese Byte-Folgen oder Strings nehmen und die halt teilenweise in einen Pfeil reinschreiben und dann hinterher auch wieder auslesen.

Also man nimmt einfach zum Beispiel, wenn man jetzt den State von irgendeinem Programm speichern möchte, nimmt man einfach alle Objekte, die man jetzt so findet oder die man sich irgendwo gemerkt hat, dass man sie hat und serialisiert die halt in Zeilen, schreibt das Ganze in ein File.

Genau so habe ich das auch bei meiner ersten versuchten Datenbank-Operation selber gemacht, nämlich einfach so die Daten, die ich hatte, es ging da um so Spieler-Daten aus dem Sport, habe ich einfach alle Informationen über einen Spieler in eine Teile gepackt und die teilenweise in eine Datei reingeschrieben.

Genau, und dann, wenn man jetzt den Status wiederherstellen will des Programms, wenn man das startet, dann nimmt das einfach die Datei, liest alles wieder ein und dann ist das im gleichen Zustand wie vorher.

Und genau, wenn man das mit Python-Objekten macht, dann ist es halt nicht mehr menschenlesbar. Aber man kann das halt genauso machen, indem man halt CSV schreibt oder sowas halt. Dann wäre es halt noch menschenlesbar. Da muss man sich halt überlegen, wie man die CSV-Zeilen in Objekte verwandelt oder Objekte wieder in CSV-Zeilen.

Ich habe einfach den Dictionary-Code in eine Teile reingeschrieben, habe das dann ausgelesen und evaluiert. Ist wahrscheinlich nicht die beste Methode, das zu tun, aber funktioniert hat es trotzdem.

Genau, und wenn man sowas macht, das wurde am Anfang irgendwie bei Webentwicklung auch häufig gemacht, das nannte sich dann Flat Files, Datenbank mit Flat Files, man nimmt einfach Files und schreibt den State da irgendwie rein und natürlich ist auch das Filesystem ja schon irgendwie eine Art Datenbank, das ist halt eine hierarchische Datenbank, die halt so eine Baumstruktur hat und deren Blätter halt Files sind, Wurzel ist halt Root, Slash bei Unix-Systemen oder was weiß ich, bei Windows ist es irgendwie was komisches mit dem Laufwerksbuchstaben.

Und ja, das ist natürlich auch

eine Struktur. Man hat halt irgendwie darüber

die Verzeichnisse, die es da gibt, auch schon

so Metadaten definiert, dass man halt weiß,

so bestimmte Sachen sind halt in einem bestimmten Verzeichnis und so.

das Ganze gibt es halt auch über

Netzwerkgeschichten.

Die bekannteste hierarchische Datenbank

im Netz ist halt sowas wie LDAP.

Windows nennt

das irgendwie Active Directory oder ist auch vielleicht noch

ein bisschen komplizierter.

Und ja, das ist halt schon mal eine

grundsätzliche Art, wie man Datenbanken

betreiben kann.

Aber vielleicht, was ich

ganz gerne auch nochmal

ansetzen würde, ist,

wie Leute, also wenn man jetzt sich

überlegt, wo könnten Leute

etwas, das man

sonst vielleicht mit Datenbanken tun

könnte, irgendwie schon mal gesehen haben? Oder was

machen viele Leute, was halt eigentlich auch

gut in den Datenbank-Kontext passt?

Dann würde ich vielleicht sogar eher mit sowas wie

Excel oder so anfangen, weil

das wird dann

oft so scherzhaft auch erwähnt,

Wenn man sich überlegt, was ist die

meisten verwendete, meisten ausgerollte

Datenbanklösung

der Welt,

könnte man auch sagen, das ist halt Excel, weil

viele Leute halt Excel quasi als

Datenbank benutzen. Allen möglichen

Quatschen, irgendwelche Spalten und Teilen reinschreiben und

ganz, ganz, ganz, ja.

das ist, genau, das ist halt

eigentlich, ach so, und vielleicht sollte man sich

erstmal grundsätzlich überlegen,

wenn man schon so anfängt zu erklären, was Datenbanken

sind, was ist denn eigentlich Daten,

was sind eigentlich Informationen, was sind eigentlich Wissen.

Dafür hat man umgangssprachliche

Definitionen,

wo man dann weiß, was das ungefähr

sein soll, aber

wenn man das jetzt aus dem Datenbank-Kontext her

präzisieren möchte, dann geht das eigentlich

auch relativ schmerzlos. Also Daten sind

halt sowas wie, also ein Datum wäre

irgendwas mit minus 3,5

wäre jetzt ein

Datum.

Einfach nur ein Zahlenwert oder so.

Und das sagt einem halt

natürlich noch nichts.

Weil es ja kein Bezug dafür hat, minus 3,5, was denn?

Ja, genau, richtig.

Grad Fahrenheit.

Und wenn man jetzt von Informationen spricht,

dann spricht man von Daten, die halt schon so ein bisschen Kontext haben.

Also sowas wie minus 3,5 Grad Temperatur.

Das heißt, man weiß halt, das steht jetzt in der Temperaturspalte.

Und damit weiß man schon mal so ein bisschen, worum es da überhaupt geht.

Und dann nimmt man das Informationen.

Und das, was man aber eigentlich in Datenmarken speichern möchte,

Und dann was machen möchte, das ist irgendwie so Wissen, Begriff dafür ist Wissen und das wäre dann halt, wenn man jetzt eine ganze Reihe von Temperatursensoren hätte, die halt nicht nur die Temperatur über die Zeit irgendwie aufgenommen haben, sondern halt auch noch deren Positionen hat.

Und das halt in einer Struktur, die halt bestimmte Anfragen leichter macht, halt gespeichert hätte, dann kann man damit möglicherweise das Wetter vorhersagen oder sowas.

Das heißt, man hat halt Wissen über, wie das Wetter gerade ist oder wie es war.

Oder man weiß zum Beispiel, dass es im Winter kälter wird als im Sommer.

Ja, genau. Und dann kann man halt, wenn man Abfragen daran stellt,

dann halt Schlussfolgerungen daraus ziehen und dann vielleicht Dinge vorhersagen

oder halt auch einfach bestimmte Fragen beantwortet bekommen, die einen interessieren.

Also alle Städte, in denen es letztes Jahr kälter war als so und so oder irgendwie sowas.

Genau, das ist das, wofür man eigentlich Datenbanken verwenden möchte.

Da kann man auch Analysen irgendwann machen.

Das ist aber dann, glaube ich, wieder ein neues Thema,

wie man Analysen dann mit Daten fährt.

Das werden wir heute, glaube ich, nicht machen.

Doch, doch, doch.

Ja, doch, doch, doch, alles.

Ihr müsst heute lange, lange Geduld mitbringen

oder eine große Runde durch den Park

oder könnt gerne zur Wohnung putzen heute.

Ja, ich bin mal gespannt, wie schnell wir da durchkommen.

Aber ja, ich denke, das ist eigentlich vielleicht ganz interessant,

mal so einen groben Überblick.

Also ich versuche dann zu verhindern, zu sehr ins Detail zu gehen.

Aber wenn man einfach mal so das Gesamtthema Datenbanken

mal überblickt hat. Ja, ich hätte

so ungern davon ab, so ins Detail zu gehen, weil ich finde das

unheimlich interessant, was da alles noch so drinter steckt.

Ich bin da sehr curious, was man noch alles

so findet und die Details sind halt auch irgendwie

wichtig, ja. Ja, stimmt.

Wir schauen einfach mal. Ich hoffe mal,

dass es nicht allzu lang wird, aber. Okay, ja, dann

fangen wir doch direkt mit dem Beispiel an oder wolltest du noch so ein paar

grundsätzliche Dinge über Daten? Genau, ich würde einmal

grundsätzlich darüber, was gibt es für unterschiedliche Arten von Datenbanken,

auch um halt dann,

ja, um

darauf dann wieder Bezug nehmen zu können in dem Beispiel

und vielleicht auch das, was halt

jetzt durchgesetzt hat, jedenfalls

das ist halt, eben

hierarchische Datenbanken gibt es schon

ganz lange und

Sachen in Flatfiles oder irgendwie strukturierten Dateien

hat man auch schon lange

und dann irgendwann 1971, glaube ich, ist ein Paper rausgekommen

von Ted Kott

der hat sich halt

Gedanken darüber gemacht, wie man

eigentlich dieses Problem, ich möchte wissen, irgendwie

speichern und dann irgendwelche Dinge damit später

machen, wie man das so grundsätzlich

eingehen sollte und dessen

Idee war halt, also

ein Problem, was er gesehen hat, mit den bisherigen

Ansätzen war,

dass viele Leute

Zeit damit verbracht haben,

die Daten, die sie

halt schon auch irgendwie strukturiert, aber halt in

eigenem Format in Dateien gespeichert haben,

Algorithmen für zu schreiben, wie die jetzt

abzufragen sind. Also, wenn man jetzt

eben so eine Frage beantwortet haben möchte, wie

keine Ahnung,

wie viel, was war denn jetzt die Stadt,

in der es letztes Jahr am kältesten war

in Deutschland oder so, dann

fingen Leute an, dann Algorithmen zu schreiben,

die für die Art, wie sie die Daten

gespeichert hatten, halt

ja, das Problem gelöst

haben, genau.

Und jeder, der halt die Daten

irgendwie anders speichert, muss sich halt einen neuen Algorithmus

überlegen, wie er das macht. Und

das ist ja eigentlich ziemlich blöde, also das wäre

irgendwie schlauer, wenn man

das standardisieren könnte.

Das standardisieren könnte und also nicht

sich überlegt, welchen Algorithmus

oder einen Algorithmus zu schreiben, der halt das irgendwie

abfragt, sondern zu beschreiben,

was man haben möchte und dann irgendeine

Art von Datenbank

Management System, das dann

halt weiß, wie man irgendwie diverse Arten von

Indizes baut oder so, dem diese

formalisierte

Anfrage

vorzulegen und das Ding sucht sich dann die beste

Art, wie man das dann löst, raus und macht das

dann für einen.

Und damit das alles gut geht, muss man halt

die Daten auch in einem bestimmten Format speichern

und man sollte die halt in Form von Relationen

speichern.

Das heißt im Grunde mehr oder weniger wie in Tabellen, man kennt das halt aus Excel, wobei viele Excel-Tabellen halt nicht die Anforderungen erfüllen, die man eigentlich sozusagen dann dran stellen würde.

Weil in unterschiedlichen Spalten oder Zahlen irgendwie unterschiedliche Dinge drinstehen, die dann nichts zu suchen haben, oder?

Ja, weil sie halt nicht normalisiert sind, weil es nicht so wirkliche...

Oh, jetzt kommen wir direkt mit den Normalisierungen.

Weil es nicht wirklich Beziehungen zwischen Tabellen gibt und das in Datenbanken gibt es halt alles schon und da gibt es, wenn dann auch bestimmte Regeln und Constraints irgendwie überprüft und so.

Tabellen, die auf Tabellen zeigen oder sowas.

Genau, genau. Ja, und das wird in Excel halt alles nicht gemacht und ja, das ist halt, das ist in der Praxis ein relativ, relativ großes Problem, denke ich, dass halt, ich habe das, auf den kommen wir später noch zurück vielleicht, der heißt Simon Willison, der hat für den Guardian irgendwie vor zehn Jahren ungefähr irgendwie so einen Bereich Datenjournalismus irgendwie, da gab es das schon, heute ist das ein großes Thema, aber damals hat das irgendwie keinen so richtig interessiert gearbeitet.

Und der hat was mit Datenbanken da zu tun.

Und da gab es schon jemanden, der sich damit beschäftigt hat,

also von der Zeitung her,

wenn es ein Artikel über irgendein Thema Arbeitslosigkeit

oder keine Ahnung, irgendwas wirtschaftliche Themen irgendwie ging,

wenn man da Schaubilder und Diagramme reinmachen wollte,

wo kommen denn die Daten dafür eigentlich her?

Und der kannte irgendwie in allen Institutionen Leute,

die er nach diesen Daten fragen konnte,

wusste, wo man die bekommt und so, super.

Aber das Problem ist jetzt, also der Simon Willison, also der aus der Programmiererecke, wollte halt die Daten auch anders noch zugänglich machen und wollte halt gucken, ob man da nicht übergreifend irgendwelche Anfragen stellen kann und fragte den dann so, wo denn die Daten wären oder wie er die denn speichern würde.

Und der sagte so, oh ja, ich habe da hier irgendwie ein paar tausend Excel-Files auf meinem Desktop und da sind die halt drin. Und ich weiß halt, in welchen Daten, in welchen Files.

da so ein Ordner im Schrank, da kann ich mal blättern.

Und ich glaube, das ist

tatsächlich eine Situation, die

in vielen Unternehmen so ist oder so.

Dass man halt dann Experten hat

dafür, für diese

Domain, aber... Die Menschen aus dem Archiv.

Ja, die aber dann

nicht unbedingt jetzt so Datenmarktspezialisten sind

und die machen dann halt Excel-Files und tun das irgendwo hin.

Aber das

funktioniert halt nicht gut, weil

man hat halt,

man kann darüber jetzt keine übergreifenden

Anfragen stellen, dann hat man auch so ein Problem, wenn man

mit Leuten zusammenarbeitet.

Ja, wie

ist das eigentlich, wenn mehrere Leute das jetzt ändern?

Dann gibt es auch wieder so komische Strategien,

wie, naja, man hat das dann irgendwie auf einem Netzwerk

share und dann muss man sich irgendwie Bescheid sagen,

wenn man das ändert oder man macht das irgendwie

über komisch benannte Dateinamen oder

sowas. Und das

ist natürlich alles total furchtbar. Also man

benutzt dann im Grunde zwei

Datenbanken, die nicht wirklich dafür geeignet

sind, was man da machen möchte, nämlich einmal das Filesystem,

um halt so eine Art Versionskontrolle zu machen

und dann Excel als Datenbank, was halt

auch nicht dafür geeignet ist und dann

macht man sich das Leben

sehr, sehr schwer,

obwohl es deutlich einfacher sein könnte.

Und ja,

das sind also aus meiner

Perspektive auch so die beiden

Dinge, wo man...

Wenn man in Firmen

so leichte Gewinne,

die man machen könnte, also die

beiden Themen, die halt vollkommen

unterschätzt

sind, aus meiner Perspektive,

sind einmal Versionskontrolle.

Also das sehe ich ganz oft,

dass halt jetzt, also bei Programmierern,

die wissen inzwischen, wie das

funktioniert und machen das halt auch.

Bei denen ist halt Verständnis, was jetzt

Git ist und wie man das verwendet, irgendwie

durchaus angekommen.

Mal bitte den Git-Flow.

in den meisten anderen Abteilungen,

wo es nicht um Programmieren geht,

die haben von solchen Dingen noch nie

irgendwas gehört. Dann nimmt man Tippex und

malt da kurz die Buchstaben, die falsch sind, raus

und fahrt dann da drüber. Und wenn man

wissen will, was da vorher stand, dann muss man das Tipp-Eck abkratzen.

Ja, die wissen halt vielleicht,

wie sie ihre Programme bedienen oder so, aber die

wissen gar nicht, dass sowas geht und wissen

gar nicht, wie das geht und machen dann

sehr umständlich das, was

ihnen arbeitet, sehr

fehleranfällig, die ihnen geht.

Tabelle 1, Tabelle 1 neu, Tabelle 1

neu, neu, neu, final und

ja, jetzt erst wirklich und

allerneueste Version. Also da

könnte man mit wenig Aufwand viel erreichen

und eben auch da

irgendwie, wenn man Daten speichert

und halt auch, man hat ja in

Excel dann oft nicht nur

Daten, sondern man hat dann Daten und

Logik, weil man jetzt irgendwelche Reports erzeugt

für irgendwie ein Management-Layer oder

so und dann

ist das viel Handarbeit, wo

im Grunde man, wenn man jetzt ein bisschen

Habt ihr jetzt gerade gehört, das war gerade ein super

kurzer kleiner Nebensatz, wenn man kurz

irgendwelche Daten erzeugt, so für den Management-Layer

Ja, das

ist denke ich in Grundform, viele Leute da so

Excel mit irgendwelchen Makros drin oder

irgendwelche Skript-Schnipseln drin haben,

warum die das verwenden.

Das Problem ist halt, das funktioniert

meistens und dann funktioniert es irgendwann nicht mehr oder

die Daten ändern sich und dann muss man halt irgendwie

einen Teil von einem VBA-Skript

oder so irgendwie so ein bisschen anpassen und dann geht

was an der anderen Stelle kaputt

und dann ist es auch so, dass man oft

Sachen von Hand gefixt hat, also irgendwelche

Werte sind halt nicht so, wie sie sein sollen und bei Excel klickt man

dann da rein und dann ändert man den Wert halt

und dann weiß man aber nicht, dass man das gemacht hat.

Dann kommen jetzt neue Daten rein, die sind

wieder falsch und dann muss man es wieder ändern oder

es geht halt kaputt oder so und

das ist einfach so aus einer Programmierer-Sicht

nicht so das, was man tun sollte.

Man kann damit Stunden um Stunden um Stunden um Stunden

Genau, aus Programmierer-Sicht ist es so, wenn ich da

irgendwie was ändere, dann ist das halt

irgendwie Programmlogik und wenn

dann neue Daten reinkommen, dann wird die halt genauso

angewendet und dann muss ich das halt nur einmal hinschreiben

und dann ist es sozusagen für immer irgendwie gelöst

es gibt auch ganz

in VBAs natürlich noch so ein

extra Problem. Das soll übrigens bald mit Python

gehen, habe ich gehört. Ja, ich weiß, dass

bei Microsoft gibt es irgendwie so ein,

die haben da auch so ein Priorisierungstool

sozusagen, ich weiß nicht genau, was das ist

und ich glaube, das meiste nach

Requested Feature ist es, VBA durch Python

zu ersetzen, irgendwie mit irgendwie

tausenden Upvotes,

aber ich glaube, definitiv dazu geäußert,

ob das irgendwie dann kommt, hat sich da auch noch

niemand, aber das wäre

natürlich auch eine interessante Geschichte, aber man hat

auch bei Python dann immer noch das Problem,

was man halt wahrscheinlich

nicht machen können wird, ist sowas wie mit PIP

irgendwie Dinge nachinstallieren oder so, selbst wenn es

mit Python jetzt die VBA

ersetzen würde. Gut, man hätte schon

einen Vorteil dadurch, dass die Standard-Bibliothek von Python

sehr viel mächtiger ist als das, was

VBA kann,

aber es ist halt immer noch nicht,

also es gibt diverse Probleme, die noch gelöst werden

müssten, damit das alles so richtig

smooth ist und das Grundproblem

ist natürlich, dass Excel das vollkommen ungeeignete Tool

ist für vieles, was da in dem Bereich gemacht wird.

Ja, aber

genau, also

genau, also eigentlich wäre das, was

viele Leute damit machen, die werden

viel besser bedient, wenn sie halt Python

nehmen würden und eine relationale Datenbank

weil die eben diese ganzen

Geschichten auch löst. Da gibt es dann halt, wenn

mehrere Leute drauf zugreifen und Dinge ändern,

dann sorgt die Datenbank dafür,

oder das Datenbankmanagementsystem,

dass da nichts schief geht,

dass alle Leute immer die gleichen

Daten sehen, jedenfalls innerhalb von einer Transaktion

und so und

da gibt es

auch die ganze Zugriffskontrolle und all das

ist alles schon fertig implementiert

ja, das ist halt so das, was Leute

im Grunde verstehen, wenn sie

wenn man von Datenbanken spricht

denke ich

aber es gibt halt auch noch eine ganze Menge

anderer Datenbanken und dass sich

relationale Datenbanken so durchgesetzt haben, ist auch

aus meiner Perspektive ein Stück weit

Glück oder hängt halt an der

Geschichte von einzelnen Firmen, also man

hätte sich auch durchaus vorstellen können, dass sie andere Paradigmen

durchgesetzt hätten, haben sie

aber irgendwie nicht.

Und jetzt sind halt so

relationelle Datenbanken das, was alle irgendwie

verwenden. Aber es ist auch

gar nicht so ein schlechter Ansatz. Insofern

kann man damit eigentlich ganz gut leben.

Aber nur mal so um

der Vollständigkeit halber,

um mal zu sagen, was es sonst noch alles gibt.

Es gibt halt

Dokumentendatenbanken, ja, gibt es auch schon

ganz lange. Lotus Notes

ist ja so ein Beispiel für

ist ja früher Microsoft

auch ganz populär.

CouchDB,

MongoDB, die

fallen auch in diesen

Dokument-Datenbank-Bereich rein,

lösen halt so ein bisschen unterschiedliche Probleme.

CouchDB löst so ein bisschen

das Problem, dass ich

nicht unbedingt

in einen zentralen Master

immer reinschreiben will,

weil der halt auch weg sein kann, wenn ich zum Beispiel

offline bin oder so, dann kann ich halt nicht

da reinschreiben.

sondern muss dann halt eventuell erst lokal schreiben

und dann irgendwie die

Daten synchronisieren hinterher

und das macht CouchDB sehr schlau.

Verwendet tatsächlich auch einen Algorithmus, der aus dem

Lotus Notes-Dings-Projekt kommt.

Es gibt Key-Value-Stores,

wo man einfach nur

irgendeinen Hash irgendwie, also man kann

sich das vorstellen wie ein Python-Dict,

wo man halt irgendwelche Keys hat

und dann hat man irgendwelche Werte, die man dann zurückbekommt,

wenn man den Key dahin schickt.

Darunter fallen so Sachen wie Redis

oder Memcached oder so

oft zum Cachen verwendet, aber manchmal können sie auch

kompliziertere Sachen oder weiter

strukturierte Daten. BerkeleyDB war

lange ganz groß, wird heute gar nicht mehr so sehr verwendet.

Ja, aber auch sowas

wie Amazon Dynamo

oder so fällt da auch drunter.

Und dann gibt es halt noch so spaltenorientierte

Datenbanken, wobei ich auch da sagen würde, es gibt

zwei unterschiedliche Arten, aber

halt sowas wie Bigtable, wo Google

einen Index drin speichert oder das

entsprechende Hadoop-Äquivalent

oder das Äquivalent aus dem Hadoop-Ökosystem,

HBase.

Die Dinger sind halt dafür gedacht,

gigantische Datenmengen irgendwie

zu speichern und

das halt machen sie

dann irgendwie eher so spaltbasiert.

Cassandra, Apache Cassandra ist auch so ein Projekt, das das

genauso macht. Dann ein komplett

anderes Paradigma sind Grafendatenbanken,

wo man

Daten eben nicht in Tabellen speichert,

sondern man speichert eher

Knoten und Kanten und

die Relationen zwischen den

Daten sind halt nicht dadurch dargestellt, dass man

jetzt halt irgendwie Zeilen in einer

Tabelle hat, sondern

dadurch, dass man halt beliebige

Beziehungen im Grunde zwischen

Knoten irgendwie hat, das ist jetzt ein bisschen

abstrakt, weiß ich auch gar nicht genau, wie ich das erklären,

vielleicht kann man das nachher nochmal

im praktischen Beispiel ein bisschen besser erläutern.

Ja, genau, aber das ist halt

so eine ganz andere Art von

Datenbanken, die aber auch, also da würde

ich sagen, das hätte auch sich anstelle von relationalen

Datenbanken durchsetzen können.

Genau, auch das, was mit dem Semantik-Web, vielleicht haben manche Leute davon schon gehört, so RDF, Tuppel-Stores, das ist auch alles im Grunde ein Grafendaten-Button.

Okay, Semantik-Web, ja, machen wir später.

Genau. Und dann gibt es natürlich noch so wirklich anwendungsspezifische Datenbanken, sowas wie Volltext-Suchmaschinen, also Volltext-Indizes oder für Zeitreihen gibt es auch spezialisierte Geschichten, Influx-DV oder.

TimescaleDB

oder halt sowieso

für, du hast halt ein bestimmtes Problem

wie, du möchtest dieses

bei Google sieht man, Google Suggest hieß das

Feature, wenn man Google Query

eingibt, dann werden einem so Vorschläge gemacht.

Dafür braucht man halt

spezielle Art

das zu indizieren, das ist Suffix Trees

das kann ja, ja

dafür gibt es dann auch wieder spezielle Server

mit denen man das machen kann und so.

Und das wäre jetzt etwas, was man sonst halt nicht so braucht.

Es gibt halt für bestimmte Anwendungsfälle

gibt es sowas halt, aber

ja, ist jetzt, und manchmal

sind solche Funktionen auch in

so verbreiterten

Datenbanken enthalten, aber es gibt halt

auch mal spezialisierte Geschichten dafür.

Vielleicht die ganzen Basissachen werden noch komplett

nicht kurz erwähnt.

Keine Ahnung, MySQL

oder Postgres. Achso, das sind, ja genau,

das sind Beispiele für relationale Datenbanken.

Ja, MySQL,

Postgres, das wären jetzt die Open-Source-Vertreter.

Oracle und

MSSQL-Server,

Sybase, das wären so die kommerziellen

Geschichten.

DB2 von IBM.

Oder zur Historie,

im Grunde die,

nachdem dieses Paper

irgendwie, das sollte man

in die Schonungs packen, das ist sehr empfehlenswert, das nicht mal

zu lesen von Headquart. Der hat damals bei

IBM gearbeitet

und da ist

ein System daraus entstanden, das nennt sich System R.

Das haben irgendwie so ein paar Leute bei IBM geschrieben und daraus ist halt die B2 auch von IBM entstanden irgendwann, aber halt Oracle bezieht sich auch da drauf, glaube ich.

Ich weiß jetzt aber nicht, wie die Verbindung zu Oracle ist. Und dann gab es halt auch Leute in Berkeley, die versucht haben, das zu implementieren, das Paper.

Und dabei ist was rausgekommen namens Ingress.

Michael Stonebreaker war das damals.

Und das war am Anfang noch gar keine Datenbank für beliebige Daten,

sondern das war für Bilder irgendwie.

Und dann ist das Ganze zu Postgres geworden

und wurde dann zu einer normalen, relationalen Datenbank sozusagen.

Und das ist auch faszinierend.

Also dieses ganze Postgres-Projekt ist der Wahnsinn eigentlich.

hat halt irgendwie Mitte der 80er

ist das gestartet oder

halt, wenn man Ingress dazu zählt, noch früher

ist jetzt über 30 Jahre wahrscheinlich

hat das auch einen Buckel

und ist immer noch

top und set of the art

immer noch dabei, es kommen immer noch tolle Sachen dazu.

wahrscheinlich auch so die,

sie nennen sich selber irgendwie die

ich weiß gar nicht,

wie ich das übersetzen soll, Advanteste,

Die fortschrittlichste Open-Source-Datenbank,

ja. Gut, Oracle und so

hat wahrscheinlich noch ein bisschen mehr Funktionen, aber

tatsächlich wird meistens

aber, wahrscheinlich aus Kostengründen,

tatsächlich jetzt so

im Internetumfeld irgendwie dann meistens werden so

Open-Source-Datenbanken verwendet.

ich habe schon mal gesehen, dass Leute Oracle verwenden,

aber das ist eher selten.

Jetzt so als

Backend für Webseiten

verwendet man normalerweise nicht. Oracle ist halt auch

viel zu teuer. Oder

MSSQL-Server, doch, das gibt es tatsächlich

Leute, die das als Backend für

Webseiten verwenden.

Ein Beispiel

einer populären Seite, die halt auf

MSSQL-Server läuft, ist

Stack Overflow. Das ist auch

faszinierend.

Ich meine, einer der

ich weiß nicht, ob es

der Gründer selber war, der war auch

Produktmanager bei Microsoft, glaube ich, insofern

die machen viel auf dem Microsoft-Stack

und holen da unglaubliche Sachen raus.

Also die haben irgendwie ein halbes Rack oder

das ist jetzt auch schon lange her, dass ich

da irgendwie Artikel zu gelesen habe, aber

das letzte Mal, dass ich das gesehen habe, war

Stack Overflow tatsächlich unter den Top Ten

der trafficstärksten Webseiten

weltweit und die haben

dafür, Hardware war irgendwie so ein halbes Rack

oder so. Und das ist natürlich schon

extrem beeindruckend. Und das ist überhaupt so was,

was halt wahrscheinlich viele Leute nicht wissen,

die jetzt nicht so viel Erfahrung haben mit Datenbanken,

die können echt wahnsinnig

Dinge tun

gleichzeitig und so. Also man kriegt aus so einer

ordentlich konfigurierten und getunten

relationalen Datenbank

schon so mindestens ein paar tausend,

vielleicht auch ein paar zehntausend Requests

oder Statements pro Sekunde raus, die die halt verarbeiten

können. Und dann kann man natürlich eine Menge

machen.

Also vorausgesetzt der ganze Kram passt in den Hauptsprecher.

Aber man macht keine Dinge, die

das irgendwie langsam machen. Also es ist halt auch nicht so einfach,

das zu optimieren, aber

ja, genau. Und das ist halt

auch dieser Bereich der relationalen Datenbank, ist halt

der größte Datenbankbereich eigentlich.

Ja, vielleicht

können wir dann, wollen wir zu dem praktischen

Beispiel. Ja, super. Wie macht man das jetzt alles

und wie baut man das auf und warum und

was kann man damit so schönes machen und

was für Probleme könnten wir darüber stolpern und sowas.

Ja, dann

nehmen wir doch mal an, wir wollen jetzt

Amazon nachbauen. Wir haben einen

kleinen Buchhandel in der Garage.

Ja, und wir überlegen jetzt uns jetzt so, ah, da liegen jetzt ganz viele Bücher auf dem Boden und dann will irgendjemand bestellen, dann muss dann irgendjemand in die Garate laufen, gucken, wie ist denn jetzt der Titel, habe ich den, dann liegt ein Buch unter dem anderen, das wäre natürlich doof, wenn man erstmal lange suchen muss, deswegen haben wir jetzt überlegt, ja, pass auf, wir schreiben das Ganze jetzt in eine Datenbank.

Wie fangen wir jetzt mal an, vielleicht reden wir kurz über das Schema, wie man sowas aufbaut nochmal kurz.

Genau, also man würde jetzt zum Beispiel eben die Mitteilinformationen über diese Bücher, also sowas wie Titel, ISBN-Preis und so, würde man halt in eine Datenbank schreiben.

Durchschnittliche Anzahl von Buchstaben pro Seite.

Vielleicht, ja, was auch immer man da, man würde das halt in eine Tabelle schreiben, aber man würde jetzt möglicherweise schon nicht den Autor, wenn man jetzt den Autor, den Namen des Autors mit in diese Tabelle reinschreibt, dann hat man unter Umständen ein Problem, nämlich wenn jetzt halt …

Der Autor sich umbenimmt, weil er heiratet oder so?

Ja, genau. Heiratet oder sonst irgendwie seinen Namen ändert, dann müsste man ja, dann kann man natürlich irgendwie alle Zeilen, in denen der Name drinsteht, die ändern. Aber man kann ja auch Pech haben und wenn das jemand von Hand macht, dann ändert er halt das nur, weil er davon gehört hat, dass es jetzt für dieses Buch geändert werden soll, das nur in einer Zeile und lässt die anderen halt weg.

Wir könnten Suche und Ersetze machen und dann machen wir sowas, dann machen wir für jedes Jahr, das wir Bestellung haben oder jeden Monat eine neue Datenbank, eine neue Tabelle und dann müssten wir einmal nach drei Jahren oder sowas 36 verschiedene Dateien öffnen, immer Suche und Ersetze ausführen und dann den Namen ändern. Ist das super oder nicht?

Ich könnte sagen, dass das nah dran ist an dem, was viele Leute tatsächlich machen, aber das kann man auch eleganter tun in der Datenbank und dann hätte man möglicherweise nur einen sogenannten Fremdschlüssel in der Spalte Autor in der Büchertabelle und dann würde man den Namen des Autors halt von der Autotabelle ändern und dann wäre das automatisch in allen Zeilen der Büchertabelle, in denen das referenziert wird, würde das automatisch geändert werden.

Und dann brauchen wir ja noch eine andere Tabelle Autorix,

wo dann alle Autorinnen drinstehen.

wäre auch eine Möglichkeit, genau.

überlege gerade,

das ist jetzt natürlich, also

Autoren, ein Beispiel, anderes Beispiel wäre User,

die jetzt auf der Webseite irgendwas einkaufen wollen oder so.

Da würde man in der Bestellung halt

auch nicht den User selber irgendwie

in jede Bestellung schreiben, sondern halt

irgendwie die ID von dem User, der

irgendwas eingekauft hat und

im Grunde, also ja, das heißt

Datenbank-Normalisierung, wenn man jetzt

dafür sorgt, es erinnert so ein bisschen

an, wenn man Software schreibt, nennt sich das

DRY, so Don't Repeat Yourself,

also wenn man Software schreibt, sollte man auch

Funktionalität, die man an mehreren Stellen verwendet, halt

nicht an mehreren Stellen implementiert haben, weil

wenn man das an einer Stelle ändert und

vergisst es halt an der anderen, dann hat man halt

ja, einmal ist es

dann inkonsistent, das Verhalten,

Und ja, man hat halt auch die Gefahr, dass Dinge, die man einmal gefixt hat, dann nochmal auftauchen.

Das ist doch bestimmt schon einmal passiert, oder?

Also mir hat das früher ständig passiert und dann ist mir irgendwann aufgefallen,

oh, ich mache eine Funktion und dann mache ich die Funktion auch.

Dann macht man eine Funktion und dann macht man einen Test und dann ist es halt erledigt, sozusagen.

Also sollte man halt möglichst versuchen, Dinge, die man, so Logik, die irgendwo ist,

halt immer nur einmal irgendwo stehen zu haben.

Ist natürlich manchmal nicht so ganz einfach und ist bei Datenbanken halt auch nicht,

weil das beißt sich so ein bisschen mit anderen Anforderungen, die man hat.

Wenn es halt schnell sein soll, dann ist das manchmal etwas schwierig, weil relativ nahe Datenbanken, dann wenn man halt viele Tabellen miteinander verknüpft, man nennt das halt Join, das heißt man kann halt anhand von diesen Verzweigungs-, also Fremdschlüssel-Dingsies kann man halt Tabellen aneinander verketten.

Man kann sich das vorstellen, man legt die halt sozusagen nebeneinander, sodass halt die Spalte mit dem Schlüssel übereinander liegt und wenn man das mit vielen macht, dann werden die Abfragen langsam.

So ein bisschen wie an so einem Spielautomaten.

Wenn ihr so einen einarmigen Banditen habt,

dann zieht ihr einmal dran, da sind ja so drei verschiedene

und wenn ihr dann parallel sind und alles zeigt, gewinnen,

dann habt ihr den Schlüssel, den ihr braucht.

Dann hat man die Zeile

von dem Schlüssel irgendwie zusammengeführt.

Ja, genau.

das ist halt auch, wie man ein Schema

designt und so, das ist halt so ein bisschen

Kunst und man braucht Erfahrung dafür.

man kann halt sagen, ja,

man sollte das so ein bisschen normalisieren. Also meistens

gibt es dann ganz viele unterschiedliche Normalformen

und meistens die Formen,

die man dann so hat, ist so irgendwas zwischen dritter

und vierter Normalform oder so,

zwischen dritter und Boy-Scout-Normalform oder sowas. Aber ich möchte

gar nicht so sehr im Detail darauf eingehen, was

jetzt der Unterschied zwischen den Normalformen sind.

Irgendwie kann man sich auch durchlesen auf Wikipedia oder so.

Braucht man auch im Alltag eigentlich gar nicht zu

wissen, sondern da hat man dann halt irgendwann

ein Gefühl dafür, wenn

ein Datenbankschema okay aussieht.

Und dann macht man das halt so.

Das heißt, ich gehe jetzt tatsächlich erstmal hin

und nimm ein Whiteboard, einen Zettel

und schreib mir auf, wie die Daten aussehen

sollen. Ja, ja, tatsächlich. Also wenn ich

irgendwie eine Datenbank

designe für irgendein Projekt, dann

nehme ich mir einen Zettel und fange an

Entity Relationship

Diagramme zu malen. So nennt man die.

Was passiert denn später, wenn ich während dem Projekt

merke, hey, ich habe aber die und die Daten

vergessen? Bastel ich da einfach

irgendwo rein? Ergänze ich dann dieses Schema einfach?

das kommt darauf an, was das dann für eine Änderung ist.

Das ist auch so ein Problem.

Man kann Datenbanken nicht so richtig super ändern.

Also relationelle Datenbanken.

Das Schema lässt sich schon ändern,

aber das ist halt so ein bisschen knifflig.

Und wenn man das tut, muss man halt irgendwie aufpassen.

Dass das alte Datenbanken noch kompatibel sind oder sowas, oder?

Ja, dass man das so ändert,

dass nicht irgendwelche Inkonsistenzen entstehen.

Und auch, dass halt...

Wie wäre das jetzt bei unserem Beispielbeispiel?

Also wenn ich mir jetzt überlege,

ich brauche jetzt eine neue Spalte in dieser

Büchertabelle, ja, weiß ich nicht,

es gibt jetzt nicht nur die ESPN.

Aber vom Cover, jemand, oder das

Genre oder sowas, jemand sammelt Seefahrerbücher.

Ja, eine Kategorie, da würde ich halt

tatsächlich, also das, was man sich zuerst überlegen könnte,

ist, man macht einfach

ein Textfeld oder

Charfield, das halt

den Kategorienamen enthält

und dann hat man halt

das Problem, okay, dann stellt man fest,

oder am besten noch,

okay, fangen wir so an,

man schreibt halt, man nimmt Text

statt Kategorie

und sagt jetzt,

okay, alle Texts, also weiß ich nicht,

Militristik,

Komba, Seefahrer Roman oder

Komba, schreibt man jetzt Komba separiert

halt in eine Spalte rein,

dann hat man damit die erste Normalform verletzt

und man muss sich dann im nächsten

Schritt, wenn man das halt weiter normalisiert, überlegen,

okay, nee, das geht nicht, darf ich so nicht machen?

Also der eigentliche Grund,

warum man das nicht machen sollte, ist halt, dass es

diverse Anfragen halt schwierig macht

und dass man es auch sehr schlecht ändern kann

und dass wenn man was ändern kann, man Sachen kaputt machen,

Inkonsistenzen entstehen können und so.

Dann zieht man erst mal

diese Dinger auseinander und sagt halt,

okay, nicht in einer Spalte

mehrere Tags reinschreiben,

sondern dann hätte man sozusagen

eine End-to-End-Relation, also nicht nur,

wo ein Fremdschlüssel in der einen Tabelle zu einem Fremdschlüssel

in eine andere Tabelle passt, sondern man hat

dazwischen eine Link-Tabelle. Man hat jetzt einmal Tags

als Relation und einmal halt die Bücher

als Relation oder als Tabellen halt

und dazwischen hat man jetzt noch eine Link-Tabelle

zwischen oder Link-Relation zwischen

Büchern und Tags, sodass

man mehrere, also für jedes Tag hätte man

dann sozusagen einen Eintrag in der Link-Tabelle,

wo dann drin steht

ID von diesem Buch,

ID von diesem Tag. Ja, und das ist dann halt

sozusagen der, die

Verbindung zwischen den beiden Tabellen,

sondern halt eine Tabelle mit allen Texten.

Die ist möglicherweise gar nicht so lang.

Es gibt vielleicht nur 1.000 Texte oder so.

Und vielleicht ein paar Millionen Bücher.

Und jetzt hat man halt eine Link-Tabelle,

die wahrscheinlich dann irgendwie ein paar 10 Millionen Bücher,

ein paar 10 Millionen Zeilen oder so lang ist,

wo halt jedem Buch ein paar Texte zugewiesen werden.

Und dann ist alles wieder schön in der Normalform.

Und das kann man dann auch wieder nett abfragen.

Ja, wenn man dann aber quasi diesen Text halt,

wenn man diese Texte jetzt aber betrachtet

als Blätter in einem Kategorienbaum oder so,

dann wird es wieder so ein bisschen schwierig,

weil dann versucht man etwas

in einer relationalen Datenbank abzuspeichern,

was gar nicht so gut geht,

nämlich irgendwie so Baumstrukturen

oder Grafenstrukturen.

Das kann man dann auch machen

und wenn es nicht viele Texts oder Kategorien sind,

dann würde man versuchen,

wahrscheinlich Nested Sets nehmen.

Das ist, kann man sich mal angucken,

das interessiert, wie das, dann kann man dann halt auch

per SQL Abfragen machen, wie

ja, welche Bücher liegen denn jetzt

unterhalb von dieser Kategorie.

Was man macht ist, man schreibt an jede,

man hat so eine Kategorie einen Baum und man schreibt dann an

jedes Element

in dieser hierarchischen Struktur,

den traversiert man einmal

First Order, ich weiß gar nicht genau.

also beim Durchlaufen

nummeriert man jeden Knoten, an dem man

vorbeiläuft, durch und

man hat eine Spalte links und eine Spalte

rechts und links, wenn man

links an den Sachen vorbeiläuft in den Baum,

schreibt man halt die Nummern links

rein und dann rechts, wenn man rechts dran

vorbeiläuft und dann kann man so Sachen

Range-Abfragen dazwischen machen und

magischerweise führt das dann dazu, dass man so Subbäume

rausselecten kann und so. Aber das ist dann

halt schon so wirklich für Fortgeschrittene.

Und im Endeffekt,

wenn man jetzt große

Grafenstrukturen hat oder Bäume,

dann wäre es wahrscheinlich besser, das gar nicht mehr in einer relationalen Datenbank

zu machen, sondern das irgendwie in einen anderen Service

zu packen.

Ja, und da sind wir schon,

boah, das ging aber schnell, da sind wir schon an Grenzen,

wenn man so eine Relation an Datenbanken machen kann.

Ja, also das Dorsch nach der Garage ist mittlerweile rausgewachsen,

also können die ganzen Bücher dann in der Garage

nicht mehr lagern.

Nee, nee, nee, Moment, Moment, wir sind noch nicht,

also was eigentlich auch, nee, wir sind noch nicht,

wir sind noch nicht so weit, wir sind noch immer bei der ganz normalen,

einfachen Datenbank, würde ich sagen.

Ja, also das,

wofür wir die nämlich auch brauchen, die Datenbanken,

sind halt so Transaktionen-Prozessen,

So wenn jemand was kauft zum Beispiel.

Oh, jemand hat bei uns eine E-Mail geschickt, hat gesagt, hey, habt ihr das Buch da?

Und wir gucken nach, sagen ja, können wir dir schicken.

Dann ja, bitte an die und die Adresse und so.

Dann machen wir so ein Paket, machen da so einen Stempel drauf und sagen, hey, hier bitte dein Buch.

Ja, und dafür, dass das gut funktioniert, dann müssen halt auch einige Sachen für gewährleistet sein.

Und das ist halt zum Beispiel so etwas wie, naja, wenn ich halt ein Buch kaufe, dann muss ich irgendwie sicherstellen, dass das im Lager ist.

Das heißt, wenn jetzt ich ein Buch verschicke,

dann sage ich meiner Datenbank irgendwie so,

okay, jetzt ist davon eins weniger da im Lager.

Aber wenn jetzt auf der Webseite jemand sagt,

ich würde dieses Buch einkaufen,

dann muss halt gewährleistet sein, dass das halt noch da ist.

Das heißt, ich brauche halt eine zentrale Stelle,

in der die Wahrheit...

Mir fällt direkt wieder eines der Probleme ein.

Ja, zwei Leute wollen das gleiche Buch haben,

was nur noch einmal da ist,

und die wollen gleichzeitig eins kaufen.

Genau.

Das ist halt eine problematische Geschichte.

Aber wenn man jetzt eine Datenbank hat,

die die Wahrheit kennt und alle nur auf die zugreifen,

dann kann im Grunde nichts passieren.

Also da können keine Konflikte auftreten,

weil in dem Moment, wo jemand auf Kaufen klickt auf der Webseite

und es noch ein Buch da war ...

Die Frage ist halt jetzt, was man macht,

wenn viele Kunden sich immer so ein Buch angucken,

das in ihren Warenkorb reintun, weil sie es kaufen wollen,

aber 90 Prozent dieser Kunden einfach gar nicht am Ende kaufen,

sondern irgendwie wieder abspringen, weil die dann sagen,

na ja, doch nicht oder so.

Und dann hätten jetzt ja alle sich bei sich einen Warenkorb reingedickt

und wenn nur noch eins da ist,

vielleicht hätte der zweite direkt angezeigt bekommen,

geht gar nichts, der ihn wirklich gekauft hätte.

Also was natürlich passieren kann, ist, dass dir angezeigt wird,

es gibt noch ein Buch, obwohl es keins mehr gibt.

Weil du sitzt halt vor der Webseite und machst nichts.

Du kopfst in die Luft.

Oh, leider war jemand schneller und hat vor zwei Sekunden das Buch gemacht.

Genau, du kannst, sobald du draufdrückst,

in dem Moment, wo sozusagen diese Bestelltransaktion gestartet wird

und dann in der Datenbank aber

die Bedingung, es muss mindestens eins im Lager

sein, damit die Bestellung ausgeführt werden kann, nicht mehr erfüllt

ist und diese Constraint

wird verletzt, dann sagt die Datenbank so,

geht nicht. Und dann

kann man dem User eine Fehlermeldung anzeigen und sagen so,

oh ja, tut uns leid, das hat nicht geklappt.

Kein Buch mehr auf Lager.

Das ist ja im Grunde okay.

Ja, gerade so.

Ja, also was halt

blöd wäre, ist, wenn man dem User sagt,

okay, du hast das jetzt bestellt.

Und dann sagt er am Schluss, ätsch, ätsch, du kriegst doch kein Buch, weil war keins mehr da. Das ist halt so ein bisschen blöder. Ist aber eine Situation, die dann später, wenn wir halt nicht mehr auf einer Datenbank bleiben können, weil das einfach nicht mehr, also von der Skalierung her nicht mehr klappen kann irgendwann, dann kommen wir in solche Situationen rein und da müssen wir uns dann überlegen, wie wir damit umgehen. Aber solange das alles auf einer Datenbank läuft, ist da im Grunde kein Problem, kann man das sauber lösen.

Ich hatte ja so etwas, ich hatte das vielleicht schon mal kurz erwähnt, bei einer Bank. Ich habe eine Transaktion gemacht, da hat dann die Bank gesagt, ja, ist wunderbar, deine Überweisung wurde vernünftig ausgeführt. Und dann zwei Wochen später kriegte ich dann so eine Mahnung und dann habe ich nochmal aufs Konto geguckt und die Transaktion war weg. War nicht da.

Was habe ich dann da angerufen? Da haben die gesagt, oh ja, also in irgendeiner Logfile stand das dann wohl noch drin, dass ich so eine Transaktion eigentlich gemacht hatte, die aber nicht ausgeführt worden war. Das war ein bisschen blöd dann für mich, aber ja, scheint wohl auch mal so größeren Menschen.

Ja, also möglicherweise war das eben eine Bank und das ist tatsächlich bis, ich weiß nicht, vor gar nicht allzu langer Zeit tatsächlich üblich gewesen, wo dann die Transaktionen nicht in einer relationalen Datenbank direkt ausgeführt werden, sondern wo es dann Batch-Processing gibt, nachts. Also die Sparkassen haben das lange gemacht.

Man schmeißt dann manuell die ausgedruckten Briefchen ins Überweisungs...

Lochkarten.

Fällt jemand mit den Lochkarten dahin und dann kommen die in so einen Laser und dann werden die da durch und vielleicht, wenn dann eine Lochkarte rausfällt, ist halt eine Transaktion weg.

Nicht so gut.

Ja, aber kann, sowas kann tatsächlich passieren und das ist natürlich etwas, was ja gerade bei der Bank eigentlich, wo man sich denkt, na, sollte eigentlich nicht.

Aber ja, aber wenn man ein sauberes, relationales Datenbanksystem verwendet, dann kann das eigentlich nicht, oder sagen wir mal so, das bietet einem Lösungen für dieses Problem und im Grunde, wenn das Ding sagt, ja, die Transaktion ist durch, dann hat das auch funktioniert.

Man kann sich auch darauf verlassen. Es gibt halt welche, die nicht so richtig alle Features unterstützen, die man dafür braucht. Also zum Beispiel, was man eigentlich dafür braucht, damit das ordentlich funktioniert, ist, man braucht halt Isolation zwischen unterschiedlichen Transaktionen.

Also Transaktion heißt eigentlich nur, dass man mehrere Schritte, die man ausführt, irgendwie zusammenbündelt und dann halt entweder alle funktionieren oder keiner.

Ja, und das wäre halt genau so ein Fall wie, ich kaufe ein Buch, ist halt ein Ding, in der Daten müssen jetzt mehrere Sachen passieren.

Da muss halt irgendwie, diese Bestellung muss erzeugt werden, dann muss irgendwie aus dem Lagerstand irgendwie rausgelöscht, muss halt der Lagerbestand um eins reduziert werden und so und das sind halt mehrere Statements, die ausgeführt werden.

Und jetzt müsste halt, wenn jemand anders in der Zeit das gekauft hat und es keine Bücher mehr auf Lager gibt, müsste halt dann nachdem der eine Teil der Transaktion, nämlich das Reduzieren des Lagerbestandes von diesem Buch nicht mehr funktioniert, müsste halt auch das andere, nämlich das Erzeugen der Bestellung auch fehlschlagen und dann halt eine Fehlermeldung zurückkommen.

Und dann ist es halt sauber. Wenn ich ein System habe, das das nicht macht und ich erzeuge die Bestellung, habe jetzt in meiner Bestellungstabelle das Ding erzeugt, sage jetzt in der Lagerstandstabelle dieses Buch 1 weniger und dann sagt das, hier habe ich ein Constraint auf, es darf nicht weniger als 0 werden, also minus 1 Bücher ist schwer, das funktioniert irgendwie nicht so richtig und es dann knallt, dann kann das natürlich, wenn ich jetzt ein System habe, das keine Transaktion kann,

dann hätte ich jetzt die Bestellung zwar immer noch da,

aber... Was ist denn jetzt als Beispiel,

wenn ich jetzt sowas habe wie minus ein Buch

und ich möchte jetzt einfach, dass wenn

minus ein Buch ist, dass das nachbestellt wird

von dem Händler um die Ecke.

Also der hat noch eine Garage und die Mann ist noch ein Händler,

der hat auch so Bücher und vielleicht hat der

eins da und dann sage ich einfach, ja, ich muss das irgendwo anders herbekommen.

Könnte ich ja auch wollen.

Kann man auch machen.

Müsste dann, ja, das hängt dann vom System

ab, was die Logik dann macht. Man könnte dann sagen,

okay, die Bestellung wird trotzdem ausgeführt, dafür wird dann

aber das... Oder das Buch wird gedruckt oder sowas.

Ja genau, einfach normal produziert. Aber dann verändert sich möglicherweise das Ziel dafür, wann es halt ausgeliefert wird oder so. Und das ist halt dann, je nachdem wie das System funktioniert, kann man das machen.

Okay, also ich habe am Anfang mir so ein Schema ausgedacht, wo dann halt drin steht, was ich überhaupt alles machen will, machen kann. Und wenn mir irgendwelche neuen Dinge einfallen oder so, dann muss ich kurz überlegen, was, nicht an meinem Schemaende, aber am besten mache ich das Schema am Anfang schon so fertig, vollständig, dass das unproblematischer geht.

Das ist ein bisschen ein Problem. Man sollte ein Schema schon von Anfang an halbwegs so designen, dass es halt passt. Es ist später nicht mehr so ganz einfach, das zu ändern. Man kann das natürlich ändern, aber es ist auf jeden Fall…

Aber das fängt ja ein bisschen vom Geschäftsmodell ab. Wenn ich jetzt auf einmal merke, oh, ich verkaufe jetzt vielleicht gar keine Bücher mehr, sondern, weiß nicht, kompliziertere Produkte oder sowas, die noch einen anderen Aufwand haben, die jetzt nicht nur getaggt werden sollen, sondern wo noch mehr Metainformationen drin sind, irgendwelche anderen Snippets, also der Buchtext vielleicht noch oder andere Informationen, die dazugehören oder so, dann wird das ja notwendig. Also ich kann ja nicht jedes Mal eine neue Darkman anfangen, sondern ich muss ja auch gucken, dass sie irgendwie mit skaliert.

Ja, aber das sind wirklich schwierige

Probleme. Das ist ein bisschen

unintuitiv, dass das

so knifflig ist, aber es ist leider so.

Ein wirklich lustiges Beispiel aus der Praxis.

Das zeigt,

dass das halt nicht so einfach ist.

Möglicherweise finde ich es immer iTunes

oder der App Store.

Und der App Store war am Anfang,

man hat den nicht neu entwickelt, sondern das war,

man hat den, also über iTunes

konnte Apple ja schon immer irgendwie so Musik verkaufen.

Das hat auch recht gut funktioniert.

Oder halt

deutlich früher, als es jetzt das iPhone

gab und App Store. Und dann

sollte es halt dieses App Store Feature

geben. Und dann haben sie halt einfach

ihr iTunes Song Verkauf Ding

genommen. Und das halt

einfach nur gesagt, okay, das sind jetzt keine Songs, sondern das sind Apps.

Was halt dazu

führt, dass bis heute, und jetzt sind wir mehr als

zehn Jahre später,

bis heute haben

halt irgendwie Apps einen Titel und eine Länge,

Songlänge oder sowas, ja, was halt

totaler Quatsch ist, das passt ja überhaupt nicht zusammen,

aber es ist halt sehr, sehr schwer, das zu ändern,

weil, ja,

das würde so viel Logik irgendwie

brechen,

dass in anderen Systemen, das ist halt

extrem, also du kannst halt, ja,

also eine solche Migration

durchzuführen, ist halt hinterher sehr, sehr schwer

und also quasi die ganzen

Daten einmal anfassen und abgleichen und bereinigen

und schrubben und putzen.

Die Daten sind gar nicht so sehr das Problem. Das Problem sind

die anderen Systeme, die es auch

alle drumherum gibt, die sich verlassen, dass die Datenbanken so

aussehen, wie sie aussehen. Okay. Also wenn ich jetzt

also die Daten selber zu ändern, ist glaube ich

nicht so das Problem. Aber ich muss jeden

Prozess bei jedem Nutzer dieser Datenbank darüber informieren,

dass er sich das Schema... Und der muss damit klarkommen.

Und das ist halt möglicherweise

Legacy-Code, der wo

der Letzte, der sich damit auskannte, vor fünf Jahren gegangen

ist, aber das System

macht irgendwas Vitales, was irgendwie total wichtig ist

für das Business

und tja, dann wird's halt

richtig schwer. Und wenn du dann nicht nur ein solches System

hast, sondern zig, dann kann es sein,

dass du halt zehn Jahre lang das nicht mehr ändern kannst.

Manchmal sieht man

dann so ein bisschen lächerlich aus, aber wie jetzt

in dem Apple-Fall.

Wenn deine App eine Songlänge

hat, ja.

Ja, aber es ist halt, das zeigt halt

so ein bisschen, wie knifflig das dann

werden kann, wenn man

Pech hat.

Ja, und das ist auch so

ein Problem bei relationalen Datenbanken

insgesamt möglicherweise, würde ich

sagen. Also gerade der E-Commerce-Fall

oder der Amazon-Fall funktioniert

eigentlich ganz gut. Zunächst, also

später wird das dann auch nochmal ein bisschen problematischer, aber

physische Dinge halt

relativ stabil sind, was irgendwie so

ihre Eigenschaften angeht. Also da funktionieren

relationale Datenbanken halt besonders gut.

Unwahrscheinlich, dass so ein Buch noch

ein anderes Cover enthält oder sowas.

Also, dass sich Bücher jetzt irgendwie,

dass die plötzlich ein Attribut bekommen,

was es halt vorher nicht gab. Die wachsen Flügel.

Die haben halt irgendwie Titel, Seitenanzahlen oder sowas,

aber dass jetzt plötzlich irgendwie, keine Ahnung,

ich weiß nicht, was man sich

da vorstellen könnte. Man müsste jetzt irgendwie

Bücher...

Jedes Buch enthält einen Geist.

Bücher haben Flügel.

Ja, keine Ahnung.

Bücher kann man jetzt essen oder so, haben einen bestimmten Geschmack.

Das ist sehr unwahrscheinlich, dass das passiert.

Weil das würde bedeuten, dass sich die physikalische

Realität irgendwie ändert, was sie ja

natürlich auch tut.

Aber das tut sie relativ langsam.

Und das ist

gut, weil

man jetzt sozusagen

diese physischen Dinge in der Datenbank beschrieben hat,

die kann sich auch nur langsam ändern. Und das passt dann so ein bisschen

zueinander. Also das ist halt,

wenn man jetzt die Eigenschaften von einem Buch erstmal erfasst hat,

dann ändert sich da wahrscheinlich in den nächsten 20 Jahren nicht mehr so wahnsinnig

viel dran. Und dann muss man auch in der Datenbank nicht so wahnsinnig

viel ändern.

Wenn man jetzt ein anderes Problem hat und

man jetzt zum Beispiel in der Datenbank

nicht Daten über physikalische Objekte

hält, sondern Daten über

Daten.

Oh, Metadaten.

Die können sich

dummerweise unter Umständen, je nachdem

wie... Daten über Daten

über Daten. Ja, das kann sich dann,

da kann plötzlich die Geschwindigkeit, mit der sich die

Strukturen da ändern müssen,

deutlich schneller werden. Und dann wird es schwierig.

Dann sind relationale Datenbanken auch so, das ist dann

ein Problem. Das ist auch möglicherweise

einer der Gründe dafür, warum jetzt in letzter Zeit halt

immer mehr so NoSQL

oder Dokumentdatenbanken

wenn man das, manche nennen

das auch Schema-less, warum die

halt populärer werden, weil

man damit halt möglicherweise auf diese geänderten

Anforderungen halt besser reagieren kann,

dass man ja möglicherweise

ad hoc das Schema irgendwie ändern

muss und das halt in der relationalen Datenbank nicht so ganz

einfach ist, weil so absolut kann man das auch nicht

sagen, also es gibt da diverse Möglichkeiten,

wie man die Geschichten miteinander verbinden

kann und

ja, wenn

Schema lässt, ist halt auch nicht Schema lässt, sondern

das bedeutet halt mehr oder weniger nur, dass

das Schema jetzt implizit in deiner Applikation

ist und du halt immer aufpassen musst, wenn

du deine Applikation änderst, dass du da das Schema nicht

kaputt machst oder änderst oder so und das

überlegen sich viele Leute dann nicht so richtig und

dann ändern sie irgendwas und dann passieren furchtbare Dinge

und also dann fällt ihnen auf,

dass sie doch ein Schema haben.

Und ja,

dass sie dieses Problem halt doch nicht losgeworden sind.

Also es ist

leider alles nicht so einfach und

das ist tatsächlich

so, dass man bei Datenbanken

halt im Design am Anfang ein bisschen

mehr Arbeit hat, aber dafür hat man auch dann

einen lustigen Vorteil, nämlich

es ist immer so schön, irgendwie

Daten altern wie Wein,

also wenn man halt viele gute Daten

hat, das ist super und wenn das mehr werden, das ist immer

schön und das altert auch gut, das wird immer

besser mit der Zeit, man kann immer mehr

Wissen daraus generieren, man kann immer mehr

Fragen beantworten oder so, das ist eine sehr schöne

Sachen und

Applikationscode erörtert

wie Fisch.

Das ist nicht gut,

wenn immer Features drankommen oder Sachen

geändert werden, also das wird immer schlimmer mit der Zeit.

Das ist eigentlich selten so, dass man

irgendwie jetzt mehrere Jahre irgendwie ein Projekt

entwickelt und die Codequalität wird immer besser.

Das ist irgendwie nicht so, sondern es wird

immer, es wird irgendwie

und daher ist halt... Noch ein Frickel da, noch

ein Frickel dort, kleines Modülchen

an der Seite. Und auch

das Problem ist halt, die Anforderungen verschieben sich halt

irgendwie oder

die Realität ändert sich und

dann ist halt der ursprüngliche

Plan oder die ursprüngliche Architektur

der Applikation ist halt nicht mehr darauf angepasst

und so und

da hat man dann halt

ja, genau dieses

Problem, dass wenn man

jetzt das Schema verlagert in die Applikation

und die Applikation aber altert wie Fisch, dann

altern auch die Daten

nicht gut und deswegen ist es eigentlich schon sinnvoll

eine Trennlinie zu haben und zu sagen,

okay, selbst wenn wir die Applikation

irgendwann wegschmeißen müssen, neu schreiben müssen oder so,

dann haben wir immer noch die Daten und die

sind halt sauber strukturiert und

das sieht alles gut aus.

Und das kann eine sehr wertvolle Sache sein,

wenn man das richtig macht.

Und ja,

genau, deswegen ist

diese Trennung, wo man halt

irgendwie ein striktes Schema

hat und das auch

diverse Constraints, die halt irgendwie,

also dass man halt solche Sachen drin hat, wie es kann nicht

im Lagersachen geben

mit einem Lagerstand von

Minus irgendwas. Das darf halt nicht sein.

Da ist ein Fehler passiert, dann kann die Datenbank schon

dafür sorgen, dass das halt

nicht da reingeschrieben wird, weil die sagt halt so,

nee, so nicht. Man muss halt bloß dieses Constraint definieren

und sagen, so auf dieser Spalte, da dürfen keine

negativen Werte auftauchen. Oder eben so was

wie ein Gehalt, das darf auch nicht negativ werden.

Oder dass halt

bestimmte Datumsinformationen

halt nicht so und so sein können.

Oder dass man halt tatsächlich auch was mit Postgres machen kann. Postgres ist halt wirklich eine schöne Wahl, wenn man jetzt mit so einer Geschichte anfängt. Das kann so tolle Sachen wie, um in diesem Buchhandelsbeispiel zu bleiben, du hast jetzt eine Büchertabelle, da sind natürlich auch alte Bücher drin, weil die werden ja auch möglicherweise referenziert von Bestellungen, die lange zurückliegen oder so.

Du möchtest aber, wenn du jetzt eine Suche irgendwie auf der Webseite hast oder du hast halt irgendwie so eine Facette Navigation, wo du nach Kategorien einschränken kannst und da klickt jetzt ein User drauf und sagt, okay, ich hätte jetzt da gerne also Romane oder Seefahrer-Romane, dann gibt es einen Index, der das halt schnell macht, diese Abfrage und du willst jetzt aber Sachen von diesem Index ausschließen, zum Beispiel Bücher, die es gar nicht mehr gibt, die nicht mehr produziert werden, die vor Jahren irgendwie nicht mehr, seit Jahren nicht mehr gedruckt werden.

und das kann man mit Postgres tun, man kann

sagen so, also

ich brauche diese Einträge

in der Buchtabelle noch, um halt

damit die referenzielle Integrität, so nennt man das

halt, von alten Bestellungen nicht bricht,

die ja brechen würde, wenn ich

das einfach löschen würde, dann hätte ich halt

einen Pointer in der Bestellungstabelle, der

halt auf etwas zeigt, was es nicht mehr gibt, das wäre

schlecht, weil ich dann gar nicht mehr weiß,

was es sein soll und so.

Aber trotzdem werden diese Dinger nicht

mehr in den Index geschrieben, also ich kann

halt einen Index so definieren, dass er nur

Sachen, Bücher

mit reinnimmt, die halt

auch tatsächlich noch verkauft werden.

Und das heißt, es ist nicht so,

an solchen Stellen ist Postgres halt sehr schön, hat

sehr viele Features, zum Beispiel

jetzt im Unterschied zu MySQL, wo das halt,

wo solche Sachen gehen da gar nicht.

Also das halt, und da hast du dann halt

ein Problem, wenn du ganz, bei Büchern ist es jetzt nicht

so schlimm, so viele Bücher gibt es nicht und

so viele, die dann halt

nicht mehr verkauft werden, auch nicht, aber

man könnte sich vorstellen, es gibt durchaus Anwendungen,

wo man dieses Problem ganz massiv bekommt,

dass man halt eine Menge gelöschte Geschichten in der Tabelle

hat, die man aber nicht wirklich löschen kann, sondern nur als gelöscht

markiert. Und dann der Index

aber immer größer wird und langsamer wird, weil

ja, man halt nicht so einen

partiellen Index über Sachen haben kann.

Ja, überhaupt Postgres

kann halt auch noch diverse andere Geschichten, damit könnte man halt

auch so Sachen lösen, wie welche Pakete

kriege ich eigentlich in so einen Lieferwagen rein und so,

weil der kann halt, das Ding kann halt nicht nur

so B-Trees,

die man jetzt für

Textabfragen,

Indexabfragen benutzt, also

Also dass man sagt, welche Kategorie beginnt jetzt mit folgenden drei Buchstaben oder so.

Da nimmt man B-Tree, aber es kann halt auch solche Sachen wie Polygone, Abmessungen, überdeckt das eine, das andere.

Es kann halt so A-Trees, die man halt für diese ganzen räumlichen Datengeschichten braucht.

Aber es kann nicht nur das, sondern es kann auch so Sachen wie, welche Sachen liegen nah an anderen, so KD-Trees, Ball-Trees.

Es kann sogar Suffix-Trees, also Postgres

kann da eine ganze Menge unterschiedlicher Abfragen

und Indizes,

die man, also

Aber ich glaube, die lohnen sich jetzt noch nicht bei unserem kleinen Laden.

Wir sind ja, glaube ich, noch jetzt. Ja, doch, doch.

Ja, jetzt dann. Ja, ja.

Wie viele Bücher passen in der Garage? Wenn du deine Lagerhaltung,

und das möchtest du halt im gleichen System machen, damit

eben du nicht das Problem kriegst, dass

du den Start-Estate zwischen unterschiedlichen

Systemen synchronisieren musst, also wenn du jetzt

deine Lagerhaltung in einem System machst und machst

dann deine Webseite

oder die Datenbank, die die Webseite

über die du Bücher verkaufst,

wenn das unterschiedliche Systeme sind,

dann musst du den State-Zwischendienstensystem

ja irgendwie synchronisieren.

Was schlecht ist, würde ich zum Beispiel sagen,

das ist halt am Anfang sehr, sehr hilfreich,

wenn das alles ein System ist.

Weil man dann eben tatsächlich

die referenzielle Integrität, Constraints,

über alle Daten hinweg machen kann

und dann von der Datenbank sicherstellen lassen kann schon,

dass bestimmte Sachen nicht gehen

und dass bestimmte Sachen immer erfüllt sein müssen.

Das heißt, unser Schema setzt das dann tatsächlich fest

und das gibt dann sonst direkt einen Fehler aus der Datenbank.

Hey, nur dürfen wir nicht, geht nicht.

Und wir haben das Schema dabei erarbeitet für unseren kleinen Laden

und so sollten wir dann los.

Und dann kann deine Applikation oder die Programmierer,

die jetzt vielleicht gar nicht,

die Leute, die die Webseite bauen,

die haben jetzt vielleicht gar nicht so viel Ahnung von Lagerhaltung.

Die können aber, egal was sie auf der Datenbank machen,

sie können nichts kaputt machen.

Weil wenn sie etwas tun, was eigentlich nicht geht,

wie zum Beispiel einen Lagerstand von hoch auf minus eins setzen,

dann sagt ihnen die Datenbank, nur mache ich nicht.

Und dann kriegen sie halt einen Fehler.

Und das ist halt sauber, weil

wenn du jetzt zwei Systeme hättest und

musst jetzt da synchronisieren und jetzt ist aber schon

irgendwie was Blödes passiert.

Du hast minus zwei Bücher und dann

sagt die eine Datenbank, du darfst aber eigentlich nicht.

Dann sagt die eine Datenbank, ja, hab ich aber.

Da kommst du halt in Teufels Küche.

Man könnte sich vorstellen, dass das eine gute Idee wäre.

Wenn man das macht, dann wird man halt relativ schnell feststellen,

das ist keine gute Idee. Das ist doof.

Das ist auch vielleicht ein bisschen unintuitiv.

Und natürlich,

nachher muss man Sachen funktionierender

rausnehmen und man muss dann das

in mehrere Systeme aufkleiden. Man sollte so lange wie möglich

versuchen zu verhindern, dass das passiert, weil

das macht alles viel, viel schwerer.

Genau.

Also wo sind wir jetzt eigentlich genau?

Wir sind klein und niedlich. Wir haben

Postgres, machen alles

über Postgres. Wir haben ein bisschen JavaScript

auf der Client-Seite. Ansonsten

nehmen wir, sagen wir mal, Django oder so

als Web-Framework.

Also genau, jetzt kommen wir

erstmal zu, wie machen wir das?

Genau, da brauchen wir halt irgendeine Art,

wie wir auf die Datenbank zugreifen.

Üblicherweise, wie man Statements oder Abfragen an eine Datenbank formuliert,

ist halt SQL heutzutage halt so der Standard für solche Systeme.

Aber ja, das ist halt immer ein bisschen Fremdkörper.

Wenn man jetzt einen Python-Code schreibt,

dann hat man jetzt so ein SQL-Statement.

Das passt von der Syntaxe ja überhaupt nicht in Python rein.

Da muss man einen langen String machen, der irgendwie vernünftig aussieht.

Und da muss dann alles stehen, was man mit der Datenbank reden kann.

Genau, das ist halt irgendwie nicht so schön, also das gibt dann unterschiedliche Methoden, wenn man jetzt tatsächlich mit den rohen Statements arbeitet, es gibt Leute, die packen halt alle Statements in ein File und packen dann Funktionen drum und dann ruft man halt diese Funktionen auf.

Das kann man machen, das hat so Vor- und Nachteile, dann kann man aber auch sagen, okay, das ist aber schlecht, eigentlich möchte ich in dem Moment, wo ich mit den Daten arbeite, das Statement auch sehen und auch ändern können.

dann packt man halt sozusagen die Statements

immer an die Stelle, wo man halt

tatsächlich mit den Daten arbeitet. Das hat

auch wiederum einen Vor- und Nachteil. Das hat den Vorteil, dass man halt

Sachen leicht ändern kann, aber es hat den Nachteil,

dass man unter Umständen mehrere Statements,

die sehr ähnlich oder gleich sind,

an unterschiedlichen Stellen hat.

Alles nicht so total toll.

Auch nicht so ein einfaches Problem.

Und eine

ganz gute Lösung für dieses Problem

sind so objektrelationale

Mapper oder ORMs.

In Django ist einer eingebaut, wo man dann halt gar nicht wirklich mitkriegt, dass das SQL unten drunter ist, sondern man schreibt halt ganz normalen Python-Code.

Man definiert die Daten, die man in der Datenbank stehen haben möchte, einfach nur als Klassen.

Das heißt, das Schema wird nochmal als Klasse eingebaut, oder?

Das Schema entsteht dadurch, dass man unterschiedliche Klassen hat, die irgendwie in Beziehung zueinander stehen.

also was aufeinander mappt, ist halt

Klasse und Tabelle. Also ich hätte dann,

wenn ich Bücher kaufen möchte, halt eine Klasse Book

dann hätte ich halt vielleicht eine Klasse Tag

und wir hatten das ja eben

mit dem Beispiel, ich habe eine N zu M

Beziehung zwischen Tags und Büchern

und dann würde man entweder

in Tags oder in Büchern irgendwo

definieren, also das hier ist

dieses Feld

Tags ist halt

wie heißt das

in Django, weiß jetzt

irgendwie, nee, irgendwas

foreign-key-field irgendwas, aber man sagt halt,

das ist halt many-to-many-relation

irgendwas, weiß nicht, muss ich nachgucken.

Aber auf jeden Fall definiert man das halt wie

eine Spalte in der Tabelle.

Also Attribute der Klasse sind halt

Spalten in der Tabelle. Und sagt dann halt, das hier ist

ein many-to-many-Beziehung zu

der Relation Tags.

Und dann hat man, die Link-Tabelle

wird automatisch erzeugt, man kriegt das gar nicht mit.

Und im Code hat man halt

nur Bücher und Tags und halt dann diese

Beziehungen dazwischen und dann

wenn man sich das halt so

hindefiniert hat und dann halt

alle Klassen, die man so braucht, beziehungsweise alle Tabellen, die man

halt irgendwie in der Datenbank haben möchte,

definiert hat mit den Spalten

und den Typen der Spalten und den entsprechenden Constraints

und den Inzides und den ganzen Kladderadatschen,

die man auch sonst noch so braucht, dann

sagt man

Migrate und dann

werden die ganzen

Tabellen in der Datenbank tatsächlich angelegt

Make Migrations

ruft man halt zuerst auf und damit

werden halt so Migrationsskripte in Django

angelegt. Das sind auch einfach

nur Python-Files, in denen drinsteht, was

diese Migrationen tun sollen, nämlich zum Beispiel irgendwie

Tabellen anlegen,

Indizes anlegen oder sonst irgendwas.

In die kann man auch beliebige andere Dinge

reinschreiben. Also man kann halt auch selber Migrationen

einfach so von Hand schreiben, wenn man zum Beispiel

jetzt sowas wie, es gibt so Datenbank-Trigger,

Also man kann halt sowas ...

Was ist das?

Ja, man könnte halt, also wenn zum Beispiel ...

Nutzer taggen selber und erfinden eine neue Kategorie.

Ja, ich überlege gerade,

mir fällt ehrlich gesagt jetzt gerade nicht so ein tolles Beispiel ein,

aber im Grunde, was das tut, ist,

wenn sich halt in einer bestimmten Spalte irgendwas ändert,

dass dann automatisch andere Aktionen passieren

innerhalb der Datenbank.

Und das kann man halt festlegen,

haben auch einen SQL-Syntax und man schreibt

das halt einfach in eine Migration rein.

Oder man kann auch sogar Sort Procedures, die halt dann

irgendwie eine komplizierte Geschichte, die dann irgendwie ausgeführt

wird, wenn ein neuer Autor angelegt

wird oder sonst irgendwas. Dann müssen

vielleicht noch diverse andere Geschichten gemacht werden.

Das kann man

ganz normal in diese Django-Migration

auch reinschreiben. Man kann da die SQL reinschreiben

und die werden dann mit

ausgeführt und dann werden halt diese Sort Procedures

oder Trigger in die Datenbank mit reingeschrieben

und sind dann halt da.

was im Schema

passiert oder was da drin ist, das wird halt dann von

diesem Django-Migrationssystem verwaltet

und alle Migrationen, die ausgeführt

worden sind, werden halt auch wieder

in derselben Datenbank halt

gehalten von Django selbst, da gibt es dann halt auch Tabellen zu

und man kann jetzt Sachen auch wieder zurückrollen.

Also man kann zum Beispiel sagen, wenn man jetzt eine Änderung gemacht hat

und feststellt, oh, die war nicht so toll,

dann sagt man halt einfach so migrate und dann

gibt man die Nummer der Migration

an davor und dann rollt sich die Datenbank

in den Zustand davor zurück.

und dann löscht man einfach die Migration

und dann war's das. Also das macht es halt

sehr angenehm, damit zu arbeiten und sowas braucht man

auf jeden Fall. Also selbst wenn man jetzt sowas nicht wie Django

verwendet, sondern das alles von Hand macht,

braucht man auch irgendeine Art, wie man damit umgeht

und das war teilweise früher ziemlich übel,

als es keine so gute Unterstützung

in den Frameworks für sowas gab, hat man das halt

irgendwie von Hand gemacht und da passieren

dann immer wieder Unfälle,

man hat halt irgendeine Datenbank vergessen oder

wenn man jetzt halt mehrere Datenbanken

hat oder

es geht irgendwie sowas verloren, man weiß

nicht genau, in welchem Zustand die Datenbank ist, weil

irgendwie man meint, man hätte die ausgeführt,

aber dann ist es irgendwie doch nicht

passiert oder, ja, weil

eben nirgendwo drinsteht, in welchem Zustand

die Datenbank ist, sondern man nur Leute

fragt irgendwie so, also hast du die Migration

jetzt eigentlich auf der Produktionsdatenbank schon ausgeführt oder nicht?

Ja, ja, hab ich gemacht.

Das ist vielleicht noch nicht passiert.

Also es ist sehr schön, wenn das halt irgendwie

selbst auch in der Datenbank

festgehalten wird, in welchem Zustand man ist.

Ja, und das, jetzt so ein Framework

wie Django bietet einem dafür halt

kommen so wirklich relativ vollständige

Wir merken wieder, du bist ein Django-Fan.

Ja, ja, Art damit umzugehen.

Ja, kann man Flask, wenn man jetzt das andere

große Web

ja, Framework kann man jetzt nicht

da so wirklich zu sagen, aber das andere Paradigma,

wie man Web-Anwendungen

in Python entwickelt,

wenn man das mit Flask macht, hat man das

auch alles, ja, da gibt es dann SQL-Alchemy

als ORM

und halt, ich weiß jetzt nicht, das hat

irgendeinen Namen, die Migrationslösung

dafür, an den ich mich jetzt

gerade nicht erinnere. Und da geht

das alles auch. SQL Alchemy ist sogar deutlich

mächtiger als der Django OAM,

aber ist halt nicht integriert.

Und, ja, also

Flask ist auch super.

Der Trade-Off ist halt so ein bisschen,

was einen Django so

abnimmt, ist halt, dass man

sich halt um viele Abhängigkeiten nicht kümmern muss,

weil man installiert halt Django und dann hat man halt einen Großteil

von dem, was man so braucht.

Und das wird halt dafür

dass das alles konsistent bleibt und man

upgraden kann und so, dafür wird gesorgt, da muss man selber

sich nicht drum kümmern, wenn man jetzt Flask macht

und dann halt ganz viele unterschiedliche

Teile hat

und die ihre Versionen ändern und so, dann muss man selber

am Ball bleiben und auch Konflikte halt selber

auflösen und das heißt, man hat so langfristig

mehr zu tun damit

aber dafür ist man halt auch flexibler und kann halt

wenn einem eine bestimmte Art von ORM besser

gefällt, den halt verwenden, es gibt halt auch

zum Beispiel irgendwie neuere, also SQL Alchemy

ist sehr alt, Django ORM ist relativ alt

es gibt PV

und PonyORM oder so, das sind jetzt

modernere Geschichten, sieht besser aus

macht unten drunter irgendwie was

sehr ähnliches, aber ja

genau, also

ein Teil davon ist halt immer, wie man die Relationen

und Tabellen definieren kann, das sind meistens

Klassen, die man dann halt aufschreibt

und dann erzeugt man daraus halt die Datenbankstruktur

und der andere Teil vom ORM ist halt, wie man

Abfragen auf die Datenbank halt abfeuert

das, was man eigentlich fast bei

allen ORMs dann so macht, ist

macht so Method Chaining.

Ich weiß nicht, sagt dir das was?

Bis jetzt nicht.

Ja, gibt's auch so oft in Data Science

Pandas oder so, da macht man das auch.

Also man

kann in Python, ja man

kann ja irgendwas sagen, so man hat ein Objekt, Punkt

Methodenaufruf oder

Punkt Attribut, Punkt

wieder noch was anderes, Punkt wieder noch was anderes.

Wenn zum Beispiel eine Methode

ein Objekt zurückgibt, dann kann man auf diesem Objekt

wieder was anderes aufrufen.

Wenn ich das alles in eine Zeile schreibe, wird das irgendwann relativ lang.

Aber wenn ich jetzt ein Statement modellieren

möchte, das halt viele Where-Bedingungen hat,

die Art, in Django-Organs

das hinzuschreiben, wäre halt zu sagen, Filter

irgendeine Spalte

gleich

irgendeinen Wert oder sowas.

Aber dann habe ich noch ein zweites, dann sage ich Punkt, Filter, nächste Spalte

wieder irgendeinen anderen Wert oder so.

Und das wird halt

relativ länglich. Daraus wird dann halt ein Statement

generiert, aber was ich halt tun

kann, ist zu sagen, Klammer auf

und dann halt QuerySet.Filter

Annotate

und dann Dinge gruppieren

oder so oder neue Spalte hinzufügen

und ich mache

noch eine weitere Klammer drumrum, dann kann ich das halt auch

einrücken und dann rücke ich das so ein, dass

alle Punkte untereinander stehen und dann habe ich halt so

ein mehrzeiliges Dings,

was so ein bisschen eine Zwischenform ist

zwischen SQL und Python-Code.

Aber ich spare

mir dadurch sozusagen, dass jedes Mal

irgendeine Zwischenvariable zuweisen zu müssen.

Ansonsten könnte ich ja natürlich sagen

QuerySet gleich QuerySet.Filter irgendwas

und dann sage ich in der nächsten Zeile QuerySet gleich

QuerySet.Filter

noch irgendwie eine andere Spalte.

Where irgendwas.

Ich kann das aber auch alles in ein

einziges Ding reinschreiben.

Man nennt das Method Chaining.

Ja, und das ist halt irgendwie das

bei Pandas ist es halt

genauso. Dann hat man Data Frames, auf denen man dann Sachen macht und

die geben dann auch immer wieder ein Data Frame

zurück, die viele der Methoden. Und die kann man

halt auch so chainen. Und dann hat man da oft so mehrzahlige

Dinge, wo halt die Punkte untereinander stehen. Also wenn man

nicht weiß, was es ist, ist es Message Chaining. Und das ist halt

so eine Methode, um

Dinge halt in eine...

Irgendwie schon mal so ein bisschen gesehen, aber so wirklich wissen, was das

Message Chaining heißt, ist natürlich...

Genau. Und im Grunde

ist es halt dann, wenn man

Queries in ORMs so macht,

ist es halt so ein bisschen ein Zwischending zwischen

SQL und Python, aber das funktioniert

dann halt so halbwegs gut und das

ist dann halt sehr angenehm.

Und dann ist es nicht mehr ein Problem, wenn man jetzt

sozusagen diese Art von Logik an unterschiedlichen Stellen

im Code stehen hat, weil

die Statements, die rausfallen, sind halt alle gleich.

Und wenn ich jetzt irgendwie, keine Ahnung,

mir überlege, dass

ich eine bestimmte Art von Optimierung

machen möchte an den Statements,

dann wäre die halt

auch immer gleich.

Das heißt, dann habe ich halt dieses Problem,

das ich sonst hätte, wenn ich das alles in einen File schreiben würde

oder wenn ich fast gleiche Statements

in unterschiedliche Files schreiben würde,

wenn ich die Statements beim Code haben will,

das habe ich damit dann nicht mehr.

Und das ist natürlich ein sehr schöner Effekt.

Das ist halt einer der Hauptnutzen von OEMs.

Also ein anderer schöner Nutzen ist halt,

dass man halt diese ganze Migrationsgeschichte,

wie ändern sich Sachen, halt auch automatisiert hat

beziehungsweise die ganzen Prozesse drumherum

irgendwie zumindest mal abgebildet hat.

Ja, die sind wieder klein und niedlich

und das haben wir jetzt gemacht.

Genau, und da würde so ein Framework werden in OEM

Und dann ist man eigentlich, das geht alles ins Git, es gibt Versionskontrolle dafür und das ist eigentlich alles schon relativ komfortabel.

Ja, was passiert jetzt? Also wir sind klein und jetzt haben wir das schon gebaut, aber wann funktioniert das denn nicht mehr so?

Ja, genau. Wir haben als Online-Handel einen riesen Vorteil gegenüber stationärem Buchhandel, weil, das ist auch eine interessante Statistik, es kommt glaube ich aus diesem Buch Longtail von Wired-Redakteuren, weiß ich jetzt den Namen vergessen.

schreibt er da, dass Amazon

macht die Hälfte des Umsatzes

mit Büchern, die nicht in den Top 300.000

eben Bücher verkaufen

so ein

oder verkaufen die Bücher halt so

eine Longtail-Verteilung. Also es gibt

halt sehr, Leute

wollen sehr unterschiedliche Bücher kaufen.

Es werden viele Bücher verkauft, aber von

denen nur ganz wenige.

Und das ist halt blöd für einen

Laden, der die Bücher halt physisch

vorhalten muss, weil auch selbst wenn Bücher nicht so groß

sind, ich kann halt in so einem

Innenstadtbuchladen

kann ich halt irgendwie ein paar tausend Bücher haben

und dann ist halt irgendwie Schluss

und ich muss mir überlegen, welche das sind, aber wenn

jetzt, also nehmen wir an

Das hat aber auch ein Zielpublikum, das heißt ich weiß genau, hey

in mir kommen jetzt nur ganz viele alte

antiquarische interessierte Menschen

rein, dann sollte ich vielleicht dafür sorgen,

dass in meinem Laden viele antiquarische Bücher

sind oder es kommen jetzt noch ganz viele hippe Leute

rein, die wollen alle was über IT wissen, sollte ich vielleicht ein IT-Buch laden.

Ja, aber selbst

wenn du jetzt all diese Zielgruppen

zusammennimmst und dann irgendwie den riesigsten

also das ist halt das Problem,

wenn die Zielgruppe zu klein ist, dann lohnt

sich das nicht, aber wenn sie

selbst, wenn du jetzt einen riesigen Buchladen hast, in den

300.000 Bücher passen, was ziemlich groß sein

müsste, dann

machst du immer nur trotzdem noch

die Hälfte des Umsatzes von Amazon, weil

Amazon macht halt nochmal so viel

Umsatz mit dem ganzen Rest. Das heißt, sie haben dann

sie können einfach viel besser skalieren

weil sie einfach viel mehr Bücher verkaufen

und ja, ich wüsste

nicht, dass es da irgendein Mittel gegeben gibt

ich fürchte, was aber auch bedeuten würde, dass Amazon

auch diese Minus 1 Bestellung annehmen müsste, weil das müssen

sie auch irgendwo in einem riesigen Lager jedes Buch liegen

haben, ja, müssen sie tatsächlich wahrscheinlich

oder sie müssen es halt on demand irgendwie drucken können

oder so, gut klar, sie müssen

damit irgendwie umgehen, auch der

stationäre Buchhandel geht ja irgendwie dann damit um

so damit um, dass man dann halt Sachen da bestellt

zum Beispiel, hey Autor, schreib doch bitte

nochmal eine neue Folge, wir haben ja so ein paar

Bestellung, ja.

Aber, ja,

ich meine, du hast halt als

stationärer Buchhandlung

hast du ja keinen Vorteil mehr, wenn du dann auch wieder

bestellst, weil dann machst du halt zwei Sachen

und die eine, ja, und dann

als Amazon hast du einfach

einen strukturellen Vorteil, fürchte ich.

Okay, und dann kannst du...

Es ist cool, weil dann können wir einfach mit unserer Postgres-Lösung direkt so

unter dem ORM... Genau.

Die interessante... Also mit 3.000

Millionen ist das überhaupt kein Problem. Also da

könnten wir auch, also ich würde sagen, so ein Markt wie

Deutschland kannst du wahrscheinlich tatsächlich mit einer Datenbank

und mit allen Büchern, die es überhaupt gibt,

locker bedienen. Das ist kein so

großes Problem.

Wenn es jetzt nur darum geht,

die Bücher zu verkaufen. Aber

wenn wir jetzt

zum Beispiel eben sowas rauskriegen wollen,

wie, was sind eigentlich

die Top 300.000 Bücher?

Wo kommt denn diese Zahl eigentlich her?

Ja, und

überhaupt rauszukriegen, okay, wir machen die Hälfte unseres Umsatzes

mit Büchern, die nicht in den Top 300.000

ziehen, dann müssen

wir nicht nur die Bücher

speichern, sondern dann müssen wir halt auch

speichern zum Beispiel, welche

Bücher gekauft worden sind und so, also

die Historie aller Bestellungen und so.

Und das ist dann halt unter Umständen viel, viel

Und dann wird es allmählich

problematisch, weil dann haben wir

unterschiedliche Use Cases

oder unterschiedliche Abfragemuster.

Also wir haben zum Beispiel diese

Transaktions...

Also das Lager, das einfach immer noch weiß, welche Bücher

Wir sind da und das finden wir raus.

Das System, das macht halt Bestellungen

oder wir haben halt Anfragen, die Bestellungen machen

oder solche Sachen wie, zeig mir alle Bücher

in Seefacher Romane oder so.

diese Art von Anfragen,

wie, sag mir mal, wie viel Umsatz ich mit

nicht in Top 300.000 enthaltenen

Bücher im letzten Jahr gemacht habe.

Das ist eine ganz andere Art von Anfrage.

Die Anfragen vorher, die machen immer nur

auf kleinen Datenmengen in der Datenbank irgendwas.

immer zeilenweise meistens.

Und oft ändern sie auch irgendwas oder schreiben irgendwas.

Aber gut, die große Mehrheit wird Read-Anfragen sein.

Aber die beziehen sich normalerweise nicht auf wahnsinnig viele Zeilen,

sondern immer nur relativ wenige oder wenige tausend Zeilen.

Und eben operieren halt auch ja zeilenweise.

Während diese andere Anfrage jetzt dieses, wie viel Umsatz,

ja, das ist halt dann nur noch eine Spalte aus den Bestellungen.

Und dann auch, geht es wahrscheinlich

aber über lange Zeiträume,

über ein Jahr, mehrere Jahre

und dann halt über alle Bücher.

Das ist eine Anfrage,

die geht halt über ganz, ganz, ganz, ganz,

ganz viele Zeilen.

So, und jetzt beißen sich die, diese

Abfrage-Muster beißen sich halt massiv.

Also, weil

das Problem ist, dass die Datenbank

irgendwie gewährleisten muss, dass deine Sicht

auf die Welt, also auf die Datenbank,

konsistent bleibt, während die Anfrage läuft.

Die Anfrage läuft jetzt aber wahrscheinlich relativ lang.

muss ich irgendwie alle Daten, die in der Datenbank liegen

oder einen Großteil davon muss sie sich angucken,

wenn sie dir hinterher so was sagen,

eine Zahl geben will, wie viel Umsatz waren das jetzt so.

Und währenddessen werden aber Bestellungen

abgearbeitet oder werden Dinge gemacht, Sachen an der

Datenbank geändert,

die jetzt aber nicht direkt

durchschlagen können auf deine Anfrage, sondern da werden

immer nur Kopien gemacht.

Und es wird dann halt ein Timestamp

reingeschrieben, es wird halt das Multiversion

Concurrency Control.

Multiversen!

Das heißt, die Datenbank

ist halt in einem unterschiedlichen Zustand,

je nachdem, wer gerade fragt.

Und für die Transaktionen, die eine Bestellung ausführen, ist sie jetzt

in einem anderen Zustand als für dieses langlaufende

Query. Und das Problem ist halt, je länger

diese Query läuft, umso länger muss die Datenbank

jetzt mehrere Versionen ihrer selbst aufrechterhalten.

Was dazu führt, dass du halt auch

mehr Speicher brauchst und was halt eine komplizierte

Geschichte ist. Und das ist halt, ja,

wenn das Problem ist, wahrscheinlich wird man dann halt

irgendwann sehen, man wird so mit einfachen Analysegeschichten

anfragen und irgendwann wird man halt merken, so morgens

um neun, wenn dann halt irgendwie die

Business Intelligence

Abteilung irgendwie anfängt,

wenn da die Analysten sitzen und dann irgendwie, ja gut,

ich weiß nicht, am Anfang wird man sowas noch nicht haben, aber

irgendwann hat man das vielleicht dann, wenn die halt ihre

Analyse-Querys abschießen,

dann wird plötzlich die Webseite langsam.

Ja, weil halt die Datenbank langsam

wird, weil die Queries werden langsam, weil plötzlich

muss die Datenbank

irgendwie mit mehreren

Zuständen irgendwie

rumjonglieren.

Ja, das ist blöd. Und dann muss man sich halt

was überlegen. Und

das ist dann halt so der Moment,

wo man dann sagen muss, okay,

wir können das nicht mehr. Es wäre schön, alles in einer Datenbank

zu haben, aber das geht nicht. Diese beiden Use Cases

sind so unterschiedlich, dass man das leider

nur dadurch ordentlich abgebildet kriegt,

dass man das halt in unterschiedliche Systeme packt.

ja, also das eine nennt man

auch irgendwie OLP,

Online Transaction Processing,

Das ist halt sozusagen der

Webseite, also Datenbank ist hinter einer Webseite,

die irgendwie Bücher verkauft und prozessiert

Transaktionen, Bestellungen. Und der andere

Teil nennt sich OLAP,

Online Analytical

Processing. Und

ist halt das so, wenn man das mal

gehört hat, wenn Leute über Data Warehousing

sprechen oder Data Warehouses oder so, das ist halt das.

genau, das sind beides

meistens relationale Datenbanken, wenn man

anfängt jedenfalls.

Aber die sehen unterschiedlich aus.

Also die haben unterschiedliche Anfragen werden gestellt.

Analyseanfragen laufen oft länger, gucken sich viele Zeilen an.

Transaktionsanfragen sind oft kurz und gucken sich wenige Zeilen an.

Und da geht es auch darum, dass die Latenz relativ kurz ist.

Bei vielen Analyseanfragen ist es gar nicht so wichtig,

dass sie jetzt eine Minute länger oder weniger lang laufen.

Das ist gar nicht so entscheidend.

Und auch die Analyse-Datenbanken sind oft viel, viel größer,

weil man halt historische Daten mit drin hat,

was halt für eine Transaktionsdatenbank

tödlich wäre, weil bei der ist

möglichst das komplette

Working Set der Datenbank

im Hauptspeicher, damit das halt alles schnell geht,

damit die Latenz

niedrig bleibt, damit halt die Webseite

sich schön snappy

irgendwie anfühlt.

Und bei

den Analyse-Datenbanken ist aber

unter Umständen wichtig, dass ich halt historische Daten

da halt auch mit drin haben kann. Und die

werden dann halt vielleicht so groß, dass man das halt nicht mehr im Hauptspeicher

halten kann.

Ja, aber...

Die Queries werden dann halt langsam, aber das

ist halt möglicherweise wichtiger, historische Daten

zu haben, als dass Queries halt schnell sind.

Und dann, wenn

sich eine Query irgendwie ein paar Millionen

oder paar Zehn Millionen Zeilen anguckt, dann ist es eh nicht mehr schnell,

selbst wenn es ein Hauptspeicher ist. Und ob es dann jetzt eine Minute

oder zwei Minuten dauert, das hat dann auch irgendwie wurscht.

Ja, genau.

Und dann hat man eben diese beiden

unterschiedlichen Systeme und dann kriegt man halt aber auch

genau diese Probleme, die man dann hat,

Wenn man mehrere Sichten auf die Welt hat oder einen Status, man hat jetzt keinen gemeinsamen Status mehr, sondern man hat jetzt den Status des Systems in unterschiedlicher Form in unterschiedlichen Datenbanken.

Das heißt, man muss jetzt zum Beispiel die Transaktionen, die irgendwie in dem einen System aufgelaufen sind, überführen in das Analysesystem.

Das macht man üblicherweise bei einem Prozess, der nennt sich ETL, Extract, Transform, Load.

Und man halt die Daten, die einen interessieren, halt täglich oder so, also meistens fängt man sowas an wie, ja, das sind halt dann Jobs, die nachts laufen, wenn halt die Datenbanken sowieso nicht so unterlasst sind, weil nicht so viele Leute einkaufen, liest man halt irgendwie alles, was einen so interessiert, dann aus der Transaktionsdatenbank aus.

dann ist der Transformationsprozess halt sowas wie,

ich muss die Daten in ein anderes Schema transformieren.

Und das ist halt so wie so Stern-Star-Schema

oder Snowflake-Schema, je nachdem.

Das ist auch irgendwie gewisserweise normalisiert

oder man kann auch sagen, denormalisiert, je nachdem.

Aber es ist halt auf jeden Fall anders.

Es ist halt davon optimiert,

dass ich bestimmte Arten von Analysen fahren kann

und lädt das Ganze halt in die Analyse,

Datenbanksystem. Für deine BI.

Genau.

Und ja,

das ist halt

immer so ein bisschen fies

alles. Aber ja, bleibt einem halt nichts übrig,

muss man irgendwie machen. Wie würden wir das denn jetzt machen?

Wenn wir Python jetzt haben, jetzt haben wir ja irgendwie so ein neues System

und jetzt haben wir eigentlich irgendwie, das ist unser

OLTP-Datenbanksystem,

das haben wir aufgebaut mit den Transaktionen für unsere Webseite.

Was bauen wir denn da, damit wir jetzt so ein

OLAP-Ding dranhängen können, weil wir die

Analytics-Abteilung einstellen. Ja, machen wir auch mit

Postgres so ein Ding.

Also eine zweite Postgres-Datenbank, die eben die erste packen.

Ja, genau. Die halt ein bisschen anders aussieht.

Die hat dann vielleicht nicht ganz so viele Hauptspeicher,

aber dafür halt irgendwie mehr Plattenplatz

und auch irgendwie Storage

möglicherweise in unterschiedlicher Qualität.

Wenn man sagt, okay, vielleicht

für die letzte Woche haben wir alle Daten

noch im Hauptspeicher, ja, dann aber für den letzten

Monat oder für die letzten sechs Monate haben wir

die halt auf SSDs oder so, auf ein System,

was halt noch schnell, weil

der größte Teil der Queries geht

natürlich auf Daten, die relativ aktuell sind.

Und dann ab einem Jahr oder so, so liegen die Daten dann vielleicht auf Platten, die halt dann eher langsam sind, aber da nur ein kleiner Teil der Queries halt so lange zurückgeht, ist es halt nicht so schlimm, wenn das ein bisschen langsamer ist.

Und diese Art von Queries muss dann halt ein bisschen warten.

Ja, und das ist halt ganz anders im Vergleich zum OLTP-System, wo man halt sagt, das muss alles mehr oder weniger im Hauptspeicher sein.

Und klar ist auch wichtig, dass Sachen schnell geschrieben werden, deswegen muss das, wo was hingeschrieben wird, muss halt auch sackschnell sein.

Also da würde man auch eher lieber dann

schnelle SSDs nehmen, aber

es ist halt nicht wichtig, viel mehr

Plattenplatz zu haben, als man Hauptspeicher hat, weil

das will man ja eh nicht.

genau, diese LTE-Prozesse

sind dann halt irgendwelche Skripte, die dann halt

irgendwie über irgendeine Task

Das bedeutet natürlich dann, dass unser

Intelligent System also jetzt nicht sekundengenau

funktioniert, in dem Fall.

Weil wir halt immer wieder diese Jobs machen müssen.

wenn ich jetzt an was ganz anderes denke,

weiß ich nicht, Aktienkursanalyse oder sowas,

wir haben irgendwelche Portfolios,

dann ist das natürlich dann doof,

weil dann das nicht dem echten Stockmarket entspricht,

sondern man müsste es halt dann jedes Mal

eine neue Kopie machen,

wenn man diese Analytics fahren will.

Ja, genau.

Also natürlich, das ist tatsächlich ein Problem.

Und die Lösung dafür ist,

dass man dann halt irgendwann nicht mehr so ETL

in dem Sinne macht,

dass man das halt irgendwie abends Batch-Processing macht,

sondern dass man halt irgendwie so Streaming

Geschichten verwendet, halt

Apache Kafka und so ist halt etwas, was häufig

verwendet wird. Aber da kommen wir später zu, weil

das ist auch eine Geschichte, wo man

dann, das wird halt eh

erst dann relevant,

wenn man dann nochmal ein gutes Stück größer

geworden ist und man mit diesen traditionellen

Data-Warehouse-Geschichten auch nicht mehr klarkommt.

Und der Weltbeherrschung ist unikat.

Ja, genau. Dazu muss man dann schon mal

noch ein bisschen, oder halt eine andere Art von Daten sammelt.

Also ich würde sagen,

dieser klassische Bereich,

Ja, selbst wenn man halt nur tagesaktuelle Daten hat, ist man damit wahrscheinlich viel besser aufgestellt als jetzt wahrscheinlich viele stationäre Buchhändler oder so.

Selbst das wird einem da schon einen deutlichen Vorteil verschaffen.

Und ich denke mal, am Anfang ist es halt so, das ist halt das, was alle machen und mit allen irgendwie anfangen, dass sie das halt tagesweise oder so batchmäßig erledigen.

Und genau, ja, da ist man halt irgendwie so bei diesem Data Warehousing Thema.

Ich habe das mal irgendwann

das ist auch in den Shownotes verlinkt,

gibt es einen schönen Essay,

der heißt

Data Warehousing for Cavemen.

Das ist von 1997 oder so.

das finde ich nach wie vor gut, ist auch relativ

humorvoll. Da geht es darum,

der schreibt

auch so, vielleicht interessiert es manche Leute irgendwie, wie man

300 Dollar die Stunde verdienen kann,

indem man die sensibelsten Daten von irgendwelchen

Firmen massiert. Muss ich sofort wissen, ja.

Genau, beim Freelance ist das vielleicht gar nicht so uninteressant.

Ja, und

also das ist auch ein Feld, das es schon lange gibt.

Ich habe das am Anfang aber auch nicht,

ich habe zuerst nur diesen OTP-Use-Case

gekannt und dann bin ich irgendwann

auf diesen Essay gestoßen und dachte so, oh, das ist aber interessant.

Und daraufhin halt dann auch

so angefangen, mich so ein bisschen mit der Terrarism-Kram zu beschäftigen.

Aber es ist auch ein sehr interessantes Thema.

Der entscheidende Punkt ist im Grunde,

dass man halt solche Abfragen machen

können möchte, wie

also wie unterscheidet sich denn

jetzt, keine Ahnung, das

Volumen der verkauften Bücher in einer bestimmten Kategorie,

nachdem ich irgendeine Werbeaktion gemacht habe.

Oder A-B-Tests.

Ich habe jetzt irgendwie manchen Usern

eine bestimmte...

Die haben halt ein Design gesehen, das ein bisschen anders

aussah oder halt ein bisschen

anders... Oder alle Leute, die letzte Woche gekauft haben

für ein bestimmtes Produkt, die bekommen jetzt

einen besonderen Gutschein, der für

drei Tage gültig ist oder sowas.

Ja, und genau, ich möchte hinterher gucken,

was ist denn dann passiert? War das jetzt erfolgreich oder nicht?

Oder wie erfolgreich war denn das?

Und dafür

muss ich halt

bestimmte Arten von Anfragen,

die ansonsten keine Rolle

spielen können, gut machen können. Und dafür habe ich halt

so eine Struktur. Ich habe eine Faktentabelle

und dann drumherum Dimensionstabellen, in denen halt

solche Sachen drinstehen, wie

das war jetzt ein User, für den ich

diese Version der Webseite angezeigt

habe. Oder das hier,

also man hat zum Beispiel sowas wie,

daran kann man es vielleicht ganz gut

verstehen, Time ist halt eine Dimension.

Und in der Faktentabelle, also Fakten

wären sowas wie Bestellungen.

Ist halt

sozusagen Time nicht etwas

jetzt ein Zeitstempel oder so, der da reingeschrieben

wird, sondern das ist halt eine ID,

ein Fremdschlüssel und der zeigt

halt in eine Timedimension

und das ist halt eine

Dimensionstabelle, in der drinsteht, was diese

Zeit bedeutet und dann stehen da eben

solche Dinge dran wie,

naja, also, auch da wiederum, kann sein,

also, da steht nicht direkt ein

Zeitstempel, sondern da steht dann dran, also, das war ein Werktag.

Das war ein Feiertag

in folgenden Bundesländern.

Das war, keine Ahnung,

das war Sommer.

Sodass ich dann halt solche Abfragen machen kann wie,

wie ist denn der Verkauf der Bücher in dieser Kategorie

im Sommervergleich zum Winter?

Und dadurch, da ich diese Informationen,

das ist jetzt Sommer, halt direkt an dem

Zeitdings dran habe, kann ich halt Abfragen machen,

die sehr effizient alles rausfiltern, was halt

irgendwie Sommer ist und so.

Aber solche Abfragen

machen halt in dem OTP-Teil

oder wenn ich jetzt eine Webseite, machen überhaupt keinen Sinn.

Das heißt, ja, die Schemata

sehen dann halt ganz anders aus.

Ja, genau.

Wenn einen interessiert, wie das wirklich so

funktioniert, finde ich, dieser Data Warehousing

for Caveman-Essay ist ein schöner Start.

Aber da gibt es auch jede Menge.

Da kann man sich durchlesen, wie das so klappt.

genau.

Ach so.

Richtig, genau. Da haben wir jetzt

schon mal ein bisschen über den Analyse-Teil gesprochen, aber

wir haben natürlich auch ein Problem, wenn jetzt Leute

immer mehr Zeugs kaufen,

dass irgendwie halt unsere Datenbank

halt vielleicht irgendwann ein bisschen langsamer wird,

nicht mehr genug Transaktionen prozessen kann.

Ja, was macht man da?

Man muss halt optimieren.

Das ist auch oft ein wichtiger Teil

und es ist auch nicht so einfach.

Die einzige Datenbank,

für die ich das wirklich mal gemacht habe,

ist eigentlich MySQL.

Ich verwende heutzutage eher Postgres,

aber da habe ich dann auch mal

so einen MySQL-Performance-Optimierungskurs besucht.

und das

schöne Zitat, also Chris Künthopp hat

den damals irgendwo in München

durchgeführt,

damals hat er bei MySQL gearbeitet

ein Satz,

der mir in Erinnerung geblieben ist, der meinte so, ja,

wenn man Datenbank-Performance

optimieren will, ja, so OLTP,

dann gibt es da eigentlich

so im Wesentlichen drei Sachen, die man tun

kann, um eine Datenbank schnell zu machen.

Das Erste, was man eigentlich immer machen kann,

das funktioniert auch fast immer,

das ist super, man kann einfach mal ein bisschen

mehr Hauptspeicher reinstecken in die Datenbank.

Das ist schon mal auf jeden Fall schneller, das ist immer

Wenn das irgendwie nicht mehr so richtig reicht,

eine zweite Geschichte, die man auch immer tun kann, auch

sehr gut hilft, ist, man kann einfach

noch ein bisschen mehr Speicher reinstecken in die Datenbank.

Und das hilft eigentlich fast auch

mit der dritten Geschichte,

selbst wenn man an eine Grenze gekommen ist,

die dann auch eher so

das letzte Mittel, zu dem man greifen kann,

wenn das auch nicht hilft, ist halt, man könnte einfach

ein bisschen mehr Hauptspeicher in die Datenbank reinsteigen.

Okay, okay.

Wie viel Hauptspeicher hat denn dann so eine große Datenbank?

Ja, so viel, wie halt geht

eigentlich. Also es kommt darauf an, wie viel du benötigst.

Also wenn du jetzt irgendwie

ein paar tausend Artikel hast,

die du auf einer Webseite verkaufen willst,

dann ist es egal.

Da kommst du halt mit einem,

weiß ich nicht,

mit einer beliebigen,

mit einem Raspberry Pi kannst du das machen, das ist wurscht.

Aber wenn du

jetzt, also sagen wir mal so,

wenn ein Working Set der Datenbank,

also die Menge der Daten, die halt auf der

Platte liegen, wenn die Datenbank runtergefahren ist,

wenn das halt 30 Gigabyte

hat, dann sollte deine Datenbank

mindestens mal 30 Gigabyte haben, eher so

64 vielleicht. Hauptspeicher.

Weil es gibt halt auch noch diverse

Strukturen, die im Hauptspeicher gehalten werden,

die man halt auch braucht.

Und dann ist halt das Limit eigentlich nur

und sagen wir mal so, das ist halt viel.

Also wenn man jetzt irgendwie, nehmen wir an,

Wir haben das, was heute so ein Sweet-Spot ist,

sind es halt vielleicht 256 Gigabyte oder so.

Hauptspeicher, da geht eine ganze Menge rein.

Also es ist halt für mich schwer vorstellbar,

welche Systeme, die Transaction-Processing machen,

denn mehr Hauptspeicher benötigen.

Oder mehr Daten haben,

die sie jetzt unbedingt im Hauptspeicher halten müssen.

Das gibt es kaum.

Also, ja gut, es gibt schon.

Also wenn man jetzt an sowas denkt wie Google,

man indiziert das Web und möchte halt

so eine Echtzeit Suchabfragen über alle Webseiten

machen, das geht nicht mehr, das ist klar.

so viele...

Also so groß muss man erstmal werden.

Also Amazon fällt da bestimmt auch nicht rein.

Also Amazon hat

also, na gut,

Amazons Teil, der

einen jetzt mit Produkten versorgt,

diese Webseite, das

wird nicht so groß sein.

Die haben andere Teile, die halt dann unter Umständen

sehr groß geworden sind, aber

ja, das kriegst du eigentlich alles locker

in einer Datenbank unter. Also die haben dann halt

ein anderes Problem. Amazon wird das Problem bekommen, dass sie halt mit der

Schreiblast nicht mehr klarkommen, aber

also das könntest du alles

irgendwie in den Hauptspeicher

von so einer Datenbank packen.

Also ich würde sagen, für die, für fast alle

Anwendungsfälle heutzutage ist das halt groß genug.

Ja, ab 256

Gigabyte wird es ein bisschen schwierig.

Also man kann auch

einen Terabyte Hauptspeicher irgendwie

in den Rechner stecken. Das kostet

irgendwie weniger als 10.000 Euro heutzutage.

Also das geht auch. Es wird dann halt,

wenn man so wirklich so wahnsinnig viel Hauptspeicher drin hat,

dann kriegt man halt ein bisschen Probleme mit der Architektur.

Das ist ja so ein bisschen

PC-basiert und

so viel Hauptspeicherbandbreite hat man da ja nicht

und das wird dann irgendwann,

man muss ja die ganzen Prozessoren auch irgendwie mit

Daten versorgen und wenn man jetzt da

irgendwie, weiß ich nicht.

Da fährt dann kein Bus hin.

32 Prozessoren oder 64 oder sowas.

So irgendwann ist dann halt, also der

Sweetspot ist, würde ich sagen, heute eher so

bei, weiß ich nicht, irgendwie 64 Prozessoren oder so

und 256 GB Hauptspeicher und so.

Aber das, also egal, also vielleicht

geht auch noch ein Terabyte, ich hab keine Ahnung.

Für die meisten, aller, aller, aller

meisten Anfälle reicht das alles vollkommen aus.

Und es ist ein sehr guter

Tipp zu sagen, also jetzt,

wenn du tatsächlich irgendwie ein Working Set von 30 GB

hattest, nimm nicht eine Datenbank,

die jetzt 8 GB hat, dann hast du ein Problem.

Dann bist du gleich mal irgendwie

mehrere Größenordnungen langsamer, als wenn du das

in den Hauptspeicher packen würdest und kriegst halt einen Haufen Probleme,

die du sonst einfach nicht hättest.

Ja, das war früher alles noch viel schlimmer,

als es einen riesigen Unterschied gab zwischen

sozusagen permanentem Storage,

rotierendem Rost,

ja, so Harddisks

und Hauptsprecher, da war der

Unterschied

1 zu 10.000 oder so

Geschwindigkeitsunterschied.

Das ist jetzt nicht mehr ganz so schlimm,

wenn man SSDs hat,

aber es ist immer noch ziemlich schlimm.

Also es ist immer noch ein Riesenunterschied.

Und daher, ja,

das will eigentlich, dass die heißen Daten

im Hauptspeicher sind.

Ja, genau.

Das ist halt ein Ansatz, um das zu optimieren.

Dann hat man oft das Problem, man hat halt so eine Asymmetrie

zwischen Lese- und Schreibquerys.

Und selbst wenn man mit so einer Datenbank halt

irgendwie ein paar tausend Querys pro Sekunde

abfeiern kann,

irgendwann gerät man

in eine Konkurrenz zwischen Schreibquerys und Lesequerys.

wenn man jetzt nur eine Datenbank verwendet und

das ist halt irgendwie schlecht, weil man möchte eigentlich

immer in der Lage sein, weil man braucht ja eine,

man darf eigentlich nur eine Datenbank haben, auf die man

schreibt. Also wenn man mehrere Datenbanken

hat, von denen man liest, ist nicht so schlimm, das geht.

Aber man kann halt nicht so richtig gut

mehrere Datenbanken haben, auf die man schreibt,

weil man ja diesen zentralen

Punkt, an dem der Status

gehalten wird, behalten möchte.

Wenn wir zweimal auf dieselbe Stelle schreiben zum Beispiel.

Ja, genau. Also was

man jetzt machen könnte, wenn man zu viele Leseanfragen

hat, man verteilt die dann halt auf

sogenannte Slave-Datenbanken. Das heißt, man hat halt

eine Master-Slave-Architektur und

eine Master-Datenbank,

von der man lesen und schreiben kann.

Von der man lesen kann und auf die man schreiben kann.

es gibt

gibt halt eine Reihe von

Slave-Datenbanken, von denen man nur lesen kann, auf die man nicht

schreiben kann. Wie oft wird denn da geslaved? Also wie oft

wird der Slave denn aktualisiert auf den Master?

Ja, da gibt es dann Mechanismen für, dass

der Master schreibt halt irgendwie einen Log, das Log

wird irgendwie an die Slaves übertragen und die

vollziehen dann sozusagen die Transaktionen, die der Master

gemacht hat, halt nach.

Das ist meistens

wahrscheinlich instantan, mehr oder weniger.

Bei viel Last oder wenn

halt eine große geografische

Differenz ist, also wenn es halt irgendwie über den Atlantik oder

der Pazifik geht oder so, klar, dann hast du halt Zeitunterschiede

oder halt auch wenn die Last so groß ist,

dass die Slaves nicht mehr gut

hinterherkommen, dann

hast du natürlich, dann hast du

eventuell so ein bisschen Lag von vielleicht ein paar Sekunden

oder vielleicht auch mal eine Minute oder sowas.

Aber es gibt halt viele Anfragen, für die ist das egal.

Also viele Leseanfragen ist auch

oft casht man das ja auch dann nochmal

irgendwie im Hauptspeicher

in Redis oder Memcache

oder so und sagt halt ja, also dieses

Ding hier kannst du fünf Minuten lang

cachen.

Das ist ja dann auch egal und

bei den Anfragen, die auf Slaves gehen, ist es auch so oft

so, es ist halt wurscht, also so oft

ändern sich Dinge halt nicht, wenn irgendwo ein Count nicht so richtig stimmt

oder so. Naja, nicht so schlimm.

Es gibt Dinge, bei denen das schlimm ist,

aber kommen gleich noch zu, da muss man das halt anders

machen, aber bei vielen Sachen

ist es halt nicht so wirklich schlimm

und daher kann man das gut aufteilen.

Man kann halt dann die Leselast auf die

Slaves sozusagen transferieren

und dann gibt es halt bestimmte Abfragen, also

gerade, wenn man jetzt kurz davor ist, eine Bestellung

zu machen oder so, wo man dann schon

im Code weiß, okay, jetzt gibt es hier gleich

eine Transaktion oder so und dann macht man

auch die Leseanfragen auf den Master, damit man

eben nicht das Problem hat, dass man eventuell

Daten sieht, die eine Minute alt sind.

Aber da das die allermeisten Anfragen

ja gar nicht sind, sondern die

meisten Navigationsanfragen, wenn ich jetzt in Kategorien

rumklicke oder irgendwelche Filter

auswähle oder nach irgendwas suche oder so,

diese ganzen Anfragen beziehen sich auf Daten,

die sich jetzt gar nicht so häufig ändern. Das kann

alles auch eine Minute alt sein, das ist wurscht.

Und erst wenn ich halt

eine Bestellung mache, dann

muss ich halt zusehen, dass ich

aktuelle Daten sehe, wie zum Beispiel

ist das Buch noch auf Lager oder so.

Und diese wenigen

Anfragen, die halt dann

aktuell sein sollten,

die gehen dann direkt an den Master. Und das kann man halt im Code

sagen. Man kann halt sagen, okay, an dieser

Stelle bitte eine Verbindung auf den Master und nicht

auf den Slave.

Und die Schreibanfragen müssen dann halt

auf den Master gehen, weil man ja nur

an einer Stelle schreiben will.

Und mit dieser Architektur kommt man relativ

weit. Also das ist

eine Geschichte, das ist auch so

klassischer Lampstack-Architektur, Wikipedia-Seite

so aufgebaut.

Du hast jetzt gerade noch zwei Sachen gesagt, die vielleicht noch mal kurz

von Redis einmal eben gesprochen und

gerade von Lampstack, also einmal vielleicht kurz erklären, was das

drin ist. Ja, Redis ist auch so eine

In-Memory-Datenbank,

eher so ein Key-Value-Store, hat noch ein paar

Zusatzfunktionen, ist eine Message-Queue drin,

kann teilweise sortierte

Listen und sowas auch halten, aber

es ist ein bisschen, kann ein bisschen mehr

als Memcached, Memcached

ist rein so, du hast ein Key und kriegst

halt dann irgendwie Value zurück und wird im Hauptspeicher

gehalten, deswegen ist es schön schnell.

Wurde popularisiert

auch Memcached, vor allen Dingen durch den

LAMP-Stack, LAMP ist einfach Linux, Apache,

MySQL, PHP

und einige

der größten Webseiten, die das halt

benutzt haben

oder weiß nicht, ob sie das noch benutzen, keine Ahnung,

ist halt Wikipedia.

Wir haben auch immer schöne Artikel darüber gehabt,

wie sie ihre Systeme aufbauen.

Also ist ja auch Wikipedia eine der,

ich glaube, die sind auch mit Sicherheit immer noch

in den Top 10 der weltweit trafficstärksten Seiten

und haben halt auch viel dazu veröffentlicht,

wie ihre Architektur aussieht.

Und die haben halt auch genau das,

die meisten Sachen sind Leseanfragen,

aber manchmal wird halt auch was geändert oder geschrieben

und die machen das halt mit MySQL und vielen Slaves

und extensiver Verwendung von Memcached,

zum Cachen von irgendwelchen geretteten Fragmenten

und Daten,

für die man jetzt nicht nochmal eine Query machen möchte.

Was wäre denn jetzt der neueste Stack, würdest du

sagen, den man jetzt verwenden sollte?

Ja, das kommt halt drauf an, wenn man

eben PHP mag.

Kann man das auch

immer noch machen, wobei ich jetzt nicht genau weiß, ob das

alles immer noch so populär ist. Wemcached.de, glaube ich, ist

so ein bisschen auf dem Weg nach draußen.

Wahrscheinlich würde auch in dem Umfeld eher

heutzutage Redis verwendet.

Aber jetzt im Python-Umfeld würde ich sagen, ja, da ist halt, hat man so grob die Wahl zwischen, also es gibt natürlich noch viel mehr und es gibt natürlich auch gute Gründe, andere Sachen zu verwenden, aber so die populärsten Geschichten sind halt Django und Flask.

Und eben als In-Memory-Cache ist bei beiden eigentlich jedes sozusagen das, was verwendet wird. Datenbank, eigentlich würde ich auch sagen Postgres wird bei beiden verwendet. Man kann auch was anderes nehmen natürlich. Es gibt auch Leute, die Django mit MongoDB verwenden. Das geht. Es gibt auch sogar valide Use Cases dafür. Es gibt auch Leute, die Flask irgendwie mit, weiß ich nicht, CouchDB, mit allen möglichen Dingen verheiraten.

Aber so als

womit ich anfangen würde, ist auf jeden Fall Postgres

und dann halt eben SQL Alchemy

beziehungsweise Django OAM.

Und Redis, genau,

als Memory Cache und

ja, wahrscheinlich braucht man auch noch ein

Message-Queue-System.

Ist aber dann auch schon, also dann gibt's noch

so ein paar Sachen, die man braucht.

Was ist denn die Message-Queue vielleicht?

Also man hat oft so Dinge, wo man dem User

möglicherweise etwas direkt

direkt eine Antwort geben will,

aber es ist halt ein Job, der dann irgendwie

länger dauert.

In unserem Buchstore wäre das was?

Ein Buchstore, sowas wie

jemand fliegt ein neues Buch ein oder so.

Na gut, warte mal, lass mal überlegen.

Das ist kein so gutes Beispiel.

Was könnte der denn tun?

Ja, zum Beispiel

du verfasst einen Kommentar jetzt

oder eine Bewertung für irgendeinen Artikel

und du möchtest,

wenn der jetzt auf Abschicken drückt,

der User, dass er sofort seinen Kommentar

unter dem Artikel sieht.

in Wirklichkeit

willst du den ja vielleicht noch prüfen.

Also wenn das jetzt irgendwas Populäres ist.

Sag mal so, du...

Oh, danke.

Wahrscheinlich bräuchte ich

bevor oder sowas eine Räuspertaste, oder?

Das könnte jetzt hässlich geworden sein.

Das tut mir leid, da muss ich mich entschuldigen.

ein bisschen erkältet.

also eigentlich möchte man halt, wenn jetzt zum Beispiel ein Artikel

ist, der häufig verkauft wird, ja, und dann jemand

schreibt irgendwie, dieser Artikel ist voll scheiße

und keine Ahnung,

das hat ja dann unter Umständen direkt

Konsequenzen, oder es

macht dann am besten noch irgendwie ein Mitbewerber,

macht irgendwas Fieses, irgendwie,

ja, dann will man das möglicherweise nicht,

dass das sofort allen sichtbar wird, sondern man muss

irgendwie erst

eine Redaktion draufgucken oder so,

aber das ist halt nicht

etwas, was man dem User anzeigen möchte.

Man hat dann halt sozusagen etwas,

zwei Prozesse, die voneinander so ein bisschen entkoppelt

sind. Der User drückt auf Speichern, sieht

seinen Kommentar oder seine Bewertung und

im Hintergrund gehen aber dann noch

so Tasks los wie, oh, das ist hier

an der Stelle, wo jemand mal draufgucken sollte,

aber das geht dann auch nicht in Echtzeit,

sondern das wird dann halt irgendwie in so eine

Queue, in eine Warteschlange eingereiht.

dann gibt es eine Redaktion, die hat dann halt diese Jobs,

muss sich halt irgendwelche Kommentare an sensitiven Stellen

oder so angucken und die dann abarbeiten.

Aber das ist

halt sozusagen der, dass

diesen Job in die Warteschlange

tun und dieser

Prozess mit menschlicher Interaktion,

das ist jetzt nicht mehr Teil von dem Web-Request.

Das heißt, der

Teil muss irgendwie entkoppelt sein.

Das heißt, der Web-Request ist ja irgendwie vorbei.

Aber dieser Web-Request

löst dann halt irgendwie,

schreibt dann halt irgendwie diesen Job

in die Queue, genau. Solche Sachen hat man

oft, auch wenn sich auch

genau, das ist ein gutes Beispiel,

das ist mir jetzt eingefallen.

Vielleicht möchtest du, dass

wenn du jetzt in der Suche nach

irgendwas suchst, dann Produkte

halt auch vielleicht Bewertungen finden, in denen

jemand über das Produkt gesprochen hat oder so.

Das heißt, der Text deiner

Bewertung muss indiziert werden von der Suchmaschine.

Aber das geht halt auch nicht

in Echtzeit, sondern das macht die halt vielleicht nur alle

tausend Bewertungen oder so, wird neu indiziert oder so,

weil, ja.

Und dann wird halt auch so ein Task erzeugt für,

das hier muss ja noch mitindiziert werden,

aber es wird nicht sofort indiziert,

weil das ist halt etwas, was eine Operation lange dauern kann

und man möchte ja nicht, dass der Web-Request dann so lange dauert,

wie die Operation dauert, sondern man sagt,

okay, man gibt dem Web-Request, es ist okay,

dein Kommentar wurde gespeichert und hat dann aber noch diesen zusätzlichen Task erzeugt,

der dann irgendwann später ausgeführt werden muss.

Und dafür braucht man diese Task-Queues,

die halt ein komplexeres Web-System hat,

dann braucht man sowas halt, weil solche Fälle

halt immer wieder auftreten.

Ja, kann man aber Redis auch

für verwenden, also was für

Django ist halt, was häufig verwendet ist, Celery

kann ich nicht unbedingt empfehlen, ist irgendwie

eher schmerzhaft.

Ja, die

drunter liegenden Geschichten sind oft sowas wie

RabbitMQ oder so, im Allgemeinen

ist das Protokoll wie AMQ

irgendwas, weiß nicht genau.

Ja, aber das ist nochmal ein ganz eigenes

Feld mit diesen ganzen Message-Queues.

Ja, genau. Master-Slaves-Architektur hatten wir jetzt. Irgendwann kann natürlich auch sein, dass das nicht mehr reicht und dann müssen wir halt irgendwie die Datenbank auftrennen.

Also wenn zum Beispiel gerade die Schreiblast groß genug geworden ist, dann geht das halt alles nicht mehr und dann kann man halt, die Datenbank muss man dann auftrennen, das ist furchtbar, weil dann verliert man eine ganze Menge der Vorteile, die man halt hat, wenn man eine Datenbank hat, eben referenzielle Integrität, irgendwie, dass Transaktionen isoliert sind, diese ganzen Geschichten, das geht alles nicht mehr so wirklich und das muss man dann alles in der Applikation machen, in der Applikationslogik und das macht alles Dinge unfassbar viel komplizierter, deswegen sollte man das möglichst nicht tun.

Also wenn man ihn mal verkauft, irgendwie.

Er wird nicht so groß werden.

Und das System ist super, weil das schadet automatisch oder sowas.

Das ist nicht etwas, was man haben will.

Also wenn man klein genug ist, dass man das nicht braucht, sollte man das nicht machen,

weil das bedeutet halt, dass man diese ganzen Dinge, die einem sonst die Datenbank quasi schenkt,

selber machen muss in den Applikationscode.

Und das ist halt sehr, sehr schwierig.

Aber manchmal geht es halt leider nicht anders.

Dann gibt es halt zwei Möglichkeiten.

Man schadet irgendwie horizontal.

Also man sollte so lange, man nennt es Upscaling.

solange wie möglich die Maschine größer

machen und mehr Hauptspeicher reinstecken.

Wenn das halt dann irgendwann tatsächlich nicht mehr geht,

dann muss man halt entweder

horizontal oder vertikal

schaden und das halt

aufteilen. Das heißt, horizontal

Mehrere Maschinen,

die die gleiche Datenbank benutzen?

Nee, die gleiche

Datenbank würde einem ja nicht helfen, wenn es zu viel

da muss die

Datenbank halt irgendwo trennen.

Und die Frage ist, wo trennt man jetzt auf?

Man kann halt entweder innerhalb von

Tabellen die Zeilen auseinander trennen.

Das wäre eben horizontal skalierend.

Okay, alle Bücher, die mit Buchstaben A anfangen,

kommen jetzt auf die Datenbank. Alle Bücher mit Buchstaben

B bis F kommen auf die Datenbank.

Oder so regional Queries trennen.

Von wo kommt die denn jetzt oder sowas?

Ja, regional kann man natürlich auch trennen.

Das ist dann nochmal eine andere

Geschichte. Könnte man auch machen.

Das heißt aber, das wäre quasi horizontales

Schaden auf den Usern.

Nach Region eben.

das wird, also meistens

würde man auf Usern schaden, irgendwie

tatsächlich, ja. Man sagt,

was ist das für ein User? Und dann

entweder regional oder halt

irgendwie

sonst irgendein Hash-Wert oder so.

Und vertikal wäre halt,

man trennt

nach Tabellen auf. Das heißt, man sagt,

okay, wir haben hier ein System, das kümmert sich um die Bücher.

Wir haben hier ein System, das kümmert sich um die User.

Wir haben ein System, das kümmert sich um Lagerhaltung.

Das wäre halt, man teilt dann

nicht quasi in den Zeilen,

sondern man teilt halt an den Tabellengrenzen.

Ja, macht natürlich so vollständig

Abfragen dann ein bisschen langsamer, oder?

Ja, das Problem ist dann halt, dass man mehrere

Systeme fragen muss, wenn man jetzt irgendwie

was machen, also wenn man jetzt die Amazon-Seite

anzeigen möchte, dann

muss man halt unter Umständen viele Systeme

fragen. Tatsächlich

ist es etwas, was Amazon wirklich

passiert ist, irgendwie, ich glaube 2008, 2009

gab es dann auch irgendwie, haben sie

Artikel darüber geschrieben,

damals nannte sich das nicht, also heute läuft das Ganze

unter dem Stichwort irgendwie

Microservices oder so, so nennt man das dann, dass man halt

Teile eines

Systems in kleinere

Services auslagert.

Damals

nannte sich das anders, war aber quasi

eine gleiche Idee, nannte sich

Service-Oriented Architecture.

Und Amazon

hatte das Problem, dass sie auf der Hauptseite,

also wenn du einfach nur Amazon.com

eingegeben hast, dann

wurde dir halt das Ding, die Seite ausgeliefert.

Aber damals war es

halt schon so, dass da so viel Zeugs

drin war. Also dann werden dir irgendwelche Empfehlungen angezeigt,

dann wird dir irgendwas angezeigt,

wie viel Zeugs in deinem

Warenkorb ist. Und das

ist einem zwar nicht so bewusst, aber das ist wirklich viel

Zeug bei Amazon. Und

sie hatten das Problem, sie machen ungefähr 300 SQL

Statements, wenn du

die Seite anguckst.

Oder ein paar hundert, ja.

Da das

irgendwie,

da die irgendwie nur sequentiell ausgeführt

wurden, macht das halt die Latenz hoch, weil

ja, synchron

sequentiell, das heißt, die ganzen

Latenzen addieren sich auf.

Das heißt, allein bis die ganzen

SQL-Statements abgearbeitet sind,

vergehen ein paar hundert Millisekunden,

die du einfach warten musst. Und das ist halt

scheiße. Man weiß ungefähr so,

pro hundert Millisekunden droppt dein

Conversion 10% oder so.

Ich weiß nicht, wahrscheinlich weniger, aber

ist halt nicht so gut.

Das heißt, du kannst ja ausrechnen, wie viel mehr Umsatz

du machen würdest, wenn du das irgendwie schneller ausliefern

könntest.

Ja, und dann haben sie sich halt gesagt,

okay, das müssen wir irgendwie anders machen.

Dann haben sie das halt in Services aufgeteilt.

Dann haben sie gesagt, okay, wir haben hier den Recommendation Service,

wo sich die Webseite per

JavaScript irgendwie macht, irgendwie ein

XHTTP-Request oder so und holt sich dann die

Recommendations von diesem Service.

Und dann haben wir den, keine Ahnung,

Basket-Service für deine

Einkaufskorb oder so

und da ist halt, das Ding

holt sich halt, was für Dinge liegen da momentan

gerade drin und ja.

Genau.

Und das

haben die damals so gemacht.

Ja und dann, das geht dann natürlich alles

irgendwie mehr oder weniger, auch nicht so total parallel,

aber mehr paralleler als vorher

und dann kann die Webseite insgesamt deutlich

schneller sein.

Ja, genau. Heute

würde man sagen, Microservices, du hast halt ein

Microservice pro irgendwie Ding,

was du irgendwie da machst auf der Webseite.

Und die

komplette Seite aggregiert nur noch

irgendwie die Daten aus all diesen Services.

damit kriegt man das tatsächlich in den Griff, wenn man

so ein riesiges Ding hat und viele unterschiedliche Sachen und das

nicht mehr in einer Datenbank passt, dann kann man das so machen.

Es ist aber nicht so, dass man das machen sollte.

Solange man das anders machen kann,

solange man das mit einer Datenbank hinkriegt,

sollte man das mit einer Datenbank machen, weil das ist viel

viel angenehmer.

Also Microservices sind halt

Man schiebt dann halt einen Haufen der Komplexität in eine andere Richtung.

Man hat dann plötzlich Architekturkomplexität,

man hat plötzlich im Ops-Teil von DevOps wird es plötzlich viel schwieriger,

man muss halt das alles irgendwie maintainen.

Man muss halt plötzlich, wenn man jetzt sagt,

okay, ich update jetzt diesen Service,

dann hängen da halt andere Dinge von ab unter Umständen.

dann habe ich halt,

ich kann, ja,

wenn man das halt irgendwie so schön hat,

Master-Slave-Architektur, Loadbalancer davor,

vor den Datenbanken, ein paar Frontends,

dann, selbst da ist es schon kompliziert,

wenn ich jetzt irgendwie

zum Beispiel ein Schema ändern möchte oder so,

was ich im Produktivbetrieb dann vielleicht nicht mehr tun kann,

weil die Datenbank viel zu langsam liefe,

weil wenn ich das Schema ändere, muss ich

bei den Tabellen, die ich ändere,

halt unter Umständen eine Kopie der Tabellen mehr oder weniger mache,

das heißt, ich muss halt möglicherweise doppelt so viel

Daten im Hauptspeicher halten, was halt vielleicht nicht geht.

das heißt, ich muss vielleicht sowas machen wie

ich tausche die Datenbank aus, ich mache eine Kopie der Datenbank

und die Datenbank mit dem neuen Schema

stelle ich dann ins neuen Master rein

und so, so oft hat man dann so Sachen wie

oder wenn man die Software updatet, man nimmt

halt Sachen

Rechner aus der Verteilung

im Loadbalancer, updatet den

oder die Hälfte davon

und die andere Hälfte läuft noch

auf der alten Software und dann schaltet man halt

um oder so, solche Sachen kann man machen

und das geht noch, das ist auch dann schon

kompliziert, weil man muss sich dann halt Gedanken

machen, wie man das tut

und man muss halt irgendein System haben, das das

unterstützt, dass man das automatisch machen kann, sodass man halt

nicht jedes Mal, wenn man

irgendwie sowas wie eine Schemaänderung macht oder wenn man

halt irgendwie eine

komplexere Änderung im Applikationscode

in den Frontends hat, dass man da halt dann irgendwie

jemand setzen muss und das dann von Hand macht, das sollte nicht so sein,

sondern man sollte halt auf den Knopf drücken und sagen, okay,

jetzt räumen wir das mal aus und dann passieren diese

Prozesse, die dafür nötig sind, automatisch.

Wenn man Microservices hat, wird

das Ganze viel schlimmer. Das ist halt da nicht so,

dann hat man viel komplexere Abhängigkeiten

zwischen den Geschichten und dann wird dieses ganze

Ops-Thema halt richtig

ätzend. Auch

Skalierung wird richtig ätzend, weil

dann willst du halt, wenn du halt

in so einer klassischen Architektur hast du nur

wenige unterschiedliche Arten von

Maschinen, die halt irgendwas machen. Du hast halt Datenbanken,

du hast halt irgendwie Redis oder sowas,

du hast halt Frontends,

vielleicht auch vorne irgendwie

Web-Server, die SSL

Terminierung machen oder so, aber

das war es im Grunde. Also du hast nicht so wahnsinnig viele unterschiedliche

Dinge. Beim Microservice hast du halt

vielleicht hunderte unterschiedlicher

Arten von Microservices, die du unterschiedlich skalieren musst,

wo du auf unterschiedliche Sachen aufpassen musst. Das ist alles

furchtbar. Also geht. Also man

kriegt damit halt Sachen in den Griff, die

dann halt, wenn man mit

diesem Muster, man hat halt eine Datenbank, in der

die Wahrheit drin steht, nicht mehr, wenn das

nicht mehr ausreicht, kann man das dann halt so

in den Griff kriegen, aber es ist halt dann schon schlimm.

Ja, genau.

Okay, sind wir schon ganz schön groß,

das heißt, wir müssen noch ziemlich viel beachtet haben.

Genau, oh, das habe ich, ja, was haben wir denn?

Ja, vertikalisch noch.

Ich gucke gerade in die Liste, was wir schon alles haben und was noch nicht.

Genau.

Das ist nämlich tatsächlich relativ viel.

Ja, ja, ja, ja.

Oh mein Gott, ich weiß nicht, wie lange sind wir denn schon dran?

Ich glaube, wir sind über zwei Stunden schon, oder?

Oh nein.

Nein, noch nicht ganz.

Na gut, dann ist es harmlos.

Achso, genau.

Was ich hier noch an einem Punkt war, es können auch

im Analyse-System auch Sachen wieder zurücklaufen.

Zum Beispiel gibt es halt diverse Sachen,

die gelockt werden, die dann aber trotzdem für die Transaktionen

wieder eine Rolle spielen.

Wie so etwas, das hatten wir noch gar nicht.

Auch die Suche. Am Anfang

braucht man ja auf jeden Fall, wenn man so eine E-Commerce-Seite

hat, irgendwie eine Suchmaschine, wo man

nach Büchern suchen kann oder so.

Das geht

auch tatsächlich mit Postgres direkt voll gut.

Hat integriert

integrierten Volltext-Index.

Und man möchte halt auch so eine Facette

Navigation, nennt man das, haben, wo man,

wenn man jetzt nach irgendwas gesucht hat,

hat halt eine Ergebnisliste, dann möchte man

einschränken nach Kategorien oder nach, weiß ich jetzt,

wenn es nicht um Bücher geht, sondern um

Elektronik oder so, kann man vielleicht noch

Hauptspeicher oder

Videorekorder, genau,

VHS oder Betamax, ja,

das möchte man vielleicht auswählen können.

genau, das geht

Postgres alles sehr schön. Auch da

kann man

irgendwie die Counts für die Facetten ganz gut

rauskriegen. Ansonsten, wenn man das halt über eine eigene

Spezial-Datenbank, sowas wie

Elasticsearch macht oder

beides Lucene-basiert oder

Solr oder so macht, dann hat man das Problem,

da hat man auch wieder dieses, wie bei ETL, das Synchronisationsproblem.

Du hast halt, wenn sich an der Datenbank was ändert, müssen

die Änderungen in den Index rein.

Da hast du eine Latenz dazwischen.

Wenn du Sachen aus dem Index rausholst,

du hast jetzt eine Volltext-Suchanfrage,

du kriegst jetzt IDs aus der

Suchmaschine, dann

möchtest du aber vielleicht nach was filtern, was nur in der Datenbank

drin steht, dann musst du nochmal auf die Datenbank

da alle Daten rausziehen

und dann nochmal Counts anders ausrechnen.

Vielleicht ein paar der Facetten-Counts kommen aus der Suchmaschine,

ein paar kommen aber aus der Datenbank.

Das heißt, du hast nicht nur einen Roundtrip über die

Suchmaschine, du hast auch noch einen Roundtrip über die Datenbank,

wo du halt irgendwie select

diverse Sachen vom Datenbank-Ware

und dann kommt halt ID in und dann

kommen tausend IDs und so.

das ist alles kompliziert. Wenn das halt

ein Statement ist, was du halt abfeuerst,

oder halt vielleicht eins für

die Daten selber und eins für die Counts oder so,

dann ist das halt

deutlich, ist alles irgendwie viel

einfacher. Und mit Postgres kriegt

man auch das am Anfang alles hin.

Und ja, das ist eigentlich

sehr nett. Irgendwann geht

das aber wahrscheinlich dann halt eben auch nicht mehr. Dann muss man halt

nach und nach Funktionen in Spezial

Services halt auslagern.

Einer der ersten, den man wahrscheinlich auslagern wird, ist

halt Volltext suchen möglicherweise. Das macht

dann halt irgendwann ein Listing Search oder

Solar oder so.

Aber halt auch

eben sowas wie, wenn man

jetzt anfängt, eine Query

zu schreiben, dann kann man

eben Google Suggest, hatte ich eben schon erwähnt,

kriegt man halt so Vorschläge.

Das ist im Grunde,

man macht dann halt, man sucht auf

den Queries

von anderen Leuten. Aber dann hat man halt

genau das Problem, dass halt

sozusagen die History der Queries

es muss halt irgendwie aus dem Analyse-Ding wieder zurück

ins OLTP-System oder in irgendeinen anderen

Service, auf dem man dann

per Suffix-Tree irgendwie nach

Queries,

die möglichst ähnlich sind

zu den drei Buchstaben, die man jetzt schon eingegeben

hat oder so, raussuchen.

Wie man die schneller tippen kann,

drei, vier, fünf, ja.

Man kann das am Anfang auch alles über Postgres machen,

wenn es dann halt komplizierter wird, muss man das in eigene Services

auslagern und so weiter.

Dann wird das System größer und schwieriger

und ja.

Genau. Und

ja, und immer die Datenbanken,

die man nimmt, werden halt immer spezialisiert.

Also das würde ich auch empfehlen. Also man fängt halt mit Postgres an,

macht mit Postgres einfach alles.

Und wenn man dann halt irgendwann an Grenzen stößt, dann muss man

halt, ja,

wo du dir übel, dann Sachen in

halt Spezialdatenbanken auslagern. Wo du?

Und ja,

bezahlt dann halt

mit Komplexität.

Genau.

Ja, jetzt müssen wir nochmal

gucken, wie wir das weitermachen. Genau.

Wir nehmen Redes zum Cachen einfach

von langlaufenden

Queries und von irgendwie gerenderten Fragmenten,

die halt aufwendig zu rendern sind, also

irgendwelche Listen von Dingen oder so, die

sich aber jetzt nicht dauernd

ändern.

genau.

Jetzt werden unsere Daten immer größer.

Ja, die Daten werden noch immer größer

und das Problem ist auch, wir sind mittlerweile weltweit unterwegs.

Wir verkaufen nicht nur

Bücher, wir verkaufen

alles von A bis Z

wie Amazon. Ich weiß nicht, ob ihr das schon gesehen habt,

es gibt diesen Pfeil von A bis zum Z

von Amazon.

ja, dann stellt sich

ja die Frage, wenn wir das global machen, wo stellen wir dann den Master

eigentlich hin? Das ist halt auch schwierig.

Wo wird der entstehen? Also in einem sicheren Land?

Wir müssen an alle Stellen

irgendwie so einen kleinen Master stellen, wo halt viel

Traffic ist. Kann man den Master mürren,

dass man ja tatsächlich sagt, dass überall derselbe...

Ja, es gibt natürlich auch irgendwie für diese

Geschichten so Lösungen, dass man halt, dass die Master sich

miteinander synchronisieren, das gibt es für Postgres auch,

aber das ist alles irgendwie, ich weiß nicht so genau.

Alles nicht so richtig.

Das funktioniert alles nicht so richtig.

Und ja, es gibt auf jeden Fall

keine nette...

Es ist halt auch ein mehr oder weniger unlösbares Problem.

Also das ist auch theoretisch quasi

nicht wirklich in den Griff zu kriegen.

Man kann aber Dinge tun,

indem man halt auf andere Architekturen umstellt.

Man kann halt

ja, also

ich habe jetzt mal hier als Beispiel genommen

diese, du willst halt, dass manche

Sachen immer funktionieren.

Ja, eigentlich sollte immer

alle möglichen Sachen funktionieren.

Und manchmal ist dir dann halt irgendwie die Konsistenz

und so egal. Also

zum Beispiel für Amazon super wichtig

ist halt der Einkaufswagen. Du musst halt immer

weiter, das Spice muss fließen.

Du musst immer weiter einkaufen können.

Auch wenn jetzt, daher haben sie das

halt, ich glaube das war auch, also das

Amazon Dynamo basiert

auf einem System, das sie für sich selbst gebaut

haben, eben für genau diesen

Shopping Basket und

der halt genau darauf ausgelegt ist, dass dieses Ding halt

einfach immer funktioniert. Und das ist mehr

oder weniger einfach nur so ein total simpler Key-Value-Store

du lebst halt dann damit, dass das

nicht konsistent ist. Oder dass halt

wenn du was kaufst,

das halt vielleicht nicht mehr im Lager ist. Das kann dann durchaus

passieren, weil dieses Ding ist halt ein eigener Service, das

hat keine Verbindung zu einer

zentral, das hat schon keine Verbindung, aber es kann halt

nicht den echten Status abfragen, weil

wo ist der? Das ist halt schwer zu sagen.

Und das, was Amazon

dann macht, tatsächlich, habe ich auch gehört,

dass solche Sachen können dann ja

auftreten. Du kaufst ein Buch, das ist nicht mehr

lieferbar.

Und jetzt? Also das heißt,

es fällt erst so fünf Minuten später, fällt bei Amazon

auf, geht nicht. Wir haben

jetzt zwar, hat jemand was bestellt, wir haben

die Bestellung zugesagt, du hast eine Bestätigungsmail

bekommen irgendwie und jetzt fällt aber auf

so, im Lager ist das nicht mehr drin.

Wir können es dir nicht schicken.

Was macht Amazon dann?

Entweder nachordern von irgendeinem Service,

wie wir eben das Problem hatten, oder die sagen dann irgendwann

so, wir schicken dir

einen Gutschein raus,

gibt es nicht.

Entschuldigungsmail und sie geben dir einen Gutschein.

Da das nicht so super häufig passiert, ist das

halt nicht schlimm. Das ist halt

viel einfacher, das

über Gutschein zu lösen, als

über ein Datenbanksystem, was das

irgendwie handeln kann, weil das gibt es eben einfach nicht.

Und ja.

Einfach kurz den

Rendit-Drucker anschmeißen, wird schnell nachproduziert.

Ja, genau.

Das ist halt das auch, was dann halt

gebrochen wird, in relationalen

Antenmanagements oft Acid.

Also Atomicity,

Consistency, Isolation und Durability.

Atomicity ist eigentlich quasi das, was

Transaktionen betrifft, dass halt entweder alles

gut geht oder

alles fehlschlägt,

aber nicht irgendwie Teile einer Transaktion oder Teile

von einer Menge von Dingen, die man tun will,

halt gehen und dann mancher Sachen nicht gehen.

Das sollte halt nicht passieren. Konsistenz,

die heißt halt,

die ganzen Foreign Key, also es ist halt die

referenzielle Integrität halt gewahrt bleibt,

dass da Sachen nicht zerbrechen, was halt dann auch nicht mehr geht,

wenn du Sachen über mehrere Datenbanken verteilst, weil

hast du halt teilweise eben keine

direkten Verbindungen, sondern du hast halt bloß

VR-Pies dazwischen.

Isolation ist halt

die Geschichte, dass du

nicht Sachen,

die andere Transaktionen machen, in deinen Daten

siehst, also das halt, man nennt das Dirty Read,

wenn du halt

in deiner Transaktion Dinge aus anderen

Transaktionen siehst, die noch nicht abgeschlossen sind,

sodass du halt, dass du immer,

dass deine Sicht auf die Datenbank komplett

isoliert ist von den anderen. Es gibt unterschiedliche Isolationslevel,

Postgres hat

per Default den höchsten,

glaube ich,

Serializable ist der höchste, dann gibt es noch Repeatable Read,

Und repeatable read war es, glaube ich, lange.

Aber mittlerweile ist es serializable.

Da kann man auch nachgucken, was das bedeutet.

Es gibt da feine Unterschiede.

Und genau, Isolation und Durability ist halt einfach nur das,

wenn eine Transaktion gesagt hat, okay, ich bin durchgeführt,

dass dann halt auch nichts mehr schiefgehen kann.

Was extrem schwierig ist zu implementieren.

Strom aus.

Genau, Strom aus muss trotzdem, wenn die Datenbank wieder hochkommt,

alles im richtigen Zustand

sein. Aber das kann man ja oft

dann nicht so wirklich gewährleisten. Also man kann ja nicht

das halt...

Der Hauptspeicher ist ja flüchtig und nicht...

Der Hauptspeicher ist flüchtig, das heißt, man darf es nicht in den Hauptspeicher

einfach nur schreiben, sondern die Transaktion

darf erst als dann durchgegangen

zurück...

ist durchgegangen, wird zurückgegeben,

wenn das im Write-Ahead-Log gelandet

ist und das mit F-Sync

irgendwie auf die Platte geschrieben ist.

Ja, und F-Sync ist halt teurer, teurer Syscall, das macht das sehr langsam, auch diese Isolation macht es halt langsam, aber das sind auch alle Sachen, die man halt weiter runterfahren kann.

Du kannst halt zum Beispiel auch, das machen Leute halt auch für Postgres zum Beispiel, du kannst unterschiedlichen Usern unterschiedliche Isolationslevel geben und dann kannst du sagen, wenn jemand Analyse-Queries macht oder bestimmte Arten von Queries, bei denen es völlig egal ist, ob die super isoliert sind oder nicht,

dann kannst du sagen, wenn dieser User, also dieser User hat halt ein viel niedrigeres Isolationslevel, der macht dann halt Dirt Reads, aber das ist halt egal für dessen Anwendungsfall. So kann man Sachen deutlich beschleunigen. Dann, was man auch machen kann, das sollte man halt jetzt nicht tun, wenn man Bestellungstransaktionen prozessiert, aber zum Beispiel, wenn man testet.

hat man ja viele Tests

für eine Applikation und es dauert

lange, bis die durchlaufen, wenn man jetzt irgendeine Änderung

macht und man führt die Tests

aus und das dauert ein paar Minuten, das ist halt schlecht, weil

es halt diesen, man ändert

was, führt die Tests aus und

hat dann sofort Feedback-Cycle

irgendwie kaputt

macht, wenn man dann halt irgendwie Kaffee trinken

gehen muss und das macht auch so ein bisschen die

Konzentration kaputt.

Daher wäre es schön, wenn die Tests

irgendwie schnell laufen würden und

da man aber

auch für die Tests, jetzt wenn man jetzt ein Django-Projekt

hat, auch die echte Daten, auch Postgres verwenden

will, was viele Leute machen, früher gemacht haben,

ist dann halt ein SQLite zu

verwenden, das nur in Memory ist.

Das geht dann viel schneller, aber das Problem ist halt,

dass SQLite sich anders

verhält als Postgres und dann laufen die Tests

durch und man denkt, das ist alles gut und dann geht's

auf die Datenbank und dann geht's schief.

Nicht so gut. Aber was man

tatsächlich machen kann, ist

Postgres zu sagen, ja, irgendwie nicht F-Synchen.

Macht man nicht. Und man

kann auch die Postgres dann auf eine

In-Memory-Partition

legen quasi, das geht auch.

Kann man auch irgendwie per Docker-Argumenten kann man das

irgendwie sagen und dann sind die Tests halt viel, viel schneller.

Ja, weil für Tests ist es mir egal, ob das jetzt,

wenn der Strom ausgeht, dann ist es mir wurscht.

Ich meine, die Testdatenbank schmeißt sich sowieso

nach jedem Testlauf wieder weg quasi.

Also, ja, aber

für die echte Produktionsdatenbank, die muss

halt bei Transaktionen tatsächlich dafür sorgen,

dass das nicht mehr verschwinden kann und das heißt,

sie muss Epsilon aufrufen und dann, ja, ist das

halt einfach langsam, da kann man auch nichts machen.

Okay, einmal ein bisschen Acid.

Ja, genau, haben wir Acid.

Und dann, ja, also was wir

dann heutzutage oft haben, sehen

Datenbanken,

die das halt, oder Dokumentdatenbanken,

genau, ist halt ein anderes

Paradigmen, das nennt sich Base.

Also Basic Availability, Soft State,

Eventual Consistency.

Also, wo man halt versucht, die Sachen so

aufzulockern, um halt es möglich zu machen,

dass man zum Beispiel mehrere...

mehrere Datenbanken schreiben kann.

Ja, wir sind jetzt ziemlich groß geworden, oder?

Ja, genau, wir sind jetzt ziemlich groß

und was wir jetzt haben, wenn wir auf mehrere Sachen

schreiben wollen, ist halt, genau,

das Asset ist halt weg, Pech gehabt.

Nein, wir haben noch ein anderes Ding,

das ist dann noch das Cap Theorem Consistency Availability

und Partition Tolerance,

das ist halt auch diese, immer wenn man so Sachen

Pick-Two-Out-Of-Three-Sachen sieht,

also das CAP-Theorem ist halt so das ursprüngliche

Ding dafür, du kannst halt zwei davon

hinkriegen, aber drei nicht. Und Partition Tolerance ist

leider nicht optional. Das musst du halt haben.

Partition was? Partition Tolerance.

Also was ist, wenn Netzwerkverbindungen

zwischen zwei deiner Datenbank-Dinger

irgendwie wegfällt oder so?

Das musst du halt leider,

das ist halt mandatory

sozusagen.

Das heißt, du kannst nur noch zwischen

Consistency und Availability

halt irgendwie wählen.

Und du hast halt, ja,

dann gibt es halt Datenbanken, die dann halt

unterschiedliche Trade-Offs realisieren.

genau.

Das ist zum Beispiel, ein interessanter

Fall ist halt sowas wie CouchDB,

die halt,

wo du sogar, wenn du halt offline

bist, immer noch

eine Datenbankverbindung

hast oder immer noch deine Applikation benutzen kannst

und die schreibt dann halt das in eine lokale

CouchDB-Instanz, auch interessant,

weil es ist halt so ein JavaScript-Ding,

früher hatte man

so jQuery als Abstraktionslevel für

alles, was irgendwie auf diesem

DOM-Modell im Browser irgendwie Dinge

tut. Man möchte es ja vereinheitlichen, alle Browser haben

das unterschiedliche, haben da unterschiedliche Funktionen gehabt,

also hatte man jQuery und wenn man jQuery

konnte, dann war es einem halt quasi egal,

welcher Browser da drunter lag.

Und bei CouchDB ist es so, das abstrahiert so ein bisschen

diese Storage-APIs, die Browser haben.

Das ist halt quasi dafür gedacht,

wenn du jetzt eine lokale,

wenn du eine Webseite

auf einem Smartphone hast

oder so, und du hast halt nicht immer Verbindungen,

du möchtest aber trotzdem,

dass sich deine Webseite so anfühlt,

als hättest du irgendwie eine Verbindung.

So offline first

oder so, jetzt im Shopping-Kontext

ist das halt nicht so richtig gut

vorstelle, warum das irgendwie sinnvoll ist, aber

nehmen wir an, du hast jetzt irgendwie sowas wie

Trello, also irgendwie so Tasks oder so,

wo du Sachen machen kannst, da möchtest

du nicht, dass wenn jetzt du durch einen Tunnel fährst,

dann nichts mehr geht, sondern

das geht halt mit CouchDB, das ist halt

sozusagen wie Jackfairy ein Layer über dem

Storage-API von deinem Browser, weil

die können das ja auch alle mittlerweile, die haben meistens SQLite

oder sonst irgendwas drunter und dann halt

APIs, mit denen du da irgendwie Dinge drauf tun kannst

was CouchDB jetzt letztendlich macht,

ist da nochmal ein Layer drüber zu liegen und

so ein Replikationsfeature

zu haben in alle möglichen

Richtungen. Also es ist halt Master, Master

oder Datenbank zu Datenbank

in alle Richtungen. Es ist halt nur so, dass ab und zu

Konflikte auftreten und die müssen dann vom User

gelöst werden. Das heißt, du wirst dann

manchmal gefragt, ist das oder das richtig?

Aber das passiert

jetzt auch nicht so super häufig und das ist halt

schon sehr, sehr nett.

Also du kannst

halt, auch wenn du offline bist, deine

Web-Anwendung weiter so benutzen als

als wärst du online

und das synchronisiert sich halt in dem Moment,

wo du halt wieder Verbindung hast.

ja, das ist halt dann sehr auf der Availability-Seite

und halt dann auf der Konsistenz-Seite halt nicht.

Deswegen musst du halt dann

Sachen auch, Konflikte manuell unter Umständen

lösen.

Genau.

So, jetzt haben wir, okay.

Jetzt sind wir, glaube ich,

im Grunde mit dem

ganzen traditionellen Kram

mehr oder weniger durch. Ja, wahrscheinlich nicht so wirklich.

Er hat es schon ganz lange geschafft,

bis er es hier geschafft hat.

Ja, aber und jetzt kommt

eigentlich nur noch ein Teil und das ist halt

irgendwie so Big Data oder

Urlaub-Geschichten für

wirklich große Systeme. Really, really, really

big things. Ja, also

ich meine, Big Data ist ja so ein bisschen, ich weiß nicht, was

ein Passwort.

Was würdest du sagen, ist Big Data oder

warum wollen Leute das haben?

Ja, also erstmal hört sich cool an und also jede Excel-Tablette

mit mehr als, weiß nicht, tausend Teilen kann man schon

einen Trick machen oder sowas. Also das kommt

halt, glaube ich, ein bisschen auf den Anwendungsfall an und jeder

hat natürlich gerne Big Data, weil es natürlich super ist,

man ganz viel machen kann, man

kann Analysen mitfahren und sowas.

Alles, was halt irgendwie anfällt

an Dingen, die man durch die ganzen modernen

Daten irgendwie so jederzeit bekommt,

ist dann irgendwann sehr big. Fühlt sich einfach groß an,

wenn man ganz viele

Sensordaten von verschiedenen Punkten bekommt. Was soll man damit machen?

Man treibt hier irgendwelche Excel-Tabellen rein.

Die liegen dann halt auf irgendwelchen

Servern oder halt auch

einfach nur Rechnern rum und haben halt ganz

viele große Informationen, ohne dass man damit was anfangen kann

bisher. Das ist vielleicht schon Big Data,

ich weiß nicht. Also ich glaube, dass überall

Daten vorhanden sind, ist vielleicht das

eigentliche Big Data, aber ob jetzt so

im Einzelfall das wirklich Big ist, was sagst du?

Ja, also genau, ich habe

auch, es gibt dann sehr unterschiedliche

Auffassungen

davon. Es gibt dann Leute, die sagen so, ja, was ist nicht mehr

in der Excel-Tabelle, was ist das schon so?

Also ich würde sagen, vielleicht etwas halbwegs

Vernünftigere ist halt, was nicht mehr auf einen Computer passt.

Aber auch das greift eigentlich zu kurz.

Ich habe dann letztens nochmal irgendwie

Meine Spiele dann nur.

Das war irgendein Talk von Michael Stonebreaker.

Das sind immer die gleichen Namen,

auf die man irgendwie in dieser Datenmark-Welt stößt.

Das sind halt so Michael Stonebreaker,

Jim Ray, Ted Kord,

weiß ich nicht,

Ducatting.

Das ist auch

der, der hat auch

der hat Postgres mitbegründet

oder Ingress vorher und dann Postgres

und auch viele

der noch moderne, der heute

ganz modernen Geschichten wie

Column Stores, also C-Store, Paper ist von ihm

VaultDB für so

In-Memory-Datenbanken-Geschichten

ja, der definiert das so

der sagt halt, naja, es gibt eigentlich nur noch drei Arten

wie Data Big sein kann, nämlich

irgendwie, ja, es ist einfach zu viel

ja, du hast, und der sagt halt

nicht irgendwas Konkretes, sondern du hast halt

Probleme mit der Datenmenge. Also es ist halt, wenn du

wirklich Schwierigkeiten damit hast und damit nicht fertig wärst,

dann hast du halt ein Problem mit der

Datenmenge und dann hast du halt Big Data, weil es

halt für dich schwierig ist, mit dieser Menge

klarzukommen. Aber was halt auch sein kann,

ist, und dann hast du halt auch ein Big Data Problem,

auch wenn es jetzt nicht unbedingt

eins ist, das

mit der Datenmenge zu tun hat, wenn die Daten zu schnell kommen.

Also du könntest mit der Datenmenge vielleicht klarkommen,

aber sie kommen so schnell, dass du irgendwie nicht fertig wirst.

Dann hast du so ein Respy oder sowas und das ist dann mal begrenzt

und dann... Ja, dann hast du auch ein Big Data Problem,

aber halt eine andere Art von Big Data Problem.

Es gibt dann noch eins, das ist halt, wenn

Daten aus ganz vielen sehr unterschiedlichen

Quellen und sehr unterschiedlicher Art kommen,

es sind vielleicht gar nicht so viele und sie kommen auch nicht so schnell,

aber du kriegst sie nicht schnell genug integriert

oder kriegst es halt nicht in den Griff. Da hast du auch wieder

ein Big Data Problem, was auch wieder leicht anders ist. Und diese drei

Dinger sind halt eigentlich alle irgendwie so ein bisschen

unterschiedlich. Und

wird es nicht so richtig klar. Und oft ist es,

also ich würde sagen, Big Data ist so ein gehyptes

Ding und

ja, irgendwie

es werden ganz viele Hadoop-Cluster verkauft.

Was ist ein Hadoop-Cluster?

Ja, es ist

Hadoop ist irgendwie so

ein, das Start ist

ein Apache-Projekt,

das irgendwie mal gestartet ist als

Implementierung eines

Konzepts, nennt sich MapReduce.

Das ist ein Paper, das hat Google mal veröffentlicht.

Jeff Dean und noch ein paar andere

haben das veröffentlicht, 2004

glaube ich. Und

das ist halt eine Art, mit

großen Datenmengen umzugehen und die halt so

horizontal auf ganz viele

Maschinen zu skalieren.

Das funktioniert im Grunde so, dass es halt auch genau dafür gedacht

ist, wenn man jetzt einen großen Suchindex, wie man

bei Google zum Beispiel hat,

bauen möchte über das gesamte Web,

dann kann man das halt eben nicht auf einer Maschine tun.

Das ist halt völlig ausgeschlossen.

Und man möchte das halt irgendwie

auf möglichst

viele Maschinen, so eine halbe Million oder eine Million oder so

skalieren. Wie macht man das?

Und das Konzept, das sie sich dafür überlegt haben,

nennt sich halt MapReduce und

ist auch eigentlich nicht wirklich was Neues.

Früher gab es auch schon ähnliche Konzepte,

wie sich ScatterGather oder sowas.

Und im Distributed Computing Teil

gibt es auch diverse Geschichten, die so ähnlich sind.

Aber so auf der Skala und so

und die Art, wie sie das konkret machen,

war schon irgendwie was Neues

und auch ein sehr, sehr cooler Ansatz.

Und zwar machen sie das halt so,

also im Grunde kann man sich das vorstellen,

wenn man jetzt eine Webseite hat,

viele Rechner, die halt Webseiten crawlen,

nimmt man den Text, zerlegt den halt in Worte

und man spuckt jetzt

sozusagen für jedes Wort, einmal das Wort

oder für die Webseite, die Worte

aus, aus denen die Webseite besteht,

plus die Anzahl, wie oft das vorkommt.

Das ist halt sozusagen die Map-Phase.

Und das machst du jetzt auf allen

Maschinen. Und dann

führst du das halt irgendwann wieder zusammen in einem Reducer.

also was du bauen möchtest,

ist sozusagen so ein

Index, das ist halt

wie ein Index

in einem Buch,

wo halt steht,

welches Wort kommt auf welcher Seite vor.

Und du musst halt für so ein Webseiten-Internet

musst du halt sagen, welches Wort kommt auf welcher

Webseite

vor. Das ist halt das, was du

hinterher haben willst.

Und die sortiert man dann nach der Reihenfolge,

wie oft das immer vorkommt oder so ungefähr. Genau.

Aber man muss halt auch wissen, wie oft das vorkommt, weil

man halt bestimmte Geschichten

nennt.

Wir stehen am Anfang von der Liste, wie oft das vorkommt.

Ja, man rechnet so TF-EDF-Scores

aus und dafür braucht man halt die Termfrequenz.

So bitte was? TF-EDS?

Ja, Termfrequenz mal

Inverse Document Frequency ist halt sozusagen

ein wichtiger Wert dafür, wie

wichtig jetzt

ein Wort ist

in der Webseite oder

in einem Dokument. Und dafür muss man

halt zählen, wie oft ein Wort vorkommt.

Ja, aber man muss halt auch

zählen, wie oft das Wort

überhaupt vorkommt.

Und dann generell das noch mit dem Kontext und der

Wichtigkeit und so und zusammensetzen.

Also in dieser Webphase imitiert man im Grunde nur,

welche Webseite war das, wie oft ist das

Wort da vorgekommen und dann werden diese Ströme

dann zusammen reduced und dann

sozusagen

hat man halt irgendwie dann diesen Index, wo dann zu jedem

Wort steht, auf welchen Webseiten es vorkam und

ja, wie oft und wie oft

es insgesamt vorkam und so und dann kann man

irgendwie so Anfragen machen und das

kann man halt komplett voneinander trennen, da halt

bestimmte,

da man, da sich diese Sachen

komplett voneinander, du kannst halt

nach Worten auftrennen.

Also, du musst halt nur

dafür sorgen, dass das gleiche Wort immer

auf, dass alle Sachen, die zum gleichen

Wort gehören, zusammengeführt werden.

Aber du kannst halt

ja, für unterschiedliche Worte unterschiedliche

Maschinen benutzen.

Das ist halt gar kein Problem. Und damit kannst du

es quasi beliebig horizontal skalieren.

Auch da wiederum ist es schwer zu erklären,

man kann sich das einfach mal angucken.

Dann bietet sich einfach so ein Rechenzentrum,

da schaltet einfach noch eine Maschine ein, wenn du welche brauchst.

Genau, kannst dann halt immer, einfach immer mehr

Maschinen dazustellen. Und ja,

viele Leute haben sich gedacht, oh, das war eine coole, coole

Idee. Und dann

ja, derjenige,

einer von denen, der Namen

man immer hört, irgendwie, Duck Cutting,

der hat damals schon bei Excite irgendwie

die Suchmaschine gebaut, hat dann später eine sehr

populäre, oder immer noch die populärste

Volltext-Suchmaschine, die es so gibt,

Lucine, oder ist die Engine darunter,

jedenfalls geschrieben, auch

ein Buch darüber, das

ja, und

Irgendwann ist er eher in diesen Big-Data-Hadoop-Bereich gegangen.

Der hat ursprünglich auch dieses Hadoop-Projekt losgetreten.

Und dabei ging es halt darum, ein System wie das, was Google zum Bauen der NDCs verwendet hat,

in Open Source nachzubauen unter diesem Apache-Projekt-Schirm.

Und ja, das hat auch gut funktioniert.

Alles ist ein Riesenprojekt geworden.

Es ist auch für manche Sachen halt total super.

ich würde jetzt nur sagen, also es wird heute viele

Dinge verwendet, für die es vielleicht nicht so gut geeignet

ist eigentlich.

Zum Beispiel? Ja, also es ist

glaube ich für viele Firmen heute so die generische

Data Warehouse-Lösung

geworden. Obwohl es

dafür, weiß ich nicht.

Also ich würde ja sagen, zum Beispiel viele Firmen haben

eben keinen Big Data. Die haben

keines dieser drei Big Data-Probleme,

sondern

Besser nicht, wie die es machen sollen.

Ja, die haben einfach nur Daten und

eigentlich passt das an den Hauptspeicher und die brauchen

nichts davon. Das ist, die können einfach, die

Einrichtung mit einem

Postgres-Server. Ja, oder

irgendwie nicht mal das.

Sikulat Errori.

Jaja, also da

ein Freund von mir sagt dann immer so, oder

ich weiß nicht mehr, das, ach, ich hab das

und ich glaube, ich hab es auf Twitter gelesen, Unsinn.

Man sollte irgendwie,

ich weiß aber nicht mehr, wer es war, ich sollte

eigentlich mal einen Consulting-Service gründen,

der irgendwie,

den man engagieren kann,

wenn man vor der Frage steht, ob man sich jetzt

ein Hadoop-Cluster irgendwie kaufen möchte

oder nicht. Die Antwort ist immer nein.

Gehe ich da hin und sage,

lass mich überlegen,

Deine Daten

finden in RAM.

Und da einfach jedes Mal

10.000 Dollar für verlangen.

Das würde, hätte ich irgendwie

ein nettes Einkommen durch und

würde den Unternehmen ein Vielfaches davon sparen.

Von dem, was sie dann ausgeben, wenn sie

das nicht will.

und da ist

leider viel Wahres dran, also es gibt wenige, die das

wirklich brauchen, viele

schaffen es sich trotzdem an und haben dann ein

kompliziertes, eine

komplizierte Lösung für ein Problem, das sie nicht haben

Ich meine, das ist natürlich für die Leute, die

Geld verdienen. Genau, für das Problem, was sie haben, ist das

einfach total kompliziert zu benutzen

also Dinge wären viel einfacher, wenn sie

das nicht machen würden, aber naja, so ist es halt

nun mal

und von diesem

MapReduce-Ding ist auch

diese ganze Hadoop-Welt auch schon so ein bisschen

wieder weg. Auch Google macht nicht mehr wirklich

MapReduce, also für manche Sachen machen sie möglicherweise

noch MapReduce, aber es sind ja auch andere

Systeme gegangen, Prägel,

so ein Graph-Processing-Ding, was

sie da machen, was halt relativ viel

tut von dem, was früher MapReduce gemacht hat.

auch bei Hadoop ist es halt so,

dass das, was geblieben ist, ist

irgendwie so ein verteilter Dateisystem-Layer,

so auch Management von

diesen Nodes

irgendwie in diesem Cluster.

die Engines, die

jetzt irgendwie Queries darauf prozessen,

davon gibt es halt, das nennt sich Hive,

da schreibt man Queries in so einem SQL-ähnlichen

oder das ist schon SQL,

man schreibt halt so SQL

und das wird dann halt in MapReduce

Jobs verwandelt und wird dann halt auf den

ja, also im Grunde die Idee

bei der ganzen Geschichte ist, dass man halt

nicht mehr die Daten zu einer Stelle bringt,

wo sie dann prozessed werden, sondern man bringt

den Algorithmus zu den Daten.

Man kann die Daten nicht mehr an einer Stelle zusammenführen,

weil es sind einfach zu viele. Die liegen halt auf den lokalen

Nodes und man trägt

jetzt den Algorithmus zu diesen Daten

und der läuft dann halt lokal auf den

Cluster-Nodes darüber und dann am Schluss wird das

alles wieder zusammengeführt, zusammenreduced

und dann kriegt man halt das Ergebnis.

Und für einen selber sieht das so aus, man schreibt halt ein

SQL-Statement und kriegt halt ein Ergebnis

und in Wirklichkeit hat man

dann halt irgendwie einen Job gebaut, der dann halt

100 Mapper, 100 Reducer

angestoßen hat und das lief halt über 200 Maschinen

Wow, that's big.

Hatte vielleicht das Problem nur Big Data

dann, also Big,

nicht Data.

Aber es wäre

und das hat dann vielleicht eine halbe Stunde gedauert

aber es ist halt auch möglich, wenn man das anders gemacht hätte

hätte diese ganze Geschichte

auch in der Minute durchlaufen können.

Ja, es gibt dann auch

andere Geschichten, die jetzt auf solchen Clustern

laufen, zum Beispiel rein in Memory-Geschichten

so was wie Impala

einer von

PhD-Studenten von Michael

Stonebraker, die damals

Postgres mitgeschrieben haben, ist da

irgendwie CTO von der Firma, die da, ich habe jetzt aber auch wieder vergessen,

welche das ist.

Das macht das halt in Memory, das ist

in C geschrieben, das ist alles schneller,

das ist viel angenehmer, wenn man damit arbeitet,

aber es ist auch so ein bisschen komisch und

es ist halt auch nicht so richtig,

es ist halt nur ein bisschen instabil.

gibt diverse

andere Geschichten. Ach, das war noch ein eigenes

Thema eigentlich. Spark, SpySpark.

Was ganz interessant ist,

ist, was man vielleicht

lasst mich überlegen.

Also was sehr interessant ist,

ist, dass wir heute etwas

sehen,

was wir früher eigentlich auch schon

gedacht hätten, dass wir das im relationalen Bereich bekommen,

nämlich, oder MySQL hat damit mal angefangen,

so, die hatten irgendwie

so eines der coolen Features bei MySQL

am Anfang war, dass die Storage-Engines

pluggable waren. Das heißt, du konntest deine eigene

Storage-Engine da reinbauen. Hat auch kaum

einer gemacht. Es gab eigentlich nur zwei

relevante. Was ist eine Storage-Engine?

Wie die Daten tatsächlich auf der Platte liegen.

Ah, okay. Letztlich.

Und das ist halt, es gab MyISAM,

es gab auch eine CSV-Engine für MySQL,

da hast du einfach CSVs genommen.

Aber MyISAM war so populär.

MySQL hatte aber Probleme. Hatte das Problem,

dass du, wenn du geschrieben hast, wurde mir die komplette Table

gelockt. Das heißt, also da lieber nur lesen, nichts

reinschreiben. So reinschreiben, eher doof.

hat trotzdem irgendwie, haben das

viel lange verwendet, Transaktionen und so, das geht alles nicht.

Asset war nicht so richtig bei MySQL am Anfang und dann

hatten sie eine Storage-Engine, die das dann aber schon konnte,

die auch so wirklich Multiversion

Concurrency-Kontrolle halt richtig konnte und das war

InnoDB und

ja, aber eigentlich

so nachdem InnoDB sich durchgesetzt hatte

oder irgendwie gut genug war,

dann hat sich dieser

Pluggable-Storage-Engine-Geschichte von

MySQL hat sich dann auch wieder erledigt.

Aber Postgres

bekommt jetzt, glaube ich, mit der Version 12, also

das ist noch nicht sicher, aber es sieht ein bisschen danach aus, als ob sie

Plugable Storage Engines wieder zurückbekommen.

Was interessant,

da ist es dann zum ersten Mal, aber

das Konzept nochmal irgendwie

doch nochmal angefasst wird.

Und interessant ist auch in diesem ganzen

Analytics-Big-Data-Bereich,

dass wir da auch sowas sehen. Wir sehen

halt, es gibt nicht mehr so ein Datenbank-

System, wo halt die

wie die Daten gespeichert werden, tatsächlich

an die anderen Teile,

Also im Grunde besteht ja so ein Datenbanksystem aus vielen unterschiedlichen Geschichten. Es besteht halt aus so einem System, das irgendwie einfach nur die Daten managt irgendwie und Zugriffsrechte verwaltet und irgendwie. Und dann gibt es halt so Dinge, wie speichert man das auf der Platte? Es gibt Indizes, es gibt so viele unterschiedliche Teile.

Und ja, wir sehen jetzt so ein bisschen, dass das halt auch alles wieder so ein bisschen pluggable wird, gerade auch in diesem Big Data Bereich. Also auch wichtig, wenn man diese Analysegeschichten macht, hat man im Grunde, ist die Art, wie Daten in relationalen Datenbanken gespeichert werden, ist zeilenweise.

weil die Art von Curries, die man

da macht, oft nur wenige Zeilen betreffen.

Ein paar tausend oder so, aber es sind immer noch

sehr wenige. Daher macht es Sinn,

irgendwie zeilenweise zu arbeiten.

Sozusagen.

Aber für diese

Analysegeschichten, dieses ganze Data Warehousing Zeugs,

ist das überhaupt nicht sinnvoll.

Dieses Muster, dass man halt

eher Millionen

von Zeilen anguckt, aber nur wenige Spalten,

weil man sich nur für einen bestimmten Aspekt interessiert.

Man interessiert sich oft eben nur für

Umsatz oder Preis

oder sowas. Aber man

interessiert sich gar nicht für den Namen des Autors

oder so. Daher möchte man eigentlich nicht

irgendwie alle Zeilen

immer komplett angucken, weil dann guckt man sich

ganz viel Zeug an.

Der Flaschenhals ist oft

die Wandbreite

zwischen Platte und Hauptspeicher.

Man muss das halt dann irgendwie durch den Prozessor

ziehen. Und je weniger Daten man dadurch

ziehen muss, umso besser. Und bei

einem zeilenorientierten Format muss ich,

ich die Datei lese und die Datensätze

halt zeilenweise drinstehen, muss ich halt da

sequenziell durch die Zeilen durchgehen.

Das geht nicht anders.

Das ist halt total ineffizient, weil wenn ich halt nur

einen kleinen Teil von diesen Zeilen, nämlich nur

eine Spalte, irgendwie überhaupt lesen möchte, das heißt,

wenn ich

so Analyse-Querys

auf Datenbanken mache,

die zeilenbasiert ihre Daten speichern,

dann ist das super ineffizient und ich habe halt

so einen Verlust von circa, man sagt

immer so einen Faktor 50 ungefähr,

sind die halt einfach aufgrund

dieser Architekturgeschichte langsamer

und zwar unoptimierbar

langsamer als sogenannte

Column Stores, die halt Daten

spaltenweise speichern.

die ersten

Dateisystemformate

oder Formate, in denen die Daten zum Beispiel in Hadoop

gespeichert wurden, Avro ist glaube ich

das erste, ich weiß nicht genau,

sind auch alle zeilenbasiert, weil das war halt so.

Man hat halt irgendwie zeilenbasiert Sachen gespeichert,

aber das ist halt eben total

ineffizient, wenn man halt nur

bestimmte Spalten von Datensätzen haben

möchte und dann gibt es halt neuere File-Formate

wie zum Beispiel, oder

Serialisierungsformate,

Parquet-Dateien zum Beispiel,

das ist halt das, was heute eigentlich immer so verwendet wird,

das ist halt dann

spaltenbasiert

und dann liest man eben nur die Dateien

oder die Spalten,

es ist halt in einer Datei nur eine Spalte

sozusagen, man liest halt nur die Dateien,

die man halt braucht

und das ist komprimierbar,

Es ist chunkbar, sodass ich es auf mehrere Rechner verteilen

kann und so und hat halt all diese hübschen

Eigenschaften.

ich habe jetzt diese Paket-Files, aber

das Format der Daten

auf der Platte, das Serialisierungsformat, ist nicht mehr

gebunden an die Datenbank, sondern

als Layer darüber, mit dem ich jetzt

Abfragen mache, habe ich jetzt sowas wie Hive,

das macht dann MapReduce-Jobs draus irgendwie.

Ich habe

aber auch sowas wie Impala, ich habe

vielleicht andere Geschichten, ich habe Spark.

Spark hast du eben noch vergessen, übrigens.

Ja, Spark, genau, gut, Spark

hat auch irgendwie, ist was mit anderen

gestartet, die

hat auch

ein eigenes DataFrame-Format, was

jetzt nicht Parquet war, aber

also worauf es hinausläuft, ist

im Grunde, dass ich jetzt

so ein Format habe wie Parquet,

in dem die Daten auf der

Platte liegen und jetzt

habe ich halt unterschiedliche Engines, die

jetzt irgendwie, mit denen ich jetzt Queries verarbeite,

drauf. Ja, also quasi eine

Trennung zwischen

dem System, das jetzt meine

Queries irgendwie beantwortet und dem

Speicherformat, also quasi sowas ähnliches wie

ein Plugable Storage Engine, so nur, dass

halt der Storage-Format ist halt für alle unterschiedlichen

Engines irgendwie gleich, nämlich Paket,

aber das, was halt die Dinge

darauf machen, ist halt unterschiedlich.

Das ist eine ganz interessante Entwicklung, finde ich. Also das

ist halt, das ist schon faszinierend

ja, Column Stores

sind halt sozusagen, das sind für so Data-Warehousing

eigentlich das Coole. Es gibt

C-Store,

Paper ist halt auch eine

Firma entstanden, Vertica, glaube ich.

Die machen halt,

wenn man irgendwie ein großes Data-Warehouse haben möchte,

dann ist es wahrscheinlich irgendwie so das Beste, wenn man irgendwie

zu so einer Firma geht und das macht.

Keine Ahnung. Oder gibt es auch wahrscheinlich

auch noch andere, die sowas ähnliches machen.

Aber was halt nicht gut wäre, ist halt, wenn man

mit so einem Problem zu Oracle

geht. Weil Oracle ist halt nicht

Column-Oriented, sondern die sind halt

zeilenbasiert, egal was sie dazu sagen. Sie versuchen das

in ihrem Marketing immer zu verschleiern, aber es ist halt

genau wie MSSQL zwar war

und die ganzen klassischen relationalen

Datenbanken, die sind alle zeilenbasiert und da

gibt es auch nichts, was man tun könnte.

Ja, es sei denn, man tauscht

die Storage-Engine aus.

Bei Postgres wird das nochmal interessant.

So Postgres, da hat man das Problem halt,

wenn man ein Data Warehouse auf Postgres aufbaut,

dann ist man immer dann an die Zeilenweise

Verarbeitung

gebunden, kann halt auch nichts machen.

Wenn man das demnächst dann mit Parquet machen könnte, dann...

Ja, wenn man irgendwie Parquet und Postgres

irgendwie verheiraten könnte, das wäre natürlich schon

ziemlich cool dann irgendwie.

genau. Und das sind halt so die

das sind halt so diese Geschichten beim

Data Warehousing.

Genauso Hadoop, man nennt das auch so, nicht Data Warehouse,

sondern weil man auch alles mögliche andere drin speichern kann.

Data Lake, weiß ich gar nicht, ob man da so ins Detail gehen muss,

aber man hat auch noch Bilder und sonst wie andere

man kann halt alle möglichen Arten von unterschiedlichen

Ein Datensee, wie bei der FNES, ganz, ganz tief.

Ja, das kann auch so ein bisschen umkippen,

wenn man das dann, Data Swamp.

also, ich bin

nicht, ehrlich gesagt, nicht so ein Riesenfan von

Hadoop, muss ich sagen. So, aber

auch, ich hab da

auch schon ein bisschen so schmerzhafte

Erfahrungen mit gemacht.

Weil so Daten

rein und raus kriegen, ist irgendwann so ein bisschen hässlich

und das ist auch immer noch alles

nicht so weit, also bei so klassischen Datenbanken

ist halt, da merkt man, also wenn man Postgres-Rat

verwendet zum Beispiel, merkt man halt so, da ist halt schon

Jahrzehnte

Erfahrung drin

und viele der Use-Cases, die man so hat,

also wenn man da auf blöde

Probleme stößt, dann ist man wahrscheinlich selber schuld.

Also das ist halt

sehr selten, würde ich jetzt mal so

90 Prozent der

Probleme sitzen vor der Tastatur.

Dass man auf etwas stößt und man hat wirklich ein Problem mit der Datenbank,

sondern man hat ein Problem mit, man hat die Dokumentation

nicht genau genug gelesen oder man weiß

man hat irgendwie ein Verständnisproblem oder so

und das sind ja alles Sachen, die sich leicht fixen lassen.

Also es wäre halt

wenn man tatsächlich ein Problem mit der Datenbank

hat, wäre es natürlich schlecht,

weil da kann man nichts machen, außer Datenbank wechseln

oder irgendwie

selber neu schreiben oder sowas, nicht gut wäre.

bei Hadoop habe ich so das Gefühl,

es kann natürlich auch was sein, dass ich einfach zu blöd

war, es nicht zu bedienen, aber ich habe so das Gefühl,

viele Dinge, die man da macht, sind nicht dadurch

begrenzt, dass man irgendwie nicht genug weiß oder nicht genug

nicht richtig verwendet, so das falsch rum hält

irgendwie, sondern

bestimmte Sachen gehen einfach noch nicht

oder gehen nicht richtig. Man hat Use Cases

und dann stellt man so fest, so ja,

hat niemand drüber nachgedacht, ist nicht so richtig

abgebildet, blöd.

das wird wahrscheinlich alles irgendwie viel besser, aber momentan

ist es noch nicht so, ist noch ein bisschen

scharf, fühlt sich alles ein wenig scharfkantig an.

Man kann sich überall schneiden und wehtun und aua.

Ja, und außerdem, dass es halt alles auf dieser Java-Geschichte

aufsetzt, ist auch sowas, muss ich auch sagen.

Ah, jetzt sind wir wieder bei dem

Ding, was wir eigentlich als Running-Gag nehmen wollten, da haben wir es doch

dazu verlassen. Ja, Java, Java, mal wieder.

Das ist...

Nach zweieinhalb Stunden sind wir doch wieder drauf gekommen, ja.

Ja, aber da ist dann

möglicherweise der Ausweg, irgendwie sowas wie PySpark

zu verwenden. Spark, auch nochmal, eigentlich müssen wir

dann mal ein eigenes Thema zu machen,

aber sehr schön, das Ding ist so, dass man halt

Sachen automatisch verteilen kann,

man hat sie lokal, man kann

damit anfangen, dass man es auf einer Maschine hat und dann

führt man Sachen auf einen Cluster

aus und das ist wirklich mehr oder weniger

seamless.

Das Einzige,

man hat sogar einen vollständigen

Python-Interpreter, das ist irgendwie nicht so

eine verkrüppelte Version. Man kann halt tatsächlich

irgendwie Sighten-Sachen

damit machen. Das heißt, man kriegt Sachen auch wirklich, wirklich

schnell.

Im Gegensatz zu

Java. Java geht vielleicht auch, ich weiß es nicht genau,

aber ich glaube, es ist ziemlich schwer, Sachen wirklich

optimiert hinzukriegen.

Während in Python ist es halt relativ

leicht, irgendwie mit

Seiten halt ein Dialekt von Python

zuschreiben, wo man dann Typ-Annotationen dazu schreibt,

wo die dann halt zu C

kompiliert werden, dann wird das als C-Modul, dann wird es wieder

reimportiert und das kann man halt auch

auf den Cluster irgendwie ausrollen

irgendwie über PySpark

und dass man jetzt irgendwie C-Code irgendwie

in Java reinbastelt und das

dann halt über Hadoop, über die MapReduce-Service verteilt,

weiß ich nicht. Kann auch sein, dass das geht, keine Ahnung, aber das

klingt irgendwie nicht so leicht.

Ja, wie auch immer. Also

Spark ist auf jeden Fall auch noch eine super

interessante Geschichte, vor allen Dingen, wenn es jetzt darum geht,

Wenn man jetzt sowas hat wie so ein Data Lake und so,

wie kommen da die Informationen rein?

Man möchte eigentlich nicht da so ETL-Jobs machen.

Das funktioniert alles nicht mehr.

Man möchte ja auch Echtzeit-Dashboards haben irgendwie.

Und dann wechselt man halt irgendwann auf so eine Streaming-Architektur,

wo halt Dinge auf der Webseite,

also auch gerade wenn man jetzt sowas hat wie,

also auch Amazon wird, selbst wenn man die Bestellungen nimmt oder so,

das ist alles noch nicht Big Data,

aber wenn jetzt zum Beispiel Amazon, und das tun sie bestimmt,

irgendwie jeden Klick den User

macht auf der Webseite, auch

irgendwo eine

Fakten-Tabelle

in ihr Data Warehouse, Data Lake

Ding reinspeichern möchte,

dann wird das big.

Weil das ist halt schon viel.

Dann ist so ein Verhältnis von Bestellungen zu

Leute machen irgendwie Web-Requests oder klicken

auf der Seite rum, ist halt wahrscheinlich nochmal so

ein Faktor 100 oder mehr.

dann wird es tatsächlich sehr, sehr groß.

Und man möchte das aber trotzdem

alles in Echtzeit haben. Das heißt,

man macht es nicht so, dass man

diese Geschichten wieder in die

OTP-Datenbank reinschreibt

und dann extrahiert und batchmäßig

jeden Tag ein Analyse-System

schreibt, sondern dann generiert

man halt so Events,

die dann halt über irgendeinen

Streaming

Zeugs halt

Service laufen,

der das dann halt

an unterschiedliche Consumer

irgendwie ausliefert. Und das sind meistens

Kafka, AWS hat noch eine eigene

Lösung, normalerweise auch wieder den Namen vergessen.

Meinst du aber nicht die Lambda-Service?

Nee, nee, das ist was anderes.

Nee, das ist eine eigene, ja.

Aber, sagen wir mal, Kafka als Beispiel

ist auch ein Apache-Projekt, das das halt

sehr schön macht. Und dann serialisiert man

halt irgendwie die Daten, die man im Event hat,

also irgendwie als Protokoll-Buffers

oder sowas.

Und dann gehen die Dinger halt

auch da wiederum Serialisierungsformate

sehr, also es gibt halt sehr unterschiedliche

Protokoll-Buffers und super, wenn man Daten übertragen möchte

oder auch dieses Rift von Facebook

super scheiße, wenn man

das halt auf die Platte schreibt. Also es wäre halt

dann auch wieder zeilenbasiert, kann man hinterher nicht mehr gut analysieren.

Also man kann halt nicht einfach

irgendwie die Events, die man generiert

als Protokoll-Buffers irgendwie

in Kafka kippen und dann

das irgendwo auf eine Platte schreiben lassen.

Das reicht halt nicht,

sondern man muss es halt dann doch auch irgendwie

wieder irgendwie so Zwischendinge

kippen, aber man kann halt auch, man kann halt

etwas haben, was halt teilweise aus

diesen Parquet-Files liest.

Und dann halt die aktuellsten Daten liest es halt aus einem Log der Protokoll-Buffer-Events.

Das muss ja dann vielleicht nur für die letzte halbe Stunde sein oder so, kommt halt mal drauf an.

Ja, und dann kann man halt tatsächlich Echtzeit-Daten sehen.

Dann könnte man halt ein Dashboard machen, wo man halt in Echtzeit sieht, wie sich die Zugriffsmuster ändern,

wenn man jetzt zum Beispiel für einen bestimmten Teil der User irgendwie die Webseite ändert oder so.

Und das ist natürlich schon sehr nett.

Und wenn man halt irgendwie Preise erhöht, dann sieht man halt in Echtzeit, wie die Conversion runtergeht.

Ah, der Preis war gut.

Und dann kann man halt so als

Manager vor diesem Dashboard sitzen

und den Knöpfen drehen.

Die Firma vor die Wand fahren.

Und dann irgendwie Profit

maximieren.

Das ist schon

sehr nett. Ist aber auch halt sehr aufwendig.

Das macht alles

nochmal viel komplizierter.

Ja, und

diese Serialisierungsformat-Geschichte

ist halt sehr wichtig.

etwas, was mir bei dem

Hadoop-Erfahrung

dann geholfen hat, war

ein Projekt

namens Apache Arrow,

darum geht, das ist von dem

ursprünglichen Autor

von Pandas, also dieser

DataFrame-Library

für Python,

der hat das gestartet,

weil der da halt ein,

und das ist auch tatsächlich,

also ich, während ich mich halt mit

Hadoop-Geschäfte, aber mich hat es an den

gleichen Stellen gejuckt sozusagen, also ich

das war so zuerst gemacht, also ihn hat es wohl

auch irgendwie genervt, der hat bei

Cloudera gearbeitet irgendwie, das ist halt auch so eine von diesen

Firmen,

die halt so in diesem Big Data, Hadoop-Bereich

viel unterwegs sind, auch da irgendwie glaube ich

einer von den Chefs oder Gründern ist halt

einer von den, ist auch ein PhD-Student

von Michael Stonebaker, so sind

alles irgendwie immer die gleichen Leute und

der, genau,

da geht es darum, ging es darum,

sozusagen ein Interface zu haben,

das genauso ist wie

Pandas, also Dataframe

API quasi zu haben, sodass man halt

Dinge, man hat so das Gefühl, man hat ein

Dataframe-Objekt, macht da irgendwelche Sachen drauf,

so als wäre es ein Pandas-Dataframe,

aber in Wirklichkeit passieren im Hintergrund

Sachen auf deinem Cluster.

Das war in der Bibliothek, nannte sich Ibis,

und das ist halt genauso auch mein Problem damit,

dass halt, ich mache ja eigentlich eher

so Machine-Learning-Dinge

und benutze

Pandas eigentlich so zum

Daten aufräumen, Daten transformieren,

bevor ich das dann halt in irgendwie

Machine Learning-Aggregate und so

und Modelle reinfüttere,

die dann aber, die dann selber wieder nur Arrays,

NumPy-Arrays normalerweise nehmen

und keine DataFrames, aber DataFrames

ist halt so ein Zwischenschritt und man kann halt sehr leicht

aus einem DataFrame irgendwie ein Array

machen, indem man einfach sagt, DataFrame.Values,

dann hat man das Array

und ich

hatte halt immer das Problem, wenn ich jetzt

damit so Systemen wie Hive oder Impala draufgegangen

bin, dann kriege ich halt irgendwie so

eher so ein CSV oder

so ein Result-Set und dann kriege ich das nicht schnell da raus.

Das ist halt alles

ultra langsam und

ich brauche aber für meine Modelle doch durchaus große Daten

oft. Das geht alles nicht

und dann

wäre es natürlich viel besser gewesen, wenn ich

einfach nur, wenn jetzt, also

das, was diese Systeme machen, ist, man schreibt SQL-Statements

und die machen dann halt irgendwie automatisch

machen die halt irgendwelche Aktionen

auf dem Cluster. Wenn es jetzt

so gewesen wäre, dass ich das einfach nur in DataFrame-Syntax,

was ich mit den Daten machen wollte, hätte hinschreiben

können, dann wäre mir ja schon viel geholfen

gewesen. Und genau das hat

halt Ibis, diese Bibliothek, die dann

Westmorekenny bei Cloudera gebaut hat,

gemacht. Man hatte ein Ding, das war

wie ein Pandas-Data-Frame,

wo man da halt irgendwie Group-By gesagt hat und

dann hat das halt nicht

das im Hauptspeicher gemacht, wie Pandas,

sondern das hat dann halt SQL-Statements erzeugt,

automatisch, die man aber nicht gesehen hat,

und die dann

auf den Cluster irgendwie

losgelassen. Und dann

magisch

mit den Ergebnissen irgendwas gemacht.

Ja, aber

das hat auch nicht gereicht, weil auch da wieder das Problem war,

wie kriegt man die Daten wieder, wenn man jetzt,

man kann eben sowas nicht sagen, wie

wenn man es jetzt richtig transformiert hat, also da war das schon

eine Hilfe, aber jetzt hätte man gerne die Werte,

um sie tatsächlich in den Machine Learning

Algorithmus reinzupumpen, damit er

möchte irgendwie ein Modell drauf trainieren.

Man kann eben jetzt bei diesem Data Frame eben nicht sagen

df.values. Das geht

halt nicht, weil die Daten sind halt im Cluster.

weil sie da irgendwie rauskriegen und man kriegt sie nicht raus.

Es geht nicht. Also der Weg von

ja, und das war halt dann auch

irgendwie ein Problem, wo dann das IBIS

Projekt so ein bisschen dann vorbei war

und Westman Kinney hat dann auch

ist dann von Cloudera irgendwie weg und hat

dann Apache Arrow gestartet und Apache Arrow

macht halt genau

da weiter und das hat mir dann auch wieder

weitergeholfen, weil

okay, es geht nicht

anders, man muss tatsächlich auf die rohen

Parquet-Files im Cluster irgendwie

zugreifen.

Und wenn man jetzt irgendwie da drauf was

machen möchte, man braucht irgendwie ein

Array-mäßiges Interface auf

diese Files. Wenn man das hat, dann

ist man eigentlich im Grunde, dann funktioniert alles.

Und das macht Arrow.

Arrow ist halt sozusagen ein

In-Memory-Datenstruktur,

Array-Datenstruktur, die halt

von unterschiedlichen, das ist auch das Ziel dabei,

ist auch eine Kollaboration mit irgendwie einem der

wichtigeren Leute, die hinter

R oder RStudio

zusammen.

Die haben das

beide zusammen gemacht, dieses Projekt.

Genau.

Die Idee ist sozusagen, du hast halt

eine Abstraktionsschicht,

die halt irgendwie so ein Array-Store

im Hauptspeicher hält.

Das macht Apache Vero. Das Ding ist in C++

geschrieben, aber du kannst halt von Python aus zugreifen

oder von AdRof zugreifen,

von Java aus.

Und du musst es halt nur einmal im Hauptspeicher halten

und du hast es dann halt in dem Format,

in dem du es brauchst, um es halt in Machine Learning-Modelle

reinzupumpen.

Ja, was du halt, diese ganze

Loop-Welt, du kannst dein Machine Learning

Algorithmus ja nicht als MapReduce, das geht halt nicht

schreiben, weil wenn du ein neuronales

Netz hast, das hat Verbindungen überall hin,

dann kannst du es halt nicht klar auf horizontal

auftreiben in Mapper und Reducer, das funktioniert

einfach nicht, das ist halt Quatsch.

Viele Machine Learning

Algorithmen lassen sich nicht einfach so verteilen.

Oder, ja, sie brauchen halt

irgendwie ihre Daten in einem bestimmten Format

und das ist halt so ein Array-Format, weil das ist alles

linearer Algebra. Und linearer Algebra

funktioniert mit Vektoren, Matrizen

oder halt, man nennt die

Dinger allgemein Arrays halt.

Also beliebig dimensionale Arrays.

Ja, und

das geht halt so einfach eigentlich

irgendwie nicht. Und

ja, mit Apache

Arrow halt schon. Und außerdem macht

Apache Arrow dann halt so ein paar Sachen wieder.

Jetzt sieht es wieder gerade, die halt bei NumPy so ein bisschen kaputt sind.

Unter anderem

Was halt total blöd ist, aber das habe ich auch schon mal erwähnt, dass es halt keinen Null für Integer gibt und so. Also mit Missing Values ist halt schwer bei NumPy Arrays. Und ja, es gibt dann auch diverse andere Probleme.

Und ja, das klingt eigentlich super interessant und ich glaube, das ist halt auch so ein bisschen der Weg in die Zukunft, weil dieser ganze Business Intelligence Bereich, also ich habe oft irgendwie mit so Business Intelligence Abteilungen auch zu tun gehabt, in denen dann so, an die wurde dann immer so Data Science und Machine Learning irgendwie so angedockt.

Also das ist halt, Business Intelligence ist etwas, was halt große Firmen halt schon lange haben, aber die machen halt sowas wie, ja, also einmal die Leute, die dann Dinge da machen, sind halt so Analysten, oft super schlaue Leute, aber ich überlege gerade, wie man ein Beispiel nehmen kann.

sagen wir mal so, was die halt tun können.

Nehmen wir an, du bist Walmart und

du interessierst dich jetzt dafür,

keine Ahnung, weißt jetzt,

es kommt eine Flut, die irgendwie

deine Stadt überschwemmen wird und

dann, was werden

die Leute dann kaufen?

Für was musst du irgendwie vorsorgen?

Und bei einem klassischen BI-Ansatz

wäre halt, du guckst dir halt die Icons an,

wo Städte überflutet worden sind, da gibt es nicht so viele.

Substrahierst

da halt irgendwie so, kriegst dir das halt eine Woche

vorher, später an

und überlegst dir dann halt irgendwas und das machst du

dann. Und dann machst du irgendwie

gewisse Voraussagen und sagst so, das könnte ungefähr so und so

aussehen. Das ist halt das, was passiert

und das ist halt auch das, was heute noch in BI-Abteilungen

hauptsächlich passiert, dass die Leute halt irgendwie so

historische Daten angucken und dann so überlegen, so

ich denke,

das wird alles so in Zukunft

eher Richtung Data Science laufen.

Damit meine ich, dass

solche Antworten kommen halt dann

eher von Systemen, die

Vorhersagen machen.

Und die werden das deutlich

besser können.

Und die werden das halt auch,

also ein Großteil dieser Analysegeschichte

wird man halt automatisieren können.

Und das Problem momentan ist halt

so ein bisschen, dass die

Tools, die man hat, nicht zueinander passen.

Zu dem, die

so Hadoop-Welt

passt eigentlich eher so zu dem klassischen

BI-Ansatz.

Äh, und auch, was auch bei diesem BI-Ansatz ein Problem ist, ist halt, dass man das nicht wirklich wieder zurück in Produkte übersetzen kann, also das sind auch oft Leute, nicht, nicht unbedingt Leute, die halt dann Produkte bauen können, die halt entwickeln können oder Services bauen können, auch mit diesem ganzen, wie baut man Dinge, wie, wie, wie macht man Produktentwicklung, ja, nicht so, das ist nicht so was, was natürlich für die ist, sondern das ist halt eher so etwas, was sie dann halt auch machen müssen vielleicht, aber wo sie sich halt auch nicht so gut bei fühlen.

Das aber halt absolut erforderlich ist, weil viele von den Sachen sollen ja dann automatisch auch Dinge tatsächlich tun. Ja, so viele Ergebnisse, die dann halt automatisch generiert werden, sollen halt nicht dazu führen, dass es halt irgendwie eine nette Präsentation irgendwie an einen Management-Layer gibt oder so, sondern du willst halt, dass dann da tatsächlich Entscheidungen auch rausfallen, die irgendwas auf deiner Webseite verändern oder die irgendwelche Dinge tun.

und dann musst du halt Software

entwickeln eigentlich, dann bist du halt so Teil

der Produktentwicklung

und ja, das geht halt auch nicht so

richtig gut und was da ein bisschen fehlt

ist halt so ein

ist halt

etwas, was halt Daten

in Array-Form im Hauptspeicher hält

und das macht Apache Arrow

und deswegen finde ich das Projekt so super interessant

es gibt dann noch SideDB

oder sowas

glaube ich, die auch sowas ähnliches machen, aber da geht's

irgendwie hin. Und

ja, es geht Richtung Streaming.

Spark macht ja auch ganz viel mit Streaming.

Wobei mich natürlich besonders interessiert

PySpark, weil Python und so.

Haben wir da noch irgendwann?

Ich wollte gerade sagen, wir haben jetzt ganz, ganz

lange schon, also fast drei Stunden

schon über die ganzen Daten gesagt. Man merkt ja,

Jochen ist ja sehr tief drin.

Das ist auch ein super breites Thema.

Haben wir tatsächlich die meisten Sachen

schon jetzt durch? Oder hast du noch was, was du unbedingt

da zu dem Thema beteiligst? Genau, genau, genau.

Ja, ach so, ah, und genau,

wenn man jetzt nochmal zurückkommt zu dem E-Commerce-Ding,

das war jetzt so eine Exkurs Richtung Big Data.

Ja, also wenn wir ganz groß sind,

immer so ein Maß oder so.

Ja, also das hatten wir auch vorher schon mal

kurz angeklärt, also

relationeller Datenbanken oder so, diese Art,

Daten umzugehen, ist halt besonders gut dann,

wenn es Daten über Sachen sind, die nicht

Daten sind. Also physikalische

Sachen, die sich nicht so schnell ändern,

bei denen es Sinn macht, ein festes

Schema zu definieren, dass dann halt auch über längere Zeit

mehr oder weniger gleich bleiben kann. Man kann natürlich Sachen ändern,

aber Dinge grundsätzlich ändern

ist dann schwierig.

das ist jetzt tatsächlich die Zukunft.

Es ist auch nicht so richtig sinnvoll, diese Amazon-Geschichte

also heute Amazon zu bauen,

ist viel, viel einfacher natürlich. Also ich meine,

das hört sich so an, als wäre es total einfach, Amazon

zu werden. Das ist es

nicht.

Es war auch zu der Zeit, als Amazon

geworden ist, war es viel schwieriger, weil da gab

es halt keine Tools. So was wie Postgres

gab es, aber es war

nicht in dem

Zustand wie heute.

Es wäre nicht nutzbar gewesen.

Also es gab damals,

ich weiß nicht wann die angefangen haben, Anfang der 90er

oder, also Amazon hat sehr, sehr früh angefangen,

Mitte der 90er, ich weiß nicht genau.

Da gab es halt nichts.

Die mussten alles selber bauen. Das ist natürlich

nochmal ein ganz anderes Problem.

Während heute man wahrscheinlich mit Postgres,

Django, Redis

und ein paar Rechnern wahrscheinlich einen Markt

wie Deutschland mit so einer ähnlichen

Seite wie Amazon versorgen könnte.

ging halt damals nicht und

das macht es heute einem natürlich

vielleicht, aber heute ist halt das Problem, es gibt Amazon schon,

man muss mit Amazon konkurrieren und

leider hat man da keine Chance.

Deswegen funktioniert das auch nicht.

Aber was natürlich interessant möglicherweise

ist, ist sich zu überlegen,

okay, was kann Amazon denn mit dem, was sie

tun, nicht machen und wo entwickelt sich das

halt in Zukunft hin.

Ich habe das auch schon wieder 10 Jahre her,

unglaublich, oder noch mehr als 10 Jahre sogar.

Mein Vortrag gehört

von David Weinberger,

der ist ein Philosoph,

hat sich auch viel mit Internetgeschichten

beschäftigt in Harvard.

Kann man mal gucken, ich packe ja auch noch

in die Shownotes.

Der Vortrag heißt

Everything's Miscellaneous.

Da gibt es auch ein Buch zu.

Der Talk bei Google ist halt

eine Vorstellung von dem Buchinhalt,

Oder weniger, wo er darüber spricht, dass wir jetzt so in der Zeit von Internet und Computern sich ja Dinge komplett verschieben im Grunde.

Und wir das aber noch gar nicht so richtig antizipiert haben.

Sein Beispiel ist halt auch E-Commerce und halt auch so Faceted Navigation.

Und er sagt halt, naja, also in so einem klassischen Laden, wenn du da reingehst, muss man sich überlegen.

wo man welche Dinge hinpackt, ja, also

physikalische Objekte nur an einem Ort gleichzeitig sein

können oder

überhaupt irgendwo sein müssen, muss man halt

irgendwie das so strukturieren, dass das der Fall ist

und dann muss man sich überlegen, okay, wie macht das für die meisten Leute

Sinn, wenn sie reinkommen, ist immer der

Salat irgendwie vorne rechts oder keine Ahnung

und das muss man eigentlich,

wenn man jetzt Daten über Daten

hat, gar nicht mehr so

machen, man könnte das irgendwie so slicing und

dicing, wie man wollte, also man könnte halt sagen,

okay, ich bin jemand, der nur schwarze T-Shirts anzieht,

also alles andere interessiert mich nicht.

Ich brauche jetzt eine Navigation innerhalb dieser schwarzen T-Shirts,

aber alle anderen Sachen kann ich schon mal so irgendwie wegschneiden.

Das würde für alle anderen vielleicht keinen Sinn machen

oder für andere Leute, jeder hat vielleicht andere Arten.

Aber ich kann jetzt eine Seite bauen,

die auf die Bedürfnisse von jedem im Grunde zugeschnitten ist

oder sich leicht so an...

Die eigene Filter-Bubble immer erzeugt für den jeweiligen...

Genau, weil elektronisch habe ich das Problem nicht.

ich kann für jeden

eine eigene Art von Laden

erzeugen

oder eine eigene Art von Navigation

bauen. Nur wenn ich denjenigen

kenne natürlich. Natürlich.

Oder wenn er es mir halt irgendwie sagt, indem ich

ein Interface habe, wo man das halt irgendwie einstellen könnte.

das wird kaum gemacht. Es gibt halt meistens

doch wieder einen Kategorienbaum, der

halt irgendwie

Kategorienbaum auf einer Seite ist ja im Grunde

sowas wie ein

Weg durch den Laden, der halt vorgegeben ist.

Warum muss das denn so sein? Das muss

ja eigentlich, also wir adaptieren da

eine Sichtweise aus der

physischen Welt, die

vielleicht insofern hilfreich ist, weil

die Leute kennen das so. Ja genau, die kennen das so, ja.

Insofern macht das auch durchaus Sinn, das so zu tun,

aber es müsste eigentlich nicht so sein und vielleicht

wäre es, wenn man das anders machen würde, halt viel effizienter

genau. Das ist Raum für ein Startup da

übrigens gerade. Ja, das Problem ist halt nur,

also ich fand das ja schon vor über 10 Jahren

interessant, aber

in der Richtung hat sich noch nicht so wirklich

wahnsinnig viel getan. Insofern bin ich mir nicht

sicher, ob das eine gute Idee ist. Also damals war es auch, wenn wir

zurückblicken, kann man jetzt sagen, damals ein Startup in die

Richtung zu starten, wäre keine gute Idee gewesen.

Vielleicht wäre es jetzt eine gute Idee.

Vielleicht ist es aber erst in fünf Jahren eine gute Idee.

Keine Ahnung, wann der Zeitpunkt

richtig ist. Keine Ahnung.

Man braucht ein Gespür für. Und wenn man das Gespür hat

und dann an der richtigen Stelle ist, dann ja.

Braucht man nur noch ein bisschen Geld

und Geduld.

Aber genau der

Punkt, auf den ich eigentlich hinaus will, ist,

was ist eigentlich, Amazon hat das gleiche

Interface für alle Arten von Dingen, die sie verkaufen.

Sie haben am Anfang mit Büchern angefangen,

weil bei Büchern das Problem,

weil sie da einen ganz klaren

Vorteil gegenüber den anderen

Verkäufern... Du möchtest ein Framing bauen

für den jeweiligen Kunden.

Ich möchte halt zum Beispiel einfach nur so

in die Richtung gehen,

muss die Navigation immer gleich aussehen?

Das eigene Holodeck. Also manchmal geht man

im Mittelalterladen einkaufen, mal im Cyberstore.

Genau, je nachdem, was man

verkaufen möchte. Amazon

macht jetzt nicht nur Bücher, sondern mittlerweile

machen sie, Bücher ist jetzt wahrscheinlich

gar kein großer Anteil mehr an ihrem Geschäft.

Sie verkaufen viel Elektronik und das sieht

man der Seite halt auch an. Also vieles von

der Navigation ist darauf optimiert, dass ich halt

irgendwie so Elektronik, weiße Ware

irgendwie kaufen kann. So ein bisschen wie Ambilight beim

Fernseher.

Ja, aber halt inhaltlich.

Das liegt halt vor allen Dingen, dass die Navigation so aussieht, wie sie

aussieht, liegt halt am Datenbankschema.

Weil das lässt halt gar

nicht zu, dass ich irgendwie was großartig anderes baue, weil

das ist halt mehr oder weniger fix.

Jetzt ist es natürlich schon so, dass

unterschiedliche Dinge, also Fahrräder haben halt

bestimmte, das kann ich schon irgendwie, da kann ich

ein Schema bauen, das das irgendwie modelliert, oder Bücher

oder Waschmaschinen.

Aber die Daten über die

Daten, die kann ich natürlich irgendwie

beliebig modellieren.

Da könnte ich auch beliebige Navigationen draufbauen.

Und ich könnte auch, also wenn ich jetzt,

also der Witz ist, was ich

eigentlich eventuell gerne hätte,

Und wenn jetzt ein Produktmanager, der für die Kategorie Fahrräder oder sowas zuständig ist, auf eine super Idee kommt, wie man das Navigieren macht und die Leute zufriedener zu den Fahrrädern, die sie haben wollen, führen kann, dann müsste er ja die Navigation umstellen können.

dafür müsste er das Schema ändern können.

Das heißt, er müsste das Schema live

irgendwie ändern können. Was in relationalen Daten,

das kannst du vergessen. Also du kannst,

ich meine, du musst eine Migration machen, du musst halt

irgendwie,

das kannst du alles, das kannst du komplett, also

sagen wir mal so, es geht technisch, aber das ist auf jeden Fall

Entwicklerarbeit. Das ist halt nicht etwas, was irgendjemand,

der auf einer Webseite irgendwas einstellt,

irgendwie, das geht halt

eher nicht.

Aber, wenn man jetzt

sich von diesem relationalen

Paradigmen so ein bisschen löst und sagt,

okay, ja, dann ginge das eventuell

schon. Also im Grunde, wenn man

jetzt nicht Daten über physikalische

Objekte hat, sondern Daten über Daten und

eine Datenbank, die halt

nicht mehr so

Fixschema, nicht so ein Fixschema

hat, dann könnte man eventuell das so machen, dass man

die Seite

live so ändert, wie sie

halt eventuell mehr Sinn macht. Und vielleicht

könnten das auch die User tun, keine Ahnung. Es ist halt nur so,

es ist halt so eine Idee. Es ist halt einfach so eine Idee,

wie geht es jetzt eigentlich weiter?

Ich meine, Amazon ist im Grunde mehr oder weniger fertig,

Wir haben Amazon nachgebaut und wir hatten auch das Problem, dass unsere Navigation, egal ob das jetzt Fahrräder, Waschmaschinen oder sonst irgendwas ist, würde halt genau gleich aussehen oder Mode.

Und da könnten wir im Grunde nichts machen, weil das Schema halt für Angebote halt immer gleich sein muss, weil die sind ja alle in einem Datenbankschirm.

Genau, aber das könnte halt irgendwie wie etwas anders aussehen.

Und was halt da sehr interessant sein könnte,

sind halt Grafendatenbanken zum Beispiel.

Wo man halt eben nicht,

ich hatte das ja auch am Anfang schon mal erwähnt,

es hätten sich auch Grafendatenbanken durchsetzen können.

Das ist überhaupt nicht so klar, warum das relational geworden sind.

Gut, die Grafendatenbanken waren ein bisschen später dran,

aber ja, und da gibt es zum Beispiel auch ein super interessantes Projekt,

nennt sich D-Graph.

D-Graph.

das ist ein Ex-Mitarbeiter von Google

ja, der hat sich

der hat sich irgendwie getroffen

Google-Beschäftige und dann halt auch

überlegt, was sind denn jetzt die Sachen, die man

heutzutage, die Probleme, die man hat, also es muss halt irgendwie so

es muss halt, Brides müssen

halt auch

man darf nicht nur einen Master haben, es muss halt irgendwie skalierbar

sein, es muss halt

irgendwie schnell sein und

der hat, das hat letztes Mal

als wir über Skalierbarkeit und so, ich glaube, das war in der

ersten Folge oder so, geredet haben, habe ich auch gesagt,

Go wäre eventuell ein guter Kandidat, um

da drin eine Datenbank zu schreiben. Also Python

halt nicht so. Das ist halt eines der

wenigen Anwendungsfälle,

wo ich sagen würde, gut, dafür ist Python nicht so gut geeignet,

weil, also Python ist gut geeignet, wenn

man IOMultiplexen muss, also man

macht einfach nur viel Netzwerk in alle möglichen Richtungen.

Das geht, da braucht man gar nicht unter Umständen

viel CPU für, also solange man nicht viel

CPU dafür braucht. Oder

es ist gut dafür geeignet, wenn man viel CPU braucht,

aber nicht so viel

Concurrency hat, wenn man beides hat,

man hat viel Concurrency und viel CPU,

die das braucht, dann ist es halt eher scheiße,

weil dann erwischt einen halt

dieser Global Interpreter-Log und

da stößt man an so

prinzipielle Grenzen,

Skalierbarkeit angeht bei Python,

aber ich würde sagen, naja, nicht so schlimm,

ist eigentlich ganz gut, weil

diesen Anwendungsfall haben die wenigsten Programmierer

und ein Beispiel war

halt, ja, Datenmarken sind eventuell

so etwas, was halt genau

diese Anforderungen hat und was man dann in Python vielleicht

dann doch nicht so gut schreiben könnte.

Und ja, tatsächlich,

dgraph ist in Go

geschrieben und

ja, mit Grafen

könnte man das halt tun. Da kann man halt

das Schema ändern, live,

ohne dass man irgendwie

da so, weil man kann halt beliebige Beziehungen

ziehen, beliebige Kanten.

Man muss nicht unbedingt

sozusagen alles in dieser

Tabellen, man hat ja nicht mehr unbedingt diese Tabellenstruktur.

und ja, das ist halt schon

ziemlich interessant, auch wenn man

es gibt ja nochmal bei den grafischen Datenmarken

sowieso Unterschiede, es gibt auch diese ganzen

ADF-Geschichten, da ist es aber so, dass

die das nicht

so optimiert irgendwie auf der Platte

speichern, also das ist halt eher so

ein Textformat

es gibt ja auch Mikroformate auf Webseiten, wo man das benutzen kann

wo man irgendwelche

halt Metadaten

über die Seite irgendwie hinterlegen kann

ist bei uns auch eine vielleicht nicht so doofe

Geschichte, gerade was Google angeht, Mikroformate.

Dann kann halt

Google automatisch eine ganze Menge Informationen

aus der Seite ziehen, ohne dass sie das

halt irgendwie raten müssen.

Das geht auch schon alles so ein bisschen

in Richtung Semantik-Web.

Aber das Problem dabei

ist, es ist halt nicht optimiert

und für Graphenabfragen auch nicht optimiert.

Daher wird es halt alles immer ziemlich langsam

sein. Und es gibt halt Graphendatenbanken,

die das halt so optimiert speichern.

Dazu gehört Dgraph auf jeden Fall,

die älteste und weitestverwaltete

Datenbank Neo4j

macht das auch so,

aber Neo4j ist

halt auch, das ist halt Java,

kann ja schon mal nicht gut sein,

aber es ist halt auch viel langsamer, muss man

sagen, als die gemacht, und es ist halt auch, es hat

eine komische Abfragesprache,

Cypher heißt die irgendwie,

ja, und

naja, und ob das alles

so, also ist auch Asset und so,

das ist alles nicht so,

es geht in die Richtung, aber es ist nicht so toll,

irgendwie und bei D-Graph sieht das alles

viel besser aus. Und was auch

super cool ist bei D-Graph, das ist die Abfragesprache, die nehmen einfach

GraphQL oder

Dialekt davon und das ist natürlich auch nochmal sehr

interessant, weil GraphQL ist natürlich auch momentan

ein sehr heißes Thema.

Ja, und

möglicherweise, wenn man jetzt

ein neues Amazon bauen würde,

würde man damit anfangen, würde man

jetzt das vielleicht nicht auf einer relationalen

Datenbank aufsetzen, sondern auf sowas wie D-Graph.

Und dann könnte man

das so bauen, dass sich die

Navigation, je nachdem, was

man da einkauft, halt ändern lässt, auch

Und es ist ja trotzdem schnell.

Und ja,

und das

wäre so ein bisschen, dann könnte die Reise irgendwie

gehen. Ich habe keine Ahnung, ob das

passieren wird, aber. Ja, let's go.

Ja, genau. Und dann

auch, was auch interessant ist, ist halt noch,

dass man irgendwie durchaus

so hybride Formen

haben kann zwischen Dokument-basiert

oder Schema-less

oder nur SQL

und nur NoSQL, das heißt entweder

steht für Not-Only-SQL

oder eben

kein SQL.

in Postgres hat man zum Beispiel die Möglichkeit, das

ein bisschen zu kombinieren. Da gibt es halt

ein sehr schönes

sehr schönen Spalten-Typ

nennt sich

BinaryJSON.

Also man muss aufpassen, JSON gibt es auch,

ist aber nur so aus Legacy-Gründen noch dabei.

Den nicht nehmen,

der ist alt

und nicht so gut.

Aber BinaryJSON ist super,

da kann man auch Indizes auf

Felder innerhalb von dem JSON machen. Das heißt, man kann

halt die Teile, bei denen man sich nicht sicher ist, wie das

Schema dafür eigentlich aussehen wird oder die man, wo man

sozusagen die Definition des Schemas in die Applikation

verlagern möchte, also wo dann ein

Applikationsentwickler sagen kann, okay,

an der Stelle speichere ich die Daten jetzt so und so,

ja, ich möchte aber gar nicht die Datenbank verändern,

dann kann er das, wenn er das

in eine Spalte schreibt, die halt Binary JSON ist,

einfach so reinschreiben, er kann sogar Sachen

darin indizieren und so, und

das ist halt sackschnell,

das ist ähnlich schnell wie MongoDB,

MongoDB macht ja, MongoDB ist

mehr oder weniger nur diese

B-JSON-Spalte

aus Postgres.

Das ist halt mehr oder weniger das Gleiche.

Das heißt, ich kann das, was ich mit MongoDB mache,

auch in einer solchen Spalte in Postgres machen.

Ja gut, MongoDB ist vielleicht noch ein bisschen schneller,

hat noch ein paar andere Funktionen,

aber ich glaube nicht,

dass viele Leute tatsächlich was anderes brauchen würden.

Ich kann aber auf der anderen Seite bei den Sachen,

bei denen ich weiß,

also es gibt ja so etablierte Geschichten,

da ist schon klar, wie das funktioniert.

Userverwaltung, wenn ich eine Webseite habe,

so wenn sich User anmelden,

das ist alles relational, das ist auch etabliert,

Da wird sich jetzt auch nicht so viel dran ändern.

Und dann für die Teile der Applikation, wo ich mir halt nicht sicher bin,

wo ich nicht weiß, in welche Richtung das geht,

schreibe ich das halt als JSON, irgendwelche Spalten da.

Und wenn das dann halt klar geworden ist, wie das Schema da aussieht,

dann ziehe ich das dann auch Stück für Stück in ein relationales Schema.

Sodass ich halt dann Vorteile aus beiden Welten habe.

Und ich würde sagen, das ist halt momentan auch so ein relativ unschlagbares Feature

von Postgres gegenüber den meisten anderen Datenbanken,

dass man das halt so flexibel miteinander kombinieren

kann, weil wenn ich MongoDB habe, habe ich ja das Problem,

okay, also relational und

konsistent und sicher und so, das geht

halt alles nicht so richtig gut. Ich habe halt nur

dieses Ding,

wo ich halt meine, ich kann zwar auch ein

Schema definieren oder so, aber

ja, das

ist alles nicht so weit wie bei Postgres.

also genau, das wollte ich auch noch erwähnt haben, dass das halt

eine schöne Geschichte ist

an Postgres.

Ja, ich glaube, langsam haben wir es, ne?

Und so langsam sind wir dann eigentlich im Grunde...

Ich habe ja wirklich viel durchgehalten heute, also über drei Stunden, das war schon die Mammut-Folge hier jetzt, also...

Okay, ja, aber ich bin mal auch gespannt, wie das so ankommt, weil das ist ja jetzt immer so ein bisschen...

Ist ja jetzt nicht so Einsteiger oder so, sondern das ist einfach mal so komplett durch...

Ich habe möglicherweise auch eine Menge Unsinn erzählt, das kann leider auch sein, weil das ist halt auch so...

Man kann sich ja irgendwann die Folge nochmal anhören, wenn man so ein bisschen weiter ist in dem Thema und dann vielleicht merkt man so,

hey, wow, ja, da sind einige interessante Gedanken drin, wie sich das so verändert im Laufe der Zeit.

Ja, ach so, PIX, genau.

Hast du, du machst, was machst du mit Datenbanken oder welche Sachen?

Ich bin da gerade am Anfang, ich nehme erstmal so ein bisschen SQLite oder sowas, das ist ganz super, das ist ja direkt dabei und da kann man direkt loslegen und seine ersten Datenbanken ein bisschen füttern.

Wird für den Einstieg auch gar nicht so schlecht, dann kann man erstmal ein paar SQL-Skates mit sehen und vielleicht mit SQL-Alchemy das machen und dann.

Das ist auch interessant, ich glaube SQLite ist eine der Software, die mit am weitesten, die weiteste Deploy-Basis hat irgendwie so.

Ich glaube, es konkurriert noch mit Curl oder so.

Das wird auch fast überall

mit drin. Aber ich glaube, SQLite

ist auch ein Kandidat für das. Das ist fast überall drin.

Das ist auch

CoreData, das ist der

Datenabstraktionslayer von iOS.

Da ist auch SQLite drunter.

Das ist in fast allen Browsern drin.

Das heißt, wenn man einen Browser hat, hat man SQLite.

Wenn man irgendwie, das ist auf einer

Apple Watch, ist eine SQLite-Datenbank

und zählt die Schritte. Das ist echt total krass.

Also skaliert von

einer kleinen Uhr zu

ich glaube momentan das theoretische

Limit für SQLite sind irgendwie

Terabyte oder sowas.

Kriegt man

schwer voll. Ja, und es gibt

glaube ich große SQLite-Datenbanken

tatsächlich da draußen. Also

das ist ein super interessantes Projekt und

ja, auch ich glaube, es wurde

mal vorgeschlagen, für Langzeitarchivierung

das SQLite-Format zu nehmen, weil es halt so

irgendeiner Bibliothek

ach, weil es halt auch

sich seit Jahren nicht mehr

geändert hat, das ist relativ schnell und

ja, SQLite, super cooles Projekt

im Zusammenhang habe ich, ist auch einer von

meinen Pics, was man sich vielleicht mal

angucken kann, ist ein Projekt namens

Datasette.

Datasette, die Kassette, also zum Aufrollen noch.

So wie, genau, und

und zwar geht es darum, dass halt für so

Datenjournalismus, es geht darum, dass man

Datensätze, die irgendwo veröffentlicht

wurden, wie man die jetzt navigierbar

macht für Leute, die jetzt nicht

das in eine Datenbank importieren wollen

und dann selber Statements schreiben

und das macht das halt

und man kann halt CSVs nehmen, die da reinwerfen

und dann kriegt man halt so auch ein Interface mit

Faceted Navigation, mit Volltextsuche, weil

SQLite kann halt Volltextsuche

und man kann sogar SQL-Statements

reinschreiben, man kann aber auch das irgendwie über eine Webseite

navigieren, das ist ziemlich cool

ja, das wollte ich auf jeden Fall mal

erwähnt haben, das kann man sich mal

anschauen, es gibt dann da so Teile

von, wo man auch CSVs automatisch

in SQLite-Datenbanken umwandeln kann.

Auch interessant, dass man da so frei SQL-Statements

irgendwie eingeben kann. Das geht ja auch kaum.

Das geht halt deswegen, weil man bei SQLite

auch sagen kann, oh, das ist jetzt ein Read-Only-Datenbank.

Und dann kann man halt mit Statements

nichts mehr kaputt machen.

Ja, das ist

halt ein sehr schönes

Projekt.

Genau. Auch wie man

auf Datenbanken von Patent aus zugreift.

Es gibt so

PG als

asynchroner Datenbank

Client für Python.

Das wird noch sehr interessant, also das ist momentan

noch ein Problem. Also PsychoPG

ist halt so der

Standard Postgres Datenbank

Client für Python und der kann aber nur

Textprotokoll und nicht Binary.

Ist halt schon relativ schnell, aber

es geht halt mit dem Binärprotokoll halt noch

schneller und er ist halt nicht asynchron.

Also was halt ein Problem ist, wenn man jetzt zum Beispiel

bei Postgres, macht man jetzt

Volltext-Suche und Navigation

auf einer Webseite, dann hat man,

wenn man das mit Django macht, Django ist auch synchron,

macht man halt einmal

und hat jetzt Facet Navigation,

das heißt, man muss halt an den Facetten,

das heißt Tags oder Kategorien oder

irgendwelchen anderen

Monaten oder was auch immer man halt

navigierbar halten will,

schreibt man jetzt noch so Counts dran oder man muss halt

überhaupt wissen, was hat ein Count von größer 0, damit man

diese Facette anzeigt oder nicht anzeigt.

Das sind halt zwei unterschiedliche Statements. Man kriegt

einmal die Suchergebnisse und dann macht man nochmal ein

Statement, um die Counts zu holen und

meistens hat man aber nicht nur diese zwei, sondern noch

ein paar mehr und das ist halt jedes Mal ein Datenbank

Roundtrip, das ist jedes Mal, dauert das

irgendwie ein paar Millisekunden, also

bei den Suchanfragen, bei den Counts dauert es sogar so

30, 40 Millisekunden, sodass man halt

bei so einer normalen Navigation

auf einer Seite

wahrscheinlich schon so 150 Millisekunden

nur SQL-Anfragen hat und

dann ist man schon bei, wenn dann das Template

gerendert wird, ist man leicht bei 400, 500 Millisekunden

und das ist halt dann schon relativ lang, das ist

schon viel für eine Webseite, eigentlich ein bisschen

zu viel und man könnte es leicht

deutlich drücken, wenn jetzt diese

Statements, die ja nicht voneinander abhängen,

sondern die man auch parallel abfeuern könnte,

tatsächlich parallel an die Datenbank gestellt

würden und dann

hat man nur noch, ist die Latenz

oder die Zeit, die man

braucht, um SQL-Abfragen zu machen

in dem Webfrontend, ist halt

dauert nur noch so lange wie das längste Statement

und alle anderen Sachen sind halt vorher da und das würde halt

wahrscheinlich bedeuten, dass dann ist man runter auf 50

Millisekunden oder so, dann haben wir 100 Millisekunden gespart.

Das wäre ziemlich cool. Aber dafür

müsste halt Django asynchron sein, dafür müsste

man halt irgendwie

AsyncPG verwenden statt

PsychoPG und

das wird alles noch ein bisschen dauern. Wahrscheinlich Jahre,

fürchte ich. Ist auch so, dass

der Autor von Django Channels,

das ist diese Geschichte mit den

WebSockets,

dass man halt bidirektionale

Kommunikation zwischen Client und Server hat

bei Web-Anwendungen.

Und der hat jetzt dieses Projekt so ein bisschen aufgegeben oder ist nicht mehr Maintainer davon.

Und das, was man jetzt macht, ist jetzt, der versucht Django Async fähig zu machen.

Bin mal gespannt, wie das wird.

Das war ja auch in der Django-Folge, hatten wir das ja irgendwie kurz,

ob das vielleicht eventuell eine Richtung wäre, in die sich Django entwickeln könnte.

Und ja, sieht danach aus, so ein bisschen, als ob das kommen würde.

Und damit sind wir im Grunde durch.

Sind wir durch mit einer Mammut-Folge.

Wenn ihr es bis hierhin geschafft habt, also gut ab.

Ich würde jetzt einiges mehr über Daten backen,

dass man damit alles anstrengen kann.

Ja, schöne Sache.

Ja, und dann...

Super, dass ihr dabei wart.

Genau.

Und ja, wo ihr immer hier seid,

schönen Tag und so weiter.

Wenn ihr Fragen habt,

hallo.at.peisenpodcast.de

Ja, super.

Ja, dann bis zur nächsten Folge.

Ja, bis dahin.

Tschüss.