Transcript: Suchmaschinen

25. Februar 2020 · Back to episode

Full episode transcript. Timestamps refer to the audio playback.

Ja, hallo liebe Hörerinnen und Hörer, willkommen zum Python-Podcast in der heute 18. Episode.

Heute geht es um die Suche. Hier ist der Dominik und neben mir ist der Jochen.

Ja, hallihallo.

Grüß euch.

Wir sind wieder auf der Raumschiffbrücke heute.

Genau.

Erneut. Schön hier.

Ja, genau, Volltextsuche, um es genau zu sagen.

Ja, ah oh, Volltextsuche, ja.

Ja, aber wollen wir das eigentlich, oder ich meine, wir können einfach ganz normal starten, so mit News und Dings, ne?

Ja, ja, genau, ich würde auch sagen, wir machen jetzt wie immer unsere kleine Einleitung.

Vielen Dank an unsere zahlreichen Hörer.

Wir haben tatsächlich mittlerweile einige Millionen und dann die schönen Fragen, die uns immer erreichen.

Wir beantworten die immer gerne und versuchen immer, euch so schön wie möglich das zu erklären, was ihr gerne hören möchtet.

Also, wenn ihr Fragen habt, Lob, Anregungen, Kommentare, hallo at pythonpodcast.de,

schickt uns einfach eine Mail.

Oder kommentiert fleißig auf unserer Seite.

Ja, News aus der Szene.

Heute ist der Erscheinungstag von Python 3.8.2.

Ja, ist noch nicht raus.

Ist aber noch nicht da.

Ist noch nicht raus.

Wir haben gerade abends, es ist dunkel.

Genau.

Heute ist Rosenmontag übrigens auch.

Ja, ja, und das wird hier wahrscheinlich auch noch eine sehr jacke Veranstaltung.

Wir sind unbezahlt nach Hause gekommen, ja.

Ne, ich war heute heute eine der wenigen Leute, die irgendwie im Büro saßen und so.

Es war sehr angenehm, wir haben ein bisschen was geschafft gekriegt.

Ja, und da da eben, wenn du auf die Straße gehst und so aussiehst, wärst du schon verkleidet,

ist das auch gar nicht groß aufgefallen.

Ja, ja, ja.

Horror-Clown.

Kann ich empfehlen.

Sehr gut.

Ja, wir machen heute Volltext-Suche.

Und ja, News aus der Szene, ist dir noch was eingefallen?

Hatten wir noch was Schönes?

Tatsächlich glaube ich eigentlich nicht.

War gar nicht so viel los, ne?

Ja, war nicht so viel los.

Gehst du hin zur Euro-Pheisen?

Ja, ja, ja.

Ja, schön, cool.

Wir müssen uns nur noch irgendwie mit Kindergarten und so erklären.

Ah, ja.

Wir machen ja auch irgendwie Betriebsferien und so, aber eigentlich schon, ja.

Ja, sonst musst du alleine.

Ich habe mir schon eine Wohnung organisiert.

Also, falls noch jemand eine WG sucht oder sowas, sag mir Bescheid.

Ja, was gab es noch?

Es gab so einen tollen Tweet, hast du gesagt, von Armin Ronacher.

Das ist der Haupt-Dev, der Entwickler von Flach.

Ja, aber das wollte ich eigentlich später erst picken.

Ach, das wolltest du picken?

Ach, das ist ein Modul.

Ich dachte, wir picken Module, Jochen.

Ja, heute nicht.

Oh Gott, jetzt hat es dich ernannt.

Ja, okay, dann picken wir keine Module.

Dann machen wir das am Ende.

Ja, aber was wir tun könnten, wäre, wir könnten ja heute mal mit dieser Tradition,

die wir jetzt schon seit einigen Episoden starten wollten, tatsächlich vielleicht mal

anfangen und ein Modul aus der Standard-Bibliothek uns vornehmen.

Ja, gute Idee.

Und das nehmen wir Parslip.

Parslip, ja.

Genau.

Das immer wieder, wenn ich...

Wenn ich halt irgendwie in Code herumnavigiere und sehe dann irgendwo so Import, ja, OS und

dann halt OS-Pars und so und dann machen Leute dann Dinge, dann denke ich mir, ach, es geht

zu viel schöner mit Parslip.

Also vielleicht nochmal kurz, was Parslip ist.

Parslip ist ein Wrapper oder ist das eine komplett neue Implementierung?

Das ist ein Modul aus der Standard-Bibliothek.

Ich weiß jetzt gar nicht...

Über OS-Pars.

Nee, das ist kein Wrapper um OS-Pars.

Nee, nee.

Das ist halt auch so ein bisschen...

Manchmal ist es so ein bisschen unübersichtlich.

Es gibt einige Module in der Standard-Bibliothek.

Die halt so ein bisschen das Gleiche machen.

Unter anderem halt eben OS-Pars und dann Shell-Utils, also SH-Util.

Macht auch so ein bisschen das Gleiche, aber so ein bisschen eine andere Regenschmacksrichtung.

Parslip macht ja jetzt auch nochmal das Gleiche, aber auch wieder ein bisschen anders.

Ach ja.

Aber im Grunde denke ich, wenn man jetzt mit Pfaden irgendwie Dinge macht, dann ist Parslip

das, was man eigentlich haben will.

Und das ist auch so richtig...

Ich glaube, das ist auch jetzt seit Python 3, 4 oder so drin.

Und auch...

Aber auch erst seit 3.6 so richtig schön.

Oder 3.7 sind auch nochmal interessante Dinge dazugekommen.

Glaube ich ist Mounts dazugekommen in 3.7.

Also nur in aktuelleren 3.

Python 3 Versionen.

Also man kann halt relativ schick irgendwelche Strings zu Verzeichnisnamen oder Dateinamen

parsen und dann da Pfade, Pfadobjekte draus erstellen und dann einfach mit einem Slash

dahinter dann Unterverzeichnisse wechseln oder iterieren über so Pfade und die ganzen

schönen...

Listen anzeigen oder Content anzeigen, gucken, ist es ein Verzeichnis, ist es kein Verzeichnis,

ist es eine Datei.

Ja, genau.

Das Hauptfeature finde ich, dass man damit halt relativ einfach Pfade so hinschreiben

kann, ohne jetzt irgendwie viel Boilerplate-Code außenrum schreiben zu müssen, wenn man jetzt

aus Parse joinen und dann die Liste, das ist halt immer so ein bisschen...

Und jetzt kann man halt einfach, man schreibt halt ein Slash und dann macht dieser Operator

sozusagen eine Verkettung der Namen, die man da...

Ja, das kann man aus dem Dateisystem eigentlich auch kennen.

Ja, genau.

Genau.

Dann sieht das halt im Code fast genauso aus, als würde man es auf die Shell schreiben.

Und das ist natürlich schon deutlich kompakter und sieht einfach, ja, man sieht, was passiert.

Das ist ein tolles Ding, aber halt auch solche Sachen wie so Convenience-Funktionen für Sachen,

die man halt dauernd braucht.

Also sowas wie, ich brauche jetzt ja irgendwie mal den Versionen des Dateinamens ohne Endung,

also ohne irgendwie MP4 hinten dran oder MP3.

Oder auch mit, das geht auch.

Oder mit oder nur das Suffix oder so.

Solche, solche Dinge braucht man ja dauernd.

Und dafür gibt es halt dann eben schon eingebaute Attribute, die man einfach so verwenden kann.

Ja, das fand ich auch sehr angenehm.

Das ist halt total nett.

Genau.

Ich muss gestehen, als ich mit Python angefangen habe, gab es das schon.

Und deswegen habe ich OS-Path nur ab und zu mal angesehen und gesagt, ist das hässlich,

dann gesehen.

Ach ja, okay, das gibt es jetzt, Pathslip.

Ja, ja, ja.

Ich stolper fast täglich über Code, wo halt noch OS-Path verwendet wird und nicht die Pathslip.

Ja, ja, ja.

Auch ganz oft in Dango ist das auch ganz oft drin in der Settings oder sowas.

Ich bin erst einmal irgendwo drüber gestolpert, wo es nicht mir gelang, das zu entfernen.

Ich bin mir halt nicht sicher, ob das an meinen Fähigkeiten lag oder an der Implementierung.

Ja, die brach dann einfach durch, weil ich Pathslip-Objekte genommen habe.

Ja, und wenn man das halt irgendwie anders gewohnt ist, dann gibt es unten auf der, wenn

man die Dokumentation sich anguckt, nochmal eine Liste von, also wie man das früher mit

OS-Path gemacht hat und jetzt wie man es mit Pathslip machen kann, Tabelle und da findet

man dann meistens schon die Tabelle.

schon die Funktion, die man sucht. Stellen wir euch in die Show los.

Ja, genau. Also, genau.

Damit haben wir das tatsächlich

mal gemacht.

Wir wollen jetzt tatsächlich das Einzeltreifen, was auch das

gemein hat. Und wenn ihr irgendwie von

unserem Podcast die Struktur irgendwie blöd findet, wann wir was

erzählen, dann könnt ihr auch dazu gerne mal Feedback geben,

wenn wir es irgendwie neu umsortieren wollen, wenn ihr

immer zuerst die Pics haben wollt oder erstmal direkt das

Thema, bevor wir irgendwas über News erzählen.

Ja, aber trotzdem, dann machen wir

Volltext-Suche weiter und ich werde dich löchern damit.

Oder wollen wir noch ganz kurz

ein Meta-Ding

kurz, also ich überlege

gerade, weil mich hatte der Katze

eine Mail,

packen wollen, ob wir nicht

mehr Dinge erklären könnten.

Ach so, stimmt.

Ich kann das durchaus verstehen. Also es ist halt

viele Sachen, die man einfach so

vor sich hin redet und nicht

drüber nachdenkt, die zu erklären, dann

wird es halt schnell unverständlich.

Aber auf der anderen Seite

ist es halt, glaube ich, schwierig.

Ja, es ist ein Trade-off. Einige Menschen, die kennen das halt schon alles und wenn man dann

jeden Schnipsel erzählt, ist es vielleicht uninteressant.

Dann wird es für die uninteressanter. Und die Frage,

an wen wendet man sich da eigentlich?

Wie Einsteiger wollen wir das Ganze machen? Ja, das ist gar nicht so einfach.

Ich glaube, bestimmte Sachen muss man vielleicht selber nachgucken

und man kann uns immer fragen, wenn man irgendwas nicht

versteht. Wir erklären das immer gerne nochmal

und nehmen das auch in einer der Folgen. Ich glaube, das ist

vielleicht eine gute Idee.

Und ja, tatsächlich, wenn uns irgendwas

auffällt, versuchen wir es so tief

wie möglich zu erklären.

Ja, aber das würde mich,

eben auch nochmal interessieren, wie das andere Leute sehen oder auch

wie du das siehst. Das weiß ich auch gar nicht.

Weil ich würde sagen, das ist ja eigentlich

das Tolle an...

Ich komme darauf, weil letzte... Ich höre ja auch noch

viele andere Podcasts. Ich höre zum Beispiel Philosophische Radio

auf WDR 5

die Radio Business. Ich weiß jetzt gar nicht, auf welchem Sender.

Ich höre es ja nur aus Podcasts.

Ich höre einen tollen Hockey-Podcast.

Genau, und die

sind der Meinung, dass sie da auch irgendwie Podcasts

machen und sagen, sie können das. Aber das ist kein Podcast,

sondern das hat halt irgendwie eine...

eine Zeitbegrenzung.

Und dann am Schluss fangen die auch mal an so...

Das müssen wir jetzt noch schnell sein.

Oder jetzt sind wir ja schon fast am Ende mit der Zeit.

Wo man sich denkt so, ja, warum eigentlich?

Ihr könnt ja auch eigentlich einfach weitererzählen.

Da ist halt ein großer Unterschied. Und dann ist

auch ein Unterschied, dass die machen das nämlich so.

Die versuchen das immer irgendwie

sozusagen möglichst einfach zu erklären.

Und sie versuchen auch immer,

die Zuhörer mit einzubeziehen.

Was ich auch manchmal nicht

so richtig super gelungen finde.

Die können nicht irgendwie

veröffentlichen.

Auf der Seite,

wann wir die nächste Podcast-Folge aufnehmen,

sind Anrufer zugelassen.

Genau, das macht natürlich...

Ich verstehe natürlich, dass es bei einer

Live-Sendung den Reiz enorm erhöht.

Oder wenn man halt irgendwie auf Twitter

nebenher drüber lästern kann, was die gerade wieder

erzählen. Das erhöht den

Spaßfaktor deutlich.

Aber ich weiß nicht.

Ich glaube, das ist was anderes, als das ist dann halt

eher so Radio oder Fernsehen.

Aber eben nicht Podcast.

Weil für mich Podcast ist eher so das, was ich dran mag.

Ist halt etwas, was man eben

in diesen Massenmedien-Kontexten

halt nicht kriegt. Nämlich zum Beispiel,

was mich eben bei so einem Thema wie jetzt Philosophie

oder so eigentlich interessieren würde, wäre genau das,

was wir versuchen,

jetzt Bereich Python zu machen.

Nämlich Leute, die das

irgendwie sowieso sich damit beschäftigen,

die sich einfach mal so ein bisschen drüber unterhalten,

was sie da so tun. Und das gibt es halt

für sowas wie Philosophie nicht. Sondern da

hast du halt immer einen Moderator und dann halt

vielleicht einen Studierest oder so.

Und den Philosophischen Circle in der Stadt.

Also, ja, vielleicht muss man

da hingehen. Keine Ahnung.

Und dann wird das

irgendwie aufbereitet. Und dann ist da irgendwie

so ein Konzept hin. Und dann will man bestimmte Punkte abarbeiten.

Aber ich finde das halt eigentlich

überhaupt nicht interessant. Und gerade dann immer, wenn

irgendwie so Zuhörergeschichten da mit reinkommen,

denke ich mir immer so, jetzt war es gerade spannend.

Aber jetzt können sie da halt nicht weitermachen, weil entweder ist die Zeit vorbei

oder irgendwie

müssen sie nochmal auf ein anderes

Ding eingehen.

Und sie

geben sich halt auch mal sehr viel Mühe, dass dann

irgendwie

so zu verpacken, dass es halt

möglichst viele Leute erreichen kann. Was ja auch nichts

Schlechtes sein muss. Aber ich meine, im Grunde,

wenn man in einem Massenmedium ist, dann

ist das natürlich

das Ziel, irgendwie möglichst viele Leute zu erreichen.

Sonst müsste ich ja nicht das irgendwie

über Radiowellen

nach draußen senden.

Aber ist das eigentlich immer das, was man haben will?

Da bin ich mir nämlich gar nicht so sicher.

Also wir haben jetzt den kleinen Exkurs. Jochen redet nicht halber

Podcast.

Sorry.

Ich meine, man kann ja auch auf andere

Dinge optimieren. Mal so zum

Beispiel, wie nützlich ist das für die Leute,

die das zuhören. Es können ja weniger Leute hören, aber für die kann

das ja nützlicher sein.

Aber das geht jetzt eben bei einer Radiosendung

nicht. Wenn ich jetzt eine Radiosendung mache

und sende das halt irgendwie über den Sendemast,

übers Land, dann, und das ist für

100 Leute sehr, sehr relevant und für alle anderen,

die das halt trotzdem abkriegen,

super langweilig. Ja, also wir machen ja Podcasts und ich hoffe,

dass alle unsere Hörer auch tatsächlich wegen Python

und diesem und vielleicht auch, weil sie Lust drauf haben oder warum auch immer.

Also keine Ahnung, kann auch sein, dass ihr unsere

Stimmen so schön findet.

Aber zum Einschlafen.

Ja, das ist eigentlich...

Das ist keine so schlechte Idee. Nur nicht beim Autofahren und Einschlafen kommen.

Aber naja.

Aber ja, also ich meine, das ist halt etwas,

oder überhaupt bei Internetgeschichten finde ich das immer super,

dass man das ja eigentlich tun kann mal.

Man kann ja jetzt einfach sagen, okay, ist mir egal,

ist nicht für jeden relevant, sondern für nur ein paar Leute.

Ja, aber ich glaube, weil wir eigentlich mit der Frage eingestiegen sind,

wie viel wir tief erklären.

Also erklärt uns doch mal gerne mit,

wie viel ihr denn erklärt haben wollt,

ob das zu viel Erklärung ist,

zu wenig Erklärung ist und ja,

ich glaube, wenn ihr Begriffsfragen habt,

wissen wollt, was

CSS ist, Cascading Style Sheets,

im Übrigen, da war eine Frage dann.

Ihr klärt euch das gerne nochmal oder ihr schaut das dann kurz nach,

also wie man dann das Internet

betrachtbar macht.

Ja, Jochen, aber jetzt hast du so viel

über Meta geredet, dass

unsere Absprungquote wahrscheinlich wieder

in Höhen geschnallt ist. Wir fangen jetzt an mit Volltextsuche.

Ja, Volltextsuche.

Voll gut.

Was ist das überhaupt, Volltextsuche?

Also wir wollen ja ganz Basis anfangen und erklären.

Was macht eine Volltextsuche?

Warum heißt es Volltext und was ist daran Suche?

habe ich einen Text und ich gebe eine Suchmaske

einen Begriff ein und der spuckt mir

aus dem gesamten Text alle Treffer aus

oder was ist das?

Ja, also,

ich meine, das ist auch ein Suchproblem,

sozusagen, wenn man versucht, in einem Text

irgendwas zu finden,

Volltextsuche will das über viele Texte finden.

Ja, also der entscheidende Unterschied

ist eigentlich, dass man halt Dokumente hat

bei einer Volltextsuche.

Indizierbare Dokumente, also deren Inhalt du kennst

und dann möchtest du durch eine Masse von

Dokumenten bestimmte Stichworte

suchen.

Ja, also man hat

eine Anfrage oder

eine Query und dann möchte man halt die Sachen

finden, die da relevant sind.

Das Paper, das du benutzt, damit du

deine Hausarbeit nicht zweimal schreiben musst

oder einfach die nehmen kannst, die du findest.

Einfach, ne?

Ja, ich habe auch überlegt, wie man das am besten,

ich weiß nicht, ob die Analogie oder wie weit die trägt,

aber wie man sich das vorstellen kann, ist halt

wie bei einem Index in einem Buch.

Denke ich.

Ein Glossar.

Nee, nicht Glossar, erklärt ja die Begriffe, aber

ein Index tatsächlich gibt es oft in Büchern.

Ja, okay, also da gibt es dann noch, zu welchem Hit,

welche Seile.

Einfach sozusagen eine Liste der Wörter und dann auf welchen Seiten

die Wörter vorkommen. Also das ist immer das Wort.

Ich habe das sogar einmal in Kombination gesehen, glaube ich.

Also ein Glossar kombiniert mit der Erklärung und dann

die Hinweise, wo es auftaucht. Sehr schöne Sache.

Kann man wahrscheinlich auch machen, aber

genau, dann hast du halt eine kommaseparierte Liste

der Seiten, auf denen das vorkommt.

Das ist jetzt auf den

Volltextsuche-Dings.

Ja, wenn du es voll übertragen, wäre das halt so, dass die

Seiten in dem Buch wären halt die Dokumente,

die indiziert werden und der Index

in dem Buch ist tatsächlich dann halt so,

wie ein Volltext-Suchindex,

sehr ähnlich zu dem,

was man dann tatsächlich auch verwendet.

Und was hat das jetzt mit Python zu tun, Jürgen?

Ja, also

das ist eine gute Frage.

Doch hat es aber,

weil man oft ja auch Suchmaschinen

irgendwie verwendet von Python aus

oder halt ab und zu auch mal Suchmaschinen in Python

implementiert.

Meiner Ansicht nach implementiert man viel zu wenig

Suchmaschinen, es sind viel zu wenig

Volltext-Suchmaschinen in Python implementiert.

Aber so ist es halt.

Aber zumindest, dass man

die irgendwie ansprechen muss und dann

irgendwas mit den Ergebnissen macht, das hat man ja relativ oft.

Welche hatten denn Suchmaschinen? Es muss ja erstmal eine Beispiel

geben für Volltext-Suchmaschinen, die man vielleicht

kennt oder auch nicht, oder?

Also da gibt es halt unterschiedliche,

es gibt natürlich die

große Google, die allwissende Müllhalde,

die wir alle kennen,

die wir kennen.

Vielleicht mit den entsprechenden Vorgängern,

so weiß ich nicht, Excite, AltaVista,

Hotbot.

AltaVista, das waren noch Zeiten.

Ja, und

das sind halt schon

relativ fortgeschrittene Dinge, also gerade Google ist

halt, oder auch die anderen modernen,

die es halt gibt, Bing oder

was gibt es da noch?

Gibt es eigentlich?

Du hast einen Microsoft-Suchmaschinen erwähnt, erneut.

Die haben aber immer noch keinen Contract leider

bekommen.

A9 von

Amazon,

wo auch einer der Experten

oder die Member,

hat er lange.

Also ja, also die Dinger sind halt

relativ fortgeschritten und haben halt,

sind halt relativ einfach gestartet.

Es gibt das Ganze jetzt auch als Software, sozusagen

Open-Source-Software, die man irgendwie verwenden kann,

oder halt auch kommerzielle Software, die das macht.

Wobei ich denke,

dass heutzutage wahrscheinlich die

allermeisten irgendwas Open-Source-mäßiges

verwenden werden, wenn sie das denn jetzt

selber haben wollen für ihre Webseite.

Zum Beispiel. Also das ist, denke ich, ein ganz häufiger

Anwendungsfall, dass du halt eine

Webseite hast und möchtest halt eine Suchfunktionität

anbieten. Und ja,

dann muss das halt irgendwie

irgendwo passieren.

Und das,

was es da,

das, was da sozusagen

der Platzwürsch ist, ist

eine Java-Bibliothek

namens Lecine.

Ist von Duck Cutting

geschrieben worden. Der hat damit angefangen

1997 oder so. Der hat irgendwie mal

gearbeitet bei Excite, meine ich.

hat dann irgendwann

hat er

oder meinte so, da habe ich irgendwo mal

im Talk gehört,

hat er so, ja, so

1997, hat er so das Gefühl, die Dotcom-Bubble,

die platzt jetzt demnächst.

So, hat noch ein bisschen gedauert, aber war

gar nicht so schlecht. Und

hat sich dann

sozusagen

einen Teil der Woche, ich weiß nicht, ein oder zwei Tage

Homeoffice

setzen lassen und dann

an eben der neuen Suchmaschine

gebastelt. Und als dann

Excite tatsächlich irgendwie

so ein bisschen

die Ohren angelegt hat,

hat er das halt dann

Open Source,

eine Open Source-Geschichte überführt. Auch da,

ohne groß drüber nachzudenken, was man da jetzt macht.

Er hatte, glaube ich, die erste Version sogar irgendwie unter der

GPL, weil er dachte, naja, gut,

wenn man Open Source macht, macht man halt GPL

veröffentlicht. Das war aber dann,

nicht so cool. Leute haben sich

beschwert, dass sie das dann nicht so richtig verwenden

können und so. Und darauf

ist auch, dass

die Apache Software Foundation hat gerade angefangen,

irgendwie dann so unter ihrem Schirm

Projekte

aufzunehmen und

denen so ein bisschen Struktur zu geben. Und

weil man das ja noch nie gemacht hat,

weiß man ja nicht genau, was man da alles machen muss.

Mailing-Listen und wie organisiert man diese

ganze Entwicklungsgeschichte überhaupt.

Und er ist dann irgendwie mit dem Lucene-Projekt

dann da unter diesen Apache-

Sturm der Apache Software Foundation gekommen,

hat dann auch die Apache-License übernommen und

meinte, seitdem hat sich nie wieder jemand

über die Lizenz beschwert und es funktioniert.

Also es ist halt eine sehr liberale Lizenz, so

PSD-artig, MIT-artig.

Lizenz müssen wir auch nochmal neu entdecken.

Aber im Grunde heißt,

kann man dann mehr oder weniger machen, was man will.

halt auch im kommerziellen Kontext

verwenden oder in Software,

die man halt irgendwo hinschippt. Das ging jetzt mit der

GPL zum Beispiel eher nicht.

dann ist diese Bibliothek

relativ erfolgreich

geworden und heute ist es halt das Ding,

was alle verwenden und

eigentlich das Ding, was unter allen

bekannten

Suchmaschinen, Open-Source-Suchmaschinen

Implementationen irgendwie darunter liegt.

Also die beiden größten Dinger, die man heute so

kennt, sind halt Solar und

Elasticsearch.

Und das weiß Lucene.

Man kann das auch aus Python heraus

direkt verwenden mit PyLucene.

Aber das ist ein bisschen eklig.

Also das ist halt,

das macht halt direkt eine Anbindung

an Java.

Hört sich komisch an.

Ja, also geht schon,

aber will man vielleicht auch nicht verwenden.

Eher ist es wahrscheinlich die richtige Art,

wo man das dann trennt,

irgendwie eine API oder so.

Und das machen Solar und Elasticsearch auch so.

Also meistens hast du dann Elasticsearch

oder vielleicht Solar Cloud

auf irgendeinem Pflaster laufen oder weiß nicht.

Und auf deinem Hadoop-Cluster am besten.

Und dann connectest du dahin und

stellst da deine Suchquerys

an Fragen.

Ja, genau.

So sieht es halt irgendwie momentan aus.

Aber das ist natürlich,

also okay, es ist das Verbreitetste.

Das, was irgendwie alle, die meisten Leute verwenden,

ist aber nicht das Einzige. Es gibt noch eine Menge andere Dinge

und andere Software, die das halt auch kann.

Andere

Open-Source-Suchmaschinen,

Suchmaschinen wären sowas wie, es gibt noch

Xapien, obwohl ich weiß nicht, ob es das tatsächlich noch gibt.

Das war irgendwas in C++,

glaube ich, nicht mehr relevant.

Sphinx gibt es noch. Das ist insofern

halbwegs relevant noch, weil das

halt eine enge Verbindung zu MySQL hat.

Und da gibt es halt irgendwie eine

Heißt das MariaDB?

Oder genau, wenn man heute MySQL sagt,

dann meint man eigentlich mal MariaDB.

Und da gibt es halt irgendwie relativ

ausgefuchste Mechanismen, wie man das halt ineinander

integriert und halt,

wenn man die eingebaute Volltext-Suche

vom MySQL nicht mehr verwenden will

oder wenn man da rausgewachsen ist, dann kann man da irgendwie relativ

leicht Sphinx dran bauen.

Ja, ähm.

Ja, da musst du gleich noch ein bisschen mehr zu sagen.

Also diese Architektur, also wenn du sagst, man packt das jetzt einfach so mal eben kurz

in einen Hadoop, ich sag mal, auf was bitte ist denn das?

Klar, da rein.

Und was das dann überhaupt macht, wo die Dokumente liegen

und wie das dann überhaupt so richtig funktioniert und so.

Genau, genau.

Ich wollte gerade,

ach genau, es gibt eine

in Python implementierte

Volltext-Suchmaschine

namens Woosh.

Woosh?

Die sich auch

sehr stark an Lucene irgendwie so von der Struktur

intern anlehnt, aber

ist halt in Python geschrieben, ist nicht so schnell,

alles ein bisschen langsam, aber

kann man auch mal benutzen, ist irgendwie ganz nett

und dann, also lass mal überlegen, gibt es noch

irgendwas, was Volltext-Suche kann, was ich jetzt,

also was das irgendwie offiziell

hauptsächlich

tut und was ich noch nicht genannt habe?

Ja, also wenn jemand

noch was einfällt.

Und dann

gibt es halt noch Volltext-Such

Features in den meisten Datenbanken.

Und das ist natürlich auch nett,

weil meistens hat man

ja eh die Daten, in denen

man irgendwas sucht, sowieso schon in der Datenbank

liegen und eben wenn man

sowas wie Elasticsearch zutraut,

dann muss man halt irgendwie die Daten

aus der Datenbank da reinkriegen und

wenn man jetzt

ein Suchergebnis bekommt

von denen, dann muss man irgendwie,

wieder zur Datenbank und dann nochmal wieder

andere Informationen da rausholen. Das ist so ein bisschen

umständlich. Das ist ja eigentlich schön, wenn

das direkt in der Datenbank drin wäre.

Und ja, die meisten Datenbanken bieten da halt

auch Geschichten,

wobei das halt unterschiedlich

fertig oder

unterschiedlich komplett

das Feature-Set ist.

Postgres hat relativ viel

Volltext-Fähigkeiten.

SQLite

hat relativ viel. Das ist auch sehr, sehr

interessant.

SQL hat nicht so ganz so viele.

Aber so ein bisschen was geht auf jeden Fall auch.

Ja, und

das ist auch,

also ehrlich gesagt, das ist was,

was ich präferieren würde momentan.

Also wenn man anfängt, dann lässt man das eher

die Datenbank machen.

Dann macht man nicht,

fängt man nicht damit an, direkt irgendwie

den Elasticsearch daneben zu stellen.

Ab wann macht man das? An welcher Größe oder

welches Suchvolumen geht es da?

Das kann man so,

schwer beantworten.

Also weil meine Postgres jetzt auch

0,0x mehr die Antwort auf meine Frage geben kann.

Ja, genau.

Das heißt, ich bräuchte schon ein Dokumentenarchiv,

was ich irgendwo hinlege mit

mehreren hunderttausend Dokumenten,

durch die ich jetzt durchiterieren

müsste bei der Suche,

um zu finden, was es da so gibt.

Und da muss dann ein

drauf springen, damit

es da noch einigermaßen performant

Ergebnisse rausbekommt.

Ähm, ne, das ist auch, also

die, die, ich würde

eher sowas sagen, wie es hängt halt von der Maschine

auch ab. Also wenn, sobald

das, was halt in Postgres relativ

schnell relativ groß wird, sind halt die Indizes.

Also super

optimal sind die halt nicht. Also

da ist schon einiges optimiert, aber

die werden halt relativ schnell relativ groß.

Und wenn die zum Beispiel so groß sind, dass sie nicht mehr in den Hauptspeicher passen,

dann hat man ein Problem.

Und das geht wahrscheinlich

dann mit Lucin oder beziehungsweise halt

Solar Cloud oder Elasticsearch.

Oder so dann besser. Aber da ist man schon bei

wirklich vielen, vielen Dokumenten wahrscheinlich.

Wie viele Hauptspeicher hat man denn dann, die man braucht,

für welche Dokumentengröße hast du da so Werte?

Ne, weiß ich nicht. Aber

keine Ahnung, kann sein,

also kommen wir halt auch drauf an, wie groß die

Dokumente sind. Aber

ich meine, heutige Daten haben viele Hauptspeicher

und bis man da irgendwie,

also ich weiß nicht, wie oft

ich einen Volltextindex gesehen habe,

der größer als ein paar Gigabyte war. Das

kommt jetzt gar nicht so oft vor, selbst wenn du Millionen Dokumente hast.

Was sind grundsätzliche Fragestellungen?

Ja, also zum Beispiel

wie macht man das jetzt eigentlich,

wenn man eine Suchmaske irgendwie auf einer Webseite

hat? Was ist eigentlich,

wie geht das mit der Relevanz?

Wie kriege ich das eigentlich raus, ob da irgendwie

gute Ergebnisse kommen? Wie mache ich

das? Und da ist auch leider

die Antwort,

es hängt davon ab und das ist je nach Anwendungsfall

sehr unterschiedlich.

Okay, jetzt wird es interessant. Also ich möchte

suchen, auch ranken, ja, und das heißt die

Trefferquote erhöhen.

Die Wahrscheinlichkeit, dass das Dokument dem

entspricht, was ich gerade haben möchte.

Genau, wenn Leute da irgendwas

eingeben, irgendeine Query eingeben, dann möchtest du, dass

sie halt normalerweise oder dass sie halt

möglichst vielen Fällen halt irgendwie relevante Ergebnisse

haben.

Ja, okay. Und wie das funktioniert, ist natürlich

jetzt sehr spannend. Ja.

wie, wie, wie, wie, wie, wie so ein Index

funktioniert, ist halt im Grunde, wenn ich mir

vorstelle, das wäre jetzt eine,

ich hätte jetzt eben dieses Buch mit dem Index

hinten drin und ich würde jetzt wissen

wollen, okay, ähm,

wo kommt denn das Wort, was könnte ich denn für ein Wort,

äh, was könnte ich denn für ein Wort, äh, was könnte ich denn für ein Wort, äh,

Keyword.

Keyword und, äh,

Python. Und Python, ja, wo kommt

denn das überall vor? Und ich hätte gerne alle Seiten, auf denen

das vorkommt. Dann gehe ich einfach in den Index,

äh, nehme halt, äh,

suche halt das Wort

Keyword, nehme die Seiten,

die Nummern, packe das

in ein Set und, äh,

nehme das, äh, nehme das gleiche

Set der Seiten von, äh,

Python. Und jetzt kann ich

da halt zwei Dinge machen. Ich könnte es entweder

schneiden, könnte sagen, irgendwie,

ich hätte gerne alle Seiten, in denen beides

vorkommt, oder sozusagen, also die Schnittmenge

der beiden Mengen

und, äh, oder ich könnte sagen, ja, ich nehme

die Vereinigung, also

entweder das ist, wo Python drin vorkommt

oder wo Keyword drin vorkommt, die Seiten hätte ich gerne

und kriege dann einfach alle.

Und das ist ja auch das, was man sozusagen in, ich glaube,

Google hat da eine Syntax für, äh, das

ist übrigens auch bei Postgres, kann man, ähm,

die Syntax, die Google verwendet,

äh, äh, äh,

TS2, äh, wie heißt das,

2Query, irgendwas, 2WebQuery, ach, ich weiß nicht,

wie die Postgres-Funktion heißt, die übergibt

man einfach diesen Query-String, den man bekommen hat

und dann macht die daraus eine Anfrage,

äh, nach der gleichen Logik, sodass man

halt auch und oder oder verwenden

kann, sozusagen.

Ähm, ja,

und, ähm,

genau, das ist eigentlich im Grunde

das, was halt die Suchmaschine macht. Das Problem ist jetzt

natürlich, äh, die, die, die

Seiten, wie auch immer man die jetzt bekommen hat, ob man,

äh, die Mengen vereinigt oder

geschnitten hat, äh,

man hat jetzt noch keine Reihenfolge der, der Seiten

irgendwie. Und die, die Frage wäre halt,

wie, wie berechnet man die aus und das,

was halt so, äh, von immer gemacht

wird und, äh, zählen,

äh, absolute Zahl sortieren,

höh. Kann man, kann man und könnte man auch machen,

ja, aber das, was halt, äh,

was halt schon, äh,

was normalerweise immer so für, für

Scoring, äh, Ranking verwendet wird, ist

halt TFIDF, das hatten wir, glaube ich, auch

schon ein paar Mal, ist halt einfach, äh,

der, die

Query wird halt in einen,

äh, ja,

TFIDF-Faktor verwandelt und, ähm,

sozusagen die,

Also außer Leute, die davon schon Ahnung haben,

hat das jetzt niemand verstanden, deswegen musst du noch mal

kurz erklären, was das denn überhaupt ist.

Äh, TFIDF ist Term Frequency

mal Inverse Document Frequency

und das legt sozusagen

Gewichte fest für die

Tokens, also die

Wörter aus deiner Query für Keyword

und für Python jetzt in unserem Beispielfall.

Und, ähm,

ja, das ist halt,

ich weiß nicht genau, ob man genau erklären muss, wie das, wie das

ausgerechnet wird, äh,

äh, also Term Frequenz

wäre halt sozusagen auf dieses, äh,

Seitenbeispiel, äh, übertragen,

wie ist die Frequenz von dem

Wort Python zum Beispiel auf dieser Seite?

Das heißt, ich zähle, wie oft

Python auf der Seite vorkommt und teile

das durch die Anzahl aller Worte

auf der Seite. Dann weiß ich halt, wie viel Prozent

der Worte auf dieser Seite sind halt Python.

Das ist die Term Frequenz.

Und, ähm, äh, multipliziere

das mit der Inverse Document Frequency, das ist

halt sozusagen, in, in wie viel

Seiten kommt denn

dieses Wort überhaupt vor?

Mhm. Äh, ein Maß dafür und,

äh, je, äh,

weniger das vorkommt,

desto, äh, höher ist

die Inverse Document Frequency.

Mhm. Äh, und, äh,

desto charakteristischer ist das Wort

im Grunde. Für das, was da gerade

steht. Ja, genau. Das heißt, du weißt

nämlich genau, wenn das hoch ist auf diesem Abschnitt

geht's tatsächlich jetzt um Python und es wird

nicht irgendwie nur als Seitenkommentar mal kurz

erwähnt oder als kurz... Genau, genau. Also Artikel

sind halt zum Beispiel für Sachen, die, äh,

also der, die, das, das kommt halt auf jeder Seite vor.

Ja, okay, Stopwatch. Daher ist es halt

einfach nicht so relevant, weil

Inverse Document Frequency davon wäre halt sehr, sehr

niedrig, weil, äh,

naja, es kommt halt überall vor, das heißt, äh,

ja. Ähm, jetzt multipliziere

ich diese beiden Teile, also einmal wie oft

kommt das, äh, Wort auf der Seite

vor mit, äh, wie wichtig

ist das üblicherweise oder wie charakteristisch ist das

und das Ergebnis ist halt sozusagen

ein Maß dafür, dass, also Worte,

die wenig vorkommen oder

sehr charakteristisch sind, aber

sehr oft vorkommen, sind halt viel wichtiger als Worte,

die, äh, überhaupt

nicht charakteristisch sind, weil sie überall vorkommen, also der, die,

das ist halt, äh, die kriegen halt sehr

niedrige Gewichte und, äh, Worte, die

halt sehr spezifisch sind, die kriegen halt sehr hohe Gewichte.

Und das macht man jetzt auch mit der Query

und macht das auch nochmal mit allen, äh,

Seiten sozusagen und dann, äh,

multipliziert man das miteinander, also

die Kursinduzistanz. Das heißt, man muss halt

tatsächlich genau diese Dinge bilden

oder bauen für jeden einzelnen

Textbaustein, den man untersuchen

möchte. Ja, man muss, man muss

da gar nicht so viel machen, tatsächlich,

also das Bauen der Listen,

in welchen Dokumenten welches Wort vorkommt, ist halt

eigentlich das, was man hauptsächlich

tut, wenn man einen Index baut.

Diese ganzen Geschichten, wie oft kommt das Wort

jetzt wo vor und wie, das wird,

das speichert man auch in dem Index, aber das ist eigentlich

nicht so schlimm, das geht eigentlich

relativ einfach. Und dann am Schluss hat man diese

ganzen Informationen, auch die Texte nicht mehr, sondern

man kann halt sozusagen aus dem, was man im

Index stehen hat, plus der Query halt diese

ganzen Sachen ausrechnen.

Okay. Du sagst irgendwas über den Kursinduzistanz.

Ja, ja, genau. Wenn ich jetzt zwei Vektoren habe, dann

ist die Kursinduzistanz dazwischen einfach

nur der Winkel,

äh, also der Kursinduzistanz zwischen den beiden

Vektoren. Also jetzt nochmal kurz, also der

Vektor ist tatsächlich dann die Information

darüber, auf welchen Seiten wie viel

Information über das gesuchte Wort

Python oder Keyword steht.

Ja, also die, genau, die Gewichte

sind jetzt sozusagen die Werte in dem Vektor

und, ähm, können halt

niedriger oder höher sein.

Das wird immer normiert auf, die Vektoren werden

immer normiert auf 1,

auf eine Länge 1 sozusagen.

Und der Anteil von einem

Wort, das halt wichtig ist, ist halt dann einfach

höher als von Worten, die nicht so wichtig sind.

Und die Länge der Vektoren, man normiert

auch deswegen damit halt längere Vektoren nicht einen Vorteil

haben, ja, oder das halt längere, wenn du

das nicht normieren würdest, dann würden

Seiten, auf denen viele Worte stehen oder

die halt sehr, sehr lang sind, würden halt viel

relevanter bei den vielen Suchabfragen sein, einfach weil

die halt auch viel mehr Sachen matchen.

Daher, äh,

normiert man das halt auf eine Einheitslänge,

sodass halt dann, wenn ein Dokument

sehr lang ist, kriegen die einzelnen Worte halt weniger

Gewicht.

Und, ähm, ja,

dann wird das halt vergleichbar.

Und, ähm,

äh, ja, also im Grunde ist das

eben relativ einfach.

Also diese TFE-DF-Distanz

ist halt nichts weiter als der

Kosinus zwischen dem Winkel der beiden

Vektoren. Und das klingt jetzt auch irgendwie kompliziert.

Tatsächlich ist es so, es ist halt super einfach

auszurechnen, weil, äh,

das ist einfach nur

das Skalarprodukt der Vektoren.

Und das wiederum ist super einfach auszurechnen.

Also dieser Vektorraum, äh,

in dem diese Operationen stattfinden, äh,

wenn man jetzt sozusagen jedem Wort

eine Dimension zuordnet, äh,

Texte, also, wenn man jetzt

ein Dokument-Korpus nimmt, ganz viele Dokumente,

dann kann es sein, dass da so ein paar

10.000 Wörter drin vorkommen oder vielleicht,

wenn man jetzt, also vielleicht auch ein paar 100.000,

also, und man

hat jetzt sozusagen für jedes Wort eine Dimension,

klingt das irgendwie, äh, alles ganz schrecklich.

Wenn man sagt, ein 100.000-dimensionaler Vektorraum

ist ja irgendwie schwer vorzustellen und dann

daran irgendwie Winkel, uh, was soll denn das sein?

Aber eigentlich ist es

halt total, äh, total blöd.

Einfach, weil, äh, das Schöne daran ist,

oder das ist der Grund, warum man das macht, ist,

ein Skalarprodukt an der Stelle ist halt, wenn, wenn das so spars ist,

also die meisten Worte kommen ja in den meisten Texten

gar nicht vor. Das heißt, wenn ich, äh,

einen Dokumentvektor habe, dann ist der

an den allermeisten Stellen null.

Und alle Dinge, die null sind, die muss ich mir

beim Skalarprodukt gar nicht angucken. Wenn die miteinander,

wenn irgendwas multipliziert wird, wo eine Null drin ist,

dann ist es ja sofort auch wieder null. Das heißt,

ich muss mir... Könnt ihr das auch mal nachrechnen, bitte?

Ja, das heißt, die Rechenoperation ist halt,

ich gehe durch jedes, äh,

Ding in der Query,

ja, also nur durch die, die gesetzt sind, das sind ja meistens nur

zwei, drei Worte, und gucke dann,

existiert im Index dafür,

äh, Seiten, auf denen

das vorkommt,

das war's. Mehr muss ich nicht machen. Und damit habe ich ja schon,

sozusagen, alle, wo ich

überhaupt ein Skalarprodukt ausrechnen kann,

gefunden.

Und, äh,

jetzt muss ich nur noch ein paar andere statistische

Werte haben, um das halt wirklich ausrechnen zu können.

Und das ist halt, äh,

das ist halt eine total einfache Operation.

Also das ist halt...

Weißt du, welche anderen statistischen Werte du

jetzt noch haben möchtest zum eigentlichen Ranken?

tatsächlich müsste man wahrscheinlich noch an jedem,

also die, die, die Dinge

im Index heißt dann Posting-Listen, dann müsste man

wahrscheinlich noch irgendwie den TF-EDF-Wert

tatsächlich, also ich, ich weiß es ehrlich gesagt nicht,

Lucine macht das,

weiß gar nicht, was Lucine da alles speichert, ich speichere noch ein paar andere Sachen,

ich würde sagen, TF-EDF-Wert braucht man vielleicht,

also eigentlich, also ich glaube, Lucine und so,

die machen das so, dass sie das auch erst ausrechnen,

wenn die Query kommt.

Aber was das genau ist, weiß ich jetzt auch nicht mehr.

Also man kann das Ganze auch, äh,

leicht und naiv implementieren, äh,

in, in Python, man kann einfach für diese

Posting-Listen, das sind sozusagen die

Listen, äh, der Seiten, auf denen irgendwas

vorkommt, oder die IDs der Dokumente,

die packt man einfach an ein Set

und indizieren

bedeutet einfach nur

Text, die Dokumente zu tokenisieren

und dann für jedes Token sozusagen

einen Eintrag mit der ID des Dokuments

in die Posting-Liste zu tun.

Posting-Liste,

so heißt das im Allgemeinen, aber in unserem Fall werden das

jetzt, wenn man jetzt sozusagen als Daten-Zu-File,

oder für Sets nehmen würde, Sets, und dann kannst du

halt hinterher, wenn eine Query kommt, äh, irgendwie

genau das machen, kannst halt irgendwie Schnittmenge

und Vereinigungsmenge bilden, je nachdem, ob du

deine Query mit End oder

Or verknüpfen willst, und,

ähm, ja, kriegst dann,

kriegst damit schon mal was raus,

und kannst halt auch, äh, äh, wenn du jetzt

die TF-IDF-Werte

noch mitgespeichert hast, kannst du auch einfach die Queries-Interessanz

ausrechnen, und hast dann schon

im Grunde das implementiert, was eine

Suchmaschine so tut. Das geht

wahrscheinlich in 30 Zeilen,

Python oder sowas. Ja, ja, wir lieben

Python. Also das ist, äh, das, das,

das geht relativ einfach, denke ich mal.

Äh, und, äh,

es ist auch mit, ich hab's mit Sets auch schon mal

ausprobiert, das ist auch ziemlich schnell.

Das, was an Sets

ein bisschen doof ist, deswegen macht man das auch

dann tatsächlich, wenn man jetzt eine Suchmaschine

implementiert, nicht so, ist,

äh, dass die halt sehr, sehr

viel Hauptspeicher verbrauchen.

Mhm. Äh, und überhaupt,

man muss natürlich alles, wenn man so ein

Python-Set hat, muss man zum Hauptspeicher halten, weil

naja, äh, es ist halt eben keine Datenstruktur,

die irgendwie auf der Platte liegen kann, ja, während jetzt

ein Lucene-Index ist ein Ding, das eigentlich auf der Platte liegt,

und, ähm, das kann, also

das kann halt auch größer als Hauptspeicher werden, ist gar kein Problem.

Und, äh, das ist, äh,

so gebaut, dass, äh,

ja, das maximal

performant ist, wenn Sachen

von der Platte auch gelesen werden und so,

und, äh, es ist, äh,

es ist, das sind schon einige schöne Tricks dabei.

Und, ähm,

aber tatsächlich, wenn man das jetzt einfach so

implementieren möchte, äh, kann man das mit

Sets durchaus mal machen. Was dann die, ähm,

großen Suchmaschinen

machen, und weswegen das Ding auch

Postinglist, äh, heißt, ist,

dass man das eben nicht in einem Set hält, sondern

in, äh,

in einer, in einer Liste,

die sortiert ist,

äh, sozusagen, wo die,

wo eben die Dokument-IDs oder jetzt, äh,

äh, im Beispiel Seitenzahlen,

die werden halt einfach sortiert, und dann speichert man

nicht die Seitenzahlen selber,

oder die IDs selber, sondern

man speichert nur die Differenz dazwischen.

Mhm. Weil die Differenzen zwischen

den IDs sind halt viel kleiner.

Und dann macht man etwas ganz

Fieses, das nennt sich Variable-Wide-Encoding.

Schon wieder so ein Zauberwort, ja.

Äh, und,

äh, das, äh,

das bedeutet halt, dass du, äh,

diese, äh, normalerweise

in C oder so, wenn du

jetzt, äh,

ein Array hast, ja, dann,

müssen ja alle, äh, Werte in dem Array

den gleichen Typ haben.

Und das

macht man halt nicht so,

um Platz zu sparen, sondern man, äh,

deswegen hat, äh, man nimmt einfach,

äh, üblicherweise dann Characters,

also Byte-mäßige Dinge,

ich weiß gar nicht, also in C weiß ich jetzt, wie es geht, ich hab auch mal

sowas, äh, glücklich mal selber

implementiert, das, ja, ja.

Das war

fast Suchmaschine geschrieben, aus Versehen.

Aber, ähm,

äh, äh,

ich weiß gar nicht, wie man das in Java oder so macht, ich weiß

keine Ahnung, ähm, geht, geht bestimmt

auch irgendwie und, äh, definiert sich

die Datenstruktur selber. Also, es ist

nicht so, dass man sagt, okay, das sind jetzt alles Integer-Werte

oder so, sondern man sagt, okay, das ist

einfach nur ein Array von Charaktern

und wie viel,

äh, Bytes ich sozusagen

pro, ähm, oder wie viel Bit

ich pro, äh,

Eintrag in der Posting-Liste,

äh, verwende, das, äh,

das mach ich, das verwalte

ich selber, weil wenn die,

äh, die Abstände klein sind, dann kann ich

viel weniger Bits nehmen, als wenn die Abstände groß sind,

dann muss ich halt mehr Bits nehmen und

deswegen heißt das Ding auch Variable Byte Encoding,

weil, äh, die, ein Eintrag

in der Posting-Liste halt unterschiedlich viele Bytes

haben kann, je nachdem, wie groß der ist.

Mhm. Oder wie der Abstand ist zwischen

der vorherigen und der nächsten ID.

Und, äh, wenn ich jetzt sortierte Listen habe,

dann kann ich die sehr, sehr gut, da gibt's halt diverse

Algorithmen für, äh, kann ich sehr gut schneiden,

zum Beispiel solche Operationen wie, äh,

Schnittmenge davon bilden, das geht halt toll.

Äh, geht mit Sets auch, aber Sets,

können ja noch viel mehr und so,

äh, aber da brauch ich ja eigentlich

nur diese Schnittoperation, Vereinigung ist auch, äh,

total, äh, simpel und das geht

halt super, wenn ich so sortierte Listen habe.

Ähm, ja.

Und, äh, ähm,

genau, äh, das ist halt

auch, das ist relativ schnell, das ist vor allen Dingen auch

deswegen schnell, also

die Kompression an der Stelle, die ich dadurch

kriege, also ich krieg das auf ein Drittel des

ursprünglichen, also wenn ich das einfach nur als Integer speichern würde,

dann, äh, brauch ich,

ja, äh,

ähm, sagen wir mal, ich brauch einen Speicher 1,

ja, und wenn ich das irgendwie Variable,

äh, mit Variable Byte Encoding, äh,

kodiere, dann brauch ich halt nur noch 0,

Speicher 0,3, also das reduziert das halt

auf ein Drittel. Mhm, mhm. Und es ist

auch noch viel schneller. Und der Grund, warum es viel schneller ist,

ist halt einfach, dass der, das

Bottleneck ist halt, äh, irgendwie

das durch die CPU zu drücken,

also die Speicherbandbreite ist das Problem, du musst das halt

irgendwie, diese, diese Listen von Arrays musst du

halt irgendwie durch die CPU kriegen und irgendwie

durch den Hauptspeicher und wenn die kleiner sind, dann geht das

schneller durch den Hauptspeicher, weil, äh,

oder durch den Bus, weil, äh, ja,

und das in der CPU dann auszupacken

und, äh, miteinander, das ist ja alles kein

Problem mehr, äh, aber,

äh, ja, das halt aus dem Hauptspeicher

durch die CPU zu quetschen, das ist halt das Problem

und wenn das kleiner ist, dann geht das halt schneller,

weil du hast halt nur so, so viel

100, äh, oder so, so viel

Gigabyte pro Sekunde, die du da durchkriegst.

Und, ähm,

äh, genau, deswegen, deswegen macht man das so,

das macht das Ganze so ein bisschen kompliziert,

äh, aber

äh, und auch selbst, selbst so

von dem, von dem Volltextindex von

Postgres weiß ich, dass er das auch so macht, im Prinzip,

also die, solche Sachen werden da auch schon gemacht, also

kann man sich schon vorstellen, das ist schon relativ,

ist halt nicht so eine total naive Implementation,

das ist auch ganz schön optimiert schon.

Ähm, ja,

Jetzt haben wir eine schnelle

Suchanfrage schon, aber ich hab immer noch

nicht genau verstanden, warum,

ähm, die Ergebnisse

jetzt besonders toll sein sollen. Es gibt bestimmt noch ganz viele andere.

Genau, TFR, die FS, so der Standard,

äh, das hat man ganz lange gemacht, jetzt, äh,

heutzutage auch nicht mehr, sondern

heutzutage nimmt man eher sowas wie,

äh, also es gibt halt zum Beispiel

Track-Konferenzen, äh,

Track, das hört sich nach, äh,

einer Raumschiff-Serie an.

Ja, äh, wird eher mit C

geschrieben und nicht mit K, aber, äh,

äh, da haben sich Leute halt Gedanken

darüber gemacht, wie evaluiert man eigentlich

Suchergebnis, äh,

äh, äh, Performance von, von,

von Suchmaschinen, da gibt's dann diverse Standard,

äh, Corpora

mit Dokumenten drin, wo man dann halt auch

Standard-Querys halt immer drauf abfeuert und dann guckt

halt, wie sind die Ergebnisse und so,

und, ähm, da hat sich irgendwann,

ich weiß gar nicht, wann das, äh,

also, so TF-IDF

hat man lange benutzt, aber dann

hat man festgestellt, so kleine

Multiplikationen, also die Formeln, es sieht immer

so ein bisschen ähnlich aus, aber man,

manchmal passt man die so ein bisschen an, manchmal kommen so konstante

Faktoren dazu oder so, die man irgendwo reinbaut,

und dann wird das, werden die Ergebnisse

ein bisschen besser, und das, was momentan,

also, das, man hat ganz viele unterschiedliche

gegeneinander getestet, das, was in den

meisten Fällen gut funktioniert, und das, was

jetzt auch alle so als Standard, glaube ich,

verwenden, äh, nennt sich

BM25. BM25?

Ja, oder OKAPI,

äh, BM steht für

Best Match. Ja.

Ähm, und, äh, OKAPI.

Ja. Ja. Das ist,

das ist, glaube ich, ein Spektier.

Ja, ja, genau, genau, daher kommt das auch.

Oh, äh,

Entschuldigung.

Mhm, und, äh,

das ist, ist

nicht großartig anders, äh, als

TF-IDF sozusagen standardmäßig, so ein paar

Dinge sind halt noch dran, das war,

eigentlich sind da nur so ein paar magische

Konstanten und Faktoren drin,

äh, und, äh,

ja, das ist halt so ein bisschen

Fummelei, und, äh,

ist auch nicht offensichtlich, warum das jetzt genau dieser Art

besser funktioniert als die anderen, deswegen heißt es,

und genau deswegen ist es auch BM25,

ja, also man hat halt ganz viele Dinge ausprobiert,

und das, was dann halt über ganz viele

Data, äh, Datasets hinweg

und Queriesets gut, am besten funktioniert hat,

ist halt dieses Ding, nämlich nicht

BestMatch13 oder 47,

sondern BestMatch25 hat sich

herausgestellt, also das funktioniert in den meisten Fällen

irgendwie. Das ist doch eine tolle Zahl, übrigens, ja.

Ja. Äh, also man konnte

das vorher gar nicht sagen, was das jetzt, welches

von denen dann wirklich gut funktionieren würde, und

dieses Ding ist halt das. Und seitdem das

in den, in diesen, ähm, auf dieser Konferenz

halt dann, ja, das Ergebnis

rausgefallen ist. Guckst du eigentlich Pika?

Äh, die, die Serie?

Ja, ist das eine neue Star Trek-Serie? Ja,

tatsächlich hab ich jetzt auch mit angefangen, weil

ich dachte, so gut. Ich hab auch schon zwei Folgen geschafft.

Ja, es gibt jetzt fünf,

glaub ich, ne? Kann sein, ich hab keine Ahnung.

Ja, jetzt war jetzt ein

verregneter Sonntag, äh,

dieses, äh, da haben wir,

glaub ich, tatsächlich alle geschafft.

Cool. Ja, läuft grad auf Prime, sehr schön.

Ja, Entschuldigung, ich wollte dich nicht von der Track-Konferenz

abhalten. Ja, ja, also ansonsten

bin ich ehrlich gesagt gar nicht so ein Star Trek-Fan.

Aber, ja,

da hat der Track-Faktor doch irgendwie

mit, äh, mitgezogen.

Der Flog in Flossbach, ne?

Äh, jedenfalls, ähm,

äh, genau, genau.

Also das ist halt dabei rausgefallen, deswegen implementieren das alle.

Äh, das ist auch

immer irgendwie, das ist auch schon über zehn Jahre her

oder so, da dachte ich dann so, ah, da hab ich davon gelesen,

Best Met 25, voll gut, äh,

bringt auf jeden Fall noch ein bisschen was gegenüber

TFWF und so. Dazu kann man das nicht in

Hüsine einbauen, ha. Und dann hab ich

da so ein bisschen reingeguckt und dachte mir so, oh nein.

Hahaha, das geht nicht.

Ich muss so viele Klassen anfassen, das kann man

einfach völlig vergessen.

Und, ähm, war relativ

enttäuscht und hab mir damals schon gedacht,

Lysin! Dreck!

So ein Unsinn. Aber, äh,

mittlerweile haben das andere Leute dieses, äh,

haben das implementiert.

Die hatten mehr Lust da drauf, ja.

Mehr Ausdauer und jetzt ist es halt drin und es funktioniert

und, ähm, das ist auch das, was man, glaube ich,

automatisch irgendwie kriegt als Default.

Äh, ja.

Was war denn damals

bei den ersten Suchmaschinen? Also, äh, Alter Vista

zum Beispiel war ja so mit,

Ja, oder leichte Abwandlung davon, aber wesentlich anders.

Äh, das ist auch das, was, äh,

irgendwie so ein bisschen diese ersten

SEO-Geschichten, äh,

getrieben hat.

Also, wo Leute dann, also,

angefangen haben, alle möglichen Worte mit in

ihre, äh, Seiten zu packen.

Ja, für die sie gefunden werden wollen.

Ja. Weil das zielt natürlich

genau darauf ab, halt irgendwie den

TFWF, den TFWF-Wert,

hoch zu, und das funktioniert ja auch.

Also, wenn du es ganz naiv machst, kannst du damit

tatsächlich, äh, irgendwie dann für alles Mögliche

gut ranken.

Ja, es lässt sich halt sehr leicht gamen. Aber,

äh, ja,

ähm, funktioniert heute natürlich

alles nicht mehr so richtig toll und dann...

Wird du gestraft. Hö. Ja, ja, ja.

ja, das ist auch noch so ein Thema, SEO, ne?

Äh, aber,

äh, genau, also, diese,

aber daran sieht man schon, dass das mit der Relevanz

irgendwie nicht so einfach ist, dass die ganzen,

ähm, Suchmaschinen haben das auch nicht so richtig,

äh, hingekriegt. Und die

erste, die das halt so ein bisschen, die was fundamental

Besseres gemacht hat an der Stelle, die hat halt

alle anderen dann, äh,

äh, wie, wie sagt man das, aus dem Wasser

geblasen.

Äh, ja, hinter

sich gelassen und ist jetzt halt irgendwie

die Größte. Ich muss mir gerade

ein großes Niefährt vorstellen, das einmal in die Badewanne

hüpft. Ja, genau.

ja, weil eben

so ein einzelner Wert,

ist halt so, ist halt problematisch, ne?

Leute fangen an, dann drauf zu optimieren und dann ist

auch das die Frage, was für

Leute oder was, was für Fragen stellen

die Leute eigentlich und kann man das eigentlich

damit abbilden? Ist das, ist der Wert,

so ein TFEDF, so ein Kursinus Distanzwert,

ist der für alle Arten von Suchanfragen und

Dokumenten immer das Richtige? Und da ist auch die

Antwort relativ klar, nein, ist nicht so.

Also, und das ist halt etwas,

was Leute, glaube ich, oft nicht

so wirklich auf dem Schirm haben,

dass, äh,

dass ihr Problem oft nicht ist,

dass irgendwie, äh, ja,

äh, eine etwas bessere TFEDF-Formel

zu finden oder, äh,

irgendwie was Magisches, was irgendwie

anders die Relevanz gut macht, dann plötzlich

magisch, sondern dass, äh, eigentlich

die Zeit besser investiert wäre, sich

zu überlegen, okay, was habe ich eigentlich für Dokumente,

was habe ich eigentlich für Suchanfragen da drauf

und was kann ich tun, um das irgendwie

zu verbessern? Und da gibt es auch viele

Dinge, die man machen kann, aber das sind halt, je nachdem, was

man für ein Problem hat, sehr unterschiedliche Sachen.

Äh, zum Beispiel, aber ich meine,

es ist eigentlich, äh, ich, vielleicht kann ich einfach ein paar,

äh, Beispiele dafür nennen, warum das halt, äh,

äh, also TFEDF,

wenn ich jetzt, äh,

zum Beispiel Location-Informationen dabei habe, hilft mir halt

nicht so richtig viel. Also ich suche nach einem Restaurant-Namen

irgendwie, äh,

auf, auf, bei Google Maps oder so.

Dann hilft es mir nichts, wenn ich

jetzt TFEDF die nächsten

Namen irgendwie

kriege von allen Restaurants in Deutschland

oder weltweit, äh, sortiert.

Dann wird wahrscheinlich irgendwo ein Restaurant

in Kuala Lumpur vielleicht irgendwie am ähnlichsten

sein oder den besten Score haben, aber

hilft mir ja nichts, weil ich komme da ja gar nicht hin.

Das heißt, da muss irgendwie die Information,

wo ich bin und, äh,

wie nah das an mir dran ist, ja auch irgendwie mit

rein. Sonst, äh,

geht das bestimmt nicht so toll.

Ähm, oder halt,

wenn ich jetzt, äh,

ja, nehmen wir eben

eine E-Commerce-Seite habe,

äh, oder eine Hotelbuchungsgeschichte oder was auch immer,

etwas, wo halt hinterher Leute dann

was kaufen oder was buchen oder so,

dann kriege ich ja eine ganze Menge

implizite Informationen darüber,

was die Leute relevant gefunden haben

zu einer Query. Also wenn jetzt eben man nach irgendwie,

keine Ahnung, äh,

ähm, samtbezogene Sessel

Amsterdam gesucht hat oder sowas

und dann hinterher irgendein Hotelversuch hat,

dann weiß ich, dann weiß ich

halt, das ist wahrscheinlich relevant gewesen

für diese Suchanfrage und diese

Information kann ich natürlich auch wieder irgendwie,

äh, mitverwenden, um das, äh,

beim nächsten Mal, wenn jemand anders so eine

Anfrage stellt, äh, das zu verbessern.

Aber auch da hilft mir halt TF-IDF gar nicht.

Also, ähm,

Geht es tatsächlich darum, dass die Informationen über diesen einen Menschen für alle anderen Menschen zu manipulieren?

Ja, also genau, es geht nicht um die einzelne Geschichte, aber ich erfahre sozusagen über das Verhalten von Leuten etwas darüber,

welche Sachen für welche Dokumente, also welches Hotelzimmer, wenn ich jetzt so eine Hotelbuchungsengine habe

oder welches Produkt irgendwie, wenn ich eine E-Commerce-Seite habe, relevant war für eine bestimmte Suchanfrage.

Weil wenn jemand das sucht und dann kauft, dann war es wahrscheinlich relevant.

Es gibt natürlich auch Ausnahmen, es kann auch sein, dass ich, keine Ahnung, ich nach, weiß ich nicht, Dörrautomaten suche

und dann aber so geflasht bin von dem, was hast du hier, einem Luftbefeuchter, den ich irgendwie sehe im Ergebnis,

obwohl er völlig irrelevant ist und dann darauf klicke und ihn sofort kaufe.

Direkt neben dem goldenen Schieberrad, vielleicht waren die auch zusammen in einem.

Aber so.

Also im Durchschnitt ist es wahrscheinlich so, wenn Leute was suchen und dann auf irgendwas aufklicken, das kaufen,

dann war das wahrscheinlich relevant.

Und die Informationen sozusagen, wie viele der Leute, oder wenn ich jetzt eine neue Suche,

jetzt stellt jemand nochmal die gleiche Query und jetzt kann ich ja an das Suchergebnis mit ranpappen,

okay, Leute, die diese Suchanfrage auch gestellt haben oder so und so viele haben das gekauft, so und so viele haben draufgeklickt.

Leute, die das gekauft haben, kauften auch.

Ja, ist nicht so ganz das Gleiche, aber das kann ich auch zum Ranken benutzen.

Muss ich ja nicht.

Kann ich auch.

Nur mit TF-IDF hat das nichts zu tun.

Ich muss mir halt überlegen, wie ich das so kombiniert kriege, dass es da halt irgendwie auch zum Ranken mitverwendet wird.

Und tatsächlich ist es halt meistens so, dass man irgendwie andere Dinge, eben Location, irgendwie kaufen Leute das überhaupt.

Ist das irgendwie interessant?

Gehört das irgendwie zu den Dingen, die momentan irgendwie auf meiner Seite sowieso angefragt werden?

Oder ist das halt irgendwas uraltes oder so?

Diese ganze Information muss ich irgendwie zusammenpacken und das muss irgendwie in die Relevanz mit reinfließen.

Und ja, das macht das Ganze natürlich so ein bisschen komplizierter.

Aber wenn man das macht, dann kann man halt auch durchaus deutlich bessere Ergebnisse erzielen.

Vor allen Dingen auch zum Beispiel gegenüber Google oder so.

Weil Google kann halt all das im Grunde nicht machen, weil die wissen halt nicht genau, was die Leute da eigentlich suchen.

Es ist halt ein viel breiteres Ding.

Im gesamten Web kann ich irgendwas finden.

Also Google macht ein viel schwereres Problem.

Das heißt, ich kann, wenn ich das richtig mache, in einem engeren Rahmen halt viel bessere Ergebnisse unter Umständen erzielen, als jetzt Google das jemals könnte.

Und das kann natürlich sehr interessant sein unter Umständen.

Aber ich muss dann halt solche Sachen mir schon angucken.

Es reicht nicht, wenn ich da irgendeine Elasticsearch nehme, das in der Default-Konfiguration laufen lasse.

Und dann hoffe ich, dass das irgendwie gut wird.

So einfach ist es leider nicht.

Oder was auch total interessant ist, was Leute oft nicht machen, aber was halt so eine total einfache Geschichte ist,

sich anzugucken, was für Queries geben die Leute eigentlich ein?

Und was sind denn die Queries, wo kein Ergebnis kommt?

Ich finde das ja sowieso immer total unverständlich, wenn ich jetzt irgendwie auf...

Oft habe ich den Fall tatsächlich, ich suche...

Keine Zeit zu kochen, keine Lust oder so.

Okay, dann lass doch mal irgendwo was zu essen bestellen und abholen oder so.

Okay, das war ganz gut.

Geh mal auf die Webseite, um zu gucken, hat der Laden denn jetzt auf oder nicht?

Immer wieder.

Ganz viele Läden kriegen das irgendwie nicht hin, die Öffnungszeiten drauf zu schreiben.

Und haben aber vielleicht ein Suchfeld.

Und wenn die Leute da immer Öffnungszeiten reinschreiben und die nicht finden...

Oder die Öffnungszeiten sind irgendwo versteckt, irgendwo in tiefer Struktur.

Und dann kommt man ja auf die Idee, man sucht danach.

Und wenn ich jetzt so eine Seite habe und die Leute immer Öffnungszeiten reinschreiben,

und nie irgendwas finden, dann weiß ich, okay, hier kann ich vielleicht was verbessern.

Und das ist etwas, womit relativ leicht man wahrscheinlich viele Benutzer besser zufriedenstellen kann.

Und das wird irgendwie überraschend selten, wenn solche Sachen gemacht werden.

Und man kann natürlich auch noch dann schummeln.

Und dann sagen, okay, wenn...

Wenn Öffnungszeiten eingegeben wird, zeigt immer als erstes die Öffnungszeiten an und nicht die Ergebnisse, die Suche zurückkommt.

Genau.

Also das ist halt so ein bisschen wie...

Wenn man sich vorstellt, man hat eine Firma und die hat irgendwie so eine Support...

Oder ein Helpdesk oder irgendwie eine Support-Hotline oder so.

Dann hat man ja bestimmt auch irgendwie, keine Ahnung, wenn man einen neuen Mitarbeiter da einarbeitet,

dann setzt man den da hin und sagt dem hier so, hier ist eine Liste mit den 50 häufigsten Fragen oder Problemen,

mit denen die Leute zu dir kommen werden.

Und da sind die Antworten da drauf.

Das kann man ja einfach verwenden sozusagen.

Man wird ja nie auf die Idee kommen, ja, die Leute rufen jetzt an und dann...

Sieh halt mal zu, irgendwie.

Dann nimmst du TF-IDF oder dann gehst du an den Akten...

Dann schrankt hinter dir und guckst, was dabei rauskommt.

Das wird halt nicht gut funktionieren.

Insofern, also die...

Oft ist es...

Man hat so immer so Power-Law-Verteilungen.

Eine Power-Law?

Ja, Power-Law.

Also Potenzmengen-Verteilungen.

Ich weiß gar nicht, wie das deutsche Wort dafür ist.

Dass du...

Das hat man bei ganz vielen Sachen.

Dass halt 20% der...

Sozusagen Such...

Also 20% der...

Also bei Suchmaschinen wäre das wahrscheinlich.

Ich hoffe mal, ich sehe keinen allzu offensichtlichen Unsinn.

Aber das heißt, 20% der Queries machen halt 80% der Suchanfragen aus oder sowas.

Kommt natürlich auch drauf an.

Es gibt wahrscheinlich auch Suchmaschinen, die sehen ganz viele Queries nur einmal und dann nie wieder.

Und da sind...

Manchmal ist der Tail halt länger und manchmal ist der Tail auch dicker.

Aber oft ist es so, dass eine kleine Anzahl von Queries macht halt schon einen großen Teil der Anfragen, die überhaupt gestellt werden, aus.

Und wenn das...

Wenn das halt 100 Stück sind, dann kann man die sich halt alle mal angucken und sich überlegen,

okay, was könnte man den Usern, die dauernd diese Anfragen stellen, denn vielleicht mal zeigen, was sie interessieren könnte.

Und das hat dann gar nichts mehr mit...

Was ist dies...

Was macht eigentlich die Volltext...

Was macht eigentlich diese...

Suchmaschine.

Software, die Volltextsuche macht, sondern wie gehe ich mit diesen Problemen irgendwie um auf der Seite.

Und natürlich muss ich dann halt irgendwie eine Art haben, wie ich...

sicherstelle, dass wenn ich jetzt irgendwelche Änderungen mache, dass es nicht kaputt geht beim nächsten Release.

Und ich muss es testen.

Und all diese ätzenden Softwareentwicklungs-Past Practices und so, die man halt einhalten sollte, wenn man irgendwie Dinge programmiert.

Aber wenn man das macht, kriegt man damit auch Ergebnisse, die ganz gut sind.

Also du würdest dann vielleicht einen Junko bauen oder so und dann...

Zum Beispiel, ja.

Und dann einfach an die Suche dann bestimmte Dinge, Bedingungen knüpfen.

Wenn das und das steht, dann machst du irgendeine Liste von Fragen, denen dann eine Antwort zugeordnet ist.

Und wenn das kommt, dann wird die direkt ausgespuckt und ansonsten wird dann die Suchmaschine bedient oder sowas.

Nur dann, wenn das nicht...

Also und dann geht es halt sozusagen in eine Suchanfrage und dann wird halt gerankt nach all den anderen Dingen, die man halt auch so...

Also vielleicht ist es sogar ein Modell, das irgendwas rankt.

Aber gut, habe ich jetzt auch noch ein...

Aber halt irgendwas, wo man sich relativ sicher sein kann, dass das sinnvoll ist.

Und erst wenn das alles nicht klappt, dann fällt es zurück auf sowas wie TF-IDF.

Aber mit TF-IDF anzufangen, das ist eigentlich ein...

Ja, okay, keine gute Idee.

Also du hast gesagt, okay, TF-IDF, das ist das Standard, was zum Beispiel ein Elasticsearch oder ein Zola als Standard machen.

Weil das das Beziehen drunter ist, was das irgendwie auch kann.

Obwohl das dieses BM25 macht.

BM25 ist eigentlich sozusagen das, was dann wahrscheinlich verwendet wird meistens.

Das ist dann schon besser, aber...

Aber die Unterschiede sind nicht so groß.

Also natürlich macht das in gewisser Weise einen großen Unterschied.

Wenn man jetzt viele Suchanfragen hat und die Seite, wofür Umsatz ist und dann die Ergebnisse ein Prozent besser werden, dann ist das ja schon mal super.

Ohne Ohm schicting viel Geld, was dann zusätzlich reinkommt und so.

Aber das sind halt so...

Also die Änderungen an diesen Details, das bringt nicht so wahnsinnig viel.

Ein bisschen was.

Änderungen an...

Man bezieht jetzt zum Beispiel implizites User-Feedback mit ein, wie zum Beispiel Klicks

oder halt irgendwie welche Price-Range jemand angegeben hat oder solche Dinge, das bringt

halt viel, viel mehr.

Ohm schicting.

Da kann man ganz, ganz viele tolle Informationen eigentlich sammeln und verwenden.

Da kann man richtige Wissenschaft draus machen.

Ich glaube, da sind auch ziemlich viele Marketeers, die sich mit sowas auseinandersetzen irgendwie.

Die dann irgendwie Interesse daran haben, wie man das besser bastelt.

Interessant, ja.

Ja, ja.

Das ist ja auch so ein Thema, wenn man jetzt selber sozusagen nicht in der Rolle von einer Suchmaschine ist,

die Leuten irgendwie Sachen finden möchte,

sondern umgekehrt der Rolle des Dokuments, das gefunden werden möchte, sozusagen.

Also wenn man eine Webseite hat, die halt über Google zum Beispiel gefunden werden will oder so,

dann hat man dieses SEO-Problem.

Da gibt es ja auch ganz unterschiedliche Aspekte.

Und auch da ist es halt so, dass üblicherweise wird dann halt zu sehr auf die technischen Aspekte fokussiert.

Und dann wird halt irgendein Quatsch gemacht, weil der gerade halt irgendwie Mode ist oder hip.

Oder wo das Gerücht geht, das kann man jetzt machen und das ist voll toll.

Und dann wird man sofort bei Google super gerankt.

Und das funktioniert zwei Monate, dann kommt der nächste Patch und dann ist man down.

Dann werden alle gelöscht, alle Ergebnisse, die man vorher hatte.

Also ich habe gehört, Content ist King.

Ja, also Google versucht, also zumindest das Team versucht immer auf den besten Content zu optimieren.

Die schmeißen alle Sachen drauf, die sich so Leute ausdenken.

Das heißt, langfristige Strategie wäre tatsächlich, qualitativen Content aufzustellen,

der dann auch gut suchbar ist, der mit solchen TF-IDF-Sachen vielleicht dann auch irgendwie klarkommt.

Aber der dann durch die, also vielleicht haben die einen Qualitäts-Ranker,

der sich irgendwie durch irgendwelche Daten ergibt und den sie dann damit bauen.

Ja, was sie halt machen.

Also Internetsuche ist ja sowieso nochmal was anderes als Volltextsuche,

weil man ja da noch andere Dinge mit einbezieht.

Also die Links-Struktur, wie was, also früher war es ja vielleicht immer so,

dass dann man ganz viele Backlinks haben wollte oder sowas,

dass man ganz viel gelenkt wurde, weil man auf irgendwelchen Seiten stand.

Und wenn man dann irgendwie dieser zentralste Knoten in diesem Netz war,

war man irgendwie der Relevanteste oder so.

Und das ist jetzt vielleicht auch noch ein bisschen anders.

Ja, aber das zeigt ja genau, dass halt die reine TF-IDF-Geschichte,

ist halt nicht unbedingt, das führt halt nicht zu total super Ergebnissen,

sondern Google sind halt die Ersten, die mehr Informationen reingenommen haben.

Und ich würde sagen, natürlich, das ist absolut ganz normal, Volltextsuche eigentlich alles.

Aber Google waren halt die Ersten, die jetzt nicht nur TF-IDF oder irgendwas,

eine Variation davon verwendet haben.

Google hat den PageRank eingeführt.

Sondern sie haben einen PageRank, genau.

Was ist denn der PageRank?

Das hat gar nichts mit Seiten zu tun.

Ja, genau, genau.

Das heißt, könnte man denken, das ist das mit dem,

so wurde es wahrscheinlich.

Das wurde wahrscheinlich auch oft interpretiert.

Mit dem PageRank.

Mit dem Rank, der Page zu tun hat, den man halt so hat.

Und es gab auch so irgendwie Browser-Plugins,

die einem den eigenen PageRank auf der Seite angezeigt haben und so.

Aber nein, das Wort kommt tatsächlich von Larry Page,

also einem der beiden Gründer von Google,

der das halt in seiner Doktorarbeit irgendwie einen neuen Algorithmus

irgendwie vorgestellt hat für das Ding auszurechnen,

in großen Matrizen halt Eigenwerte auszurechnen.

Also ich glaube, das ist irgendwie Power Iteration oder so.

Du hast gerade noch zwei Sachen gesagt.

Einmal dieses Power-Dings, das habe ich jetzt schon wieder vergessen,

wie es hieß, und gerade Eigenwerte berechnen aus Matrizen mit PageRank.

Vielleicht erzähl mir das nochmal als einzelne kleine Subkapitel.

Ja, ich weiß gar nicht, ob es so relevant ist.

Ich glaube, man kann das auch, wenn man das in Detail irgendwie,

dann wird das relativ trocken und langweilig.

Also ich meine, im Grunde ist, was es tut, ist relativ einfach erklärt.

Es hat was zu tun mit, also man kann den Link grafen,

das Web, also das Web.

Das Web ist im Grunde ein Graph.

Eine verknüpfte Knotenpunkte, die durch Linien wieder einer verknüpft sind.

Die Linien sind links.

Ja, die Graph-Mathematik-Refinitionen sind länger aus Knoten und Kanten

und irgendwie, keine Ahnung, es gibt gerichtete,

und das Web ist ein gerichteter Graph.

Also ich kann halt auf eine Seite linken

und die linken nicht auf mich zurück.

Und ja, es gibt jetzt,

das Ding hat bestimmte Eigenschaften,

die es halt besonders machen.

Also zum Beispiel der Link-Graph des Webs ist halt super spars.

Das ist halt, die meisten Seiten haben nur Verbindungen zu ganz,

ganz wenigen anderen.

Ja, aber, also es gibt ja auch Graphen,

wo alle miteinander irgendwie verbunden sind.

Das ist beim Web nicht so.

Zu den allermeisten Seiten habe ich eben keine Links.

Und ich kann den als Matrix darstellen,

indem ich sage, okay, alle Webseiten oder Knoten

sind halt irgendwie die Zeilen und Spalten der großen Matrix.

Und ja, wenn ich einen Link habe,

dann trage ich da jetzt zum Beispiel eine 1 ein

in der entsprechenden Zeile und Spalte.

Also wenn ich jetzt von X nach Y...

Also in der Zeit kommt dann eine 1,

wenn ich von meiner Seite auf deiner Seite link höre,

das steht.

Genau.

Ja, und das kann ich für das gesamte Web machen

und das in eine Matrix packen.

Was natürlich ein bisschen schwierig ist.

Auch da kann ich halt nutzen,

dass das Ding spars ist

und dass die allermeisten Werte 0 sind.

Und die, die 0 sind,

die schreibe ich halt einfach nur irgendwo hin.

Und da kann ich mir ganz sparen,

die irgendwo muss ich nicht speichern.

Das heißt, ich muss ja tatsächlich sozusagen nur da,

wo Links sind, irgendwas speichern.

Und ja, dann kann ich zum Beispiel im PageRank ausrechnen,

ist einfach nur sozusagen ein Maß

für die,

Wahrscheinlichkeit,

wenn ich einen Random Walk

über diesen Graphen mache,

auf diesem,

auf dem Ding vorbeizukommen.

Also wenn ich zufällig irgendwo durchs Internet surfe,

mit irgendeiner zufälligen URL,

mit der ich angefangen habe,

komme ich dann dahin, wo ich hin will.

Oder gibt es einen Startpunkt?

Ja, laufe ich da drüber.

Ja, genau.

Also...

Laufe ich über diese Seite, ja genau.

Also gibt es einen Startpunkt?

Nö, das fängt halt irgendwo an.

Klickt sich einfach irgendwo durch.

Ja, random, ja.

Ja, okay.

Wikipedia-Artikel 1, 2, 3, 4, 5,

dann Querverweis auf irgendeine Quelle,

die bei einem Nachrichtenportal,

das sind auch irgendeine...

Und was das Ding im Grunde,

sozusagen abbildet,

wie wichtig,

wie zentral,

ist eigentlich eine Seite.

Und...

Also wie tief in diesen Knoten,

wenn man sich das Web jetzt doch wieder

als Knoten vorstellt oder sowas,

und dann der zentrale Knoten,

welche Seite ist das?

Ist das wahrscheinlich mittlerweile Google?

Ich weiß es nicht.

Gibt es da,

weißt du das?

Gibt es das?

Naja, keine Ahnung.

Mit dem größten Page-Rank

müsste dann ja eigentlich

Google selbst,

selber sein.

Ja, Wikipedia ist immer weiter oben,

aber Google,

nee, glaube ich gar nicht mal.

Google,

die Links,

die Google ausgibt,

sind auch nicht,

genau,

die gehen da nicht mit in den Graphen rein.

Ja, okay.

ich weiß es nicht.

Aber ist auch eigentlich egal.

Spannend.

Aber wenn man das jetzt kombiniert

mit eben TF-EDF

aufgeschickt,

dann ist das halt viel besser,

als wenn ich das nur

wenn ich nur TF-EDF nehme,

weil es ist halt in gewisser Weise

ein Maß dafür,

ja, sozusagen,

wie wichtig ist diese Seite eigentlich

insgesamt.

Und dann kombiniere ich halt

eine lokale Geschichte,

TF-EDF mit irgendwie

so einer eher globalen Geschichte.

Und das funktioniert dann schon ganz gut.

Und das führt halt dazu,

dass ich eben solche simplen,

ich schreibe jetzt fünfmal

ein Keyword auf eine Seite,

Spiele reinhalten,

dann nicht mehr funktionieren.

Weil dadurch werde ich halt nicht

zentral im Graph,

dass ich das tue.

Und aber auf der anderen Seite,

das ist halt das,

was dann die Leute mit den Backlinks

immer meinen.

Also wenn du halt ganz viele Links hast,

die auf dich zeigen,

dann bist du natürlich zentraler.

Aber jetzt kannst du die Links

natürlich auch wieder gewächen

und das ist ein Katz-und-Maus-Spiel

und keine Ahnung.

Aber Google verwendet jetzt

auch nicht nur PageRank

und irgendwie sowas TF-EDF-artiges

oder so,

sondern die verwenden halt

ganz, ganz viele.

Ich habe es gerade mal auch gemacht.

Der PageRank gibt es jetzt irgendwie

neun und zehn.

Also das ist irgendwie

nummerlich gestellt.

Und PageRank 10 ist tatsächlich

Google.com

und The Government of India,

India GovN.

Und ja,

was hast du,

wie drei Kontos hast du?

Und dann gibt PageRank 9

ist auch Python dabei,

also Python.org.

Also wenn du einen Link

von Python.org kriegst,

dann voll gut.

Ja, genau.

Das zählt was.

Naja, also tatsächlich

heutzutage ist es so,

es wird ganz, ganz viel,

also nicht nur diese beiden Werte,

also nehmen wir an,

würdest jetzt nur TF-EDF

und den PageRank haben,

dann hättest du zwei,

oder die sind,

im Suchmaschinenbereich

nennt man das mal Signale,

im Machine Learning Bereich

würde man das Features nennen,

sondern Google

sammelt eher so hundert,

sagen sie so,

aber tatsächlich sind es

wahrscheinlich noch ein paar mehr.

Und das Ranking ergibt sich daraus,

dass jetzt diese

Signale,

von denen ein paar

aus der Query kommen

und möglicherweise auch aus dem User,

der die Query gestellt hat,

ein paar kommen aus dem Dokument,

eben wie sowas wie PageRank

kommt die Query irgendwie

in der Domain vor

oder sowas.

ein paar kommen aus einer Kombination

von Query

und Dokument.

TF-EDF wäre so ein Fall,

da multipliziert man das ja miteinander.

Und jetzt hat man halt

sozusagen für jedes Suchergebnis

so ein Vektor

mit irgendwie

vielleicht 100 Einträgen

oder 200

oder 500

oder so.

Und dann hat man halt

üblicherweise ein Modell,

ist auch völlig egal,

ob das jetzt ein Machine Learning

trainiertes Modell ist

oder ob das ein Modell ist,

das Leute von Hand getunt haben.

Es kommt aufs,

das gleiche raus,

letztlich,

dass diese Vektoren halt

in Reihenfolge bringt

und irgendwie halt ein,

ein endgültigen Score halt

ausgerechnet.

im simpelsten Fall könnte das

einfach eine gewichtete Summe

sein zum Beispiel.

du sagst halt,

wie wichtig ist mir

jedes einzelne Feature,

dann machst du halt

die Summe drüber

normierst das vielleicht

noch irgendwie oder so.

Und, ähm,

dann sortierst du halt

nach der,

nach der Summe.

könnte man machen.

Oder man kann's halt

dieses Modell halt auch

irgendwie trainieren.

und, ähm,

kriegst dann halt irgendwie

am Schluss, äh,

eine Sortierreihenfolge.

Und, äh,

das ist halt eher so

das, was heute gemacht wird.

das ist lustigerweise

aber in den ganzen,

also zumindest,

ich weiß nicht,

ob es kommerzielle Suchmaschinen

die das implementen,

die sowas ähnliches machen.

Die ganzen, ähm,

Open Source Suchmaschinen

können das nicht.

Nicht so,

also so ein bisschen.

Also man kann so ein bisschen

was machen,

aber so richtig.

Ein bisschen woosh,

aber so richtig.

Aber so richtig toll

können die das,

also so cool wie irgendwie

die großen dazu machen,

machen die das eigentlich nicht.

Das ist auch so etwas.

mich, mich,

mich ärgert ja so ein bisschen

oder mich wundert,

dass es da so wenig,

also es ist viele Dinge,

die halt so im

Bereich Websuche oder so

halt, äh,

irgendwie

schon lange gemacht werden,

oder da, äh,

das kommt halt nie

so richtig an.

Also was mich zum Beispiel

wundert ist,

was Google seit 2004,

glaube ich,

macht oder so,

die halten ihre NTCs

alle nur noch im Hauptspeicher.

Die gehen gar nicht mehr

auf die Platte,

weil Platte ist immer

so ein bisschen blöd,

weil, äh,

du kriegst halt Latenzen,

werden halt unvorhersehbar.

plötzlich, äh,

liegen halt deine Sektoren

ungünstig, äh,

irgendwie du musst warten,

bis das da vorbeikommt

und du musst aber viele Sachen

miteinander, äh,

mergen und jetzt

liegen die Kombinationen

es ist halt,

die Sektoren sind halt

ungünstig korreliert

und plötzlich musst du halt

auf eine Querie

sehr lange warten.

Das ist eigentlich

totaler Mist.

Du willst eigentlich

relativ sicher sein können,

dass es halt nach so und so viel,

Millisekunden oder so

halt durch ist

und das kannst du eigentlich

nur dann garantieren,

wenn das ganze Zeug

immer im Hauptspeicher liegt

und wenn du noch ein paar

andere Sachen irgendwie

berücksichtigt hast

und Google,

ich glaube auch,

das ist der Grund,

warum Google das so macht,

die möchten halt wissen,

wenn jemand eine Suchanfrage

eingegeben hat

und, äh,

dann das an die,

an diese tausend, äh,

Server,

die halt jeweils nur

einen Teil vom Index haben,

schicken und dann kommt

ein Ergebnis zurück,

dann wissen wir halt,

nach 20 Millisekunden

ist das halt durch.

Wenn da Platten im Spiel wären,

könnte man das überhaupt

nicht mehr garantieren,

weil, äh,

da hast du halt Pech

und irgendwo musst du halt

auf eine Platte warten,

und die Seek Time da ist halt,

bei Platten auch,

sind halt mal 10 Millisekunden

oder noch mehr,

und dann wird das Gesamtergebnis

halt langsam dadurch,

das ist halt irgendwie Kacke.

Aber jetzt,

wenn man sowas wie Lucene hat

oder irgendwie Elasticsearch

oder Solar,

da kann dann das durchaus passieren.

wenn man Pech hat,

dann ist eine Query halt langsam

und zwar auch nicht deterministisch

irgendwie bestimmte Queries,

sondern halt irgendeine,

was halt, äh,

aber das ist halt so designt.

es kann auch sein,

dass man mittlerweile sagen kann,

nur, äh,

dieser Index soll in Memory liegen

oder so,

aber ich weiß es nicht so genau.

In dem Fall mich wundert,

dass das halt,

weil bei den Hauptspeichergrößen

heutzutage sollte das

auch überhaupt kein Problem sein,

dass man halt

den Index, äh,

halt im Hauptspeicher hält,

und wenn das nicht reicht,

dann vielleicht mal mehr Maschinen dazu,

ist auch,

warum,

warum muss das auf,

wie legt man das auf die Platte,

optimiert sein?

Das macht auch heutzutage

eigentlich keinen großen Sinn mehr.

da hab ich noch was vergessen,

bei den,

es gibt ein Ding,

Redis,

das hatten wir jetzt auch schon ein paar Mal,

das kann auch Fulltext,

Volltextsuche mittlerweile ganz gut.

Also Redis ist ein,

Cache,

für bestimmte Dinge,

die als Key-Value kombiniert sind.

Key-Value ist aber nicht nur das,

es kann auch ein paar andere Datenstrukturen

das liegt tatsächlich nur im Hauptspeicher

und das kann auch Volltextsuche

und das wollte ich mir auch schon immer mal angucken,

aber hab ich es,

letzter Zeit nicht geschafft,

kann sein,

dass das mittlerweile vielleicht ein bisschen sogar das erfüllt,

was ich irgendwie gerne hätte.

Lucid ist halt,

tatsächlich eher so drauf optimiert,

dass es auf der Platte gut aussieht.

also da,

da hängt das irgendwie so ein bisschen hinterher

und es hängt halt auch hinterher bei solchen Sachen wie,

also im Machine Learning Bereich läuft dieses ganze Thema immer,

unter dem Namen Learning to Rank.

Also sozusagen,

dass du halt,

machst halt Features,

du hast halt jetzt,

die Training,

deine Trainingsdaten sehen immer so aus,

dass du,

Mengen hast von Queries

und dann

Ergebnislisten,

wo halt Leute,

redaktionell annotiert ist,

wie gut waren,

wie relevant sind die Ergebnisse,

wo Leute meistens auf einer Skala von 0 bis 4

oder 0 bis 3,

0 für,

ist überhaupt nicht relevant,

oder 4 oder 6,

ist halt super relevant für diese Anfrage,

Ergebnislisten annotiert haben

und du dann halt hinterher,

sozusagen,

testen kannst,

wenn du jetzt

was an deiner Suchmaschine geändert hast

fütterst die halt mit den Queries

und guckst dir,

die Resultlisten an,

dann kannst du halt

einen Score ausrechnen.

Da gibt's dann unterschiedliche Master,

die man benutzen kann,

Mean Average Precision,

Normalized,

Cumulative Discounted Gain,

Expected Reciprocal Rank

oder was auch immer,

Ich wundere dich jetzt dabei,

mal kurz,

wie alle drei,

Aber im Grunde sind das alles Master dafür,

wie gut,

ist jetzt sozusagen die,

dieses,

diese,

dieses,

Ergebnis für die Anfrage

wenn ich halt über viele schaffe,

besser zu sein als ein anderes,

Verfahren,

denke ich halt besser.

dann hab ich halt ein besseres Ergebnis

und das ist ja etwas,

was sich dann auch direkt,

bemerkbar macht in User-Zufriedenheit

oder Geld oder was auch immer man halt

aus mir möchte.

genau,

normalerweise,

wenn ich jetzt so ein,

Maschinen-Learning-Modelle funktionieren da wirklich besser.

es gibt da schon,

es gab da schon,

gibt da schon lange auch Wettbewerbe.

Ich glaube,

ich hab mal in einer Learning-for-Rank-Challenge mitgemacht,

das war 2009 oder so,

wenn man das vergleicht,

das ist schon über 10 Jahre her,

das ist schon klar.

das ist krass,

Und es ist immer,

aber was ich dann,

ich dachte eigentlich,

wenn man mich damals gefragt hätte,

was glaubst du,

wann können Suchmaschinen,

ist das so ein Standard-Feature von,

von Volltext-Suchmaschinen,

hätte ich gedacht,

so in zwei Jahren oder so,

können die das alle.

Wir machen das aber immer noch nicht,

das ist jetzt,

das ist so ein bisschen,

aber wahrscheinlich braucht man ja da doch irgendwie auch einen Markt dafür,

und irgendwie,

und wenn es einfach keinen interessiert,

passiert das halt auch nicht,

und wenn es keinen Grund gibt,

das zu implementieren,

und den gibt es halt nur bei den großen Suchmaschinen,

und die machen das wahrscheinlich,

die geben ihren Kram halt nicht raus.

Ach ja,

aber im Grunde,

so könnte man halt,

man kann halt,

wenn man jetzt zum Beispiel,

daher weiß ich das auch noch,

TF-IDF-Vergleich mit einem einfachen Machine Learning-Modell,

wo man halt ein paar,

Signale nimmt und die kombiniert,

und das halt dann optimiert hat,

das ist halt schon wirklich deutlich besser,

das heißt,

man kann ja relativ viel rausholen,

was die Qualität von Suchergebnissen angeht,

und das wäre eigentlich alles gar nicht so schlimm.

na ja,

falls du eine neue Suchmaschine brauchst,

dann sag dir einfach mal Bescheid.

das ist halt dummerweise auch irgendwie nicht so ganz so super,

leistungsvoll mit Tiana,

das kann man auch nicht so an einem Wochenende machen.

Na ja,

ich glaube,

wenn man jetzt,

beispielsweise Postgres nimmt oder so,

irgendwie,

Django,

und dann,

Volltextsuche drauf macht,

und dann halt,

kann man natürlich auch die eingebaute Rank-Funktion nehmen,

die halt auch was TF-IDF-Methods macht.

und Redis dazu.

Redis,

oder man kann auch mal Redis ausprobieren,

muss ich mal,

muss ich mal testen.

dann ist man da schon,

wenn man jetzt was,

wenn man das nochmal selber sortiert,

schon relativ weit vorne,

wenn man das dann richtig macht,

Genau.

ich glaube,

du hast eine Sache,

irgendwas mit dem PAU,

irgendwas gesagt,

da hat,

du wolltest nur kurz drauf eingehen,

ich weiß jetzt nicht,

ob das noch wichtig ist,

ob das,

oder jeder schon vergessen hat.

irgendeine Methode,

zum Ranken,

was ist,

die exponentielle,

du meinst die Potenzmenge,

du meinst,

ich glaube,

das hat,

das halt,

kommt drauf an,

ist halt unterschiedlich für jede,

Seite,

oder für jede Suchmaschine,

hängt halt von,

ab welcher Anfragenstelle,

aber was man oft sieht,

ist halt,

dass eine kleine Anzahl von Anfragen,

kleine Menge von Anfragen,

Großteil,

eine kleine Anzahl unterschiedlicher Anfragen,

macht dann Großteil,

Entschuldigung,

das hattest du doch tatsächlich schon einigermaßen erwähnt,

Das ist das,

genau,

das Problem hat man auch.

ansonsten,

ich weiß nicht,

oder genau,

wir hatten ja so SEO schon so ein bisschen,

da würde ich auch noch gerne,

was man halt da,

du sagst Content,

das klingt ja aber,

genau,

was sich Leute oft nicht,

klar machen,

ist halt,

was das heißt,

würdest du sagen,

jetzt geht darum,

die optimale,

den optimalen Text zu schreiben für irgendeine,

ich glaube es,

oder wie würdest du sagen,

was ist das,

was Content gut macht?

ich würde sagen,

Content macht gut,

dass man,

zumindest,

wenn man Google fragt,

dass man Absätze hat,

die tatsächlich mit Inhalten gefüllt sind,

die halt eine Wortdiversität,

beinhalten,

die zu dem Thema einigermaßen passt,

dass halt,

dass die Worte da,

irgendwie schon einen Kontextbezug zu haben,

dass die vielleicht auch,

bestimmte Dinge beschreiben,

dass man halt nicht immer irgendwelche Keywords benutzt,

sondern,

dass man halt tatsächlich versucht,

einen Text so darzustellen,

und Google hat es irgendwie geschafft,

so ein Maß dafür zu finden,

ob so ein Text tatsächlich,

gut ist,

in dem Sinne oder nicht,

und wenn man da halt,

ich weiß nicht,

mehrere Seiten vielleicht zu hat,

zu seinem Post,

dann wird das als guter Content irgendwie bewertet.

Ich kenne tatsächlich jetzt auch nicht im Detail,

so die Bewertung für,

was ist jetzt guter Content,

und das bewegt sich vielleicht noch ein bisschen,

und ob man das jetzt alles schön mit Bildern machen muss,

mit Alttexten und so,

dass man halt dann,

das qualitativ hochwertig implementiert hat,

also die Implementierung ist,

glaube ich,

auch nicht ganz unwichtig,

und wenn man das aber,

glaube ich,

wenigstens so tut,

als hätte man das qualitativ hochwertig implementiert,

indem man einigermaßen,

so taktisch sinnvolle Sätze,

zu einem Thema hinschreibt,

die dann auch so aussehen,

als gehören die zum Thema,

weil die halt da mit dem,

hätte irgendwie dann zu dem Thema gut passen,

irgendwie,

gibt es dann irgendwie einen Index,

glaube ich,

ist das schon einigermaßen ansprechender Content,

zumindest für Google,

und wenn man das dann halt schafft,

da so eine,

Content-Pyramide,

wie man das so sagt,

aufzubauen,

das heißt,

zu einem Oberthema,

viele verschiedene Bereiche,

die eigentlich zu dem Oberthema gehören,

vielleicht machen wir das ja mit unserem Podcast zum Beispiel,

dass wir halt tatsächlich verschiedene Themen zu Python haben,

das aber alles Python ist,

und das hat irgendwie alles einen Bezug zu Python,

kommen wir tatsächlich in dieser Content-Pyramide Python,

immer wieder ein Stück weiter oben,

nach oben,

natürlich haben wir jetzt keine Texte,

die man so analysieren kann,

per Volltextsuche,

und nachdem man,

und winken kann,

und wir haben halt nur irgendwelche Snippets,

oder Sonos,

mit denen man das tun kann,

ich glaube so,

das funktioniert so ein bisschen,

so was halt Content bedeutet.

aber das ist jetzt auch,

würde ich eher sagen,

sehr auf der,

auf einer sehr technischen,

Ebene,

man kann,

glaube ich,

aber auch,

ich würde sagen,

der technische Teil ist,

macht auch einen nicht unerheblichen Teil aus,

man kann halt auch furchtbare Fehler machen,

ein großer,

anderer Teil,

ist halt auch ein inhaltlicher,

und der ist halt eben,

zum Beispiel,

was dann eben,

ich bin überrascht,

man kann zum Beispiel auch,

unterschiedliche Seiten haben,

für unterschiedliche Anfragen,

und für unterschiedliche User,

man muss halt erstmal,

überhaupt rauskriegen,

was sind das für Leute,

die auf meine Seite kommen,

und möglicherweise gibt es da,

unterschiedliche Leute,

möglicherweise stellen die,

unterschiedliche Suchanfragen,

und dann kann das zum Beispiel,

gut sein,

das ist auch etwas,

das kennen bestimmt viele Leute,

wenn man,

man sucht nach irgendwas,

dann ist,

landet man auf einer Seite,

von irgendeiner Firma,

die irgendwas anbietet,

oder so,

und scrollt da die ganze Zeit rum,

und denkt sich so,

was wollen die mir eigentlich erzählen,

was wollen die mir jetzt wieder anbieten,

fünf Stockfotos,

und dann irgendwie,

die gleichen,

Buzzword,

Bingo,

Dinger,

die auf allen Seiten sind,

und ich,

scroll da eine Viertelstunde drauf rum,

und ich verstehe nicht,

was das eigentlich ist,

das hat man,

hat man oft,

aber die Frage ist,

warum müssen die eigentlich,

allen die gleiche Landingpage zeigen,

das müssen die doch gar nicht,

aber das kommt dabei raus,

wenn du sagst,

ich mache eine Landingpage,

für alle die gleiche,

kriegst du halt sowas,

aber das müsste eigentlich,

gar nicht sein,

sondern das,

was sie sich überlegen müssten,

ist halt,

wenn jetzt jemand,

nach bestimmten technischen,

Geschichten sucht,

geben wir dem,

geben wir dem vielleicht,

doch eine Seite,

wo tatsächlich steht,

was wir machen,

und wenn jetzt,

irgendwie,

keine Ahnung,

eher ein Business orientierter,

User halt,

nach den,

nach den üblichen Buzzwords sucht,

oder so,

den gut,

dem kannst du ja dann vielleicht,

irgendwie,

vielleicht kriegst du den,

irgendwie,

mit Stockfotos glücklich gemacht.

Ich weiß auch nicht,

warum,

das führt überhaupt dazu,

dass wir diese Datenkrake brauchen,

wenn wir damit Geld verdienen wollen.

Das ist der Grund dafür,

warum man so sehr interessiert ist,

an dem Typen von Nutzer,

den man jetzt da vor der Kiste hat,

es geht ja eigentlich darum,

dass man den irgendwie,

emotionalisiert,

und nicht nur,

dass man dem den tollen Content teilt,

sondern,

dass man den dann,

wenn wir jetzt von der ganzen Geldmaschine ausgehen,

den dazu bringt,

dass er irgendwas kaufen soll.

Wenn der schöne Kapitalismus halt so ist,

der möchte dich emotionalisieren,

und dir jetzt darfst zeigen,

was du willst.

weil ich kann,

ich weiß nicht,

aber ich meine jetzt,

um rein aus dem Suchmaschinen-Kontext,

was man jetzt damit macht,

ist ja nochmal eine andere Frage.

will ich eventuell Leute hinterher,

will ich da irgendwie,

die konvertieren zu was auch immer,

Umsatz, äh.

Die konvertieren zu,

das ist total schön,

wenn man von Leuten redet,

wir möchten die gerne konvertieren.

Wir möchten unsere Hörer übrigens konvertieren,

zu besseren Pythonistas.

Genau,

man muss sich halt überlegen,

was man für Ziele eigentlich erreichen will,

damit das überhaupt funktionieren kann,

damit ich überhaupt die Chance kriege,

muss ich ja irgendwie,

vielleicht,

oder macht es vielleicht in den Leuten halt,

etwas zu zeigen,

was sie dann halt auch verwenden können,

was sie verstehen können,

was relevant für sie ist,

und das passiert oft nicht,

sondern ganz oft,

ist es halt so,

alle kriegen das Gleiche,

wonach sie gesucht haben,

dabei,

das weiß ich doch,

wonach sie gesucht haben,

ich muss ja jetzt nicht irgendwie wissen,

wer das ist,

das interessiert mich gar nicht.

Ich weiß doch,

wonach die gesucht haben,

warum zeige ich denen alle das Gleiche,

das macht überhaupt keinen Sinn.

es gibt die Vorstellung,

dass das halt so sein muss,

woher auch immer die kommt,

dass es halt dann so ein,

technisches Ding ist,

welche Farbe,

nehme ich da,

oder welche Fotos,

wie ist der Anteil von Fotos zu Text,

dass das dann irgendwie gut macht,

aber das,

wenn da nicht steht,

was mich interessiert,

dann kriege ich das nicht wieder gut gemacht,

durch irgendeine Farbe,

das ist einfach,

da hast du mich schon verloren,

im Grunde.

was du gerade gesagt hast,

dass der Content King eigentlich bedeuten sollte,

ich kriege genau das,

was ich möchte,

weil es so prä-invertisiert,

und gefiltert ist,

dass deine eigene Blase so gut zu dir passt,

dass du da genau das findest,

was du machst.

Das ist,

es müsste sich jemand Gedanken drüber gemacht haben,

das ist halt das Entscheidende,

jemand muss sich,

zum Beispiel,

angeguckt haben,

Also bessere Kuratierung durch den Suchalgorithmus.

Jemand sollte sich überlegt haben,

zum Beispiel,

wir sind das Dokument nicht,

wir sind die Suchmaschine,

was Google macht,

ist nochmal ein anderes Ding,

es müsste sich jemand überlegt haben,

wonach suchen die Leute,

wenn die Leute auf der Seite landen,

wonach haben die gesucht,

ist das wirklich das,

was sie suchen?

Wenn sie danach gesucht haben,

kriegen die Seite,

wäre es nicht sinnvoll,

ihnen eine andere Seite zu zeigen?

solche Sachen.

Das ist überhaupt so etwas,

was ich glaube,

was tatsächlich sehr sinnvoll wäre,

unter Umständen,

dass halt Unternehmen,

halt für unterschiedliche Zielgruppen,

unterschiedliche Leute,

unterschiedliche Suchanfragen,

unterschiedliche Seiten haben,

das gibt es praktisch nicht,

weil irgendwie die Vorstellung ist,

das ist wie in einer physikalischen Welt,

du hast halt ein Schaufenster,

und das ist halt für alle gleich,

aber das muss man,

ja gar nicht so machen,

unter Umständen,

aber das ist halt sehr schwer zu vermitteln,

aber wenn du jetzt zum SEO gehst,

der so die Content-Strategie macht,

oder so,

dann sagt er dir vielleicht einfach,

kann das auch anders machen,

aber wenn du jetzt zum,

zu einer technischen SEO-Agentur gehst,

die dir sagt,

ich verkaufe dir so und so viel Backlinks,

dann hilft dir das,

sagen wir mal so,

es gibt halt nicht nur den technischen Teil,

sondern halt auch den inhaltlichen Teil,

und der wird halt,

der inhaltliche Teil wird,

soweit ich hinweise,

üblicherweise mitbekomme,

immer sehr vernachlässigt,

vernachlässigt,

die Leute kümmern sich immer um technische Details,

sondern oft auch um Sachen,

die eigentlich,

fragwürdig sind,

lassen halt eine ganze Menge gute Gelegenheiten einfach so liegen,

es klingt halt,

als wäre es auch,

wenn nicht,

das zu implementieren,

ist es,

ist es tatsächlich,

das ist halt auch,

das ist vielleicht auch der Grund,

warum das keiner macht,

genau,

und was die Leute,

die das halt implementieren,

auch so,

und denen halt dann die Content machen,

vielleicht auch dann nicht auf dieser technischen Seite sind,

beziehungsweise,

dass dann,

ich sage einfach mal,

relativ teuer wird,

und mal das zu implementieren,

nicht so einfach ist für die Zielgruppe,

die dann gerne ihren kleinen,

Straßenlädchen optimieren möchte,

das vielleicht auch so ein Problem ist,

aber die großen Kunden,

hast du das schon mal gesehen,

dass so wirklich so diese Pages,

wirklich dann,

sich ändern,

je nach Suchanfrage,

du packst einfach,

das ist überhaupt nicht schwer,

ich sage nur,

hast du ein Beispiel,

wo du sagst,

nicht,

das ändert sich nach Suchanfrage,

sondern,

du hast halt unterschiedliche Pages im Google Index,

und bei unterschiedlichen Anfragen,

werden unterschiedliche Seiten gefunden,

das kannst du machen,

das ist gar kein Problem,

das habe ich,

das ist natürlich,

man hittet quasi für jedes schöne Keyword-Kombination,

seine eigene Ländepage raus,

du musst nicht für jede Kombination,

du musst halt gucken,

man würde damit anfangen zu gucken,

was suchen die Leute eigentlich,

welche,

mit welchen Anfragen landen sie,

wenn ich jetzt mich dafür interessiere,

was würde ich denn suchen,

und wie schaffe ich es dann,

dass ich dann auch,

dann da gerankt werde,

dieser,

dieser Schritt,

das ist ja das aller,

aller simpelste,

dass man halt anfängt,

sich zu überlegen,

wie kommen Leute eigentlich hin,

das machen die meistens nicht,

sondern,

die gehen halt umgekehrt,

von der Seite aus,

die sie halt bauen,

und sagen dann,

ich habe jetzt diese Seite,

völlig unabhängig davon,

ob das irgendjemand interessiert,

oder nicht,

wie kriege ich die denn jetzt hochgerankt,

und dann packen sie da irgendwie komische Warte rein,

kaufen Links,

machen irgendwie seltsame Dinge,

ändern die Farben,

verstecken weißen Text auf weißem Hintergrund,

oder kaufen Hellhits bei Google,

oder so,

und wundern sich dann,

dass die Leute irgendwie,

wenn sie halt quasi da landen,

dann irgendwie enttäuscht sind,

aber diese ganzen Tricks,

also mit den Sachen verstecken,

hinter weißem Hintergrund,

und mit den extra Keywords,

und mit den zu vielen Links,

das hat,

glaube ich,

Google mit den ganzen neuen Pads,

die sind da sehr gut,

das wird alles nicht so richtig,

richtig funktionieren,

es wird sogar bestraft,

du wirst tatsächlich abgerankt,

wenn du sowas machst,

wenn die solche Methoden finden,

die können die identifizieren,

dann schmeißt du dich für raus,

das wird bestraft.

Würde ich jetzt,

finde ich,

ich wüsste jetzt nicht genau,

warum man das machen sollte,

weil im Grunde ist es ja,

ich würde,

wenn ich Google wäre,

das ignorieren,

ich habe gehört,

dass das tatsächlich drinsteht,

ich weiß nicht,

was das für Google bedeutet,

oder was,

das ist halt nur noch Sachen gerankt,

wenn die halt diesen Content-Qualitätsding

besser machen können,

das heißt,

weil die halt auf diese Qualitätssachen

und Leute,

die halt dann versuchen,

mit Keywords das einzubinden,

die legen nicht so viel Wert

und dann würdest du sagen,

du kannst eine Regel aufstellen,

die funktioniert,

du sagst,

Leute,

die irgendwie so shady Geschichten machen

oder die halt die falsche,

sich halt von der falschen SEO-Agentur

übers Ohr haben hauen lassen,

die sind halt prinzipiell nicht gut.

Genau.

Da weiß ich nicht,

ob diese Regel wirklich stimmt,

ich würde tatsächlich das eher

dann aus Trainingsdaten lernen lassen,

ob das so ist oder nicht,

weil diese Annahme muss ja nicht richtig sein.

Es kann ja sein,

tatsächlich,

dass irgendwie der Hotdog-Stand

um die Ecke,

der eigentlich total super Hotdogs macht,

hat aber jetzt nicht so die perfekte

SEO-Auswahlkompetenz

und greift da halt ins Klo,

dann würde ich den gar nicht

dafür bestrafen wollen,

unbedingt dafür,

dass halt seine SEO-Agentur kacke ist,

sondern ich würde das ignorieren.

aber ich weiß es nicht.

Aber ich glaube,

Google hat das tatsächlich gemacht,

das steht irgendwie in den Rules da drin,

aber ja,

sollte man vielleicht nochmal drüber nachdenken

und das ist sowieso,

also ja,

ja gut,

aber ich hoffe jetzt,

also Rest muss bewerten,

aber das haben wir,

glaube ich,

heute nicht mehr die Zeit für

und das ist auch nicht unser Thema.

Warum,

wieso,

weshalb dann,

welche Sternchen vergeben werden sollen,

sollten,

nicht sollten,

aber genau,

zum Beispiel,

haben wir noch irgendwie ein großes Thema

oder sowas da drin ist,

was wir noch gar nicht angeschnitten haben

oder was irgendwie?

Ich glaube,

die großen Sachen haben wir einigermaßen durch.

Wir haben so ein bisschen erklärt,

wie es funktioniert,

was für Algorithmen dahinter stecken.

Wir sind jetzt nicht ganz so detailliert eingegangen

auf diese ganze mathematische Komponente

von den Wertserechnungen,

aber das ist,

vielleicht auch einfach hier an der Stelle too much.

Wir haben vielleicht noch wieder mal,

leider ein bisschen wenig erzählt,

wie man das in Python macht.

aus der gesagt haben,

dass es irgendwie so Pylusin und Woosh gibt,

habe ich jetzt,

und natürlich Postgres,

und dass man das in Django implementieren kann.

genau,

vielleicht,

wenn man,

ich finde auch gerade Python ist super geeignet dafür,

weil dann kann man diese beiden Dinge halt

total gut miteinander kombinieren.

Man kann halt zum Beispiel

irgendwie diese ganzen

Ranking-Geschichten

halt wahrscheinlich,

ich denke mal,

es müsste eigentlich,

so Python ist wahrscheinlich die Sprache,

mit der das am besten geht,

wenn man halt eben diese ganze

NumPy,

SciPy,

Machine Learning-Geschichte

mit dranhängen hat.

Das heißt jetzt,

wenn man jetzt nicht unbedingt

ein Machine Learning-Modell verwendet,

aber halt diese Listen,

oder sagen wir mal so,

Vektoren von

Features halt irgendwie

auch mit Handgedenken

halt in Listen schnell zu lenken,

das geht mit Python wahrscheinlich sehr, sehr gut.

Und bei anderen Sprachen

hätte man da wahrscheinlich so ein bisschen,

na ja,

man hört sich an,

das braucht man auf jeden Fall erstmal Content,

bevor man irgendwie

eine vernünftige Suche implementiert.

Ja, tatsächlich,

das ist wahrscheinlich auch nicht so schlecht.

Weil sonst kann man ja selber aussuchen,

was dann da rauskommt.

Ja, und genau,

und das ist halt,

ich weiß jetzt gar nicht,

ob es ein großartiges anderes,

also ist das alles Web heutzutage?

Ja, ne?

Gibt es irgendwie noch eine...

Es gibt bestimmt noch irgendwelche

Studierenden-Datenbanken,

wo man dann nach

wissenschaftlichen Texten suchen kann,

oder Juristen sind sehr gerne dabei

mit irgendwelchen Volltext-Sachen,

irgendwelchen,

die man dann auch so,

die Gesetzestexten

und Urteilsverkündungsgeschichten,

was gleich ist.

Aber das wird auch alles

eher mehr oder weniger

webbasiert laufen.

Es gibt bestimmt noch mehr,

wenn ich noch genug nachdenke.

Ja, aber es ist, glaube ich,

heutzutage eigentlich das meiste

irgendwie Web,

was man da so macht.

Ja, oder selbst wenn es irgendwie

auf Mobilgeräten ist oder so,

dann wird man wahrscheinlich

eine API-Anfrage machen

und also letztlich

wird es auch wieder Web sein.

Genau.

Ja, ich wollte eigentlich

auch schon immer mal,

das mache ich auch vielleicht,

mal irgendwie einfach irgendwo

ein Repository anlegen

und dann mal Dinge miteinander vergleichen.

Zum Beispiel einfach

einen Standard-Korpus

von irgendwie

oder mehr

irgendwelchen Dokumenten

halt in Postgres reinhauen,

in Redis reinhauen,

in Elasticsearch reinhauen

und mal gucken,

was sind so die Unterschiede

und was macht irgendwie

großartig schmerzen

und was halt nicht so,

was ist angenehm.

Gut, dass du das jetzt

bei einer Stunde 30 gesagt hast,

wo vielleicht einige Hörer

schon eingeschlafen sind.

Aber das Versprechen

ist aufgeschrieben.

Ja, vielleicht

genau.

Dann sage ich nochmal Bescheid.

Also ich meine,

es ist auch teilweise

nicht so einfach.

Bei Django ist es so,

dass es halt,

wenn man da einfach nur das macht,

was in der Dokumentation steht,

funktioniert es auch nicht so richtig.

Das ist schon so ein bisschen

hakliger.

Aber das muss ich mir nochmal,

muss ich mir auch nochmal genau angucken.

Ja, du fragst ja Fragen,

da stell mir die gerne

wie der PM.

Hallo,

Faisal Podcast.de.

Ich würde sagen,

wir sind aber jetzt mit der Dupe

so quasi durch

und wollten jetzt noch

ein bisschen Woche machen

und so.

ja, ja.

Oder hast du noch was,

was du zur Suche sagen willst?

Ja, also dann,

ich nehme jetzt deinen Pick weg.

Den musst du später machen.

Armin Ronacher

von Flask,

der Mensch,

der Creator,

hat etwas Schönes vorgestellt

und hat da einen kleinen Patch eingebaut.

Das heißt,

er nimmt einfach die Buildings

und packt da Sachen dran.

Und zwar True,

False und Null,

jeweils in kleinen,

in kleinen,

geschrieben

und setzt sie auf True,

False und Null.

Und dann kann man einfach

JSON lesen.

beziehungsweise halt reinpasten.

Ja, genau.

halt direkt.

Pasten und das ist direkt

ein Dictionary-Objekt.

Das ist schon

relativ interessant.

Das ist schon eine

kleine Hack-Idee.

Ich wusste gar nicht,

dass man das so machen kann

und war,

sag ich mir so,

das geht.

War cool.

Der erste Kommentar

über diesen Twitter-Feed,

von dem du das gefunden hast,

ist übrigens,

I strongly recommend

not doing this.

It opens up a huge

security hole.

Ja, ja.

Es ist völlig überbewertet.

Aber ja,

es ist sehr interessant

und lustige Sachen

sind da möglich,

wenn man was wie die

Build-Ins einfach überschreibt.

ich habe diesmal

tatsächlich kein Modul

zum Picken,

aber ich habe ein

wunderschönes GitHub-Repository

entdeckt,

was die Algorithms heißt.

Und da gibt es

einen Folder

mit Python.

Da gibt es quasi

alle Algorithmen,

die man so

irgendwann mal

verpastet und gebaut hat.

Die sind jetzt alle

nicht perfekt implementiert

oder in

besonders

schnell,

aber man sieht so ein bisschen,

wie das Prinzip

dahinter steckt.

ob ihr jetzt

Suchalgorithmen habt,

Suchalgorithmen,

oder Sortieralgorithmen

oder für

Webpringing

oder Matrizen

oder mathematische Sachen

und Machine Learning

oder Algebra

oder wie man

Images was macht,

wie man Hashes errechnet

oder so,

welche gut sein sollen.

das steht alles drin.

Verschlusslogen,

Kompression.

Könnt ihr euch

alles mal angucken.

Es ist eine tolle Bibliothek.

Einfach so

Algorithms,

Python und GitHub.

Sehr interessant.

Ach so,

und was ich noch

fast ganz vergessen habe,

wir haben ja letztes Mal

über Environments gesprochen

und ich habe es tatsächlich

geschafft,

nach ein bisschen Struggle,

meine Environment,

ich habe ja eine große

Windows-Entwicklungs-Environment,

umzustellen

auf PyEnf und Poetry

und habe das auch

auf GitHub mal dokumentiert,

wie das denn eigentlich geht.

Falls ihr das irgendwie

vorhabt,

ich empfehle,

wenn ihr das mit Poetry

machen wollt,

schmeißt alles Python,

was ihr schon drauf habt,

einmal weg,

weil es sonst

Hakeligkeiten mit

auf dem Pfad geben kann.

Dann müsst ihr vielleicht

auch einmal komplett

aufräumen und putzen,

die Dementierung

PyEnf,

das so ein bisschen

komisch löst,

die wird eure,

Windows-Libraries

mit einem grafischen

Installer dann installieren,

also die Python-Version,

das ist ein bisschen

anstrengend,

aber dann passiert

das alles automatisch

und ihr habt diesen

ganzen Struggle nicht

und dann könnt ihr

Poetry und PyEnf

wunderbar kombinieren,

auch mit,

eurer PowerShell.

Es geht aber leider

nicht so gut mit Toko,

also nehmt nicht

die Toko-Version,

sondern versucht das

auf das GitHub-Repository

zu ziehen.

Kann ich empfehlen.

Ich habe da auch

ein paar Skripte geschrieben,

die das automatischer

machen können.

Wollte ich nochmal

so kurz für die Menschen,

die tatsächlich noch

mit Windows arbeiten.

Ich habe in

NixOS reingeschaut,

das gefällt mir recht gut.

Ach, okay,

das ist auch eine

sehr coole Idee,

dann bin ich aber noch

dabei,

meine Python-Implementierung

zu bauen,

mal gucken,

ob ich das so

weiterführe.

aber das hat relativ

wenig mit Suchmaschinen

zu tun,

aber das war so

für den Pick der Woche.

Haben wir irgendwas

vergessen?

mir ist jetzt doch

eingefallen,

also in dem Moment,

wo ich gesagt habe,

so haben wir nicht

noch irgendwas vergessen.

Ich hatte schon das Gefühl,

wir haben irgendwas vergessen,

haben wir auch,

aber egal.

Und zwar gibt es halt noch

einen ganz,

nicht unerheblich großen Teil

Volltext-Suche,

wo es nicht um Dinge geht,

die jetzt,

so traditionellerweise da so,

dass man Queries hat,

die man so gut in Tokens

zerlegen kann,

oder wo man halt

Tokens sucht,

sondern

solche Sachen wie

Autocomplete in der Suchbox.

Oder wo man halt einfach

nur ein paar Buchstaben hat

und möchte das halt finden.

Oder man möchte halt

irgendwie einen Teil

von einem Wort finden,

irgendwo drin.

Und das ist halt nochmal

so ein bisschen

ein anderes Problem

und braucht halt ein bisschen

andere Datenstrukturen dafür.

vielleicht machen wir das

auch einfach mal

in anderen Dingen.

machen wir dieses Fass

nicht nochmal auf.

aber das hätte eigentlich

ja eventuell auch noch

dazu gehört,

weil das ist auch

ein nicht unerheblich großer Teil,

der halt auch im Grunde,

das ist ja auch Volltextsuche,

das ist nur ein bisschen anders.

dann das nächste Mal.

wenn ihr Fragen dazu habt,

dann gerne wieder an

highlightpricemodcast.de,

das haben wir schon

gerade gesagt.

Mögt uns und folgt uns

auf allen Dingen,

die wir so posten.

Schreibt uns,

freut uns auf euch,

bleibt uns gewogen,

hört uns immer morgens,

mittags,

nachts,

abends.

bis zum nächsten Mal.

alles klar.

Tschüss.