Keine Angst vorm Deep Web – Wie funktionieren Suchmaschinen?
Im ersten Teil unseres Research Guides mit Rechercheprofi Heike Baller schauen wir uns an, wie Suchmaschinen eigentlich funktionieren, wie Google zur wichtigsten Suchmaschine wurde und welche Alternativen vielleicht doch noch nützlich sein könnten.
Suchmaschinen sind unser Einstieg in das Internet — zumindest für die meisten Menschen. Und wenn wir von Suchmaschinen reden, dann meinen wir damit eigentlich fast immer Google. Im Januar 2019 hatte Google unter den Suchmaschinen einen Marktanteil von 89,95% und dominiert damit seit über einem Jahrzehnten die Konkurrenz, aktuell bing, Yahoo! und die chinesische Suchmaschine Baidu.
Suchmaschinen — älter als das World Wide Web
Um zu verstehen, wie Google es in diese Position geschafft hat, lohnt sich ein Blick in die Geschichte der Suchmaschinen. Als erste Suchmaschine im klassischen Sinne gilt heute Archie, eine Entwicklung aus dem Jahr 1990, die es ermöglichte Dateien im Netz zu finden. Damals wurden diese Dateien noch mit dem File Transfer Protocol (FTP) untereinander geteilt, Archie konnte nur die Dateinamen indizieren, nicht den Inhalt der jeweiligen Dateien.
Das World Wide Web als das Internet, wie wir es heute kennen, gibt es erst seit 1991, entwickelt wurde es von Tim Berners-Lee, der mit der World Wide Web Virtual Library auch den ersten Index für Seiten bereitstellte, die auf einem Webserver gehostet wurden und durch einen Browser abgerufen wurden.
Mit dem Beginn des World Wide Web entstand eine Vielzahl von Suchmaschinen, eine Neuheit war im Jahr 1995 AltaVista, eine der ersten Suchmaschinen, die eine Volltextsuche mit natürlicher Sprache ermöglichte, also nicht nur Schlagwortsuchen durchführen konnte. Ein Jahr später ging mit BackRub der Google-Vorläufer an den Markt, ebenfalls mit einer Neuheit: Neben den Inhalten der einzelnen Seiten wurden die Link-Verknüpfungen zwischen den Seiten genutzt, um ein Ranking der Suchergebnisse zu erstellen.
Dieser Algorithmus ist nach wie vor das Erfolgsgeheimnis von Google, da er das Suchen im Internet so einfach wie nie zuvor machte: die erste Ergebnisseite von Google liefert die relevantesten Ergebnisse, die bei der Konkurrenz erst auf der dritten oder vierten Seite ausgegraben werden mussten. Unterstützt wurde dies durch das bis heute einfach gehaltene Design der Google-Suchmaschine, ein einzelnes Textfeld als Portal ins Internet, damals ein großer Kontrast zu den teilweise mit Werbeanzeigen überladenen Seiten der anderen Suchmaschinen.
Auch wenn Google das Suchen im Internet vereinfacht hat, kommt man mit ein paar Tricks schneller ans Ziel. Im zweiten Teil unserer Research-Guide-Reihe erklären wir die wichtigsten Tipps für erfolgreiche Research mit Google.
Spiders, Crawler und Robots
Was sich auf den ersten Blick liest wie Wesen aus einem Science-Fiction-Roman, sind die Augen, mit denen Suchmaschinen das Internet sehen. Die kleinen Programme durchstreifen das Internet, nur eben wesentlich schneller als menschliche Nutzer. Sie surfen auf eine Seite, scannen den Text und verknüpfen Inhalte und URLs. Seit Google nutzen die Crawler dazu die Links, die die einzelnen Seiten miteinander verbinden.
Daraus entsteht der Index der Suchmaschine, aus dem die Suchergebnisse kommen. Die Ergebnisse, die ich als Nutzer sehe, bilden also nur das ab, was die Suchmaschine beim letzten Besuch der angezeigten Seiten gesehen hat. Die Crawler moderner Suchmaschinen besuchen die Seiten jedoch mit einer sehr hohen Frequenz und indizieren besonders Seiten mit einer hohen Aktivität mehrmals neu.
Der Index, den die Crawler erarbeiten, liefert die Ergebnisse von Suchanfragen, die dann vom Algorithmus der Suchmaschine in eine möglichst relevante Reihenfolge gebracht werden. Jede Suchmaschine nutzt dabei eigene Algorithmen, aber nicht jede Suchmaschine hat einen eigenen Index. Suchmaschinen wie Ecosia und Yahoo nutzen den Index von Bing, Startpage den von Google.
Web, Deep Web und Dark Web
Was haben nun Suchmaschinen mit dem Deep Web zu tun? Als Deep Web bezeichnet man genau den Teil des Internets, den normale Suchmaschinen eben nicht indizieren, entweder weil die Seiten bewusst für Crawler gesperrt sind, oder weil die Informationen tief in den Hierarchie-Ebenen der Webseiten liegen und eine vollständige Indizierung ein großer Aufwand wäre. Was sich zunächst düster und ominös anhört, ist auf den zweiten Blick einerseits fast schon langweilig und andererseits extrem relevant für Researcher.
Nicht indizierte Seiten sind häufig große Datenbanken von Regierungen, Bibliotheken oder wissenschaftlichen Institutionen. Suchmaschinen-Crawler können die entsprechenden Inhalte hinter den Datenbank-Systemen nicht erfassen, menschliche Nutzer können darauf jedoch teilweise ganz normal zugreifen, während andere Inhalte hinter Paywalls oder Passworteingaben liegen.
Suchmaschinen können häufig dazu genutzt werden, um den Eintrittspunkt in diese Datenbanken zu finden, von wo aus man seine Recherche im Deep Web fortsetzen kann. Ein bekanntes Beispiel ist etwa JSTOR, eine Plattform, deren Inhalte nicht durch normale Suchmaschinen auffindbar ist, die aber eine wichtige Station für wissenschaftliche Researcher ist.
Häufig in einen Topf geworfen wird das Deep Web mit dem Dark Web. Das Dark Web ist nicht nur ebenfalls nicht durch Suchmaschinen auffindbar, hier braucht man sogar einen speziellen Browser. Als Dark Web wird der Teil des Internets bezeichnet, der nur über das TOR-Netzwerk erreichbar ist. Die entsprechenden Adressen sind nur mit dem TOR-Browser zu öffnen und müssen zunächst in bestimmten Verzeichnissen wie dem Hidden Wiki nachgeschlagen werden. Im Gegensatz zum Deep Web wird das Dark Web dabei häufig seinem schlechten Ruf gerecht und beherbergt Marktplätze für Drogen-, Waffen- bis hin zu Menschenhandel.
Schwer zu glauben, dass das Dark Web auch seine guten Seiten hat. Für Redefreiheit und politisch Unterdrückte kann die absolute Anonymität jedoch auch zu völlig legitimen Zwecken eingesetzt werden. Das US-amerikanische Magazin The New Yorker nutzt das TOR-Netzwerk etwa für den journalistischen Quellenschutz und bietet mit Strongbox eine Plattform, um sicher und anonym Insider-Informationen an das Magazin zu übermitteln.
Sie haben eine Frage oder ein Problem in diesem Bereich oder bei einem ähnlichen Thema? Unsere Expert Community hilft gern!
Welche Suchmaschine ist die richtige?
Es gibt einige Suchmaschinen, die zumindest behaupten, auch Teile des Deep Web oder sogar des Dark Web indizieren zu können. Die Suchmaschine DuckDuckGo hat beispielsweise eine eigene Tor-Adresse und liefert gelegentlich Seiten mit der Endung .onion, also Seiten aus dem Dark Web, bleibt jedoch in fast allen Fällen auf das Visible Web begrenzt. Innerhalb des Dark Webs gibt es allerdings mit Suchmaschinen wie Candle Dienste, die ausschließlich die wenigen indizierbaren Seiten des Dark Webs anzeigen.
Warum sollte man also überhaupt andere Suchmaschinen als Google benutzen? DuckDuckGo ist zum Beispiel vor allem dafür bekannt, dass die Suchmaschine die Privatsphäre der Nutzer über alles stellt und keine Suchaktivitäten trackt. Ähnliche Suchmaschinen wie Startpage überzeugen Nutzer außerdem, da die entsprechenden Server in Europa stehen. Manchmal gibt es aber auch einzigartige Konzepte wie Ecosia, eine ökologische Suchmaschine, die für Suchanfragen Bäume pflanzt.
Für Researcher kann ein anderer Index eine neue Perspektive sein, die vielleicht neue Einblicke liefert. Wir haben einige der hier benannten Suchmaschinen im Überblick gesammelt:
Fortsetzung steht bereit
Im zweiten Teil unseres Research Guides mit Rechercheprofi Heike Baller stellen wir die wichtigsten Zeichen, Befehle und Tricks vor, mit denen man seine eigenen Suchanfragen um einiges verbessern kann.
Zum nächsten TeilWeitere interessante Beiträge
Gastepisode von Carls Zukunft: Anja Mutschler auf der COP29
Ärmel hochkrempeln - das ist Anjas Einstellung, nachdem nun alles so ist, wie es die Apologeten des Untergangs prophezeit haben. Vielleicht sollten wir öfter mit blitzenden Augen voreinander stehen und...
Kooperation in kollaborativ: wie Business-Partnerschaften gelingen
Kooperation in kooperativ: Wie funktionieren gelungene Business-Partnerschaften im agilen Krisenzeitalter? Eine Bestandsaufnahme von Anja Mutschler, 20blue
Staffel 2, Folge 3: Dezentrales Erinnern und Denkmäler
In dieser Dezember-Ausgabe des 20blue-Podcasts spricht die aus dem Westen nach Leipzig gekommene Unternehmensgründerin Anja Mutschler mit einer Frau, die eine andere Geschichte hat: Gesine Oltmanns, Zeitzeugin und Mitgründerin der...
Staffel 2, Folge 2: Szenarioplanung
In der zweiten Folge der neuen 20blue-hour-Staffel hat Anja Mutschler Hanna Jürgensmeier zu Gast, Partnerin bei der ScMI AG – einer auf Zukunftsszenarien spezialisierten Beratung für Strategie und Innovationen.
Wie positionieren sich Unternehmen international in unsicheren Zeiten?
Unser White Paper stellt die wichtigsten Entwicklungen und Treiber im Bereich der Internationalisierung vor und erarbeitet die Fragen, die sich Unternehmen aktuell stellen sollten.
Staffel 2, Folge 1: Shitstorms und Online-Kommunikation
Folge 1 der neuen Staffel beschäftigt sich mit Shitstorms und Online-Kommunikation, den Spezialthemen von Dr. Christian Salzborn.
Über 20blue
Das Research Institute 20blue bringt Sie weiter! Wir sorgen seit 2011 mit wissenschaftlichen Insights und Methoden für den nötigen Durchblick. Unser Research Institute sichert Entscheidungen ab - dank 300 Expert*innen aus vielen Disziplinen, Branchen und Ländern. Ebenso vielfältig: unsere Kunden aus Wirtschaft und Politik. Im interdisziplinären Zusammenspiel entsteht neues Wissen auf dem Weg zur nachhaltigen Transformation.
Mehr erfahrenSie müssen den Inhalt von reCAPTCHA laden, um das Formular abzuschicken. Bitte beachten Sie, dass dabei Daten mit Drittanbietern ausgetauscht werden.
Mehr Informationen