Keine Angst vorm Deep Web – Wie funktionieren Suchmaschinen?

Ein Beitrag von Heike Baller

Heike Baller ist seit den ersten Besuchen in der Stadtbücherei als Kind die Begeisterung für Recherche und Literatur erhalten geblieben und seitdem Recherche-Profi.

Mehr von Heike Baller

Veröffentlicht: 20.06.2019

Lesezeit: 6 Minuten

Letzte Änderung: 11.09.2023

Themen:

informieren

Schlagworte:

#expertennetzwerk
#research
#suchmaschinen

Im ersten Teil unseres Research Guides mit Rechercheprofi Heike Baller schauen wir uns an, wie Suchmaschinen eigentlich funktionieren, wie Google zur wichtigsten Suchmaschine wurde und welche Alternativen vielleicht doch noch nützlich sein könnten.

Suchmaschinen sind unser Einstieg in das Internet — zumindest für die meisten Menschen. Und wenn wir von Suchmaschinen reden, dann meinen wir damit eigentlich fast immer Google. Im Januar 2019 hatte Google unter den Suchmaschinen einen Marktanteil von 89,95% und dominiert damit seit über einem Jahrzehnten die Konkurrenz, aktuell bing, Yahoo! und die chinesische Suchmaschine Baidu.

Suchmaschinen — älter als das World Wide Web

Um zu verstehen, wie Google es in diese Position geschafft hat, lohnt sich ein Blick in die Geschichte der Suchmaschinen. Als erste Suchmaschine im klassischen Sinne gilt heute Archie, eine Entwicklung aus dem Jahr 1990, die es ermöglichte Dateien im Netz zu finden. Damals wurden diese Dateien noch mit dem File Transfer Protocol (FTP) untereinander geteilt, Archie konnte nur die Dateinamen indizieren, nicht den Inhalt der jeweiligen Dateien.

Das World Wide Web als das Internet, wie wir es heute kennen, gibt es erst seit 1991, entwickelt wurde es von Tim Berners-Lee, der mit der World Wide Web Virtual Library auch den ersten Index für Seiten bereitstellte, die auf einem Webserver gehostet wurden und durch einen Browser abgerufen wurden.

Mit dem Beginn des World Wide Web entstand eine Vielzahl von Suchmaschinen, eine Neuheit war im Jahr 1995 AltaVista, eine der ersten Suchmaschinen, die eine Volltextsuche mit natürlicher Sprache ermöglichte, also nicht nur Schlagwortsuchen durchführen konnte. Ein Jahr später ging mit BackRub der Google-Vorläufer an den Markt, ebenfalls mit einer Neuheit: Neben den Inhalten der einzelnen Seiten wurden die Link-Verknüpfungen zwischen den Seiten genutzt, um ein Ranking der Suchergebnisse zu erstellen.

Dieser Algorithmus ist nach wie vor das Erfolgsgeheimnis von Google, da er das Suchen im Internet so einfach wie nie zuvor machte: die erste Ergebnisseite von Google liefert die relevantesten Ergebnisse, die bei der Konkurrenz erst auf der dritten oder vierten Seite ausgegraben werden mussten. Unterstützt wurde dies durch das bis heute einfach gehaltene Design der Google-Suchmaschine, ein einzelnes Textfeld als Portal ins Internet, damals ein großer Kontrast zu den teilweise mit Werbeanzeigen überladenen Seiten der anderen Suchmaschinen.

Auch wenn Google das Suchen im Internet vereinfacht hat, kommt man mit ein paar Tricks schneller ans Ziel. Im zweiten Teil unserer Research-Guide-Reihe erklären wir die wichtigsten Tipps für erfolgreiche Research mit Google.

Spiders, Crawler und Robots

Was sich auf den ersten Blick liest wie Wesen aus einem Science-Fiction-Roman, sind die Augen, mit denen Suchmaschinen das Internet sehen. Die kleinen Programme durchstreifen das Internet, nur eben wesentlich schneller als menschliche Nutzer. Sie surfen auf eine Seite, scannen den Text und verknüpfen Inhalte und URLs. Seit Google nutzen die Crawler dazu die Links, die die einzelnen Seiten miteinander verbinden.

Daraus entsteht der Index der Suchmaschine, aus dem die Suchergebnisse kommen. Die Ergebnisse, die ich als Nutzer sehe, bilden also nur das ab, was die Suchmaschine beim letzten Besuch der angezeigten Seiten gesehen hat. Die Crawler moderner Suchmaschinen besuchen die Seiten jedoch mit einer sehr hohen Frequenz und indizieren besonders Seiten mit einer hohen Aktivität mehrmals neu.

Der Index, den die Crawler erarbeiten, liefert die Ergebnisse von Suchanfragen, die dann vom Algorithmus der Suchmaschine in eine möglichst relevante Reihenfolge gebracht werden. Jede Suchmaschine nutzt dabei eigene Algorithmen, aber nicht jede Suchmaschine hat einen eigenen Index. Suchmaschinen wie Ecosia und Yahoo nutzen den Index von Bing, Startpage den von Google.

Web, Deep Web und Dark Web

Was haben nun Suchmaschinen mit dem Deep Web zu tun? Als Deep Web bezeichnet man genau den Teil des Internets, den normale Suchmaschinen eben nicht indizieren, entweder weil die Seiten bewusst für Crawler gesperrt sind, oder weil die Informationen tief in den Hierarchie-Ebenen der Webseiten liegen und eine vollständige Indizierung ein großer Aufwand wäre. Was sich zunächst düster und ominös anhört, ist auf den zweiten Blick einerseits fast schon langweilig und andererseits extrem relevant für Researcher.

Nicht indizierte Seiten sind häufig große Datenbanken von Regierungen, Bibliotheken oder wissenschaftlichen Institutionen. Suchmaschinen-Crawler können die entsprechenden Inhalte hinter den Datenbank-Systemen nicht erfassen, menschliche Nutzer können darauf jedoch teilweise ganz normal zugreifen, während andere Inhalte hinter Paywalls oder Passworteingaben liegen.

Suchmaschinen können häufig dazu genutzt werden, um den Eintrittspunkt in diese Datenbanken zu finden, von wo aus man seine Recherche im Deep Web fortsetzen kann. Ein bekanntes Beispiel ist etwa JSTOR, eine Plattform, deren Inhalte nicht durch normale Suchmaschinen auffindbar ist, die aber eine wichtige Station für wissenschaftliche Researcher ist.

Häufig in einen Topf geworfen wird das Deep Web mit dem Dark Web. Das Dark Web ist nicht nur ebenfalls nicht durch Suchmaschinen auffindbar, hier braucht man sogar einen speziellen Browser. Als Dark Web wird der Teil des Internets bezeichnet, der nur über das TOR-Netzwerk erreichbar ist. Die entsprechenden Adressen sind nur mit dem TOR-Browser zu öffnen und müssen zunächst in bestimmten Verzeichnissen wie dem Hidden Wiki nachgeschlagen werden. Im Gegensatz zum Deep Web wird das Dark Web dabei häufig seinem schlechten Ruf gerecht und beherbergt Marktplätze für Drogen-, Waffen- bis hin zu Menschenhandel.

Schwer zu glauben, dass das Dark Web auch seine guten Seiten hat. Für Redefreiheit und politisch Unterdrückte kann die absolute Anonymität jedoch auch zu völlig legitimen Zwecken eingesetzt werden. Das US-amerikanische Magazin The New Yorker nutzt das TOR-Netzwerk etwa für den journalistischen Quellenschutz und bietet mit Strongbox eine Plattform, um sicher und anonym Insider-Informationen an das Magazin zu übermitteln.

Sie haben eine Frage oder ein Problem in diesem Bereich oder bei einem ähnlichen Thema? Unsere Expert Community hilft gern!

Welche Suchmaschine ist die richtige?

Es gibt einige Suchmaschinen, die zumindest behaupten, auch Teile des Deep Web oder sogar des Dark Web indizieren zu können. Die Suchmaschine DuckDuckGo hat beispielsweise eine eigene Tor-Adresse und liefert gelegentlich Seiten mit der Endung .onion, also Seiten aus dem Dark Web, bleibt jedoch in fast allen Fällen auf das Visible Web begrenzt. Innerhalb des Dark Webs gibt es allerdings mit Suchmaschinen wie Candle Dienste, die ausschließlich die wenigen indizierbaren Seiten des Dark Webs anzeigen.

Warum sollte man also überhaupt andere Suchmaschinen als Google benutzen? DuckDuckGo ist zum Beispiel vor allem dafür bekannt, dass die Suchmaschine die Privatsphäre der Nutzer über alles stellt und keine Suchaktivitäten trackt. Ähnliche Suchmaschinen wie Startpage überzeugen Nutzer außerdem, da die entsprechenden Server in Europa stehen. Manchmal gibt es aber auch einzigartige Konzepte wie Ecosia, eine ökologische Suchmaschine, die für Suchanfragen Bäume pflanzt.

Für Researcher kann ein anderer Index eine neue Perspektive sein, die vielleicht neue Einblicke liefert. Wir haben einige der hier benannten Suchmaschinen im Überblick gesammelt:

Startpage
- europäisch, anonym, Index beruht auf Google
Ecosia
- ökologisch ausgerichtet, anonym, Index beruht auf Bing
DuckDuckGo
- anonym, Hybridsuchmaschine, teils eigener Index, teils Index von Bing
Bing
- eigener Index
Yahoo
- Index beruht auf Bing
Qwant
- anonym, europäisch, eigener Index

Fortsetzung steht bereit

Im zweiten Teil unseres Research Guides mit Rechercheprofi Heike Baller stellen wir die wichtigsten Zeichen, Befehle und Tricks vor, mit denen man seine eigenen Suchanfragen um einiges verbessern kann.

Zum nächsten Teil

Weitere interessante Beiträge

Utopia – Gedanken zur Zukunft #2: Friede in Nahost?

Expert Statement

Utopisch? Friede im Nahost. Allein das Gespräch dazu könnte utopisch sein. Oder? Anja Mutschler und Sebastian Elsässer im Podcasttalk.

#internationalisierung #krieg #kultur #transformation

08.01.2026 | 20blue

Utopia – Gedanken zur Zukunft (Podcast) #1: Künstliche Intelligenz

Mit der neuen Serie „Utopia – Gedanken zur Zukunft“ startet 20blue hour eine neue Podcastserie. Host Anja Mutschler begrüßt zum Auftakt den österreichischen KI-Experten, Wissenschaftler und Unternehmer Matthias Standfest.

#Künstliche Intelligenz #Podcast

31.07.2025 | 20blue

Das neue Betriebssystem für den Mittelstand: AI first

Das neue Buch (ET: 26.6.25) der Zukunftsforscher Michael Carl und Mathias Harrassowitz verfolgt die Doppelthese: AI first wird bereits die naheliegende Zukunft prägen. Und: Gerade der Mittelstand hat alles, was...

#digitalisierung #KI #Mittelstand

11.06.2025 | Michael Carl

Desinformation bekämpfen – oder: wie wir die Demokratie stabil halten

Expert Statement

Anja, Maria und Mirko diskutieren über Möglichkeiten, wie man Desinformation bekämpfen kann. Merke: Der erste Millimeter ist der Schwerste. Und: Maria und Mirko lassen sich zu verschiedenen Namen mixen.

#Aktivismus #demokratie #Desinformation #journalismus #Software

10.05.2025 | 20blue

Was kommt nach dem Ende von Social Media?

Social Media hat sein Versprechen, uns zu verbinden, nicht eingelöst. Und nun? Anja Mutschler von 20blue spricht in dieser 20blue hour-Folge mit Dominik Ruisinger, Fachautor und PR-Berater über das, was...

20.02.2025 | 20blue

Nachhaltigkeit als Chance für Unternehmen: Pragmatische Ansätze für 2025

In der ersten Folge 20blue hour im Jahr 2025 diskutieren Anja Mutschler, Managing Partner bei 20blue, und Dr. Martin Bethke, Gründer und Geschäftsführer von Butterfly Effects, über Nachhaltigkeit als Herausforderung...

#csr #nachhaltigkeit #transformation

18.01.2025 | 20blue

Über 20blue

20blue bringt Sie weiter: Als Research‑Institut schaffen wir seit 2011 Durchblick für Entscheidungen für Politik und Wirtschaft. Heute verbinden wir KI‑gestützte Research mit menschlicher Expertise und kuratierten Gesprächen – damit aus Daten Orientierung und tragfähige Entscheidungsgrundlagen werden. Unsere Arbeit stützt sich auf internationale Expert Hubs mit rund 300 Expert:innen aus vielen Disziplinen, Branchen und Ländern. Wir arbeiten für Organisationen aus Wirtschaft, Politik und dem Stiftungs‑/NGO‑Umfeld, wenn Fragen komplex, sensibel oder international sind. Es entsteht neues Wissen, das nachhaltige Transformation nicht nur beschreibt, sondern gestaltbar macht.

Mehr erfahren