Schwarzfahrer Blog. Berichte und Kommentare eines virtuellen Schwarzfahrers.



Zensurbehörde Suchmaschine

Google hat freudestrahlend bekannt gegeben, dass man nun endlich eine Außenstelle in China errichtet hat, den tollen Milliarden Markt erobern will und die Zensurbestimmungen der chinesischen Regierung akzeptiert hat.

Nachdem sich die Aufregung gelegt hat, wird man feststellen, dass alle Suchmaschinen seit jeher Websites zensieren. Und man wird auch feststellen, dass Zensurmaßnahmen nur bedingt greifen und man sehr einfach Gegenmaßnahmen ergreifen kann.

Wenn Sie den Artikel lesen, werden Sie folgendes feststellen:

  • Alle Suchmaschinen der Welt benutzen die Zensur seit jeher. (Aber primär dazu, um Spammer rauszuwerfen.)
  • Effektive Zensur ist automatisiert nicht möglich, weil Suchmaschinen den Inhalt der Texte nicht vestehen.
  • Niemand legt die "Zensurkriterien" offen.
  • Einziger Ausweg aus dem Dilemma: Schaffung einer "öffentlich-rechtlichen" EU Suchmaschine.

Zeichenkettenvergleichsmaschine

Das größte Hindernis bei der Weiterentwicklung der Suchmaschinen ist, dass man derzeit nur "Zeichenketten" miteinander vergleichen kann und nicht weiß, was diese eigentlich bedeuten. Ein Wort wird aus der Sicht von Programmierern als Zeichenkette gesehen, als eine Abfolge von Buchstaben.

Beispiel: Sie geben z.B. im Google das Wort "Krebs" ein. Meinen Sie nun das Tier, die Krankheit oder das Sternzeichen Krebs? Oder gar Herrn oder Frau Krebs? Google ist davon überzeugt, dass es sich um die Krankheit handeln muss, wenn Sie das Wort suchen. Bei den 10 ersten Ergebnissen finden Sie ausschließlich Medizin-Seiten.

Die Meta-Suchmaschine "Clusty" geht da schon einen Schritt weiter und kann Suchergebnisse kategorisieren. Das funktioniert ausgerechnet bei "Krebs" nicht wirklich, aber zur Ehrenrettung sei gesagt, dass bei anderen Suchbegriffen die Kategorisierung besser ist.

MSN Search wiederum stellt krebs.or.at an die Spitze, also Suchbegriff im Domainnamen, das sind übrigens Wirtschaftstreuhänder.

Spammer trotzen jeglicher Zensur

Als Internet-Nutzer sind Sie mittlerweile sicher mit den E-Mail Spams vertraut. Wenn man "Viagra" in ein Mail schreibt, landet es natürlich ungelesen und automatisiert in einem Mistkübel. Also lernten die Spammer, das Wort in zig-tausenden Varianten zu schreiben, z.B. \/1a-g_r4 - Das Hirn hat genug Fantasie, um das Wort trotzdem zu erkennen. (Das V besteht übrigens aus einem Backslash \ und einem Slash /) Und wenn Sie wirklich alle Schreibvarianten des Potenzmittels auf die Zensurliste gesetzt haben, dann bekommen Sie statt dem Text ein Bild zugeschickt, wo das ominöse Wort drauf steht.

Im Web hat man zusätzlich noch einige Möglichkeiten, Texte auf Webseiten zu verschleiern. Man kann sie z.B. mit Javascript verschlüsseln (das macht man z.B. mit E-Mail Adressen, damit sie nicht von Spammern gefunden werden). Man kann auch Stylesheets einsetzen oder automatisiert Grafiken von Bildern erstellen. Und schon hat eine Suchmaschine keine Chance mehr, dahinter zu kommen, was auf der Website eigentlich steht. Und wenn man in einem Forum schreiben möchte, ohne von einer Suchmaschine verstanden werden zu wollen, dann braucht man z.B. nur einen Dialekt verwenden, z.B. stoasteirisch, plattdeutsch etc.

Rufschädigung in Suchmaschinen

Ein deutscher Kommentator hat gesagt (ich weiß leider nicht mehr, wer es war), dass man heute am leichtesten den Ruf einer Person ruinieren könnte, wenn man auf eine Webseite schreibt, dass sie etwas NICHT getan hat. Zum Beispiel: Hans Huber ist KEIN Kinders. Ich habe das letzte Wort des vorigen Satzes bewusst nicht ausgeschrieben, ich möchte ja nicht, dass diese Seite auf den Index kommt, ich möchte nicht, dass sie zensiert wird. Sie werden aber wissen, welches zusammengesetzt Wort ich gemeint habe, es hat mit Schande zu tun. Nun braucht man nur mehr diese Seite gut in den Suchmaschinen platzieren.

Wenn man nun den Suchbegriff "Kinders" eingibt (Sie wissen schon, das eigentliche Wort), wird auch die Seite gefunden, wo "Hans Huber" drauf steht. Die Suchmaschine weiß nicht, dass er KEINER ist. Wörter wie "nicht", "kein" etc. sind zusätzlich noch so genannte Stopp-Wörter. Das sind Wörter, die sehr häufig vorkommen, wie z.B. die Artikel "der", "die", "das" usw. Damit man Daten sparen und man die Geschwindigkeit der Suche steigern kann, werden solche Wörter bei den Suchmaschinen oft ignoriert. (Vor allem Wörter, die nur aus drei Buchstaben bestehen, werden meistens als Stopp-Wörter gesehen.)

Textmuster helfen bei der Kategorisierung

Man kann natürlich schon an "Textmustern" erkennen, um welche Art von Seite es sich handelt, ohne dass man den Inhalt verstehen muss. 6 Seiten sind recht typisch aufgebaut. (Ha! Ein Uralt-Schmäh, die Zahl zu schreiben und das Wort mit x zu meinen). Die Textmuster-Erkennung hat man allerdings weniger deswegen entwickelt, weil man diverse anstößige Seiten zensieren wollte, sondern weil man den Suchmaschinen-Spammern Herr werden wollte.

Wenn wir also über Zensur bei Suchmaschinen reden, dann sprechen wir über zensierte Zeichenketten oder zensierte Textmuster. Es ist (leider oder zum Glück) derzeit unmöglich, dass Suchmaschinen wirklich aussagekräftige Textanalysen automatisiert in einer vernünftigen Zeit erstellen können. Aber ich bin mir natürlich auch sicher, dass daran gearbeitet wird. (Eine Textanalyse ist zwar möglich, aber man scheitert wohl an der Hardware, weil man einfach zu lange pro Seite braucht. Bedenken Sie, dass Sie Milliarden Seiten "tagesaktuell" (oder zumindest einmal im Monat) überprüfen müssen.

Wie funktioniert "Zensur" bei Google & Co.?

Und mit diesem Hintergrund ist es nun interessant, wie die "Zensur" bei Google & Co. in der Praxis funktioniert. Wenn man ein Wort, also eine Zeichenkette, auf die "schwarze Liste" setzt, setzt man sowohl Befürworter als auch Gegner gleichermaßen auf die Liste, beide werden das Wort gleichermaßen aussprechen.

Eine andere Sache wäre es natürlich, wenn z.B. Regierungen mit Domainlisten daherkommen und verhindern, dass diese prinzipiell in den Suchindex aufgenommen werden. Aber auch hier kann man schnell Gegenmaßnahmen setzen und neue Domains anmelden.

Das wirklich Schlimme an der Zensur Geschichte ist, dass die Suchmaschinen nicht bekannt geben, was und wer durch eine Nichtaufnahme in den Suchindex "zensiert" und dadurch "totgeschwiegen" wird. Man kann auch nicht mit den Betreibern darüber diskutieren.

Sie müssen dabei aber bedenken, dass jede Suchmaschine die Zensur längst eingeführt hat, um Suchmaschinen Spammer zu stoppen. Politische Zensurwünsche kommen primär von außen.

Ausweg EU Suchmaschine

Aus oben erwähnten Gründen wäre es zu überlegen, ob nicht die Schaffung einer nicht kommerziellen, EU-finanzierten Suchmaschine ein möglicher Ausweg wäre. Diese EU-Suchmaschine soll nach öffentlich bekannten Kriterien Suchergebnisse filtern und mindestens so gut funktionieren wie Google.

Ich bekomme nämlich wirklich Gänsehaut, wenn ich darüber nachdenke, was passiert, wenn ein Suchmaschinen Betreiber aus kommerziellen Gründen die Informations-Interessen von Diktaturen schützt. Aber es reicht auch der Gedanke, dass die Demokratie der USA Google dazu bringen könnte, dass gewisse Dinge aus politischen Gründen generell nicht mehr gefunden werden können.

PS.: Nach Schätzungen von Experten ist 1/3 bis sogar 2/3 des WWW gar nicht in den Suchmaschinen eingetragen (ganz ohne Zensur). Bitte denken Sie daran, wenn Sie das nächste Mal sagen "Hab ich im Google nicht gefunden, gibts wohl nicht."

Links:

Anmerkung

Der neueste Schmäh der Viagra-Spammer, eben bekommen:

Kommentare

comments powered by Disqus

nach oben

 


 
Haben Sie sich schon einmal darüber Gedanken gemacht, was uns Suchmaschinen verschweigen? Ein Artikel über Zensurmöglichkeiten und Gegenmaßnahmen.
    Haben Sie sich schon einmal darüber Gedanken gemacht, was uns Suchmaschinen verschweigen? Ein Artikel über Zensurmöglichkeiten und Gegenmaßnahmen.

©2024 Verlag Franz