Data poisoning – eine These zur Erklärung einer neuen Spamwelle

Die Zeiten ändern sich.

Dieser Beitrag scheint älter als 3 Jahre zu sein – eine lange Zeit im Internet. Der Inhalt ist vielleicht veraltet ...

Ich betreue das Supportforum von Antispam Bee. Da ist mir eine neue Art von Spam aufgefallen, die leider nicht von uns erkannt wurde. Wirklich schräg an diesem Spam war, dass er keine Links enthielt und auch keine typischen SEO-Begriffe. Normalwerweise möchten Spammer ja etwas erreichen. Zum Beispiel den Besucher auf eine Phishing-Site oder Malware-Site bringen, etwas verkaufen (Medikamente, Online-Casino, etc.) oder via Backlink SEO betreiben. All das passte nicht, also fragte ich mich wozu eigentlich das Ganze …

In diesem Fall waren aber Name und Host nur eine zufällige Folge von exakt zehn Kleinbuchstaben und im Inhalt nochmal exakt 30 Kleinbuchstaben. Dafür ließ sich einfach ein eigenes Pattern schreiben, aber warum gibt es überhaupt Spamkommentare mit zufälligen Kleinbuchstaben gleicher Länge als Host, Name und Inhalt? Die IP-Adressen stammen in meinem Fall alle von einem bestimmten russischen Hoster und die Mail-Adressen wechseln von Kommentar zu Kommentar.

Ich habe nun zwei Theorien:

Theorie 1: Kompromittierung

Das Ganze nennt sich data poisoning und meint das gezielt verfälschen einer „Machine Learning“-Umgebung mit falschen Daten.

Wenn die Kommentare immer als Spam eingestuft werden und Name, Host und Inhalt mit den zufälligen Buchstabenfolgen keinen Mehrwert darstellen, ist als Spam-Marker die E-Mail eine mögliche Variante. Akismet als selbstlernendes System wird auch gerne bei Kontaktformularen eingesetzt und auch CMS-übergreifend. Ist eine E-Mail in Akismet als sicheren Spamsignal markiert, kann man quasi nirgendwo mehr kommentieren oder ein Formular absenden, weil das System es immer ablehnt.

Vielleicht „verkauft“ der Spammer dieses System.

Akismet scheint mit der Unterscheidung zwischen „Local and global learning.“ einen Prozess zu haben um dem Entgegenzuwirken, aber wie erfolgreich das ist, bleibt unklar. Wann genau kann das System eben doch „vergiften“ werden? Die Beharrlichkeit und Anzahl des Spams ist jedenfalls enorm.

Wenn das einzig verwertbare die E-Mail ist und es tausendfach als Spam markiert wird, ab wann ist so eine Mail-Adresse als Spam-Marker verbrannt? Und ist das wirklich das Ziel von diesem Spam?

Die Mail-Adressen sehen sehr unterschiedlich aus und könnten tatsächlich real sein.

Bei meiner Suche nach data poisoning bin ich auf einen sehr alten Blogeintrag aus dem Jahr 2006 bei Akismet gestoßen, wo Matt persönlich auf einen Vorwurf eines Plugin-Entwicklers reagiert, und dabei erklärt, dass er das Geheimnis nicht verraten kann, aber Akismet Mittel gegen das „Vergiften“ hat:

To clarify Dave’s second concern, data poisoning is where the effectiveness of a system would decrease over time because of bad data being introduced into the mix. I can’t get into too many specifics here, since our protection against this is part of the “secret sauce” behind Akismet, but I think the performance of Akismet speaks for itself. It is a huge target, being bundled with WordPress, adapted for numerous platforms, and having over 90,000 users already. (Larger than many blog hosters.) Yet in spite of all that (and partly because of all that) Akismet has only become more effective with time, and it is now 33% closer to no missed spam or false positives than when it started. The system was designed from the ground up to prevent poisoning, and though there have been many attempts none have adversely impacted the system yet.

Quelle: https://blog.akismet.com/2006/01/30/spam-karma-state/

Theorie 1: DDos

Es geht vielleicht auch gar nicht um das Vergiften von selbstlernenden Antispam-Systemen wie Akismet oder Cleantalk, sondern um einen Angriff auf die Websites. WordPress hat eine Erkennung von Spamwellen („Flooding“).

Werden zu viele Kommentare in extrem kurzer Zeit getätigt, so kommt nur noch eine Fehlermeldung, man müsse sich etwas gedulden und bitte nicht so schnell hintereinander kommentieren.

Damit verhindert das fluten mit Spamkommentaren auch das Absenden korrekter Kommentare. Problem ist nur: Das ist nicht sehr sicher. Ein Kommentar ist relativ schnell wieder möglich, denn es erfordert eine Menge andauernder Ressourcen auf der Spammer-Seite. Zudem sind die Ziele, die mir durch den Support aufgefallen sind, keine Ziele, bei denen das Sinn machen würde. Wenn es politische Blogs wären, die mundtot gemacht werden sollen okay, aber das passte hier überhaupt nicht.

Daher vermute ich aktuell tatsächlich data poisining als Ziel von diesem Spam.

Hast du eine andere Idee dazu? Oder mehr Infos dazu? Dann freue ich mich über deinen Kommentar!

5 Antworten auf Data poisoning – eine These zur Erklärung einer neuen Spamwelle

  1. Ich hatte mit dieser Spamwelle auch in den letzten Tagen zu kämpfen. Ich habe mir da mit einer Custom Pattern beholfen [ 'body' => '^\w{15,}$' ].

    Bei mir wurde aber nicht nur das Kommentar-Forumlar vollgespamt, zuletzte wurde auch das Newsletter-Formular vollgespamt. Interessanterweise wird es bei mir i.d.R. nur per Javascript eingebunden d.h. der Spamer schein JavaScript auch zu rendern und die IP-Adresse wechselt auffallend selten. Außerdem wurde der Honeypot sowohl beim Kommentar-Formular als auch beim Newsletter-Formular nicht ausgefüllt.

    Ich vermute das der Angriff zumindest in gewissen Rahmen manuell erfolgt. Es wundert mich doch sehr, dass der Honeypot umgangen wurde.

    Meine Vermutung ist sonst noch, dass gezielt Email-Spam-Filter ausgelöst werden sollten um Domains oder IP-Adressen zu kompromittieren? Ich hatte Subscribe to Comments Reloaded aktiviert und dort wird leider nicht der Spam-Status abgefragt, bevor die Bestätigungs-Email verschickt wird: https://wordpress.org/support/topic/compatibility-with-antispam-bee/ Ich musste es deswegen erst einmal deaktivieren. Der Haken für Benachrichtigungen bei neuen Kommentaren war auch immer zuverlässig gesetzt.

    • Ja, ein Pattern habe ich dazu auch gebaut. Finde es auch erstaunlich, dass der durchkommt, aber IP kann es eigentlich nicht sein. Die sägen doch nicht an dem Ast auf dem sie sitzen. Wobei das natürlich auch perfide wäre, um einem Hoster zu schaden. Domain wurde in dem Fall aus dem Screenshot ja gar nicht richtig genutzt. Ich muss mal bei meinem „Subscribe to Comments“ schauen, ob das auch vollgemüllt wurde …

      • Also ich habe auch viele Emails mit @hotmail.com, @aol.com, @comcast.net, @vodafone.de und @t-online.de Sieht zumindest bei einigen Email-Adressen nach echten Adressen aus. Vielleicht aus einem Leak?

        Ich nutze AWS SES zum Versand der Emails. Da kamen auf jeden Fall viele Bounces und Complaint rein. Deswegen musste ich es auch stoppen.

        Interessanterweise wird bei mir seit dem 5. April ein und dieselbe IP-Adresse zum spamen verwendet. Macht es einfach zu filtern aber trotzdem sehr mysteriös. Wirklich professionell scheint das nicht zu sein. Die IP-Adresse lässt sich auf einen ISP auf der Krim zurückführen.

  2. Ich habe mich auch über etliche Spams gewundert, welche nur eine (scheinbar) gültige E-Mail-Adresse als Anhaltspunkt enthalten. Diese Adressen füge ich meiner selbst gepflegten Blacklist hinzu, welche der Kommentar-Sperrliste durch ein Script automatisch hinzugefügt wird. Auf diese Weise sind schon viele Mehrfachtäter in die Falle gegangen und eine Bestätigungsmail wird dann auch nicht versendet. Etwa 100 verbundene Websites nutzen meine Blacklist, so dass bei jedem Admin dieser Müll nicht mehr ankommt.

  3. Pingback: Antispam Bee braucht eure juristische Hilfe › Torsten Landsiedel

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert