Vorschlag: GPT-Crawler in robots.txt blocken

the_third@feddit.de · 1 year ago

Vorschlag: GPT-Crawler in robots.txt blocken

plistig@feddit.de · 1 year ago

Das müsste man vermutlich generell bei Lemmy machen, also deren Machern das vorschlagen, sonst macht das keinen Sinn, weil OpenAI deine Beiträge sonst einfach auf irgendeiner X-beliebigen anderen Instanz lesen kann. https://lemmy.ml /u/the_third@feddit.de https://lemm.ee /u/the_third@feddit.de https://lemmy.world /u/the_third@feddit.de https://beehaw.org /u/the_third@feddit.de

Über die Föderation können sie auch einfach einen eigenen Server aufsetzen und sich da alles komplett runterladen, so dass die Sperre vermutlich eh keine Sinn ergibt.

Also zusammengefasst: Einfach nur Mist schreiben, so dass OpenAI deine Posts eh nicht haben will! Ü

the_third@feddit.de · 1 year ago

Über die Föderation können sie auch einfach einen eigenen Server aufsetzen und sich da alles komplett runterladen, so dass die Sperre vermutlich eh keine Sinn ergibt.

Point taken. Stimmt.

ChrisOboe@feddit.de · 1 year ago

Das wäre doch völlig absurd.

Entweder sie sind anständig und honorieren die robots.txt (und setzten keine eigene Instanz auf nur um das zu umgehen)

Oder sie sind unanständig, honorieren die robots.txt nicht und müssen keine eigene Instanz aufsetzten um das zu umgehen.

So oder so wird sicher niemand eine eigene lemmy Instanz aufsetzen nur um daten zu Farmen.

BatrickPateman@feddit.de · 1 year ago

deleted by creator

scorpionix@feddit.de · 1 year ago

Was du im Internet veröffentlichst, ist genau das: veröffentlicht. Auch wenn es von OpenAI nicht indiziert wird, landet es bei diversen anderen Crawler, die einen Pfiff auf die robots.txt geben.

Daher bessere Lösung: Poste nichts online, was du nicht auch der Dame an der Supermarktkasse erzählen würdest.

SNAFU@feddit.de · 1 year ago

Nur Gefühl oder hast Du auch irgendeine Begründung für den Vorschlag?

muelltonne@feddit.de · 1 year ago

Gegenfrage: Brächte es nicht eher eine Begründung, warum eine kommerzielle Firma die von den Usern hier geposteten Inhalte kostenlos für ihre eigenen Produkte abgreifen dürfen sollte ohne auch nur vorher mal zu fragen?

the_third@feddit.de · 1 year ago

Ja, ich habe aus meinem Reddit-Account ne Menge Zeug gelöscht und nachher erfahren, dass das leider bereits Teil des in GPT-3 verwendeten Datenmodells geworden war, zu dem Zeitpunkt.

SNAFU@feddit.de · 1 year ago

Ja, schon klar. Die Frage ist aber: warum möchtest Du das nicht?

the_third@feddit.de · 1 year ago

Weil ich die Sorge habe, dass ich im Abstand vieler Monate verknüpfbare wenn auch einzeln harmlose Informationen bereitstelle ohne mir dessen selbst bewusst zu sein.

SNAFU@feddit.de · 1 year ago

Das tust Du möglicherweise, aber dann sind doch LLM nicht die große Gefahr. Und vor allem solltest Du dann eher überlegen, wie Du mit Deinen eigenen daten umgehst.

Vorschlag: GPT-Crawler in robots.txt blocken

Vorschlag: GPT-Crawler in robots.txt blocken

OpenAI Platform