Moin. Was ich schrob: OpenAIs crawler berücksichtigt jetzt offenbar eine robots.txt. Gefühlt find ich es eine gute Idee, das Dingen von meinen Posts fernzuhalten. Meinungen?
Das müsste man vermutlich generell bei Lemmy machen, also deren Machern das vorschlagen, sonst macht das keinen Sinn, weil OpenAI deine Beiträge sonst einfach auf irgendeiner X-beliebigen anderen Instanz lesen kann. https://lemmy.ml/u/the_third@feddit.de https://lemm.ee/u/the_third@feddit.de https://lemmy.world/u/the_third@feddit.de https://beehaw.org/u/the_third@feddit.de
Über die Föderation können sie auch einfach einen eigenen Server aufsetzen und sich da alles komplett runterladen, so dass die Sperre vermutlich eh keine Sinn ergibt.
Also zusammengefasst: Einfach nur Mist schreiben, so dass OpenAI deine Posts eh nicht haben will! Ü
Über die Föderation können sie auch einfach einen eigenen Server aufsetzen und sich da alles komplett runterladen, so dass die Sperre vermutlich eh keine Sinn ergibt.
Point taken. Stimmt.
Das wäre doch völlig absurd.
Entweder sie sind anständig und honorieren die robots.txt (und setzten keine eigene Instanz auf nur um das zu umgehen)
Oder sie sind unanständig, honorieren die robots.txt nicht und müssen keine eigene Instanz aufsetzten um das zu umgehen.
So oder so wird sicher niemand eine eigene lemmy Instanz aufsetzen nur um daten zu Farmen.
deleted by creator
Was du im Internet veröffentlichst, ist genau das: veröffentlicht. Auch wenn es von OpenAI nicht indiziert wird, landet es bei diversen anderen Crawler, die einen Pfiff auf die
robots.txt
geben.Daher bessere Lösung: Poste nichts online, was du nicht auch der Dame an der Supermarktkasse erzählen würdest.
Nur Gefühl oder hast Du auch irgendeine Begründung für den Vorschlag?
Gegenfrage: Brächte es nicht eher eine Begründung, warum eine kommerzielle Firma die von den Usern hier geposteten Inhalte kostenlos für ihre eigenen Produkte abgreifen dürfen sollte ohne auch nur vorher mal zu fragen?
Ja, ich habe aus meinem Reddit-Account ne Menge Zeug gelöscht und nachher erfahren, dass das leider bereits Teil des in GPT-3 verwendeten Datenmodells geworden war, zu dem Zeitpunkt.
Ja, schon klar. Die Frage ist aber: warum möchtest Du das nicht?
Weil ich die Sorge habe, dass ich im Abstand vieler Monate verknüpfbare wenn auch einzeln harmlose Informationen bereitstelle ohne mir dessen selbst bewusst zu sein.
Das tust Du möglicherweise, aber dann sind doch LLM nicht die große Gefahr. Und vor allem solltest Du dann eher überlegen, wie Du mit Deinen eigenen daten umgehst.