
BOY ANTHONY – Shutterstock.com
Beliebte LLMs wie DeepSeek werden mit Widespread Crawl trainiert, einem riesigen Datensatz mit Web site-Informationen. Forscher von Truffle Safety haben kürzlich einen Datensatz des Webarchives analysiert, der über 250 Milliarden Seiten umfasst und Daten von 47,5 Millionen Hosts enthält. Dabei stellten sie fest, dass rund 12.000 hartcodierte Dwell-API-Schlüssel und Passwörter dazu zählen.
Der Analyse zufolge enthält das Datenpaket von Widespread Crawl insgesamt 219 verschiedene Geheimnistypen. Darunter Amazon Net Companies (AWS) Root-Schlüssel, Slack-Webhooks und Mailchimp-API-Schlüssel. Da man sich mit diesen Anmeldedaten erfolgreich authentifizieren kann, stellen sie sowohl für Benutzer als auch für Organisationen ein erhebliches Sicherheitsrisiko dar.
„Dies verdeutlicht ein wachsendes Downside: LLMs, die mit unsicherem Code trainiert wurden, können versehentlich unsichere Ausgaben generieren“, warnen die Forscher. Demnach können LLMs während des Trainings nicht zwischen gültigen und ungültigen Geheimnissen unterscheiden. „Das bedeutet, dass beide gleichermaßen zur Bereitstellung unsicherer Codebeispiele beitragen“, heißt es im Forschungsbericht.