Da muss man nicht wetten, das ist so. Das nennt sich multiple testing problem und ist ein riesen Problem in der Wissenschaft (nicht, weil man das Problem nicht lösen könnte, sondern weil 80% aller Wissenschaftler keine oder nur unzureichende Ahnung von Statistik haben).
Das Problem ist, dass dein Signifikanzniveau zufälligerweise erreicht werden kann.
Kleiner Ausflug in die Statistik:
Wenn du in einem Experiment gucken willst, ob die gemessenen Unterschiede oder eine gefundene Korrelation tatsächlich "stimmen" (signifikant sind), machst du einen Hypothesentest.
Je nach Art der gewonnenen Daten kann/sollte man unterschiedliche Tests verwenden. Deinen Test speist du mit deinen Messdaten und er spuckt dir nen sogenannten α-Wert aus. Der liegt zwischen 0 und 1 (oder 0% und 100% - wie man's sehen möchte) und gibt dir - grob gesagt - an, wie groß die Wahrscheinlichkeit ist, dass die Korrelation/Unterschiede, die du gemessen hast, tatsächliche Korrelationen/Unterschiede und keine Zufälle sind. Wenn du einen p-Wert nahe 0 bekommst, ist das "besser" als einer nahe 1. Wenn du tatsächlich einen von fast 1 bekommen würdest, kannst du dir nahezu sicher sein, dass die Korrelationen/Unterschiede deiner Messungen zufällig sind. Jetzt lautet aber die Frage: Ab wann denkt man denn, dass die Korrelationen/Unterschiede wahrscheinlich genug sind?
Dazu hat man das Signifikanzniveau eingeführt. Es gibt 3 verbreitete Signifikanzniveaus: signifikant (0,05 oder 5%, Symbol *), hochsignifikant (0,01 oder 1%, Symbol **) und höchstsignifikant (0,001 oder 1‰, Symbol ***). Der erste Wert in der Klammer steht für den α-Wert (die false positive-rate). Wenn der p-Wert den α-Wert unterschreitet, wird das jeweilige Signifikanzniveau erreicht. Dummerweise heißt eine false positive-rate von 5% immernoch, dass die Wahrscheinlichkeit bei 5% liegt, dass deine Messdaten doch nicht korrelieren / unterschiedlich sind. In einem von 20 Fällen signifikanter Unterschiede oder Korrelationen hat sich also doch der Zufall eingeschlichen. Daher auch das "stimmen" oben in Anführungszeichen. Man kann nie von einer 100%igen Gewissheit sprechen.
Und das Problem tritt häufiger auf als man denkt. Man kann das sogar zuhause nachprüfen, indem man bspw. zwei gleiche Würfel nimmt und mit beiden 10 mal wirft und alle Ergebnisse pro Würfel notiert. Dann lässt man einen Test drüber laufen und mit etwas "Glück" (oder eher Pech) bekommt man ein signifikant unterschiedliches Ergebnis für beide Würfel, obwohl die Würfel doch bekanntermaßen nicht unterschiedlich sind.
Multiple comparisons problem - Wikipedia