Jak naukowcy mogą przestać oszukiwać statystyki

Pojawił się ekscytujący artykuł Dorothy Bishop Natura 584: 9 (2020); doi: 10.1038 / d41586-020-02275-8

Gromadzenie symulowanych danych może ujawnić typowe sposoby, w jakie nasze uprzedzenia poznawcze prowadzą nas na manowce.


W ciągu ostatniej dekady podjęto wiele wysiłków w celu promowania solidnych i wiarygodnych badań. Niektórzy koncentrują się na zmianie zachęt, na przykład poprzez zmianę kryteriów finansowania i publikacji, aby faworyzować otwartą naukę nad sensacyjnymi przełomami. Ale należy również zwrócić uwagę na osobę. Zbytnie ludzkie uprzedzenia poznawcze mogą doprowadzić nas do uzyskania wyników, których nie ma. Wadliwe rozumowanie prowadzi do niechlujnej nauki, nawet jeśli intencje są dobre.

Kilka słów o autorze:  

Profesor Dorothy Bishop


Profesor Neuropsychologii Rozwojowej, Katedra Psychologii Eksperymentalnej; Stypendysta St. John's College


Profesor Bishop bada problemy językowe u dzieci. W niektórych przypadkach trudności z mówieniem mają oczywistą przyczynę, taką jak utrata słuchu lub stan taki jak zespół Downa. W innych przypadkach dzieci mają szczególne trudności w nauce mówienia lub rozumienia języka bez wyraźnego powodu. Profesor Bishop zbadał dzieci z „specyficznymi zaburzeniami mowy”, czyli SLI, które stanowią około 3% populacji, ale są zwykle pomijane przez naukowców. Korzystając z badań bliźniaczych, badała genetyczny składnik tych zaburzeń i współpracowała z genetykami molekularnymi, aby dowiedzieć się, które geny są zaangażowane. Zdjęcie źródłowe: Wikipedia


Jak naukowcy mogą przestać oszukiwać statystyki

W ciągu ostatniej dekady podjęto wiele wysiłków w celu promowania solidnych i wiarygodnych badań. Niektórzy koncentrują się na zmianie zachęt, na przykład poprzez zmianę kryteriów finansowania i publikacji, aby faworyzować otwartą naukę nad sensacyjnymi przełomami. Ale należy również zwrócić uwagę na osobę. Zbytnie ludzkie uprzedzenia poznawcze mogą doprowadzić nas do uzyskania wyników, których nie ma. Wadliwe rozumowanie prowadzi do niechlujnej nauki, nawet jeśli intencje są dobre.

Badacze muszą być bardziej świadomi tych pułapek. Tak jak naukowcom laboratoryjnym nie wolno zajmować się substancjami niebezpiecznymi bez przeszkolenia w zakresie bezpieczeństwa, badacze nie powinni mieć możliwości zbliżenia się do wartości P lub podobnej miary prawdopodobieństwa statystycznego, dopóki nie udowodnią, że rozumieją, co to znaczy.

Wszyscy mamy tendencję do przeoczania dowodów, które są sprzeczne z naszymi poglądami. W obliczu nowych danych nasze istniejące wcześniej pomysły mogą doprowadzić nas do dostrzeżenia struktur, które nie istnieją. Jest to forma potwierdzenia, w której szukamy informacji i zapamiętujemy informacje, które są zgodne z tym, o czym już myślimy. Może być elastyczny: ludzie muszą być w stanie wyeliminować ważne informacje i szybko działać, aby uniknąć niebezpieczeństwa. Ale to filtrowanie może prowadzić do błędów naukowych.


Przykładem tego jest pomiar ładunku elektronu przez fizyka Roberta Millikana w 1913 roku. Chociaż twierdził, że jego praca obejmowała wszystkie punkty danych z jego słynnego eksperymentu z kroplami oleju, jego notatniki ujawniły inne, niezgłoszone punkty danych, które zmieniłyby ostateczną wartość tylko nieznacznie, ale dałyby mu większy błąd statystyczny. Odbyła się dyskusja na temat tego, czy Millikan zamierzał wprowadzić swoich czytelników w błąd. Jednak nierzadko zdarza się, że uczciwi ludzie tłumią wspomnienia niewygodnych faktów (RC Jennings Sci. Eng. Ethik 10, 639-653; 2004).

Inny rodzaj ograniczenia sprzyja nieporozumieniom dotyczącym prawdopodobieństwa i statystyki. Od dawna wiemy, że ludzie mają trudności ze zrozumieniem niepewności związanej z małymi próbkami (A. Tversky i D. Kahneman Psychol. Bull. 76, 105-110; 1971). Jako aktualny przykład załóżmy, że 5% populacji jest zarażonych wirusem. Mamy 100 szpitali, w których każdy bada po 25 osób, 100 szpitali, w których bada się 50 osób, i 100, w których bada się 100 osób. Jaki procent szpitali nie znajdzie żadnych przypadków i błędnie dojdzie do wniosku, że wirus zniknął? Odpowiedź brzmi: 28% szpitali, w których bada się 25 osób, 8% szpitali, w których bada się 50 osób, i 1% szpitali, w których bada się 100 osób. Średnia liczba przypadków wykrytych przez szpitale jest taka sama niezależnie od liczby zbadanych przypadków, ale zakres jest znacznie większy przy małej próbie.

To nieliniowe skalowanie jest trudne do intuicyjnego uchwycenia. Prowadzi to do niedoceniania, jak hałaśliwe mogą być małe próbki, a tym samym do prowadzenia badań, w których brakuje mocy statystycznej do wykrycia efektu.

Badacze nie zdają sobie również sprawy, że znaczenie wyniku wyrażonego w wartości P zależy w sposób krytyczny od kontekstu. Im więcej badanych zmiennych, tym większe prawdopodobieństwo znalezienia nieprawidłowo „znaczącej” wartości. Na przykład, jeśli przetestujesz 14 metabolitów pod kątem związku z zaburzeniem, to prawdopodobieństwo, że znajdziesz co najmniej jedną wartość P poniżej 0,05 - powszechnie stosowany próg istotności statystycznej - nie wynosi 1 do 20, ale jest bliższe 1 do 2.

Jak możemy to zrozumieć? Jedno jest jasne: konwencjonalne szkolenie w zakresie statystyki jest nieodpowiednie lub nawet przynosi efekt przeciwny do zamierzonego, ponieważ może wzbudzić u użytkownika niewłaściwe zaufanie. Eksperymentuję z alternatywnym podejściem: generowaniem symulowanych danych, które studenci mogą poddawać różnym analizom statystycznym. Używam tego do przekazania dwóch kluczowych pojęć.

Po pierwsze, kiedy uczniowie otrzymują puste rekordy (np. Liczby losowe), szybko odkrywają, jak łatwo jest znaleźć fałszywe wyniki, które wydają się statystycznie „znaczące”. Badacze muszą się tego nauczyć, gdy interpretuje się wartość P, gdy zostanie zapytany „Czy A jest powiązany z B?”. bardzo różni się od pytania „Czy istnieją korelacje dla zmiennych A, B, C, D i E, dla których P <0,05? metabolity, aby sprawdzić, czy są z nim związane, te ostatnie wymagają znacznie bardziej rygorystycznych testów.

Utrzymanie czterech jeźdźców w ryzach

Symulowane dane dostarczają również informacji, kiedy próbki pochodzą z dwóch „populacji” w inny sposób. Uczniowie szybko dowiadują się, że przy małych rozmiarach prób eksperyment może być bezużyteczny, aby ujawnić nawet umiarkowaną różnicę. 30-minutowa symulacja danych może oszołomić naukowców, jeśli zrozumieją konsekwencje.


Badacze muszą wypracować nawyki na całe życie, aby nie dać się zwieść afirmatywnym uprzedzeniom. Spostrzeżenia sprzeczne z naszymi oczekiwaniami wymagają szczególnej uwagi. Charles Darwin powiedział w 1876 r., Że miał w zwyczaju „kiedykolwiek natrafiłem na opublikowany fakt, obserwację lub myśl, która jest sprzeczna z moimi ogólnymi ustaleniami, natychmiast i natychmiast napisać memorandum na ten temat do napisania: ponieważ ustaliłem z doświadczenia, że ​​takie fakty i myśli znacznie częściej wymykały się pamięci niż przychylne ”. Sam to widziałem. Pisząc recenzje literatury, byłem przerażony, gdy odkryłem, że zupełnie zapomniałem wspomnieć o artykułach, które są sprzeczne z moim instynktem, mimo że nie miały one szczególnych błędów. Teraz próbuję je wymienić.

Wszystkim trudno jest dostrzec błędy w naszej własnej pracy - to normalna część ludzkiego poznania. Ale jeśli zrozumiemy te martwe punkty, możemy ich uniknąć.

druk