Więcej na temat torturowania danych

Cieszyliśmy się z najnowszego artykułu Sounding Board Millsa (wydanie z 14 października) ubolewając nad torturami danych i chciałbym dodać kilka punktów. Testowanie wielu hipotez (torturowanie danych) przez zdesperowanego lub niedoświadczonego badacza jest analogiczne do bezkrytycznego porządkowania testów diagnostycznych przez zatapiającego się lekarza – oboje tracą czas, pieniądze i energię, gdy ścigają się czerwone śledzie. Czasami jednak z torturowanych danych wyłania się nieoczekiwany, ale ważny wynik, jak rybi z kałuży dewońskiego błota. Odkrycie jest nie mniej ważne, jeśli badacz pomieszał wiele kałuż, zanim natknął się na niego, niż gdyby wiedział, do czego łowić i złapał za pierwszym razem.
Problem pojawia się w oddzielaniu ewolucyjnych postępów (prawdziwych pozytywów) od ślepych zaułków darwinowskich (fałszywych pozytywów). Określenie nie opiera się jedynie na obecności lub nieobecności wartości P mniejszej niż 0,05 lub, jak sugeruje Mills, przedziału ufności. W przeciwieństwie do tego, co stwierdza autor, ponieważ przedział ufności jest oparty na danych, nie może dostarczyć więcej informacji niż wartość P w określaniu prawdopodobieństwa, że wynik będzie prawdziwie dodatni. Zamiast tego, 95-procentowy przedział ufności reprezentuje zakres wartości, które są zgodne z wynikiem badania; każda wartość poza przedziałem ufności byłaby odrzucana, gdyby P było mniejsze niż 0,052.
Aby oddzielić zalety od ślepych zaułków, należy wziąć pod uwagę dwa inne czynniki: wcześniejsze prawdopodobieństwo hipotezy i stopień pożądanej pewności. Przy ustalaniu wcześniejszego prawdopodobieństwa czytelnik powinien brać pod uwagę nie tylko wiarygodność biologiczną, ale także wcześniejsze dowody potwierdzające podobne hipotezy i występowanie alternatywnych wyjaśnień. Co do tego, jak ktoś chce być, zależy to w dużej mierze od potencjalnych kosztów i korzyści przyjęcia wyników badania.
Daniel B. Stryer, MD
Warren Browner, MD, MPH
Veterans Affairs Medical Center, San Francisco, CA 94121
Thomas Newman, MD, MPH
University of California, San Francisco, Ca 94143
2 Referencje1. Mills JL. Torturowanie danych. N Engl J Med 1993; 329: 1196-1199
Full Text Web of Science MedlineGoogle Scholar
2. Browner WS, Newman TB. Przedziały ufności. Ann Intern Med 1986; 105: 973-974
Web of Science MedlineGoogle Scholar
Mills żąda, by hipotezy generowane przed zbieraniem danych i aby badania były ograniczone do pytań, które mają sens, jest sprzeczne z duchem naukowych dociekań i historią odkrycia. Newton najpierw spojrzał na dane, a następnie sformułował swoją hipotezę o grawitacji. To była i jest bezsensowna hipoteza:
Ta grawitacja powinna być wrodzona, wrodzona, niezbędna do materii, aby jedno ciało mogło oddziaływać na kogoś na odległość poprzez próżnię, bez pośrednictwa czegokolwiek innego, poprzez które działanie i siła mogą być przenoszone z jednego do drugiego, jest dla mnie tak wielkim absurdem, że nie wierzę, aby żaden człowiek, który w filozoficznych sprawach nie posiadał kompetentnej zdolności myślenia, nigdy nie wpadłby na to.
W podobny sposób mechanika kwantowa reprezentuje hipotezę w odpowiedzi na dane. To nie ma sensu, ale działa, a to wystarczy Jeśli redaktorzy przystąpili do żądań Millsa dotyczących czystego mechanizmu biologicznego, który mógłby wyjaśnić efekt w jednej podgrupie, ale nie w innych i hipotezy te zostaną wygenerowane przed analizą danych, prawa Mendla pozostałyby niepublikowane, a podwójna spirala nieodkryta.
Douglas Dix, Ph.D.
University of Hartford, West Hartford, CT 06117
Odniesienie1. Kline M. Matematyka: utrata pewności. Nowy Jork: Oxford University Press, 1980: 55-6.
Google Scholar
Chciałbym zasugerować jeszcze kilka rzeczy, które należy uwzględnić w analizie danych i sprawozdawczości. Po pierwsze, argumentowałbym, że dowód nie jest obiektywnym zjawiskiem, ale raczej leży w umyśle myśliciela lub czytelnika. Znajduję niewłaściwą uwagę Millsa, że badam dane. . . można udowodnić to, co badacz chce udowodnić. Poprzeć hipotezę badacza. Być może tak. Ale służcie jako dowód dla sceptycznych czytelników. Z jednego badania. Nie często. Spójrz, jak długo i ile badań zajęło przekonanie większości ludzi (ale nawet teraz, nie wszystkich ludzi), że palenie papierosów jest przyczyną raka płuc, lub jeszcze mniej osób, że super-radykalna mastektomia nie jest leczeniem z wyboru dla piersi rak. Dowód zwykle wymaga potwierdzenia ugruntowanej, dobrze przyjętej teorii lub, w przypadku braku takiej teorii, kilku badań potwierdzających. ( Kilka może okazać się dużą liczbą, jak w historii badań nad paleniem tytoniu i rakiem płuc).
Po drugie, podnoszę problem wnioskowania. Jak wskazuje Mills w jednym z jego przykładów, biorąc pod uwagę 158 możliwych niezależnych porównań na poziomie 0,05, można by oczekiwać, że 7 lub 8 porównań statystycznie znaczących . Cytowane badania wskazują na 9, prowadząc Millsa do skomentowania tego osiem z tych dziewięciu . wyniki mogłyby łatwo wystąpić przypadkowo. Czy to oznacza, że z 9 jest prawdziwy. Który. Tylko 1. Jak się dowiedzieć. Jak mogę zidentyfikować ten (lub więcej) w przypadku braku teorii lub replikacji, lub obu.
Po trzecie, prawdopodobieństwo 0,05 dotyczy tylko błędów typu I – fałszywych alarmów. Istnieją również fałszywe negatywy – brak prawdziwego efektu, gdy naprawdę istnieje. Najczęściej wiąże się to z siłą badania, a im mniejsze badanie, tym niższa moc. Tak więc w badaniu cytowanym przez Millsa, w którym dokonano 158 porównań, oczekiwałbym, że niektóre z tych porównań dotyczyły grup o bardzo niewielu przedmiotach – co sprawia, że prawdopodobieństwo znalezienia efektu istotnego, a zwłaszcza małego, jest najmniej prawdopodobne. Dane frakcjonujące są często sposobem uzyskania negatywnych wyników. Uważam, że to frakcjonowanie jest również formą torturowania danych. W przypływie cynizmu jeden z kolegów zauważył gorzko: Jeśli nie chcesz pokazać żadnego znaczącego efektu, to jest to łatwe. Po prostu zrób mały, niechlujny eksperyment.
Co się zaś tyczy wartości P i przedziałów ufności, po zgłoszeniu limitów ufności nie widzę potrzeby zgłaszania wartości P. Ale jeśli twój program komputerowy wylicza je dla ciebie, a edytor nie sprzeciwia się, nie zrobimy krzywdy, publikując oba.
Marvin A. Schneiderman, Ph.D.
National Research Council, Washington, DC 20418
Mills błędnie oblicza prawdopodobieństwo, że różnice w badaniu wad wrodzonych będą prawdziwe, jako 0,95158 Zamiast tego, poszukiwane prawdopodobieństwo uzyskuje się przez pomnożenie n czynników, gdzie n jest liczbą znalezionych różnic (które, zgodnie z artykułem, są różne od 158). Każdy czynnik byłby równy minus wartość P uzyskana dla odpowiadającej różnicy. Liczba podana przez autora jest prawdopodobieństwem a prior
[podobne: zaburzenia integracji sensorycznej u dorosłych, bronchografia, hemohromatoza ]

Powiązane tematy z artykułem: bronchografia hemohromatoza zaburzenia integracji sensorycznej u dorosłych