Gültigkeit (Statistik)

In der Wissenschaft und Statistik hat Gültigkeit keine einzelne abgestimmte Definition, aber bezieht sich allgemein auf das Ausmaß, zu dem ein Konzept, Beschluss oder Maß wohl begründet sind und genau zur echten Welt entsprechen. Das "gültige" Wort wird aus dem lateinischen validus abgeleitet, stark bedeutend. Wie man betrachtet, ist die Gültigkeit eines Maß-Werkzeugs (zum Beispiel, ein Test in der Ausbildung) der Grad, zu dem das Werkzeug misst, was es behauptet zu messen.

In psychometrics ließ Gültigkeit eine besondere Anwendung als Testgültigkeit bekannt: "Der Grad, zu dem Beweise und Theorie die Interpretationen von Testhunderten" ("wie zur Folge gehabt, durch den vorgeschlagenen Gebrauch von Tests") unterstützen.

Im Gebiet des wissenschaftlichen Forschungsdesigns und Experimentierens bezieht sich Gültigkeit darauf, ob eine Studie im Stande ist, auf die Fragen wissenschaftlich zu antworten, auf die es beabsichtigt ist, um zu antworten.

In klinischen Feldern kann die Gültigkeit einer Diagnose und vereinigter diagnostischer Tests bewertet werden.

Es wird allgemein akzeptiert, dass das Konzept der wissenschaftlichen Gültigkeit die Natur der Wirklichkeit richtet, und weil solcher ein erkenntnistheoretisches und philosophisches Problem sowie eine Frage des Maßes ist. Der Gebrauch des Begriffes in der Logik ist in Zusammenhang mit der Wahrheit von von Propositionen gemachten Schlussfolgerungen schmaler.

Testgültigkeit

Zuverlässigkeit und Gültigkeit

Gültigkeit wird häufig zusammen mit der Zuverlässigkeit - das Ausmaß bewertet, dem ein Maß konsequente Ergebnisse gibt.

Eine frühe Definition der Testgültigkeit hat es mit dem Grad der Korrelation zwischen dem Test und einem Kriterium identifiziert. Laut dieser Definition kann man zeigen, dass die Zuverlässigkeit des Tests und des Kriteriums eine obere Grenze auf der möglichen Korrelation zwischen ihnen (der so genannte Gültigkeitskoeffizient) legt. Intuitiv widerspiegelt das die Tatsache, dass Zuverlässigkeit Freiheit vom zufälligen Fehler einschließt und zufällige Fehler miteinander nicht entsprechen. So, je weniger zufälliger Fehler in den Variablen, desto höher die mögliche Korrelation zwischen ihnen. Laut dieser Definitionen kann ein Test nicht hohe Gültigkeit haben, wenn es auch hohe Zuverlässigkeit nicht hat. Jedoch hat sich das Konzept der Gültigkeit wesentlich außer dieser frühen Definition und der klassischen Beziehung zwischen der Zuverlässigkeit ausgebreitet, und Gültigkeit braucht für alternative Vorstellungen der Zuverlässigkeit und Gültigkeit nicht zu halten.

Innerhalb der klassischen Testtheorie kann prophetische oder gleichzeitige Gültigkeit (Korrelation zwischen dem Propheten und dem vorausgesagten) nicht die Quadratwurzel der Korrelation zwischen zwei Versionen desselben Maßes überschreiten — d. h. Zuverlässigkeit beschränkt Gültigkeit.

Konstruktionsgültigkeit

Konstruktionsgültigkeit bezieht sich auf das Ausmaß, in dem operationalizations einer Konstruktion (d. h., praktische Tests, die aus einer Theorie entwickelt sind), wirklich wirklich messen, was die Theorie sagt, dass sie tun. Zum Beispiel inwieweit misst ein IQ-Fragebogen wirklich "Intelligenz"?

Konstruktionsgültigkeitsbeweise schließen die empirische und theoretische Unterstützung für die Interpretation der Konstruktion ein. Solche Linien von Beweisen schließen statistische Analysen der inneren Struktur des Tests einschließlich der Beziehungen zwischen Antworten auf verschiedene Testsachen ein. Sie schließen auch Beziehungen zwischen dem Test und den Maßnahmen anderer Konstruktionen ein. Wie zurzeit verstanden, ist Konstruktionsgültigkeit von der Unterstützung für die substantivische Theorie der Konstruktion nicht verschieden, dass der Test entworfen wird, um zu messen. Als solcher haben Experimente vorgehabt zu offenbaren, dass Aspekte der kausalen Rolle der Konstruktion auch beitragen, um Gültigkeitsbeweise zu bauen.

Konvergente Gültigkeit

Konvergente Gültigkeit bezieht sich auf den Grad, zu dem ein Maß mit anderen Maßnahmen aufeinander bezogen wird, denen es theoretisch vorausgesagt wird, um zu entsprechen.

Zufriedene Gültigkeit

Inhalt ist ein nichtstatistischer Typ der Gültigkeit, die "die systematische Überprüfung des Testinhalts einschließt, um zu bestimmen, ob es eine repräsentative Stichprobe des zu messenden Verhaltensgebiets bedeckt" (Anastasi & Urbina, 1997 p. 114). Zum Beispiel hat ein IQ-Fragebogen Sachen, die alle Gebiete der in der wissenschaftlichen Literatur besprochenen Intelligenz bedecken?

Zufriedene Gültigkeitsbeweise schließen den Grad ein, zu dem der Inhalt der Testmatche ein zufriedenes Gebiet mit der Konstruktion verkehrt hat. Zum Beispiel sollte ein Test der Fähigkeit, zwei Zahlen hinzuzufügen, eine Reihe von Kombinationen von Ziffern einschließen. Ein Test mit nur einstelligen Zahlen oder nur gerade Zahlen, würde guten Einschluss des zufriedenen Gebiets nicht haben. Inhalt hat sich bezogen Beweise beziehen normalerweise Gegenstand-Experten (SME'S) ein, der Testsachen gegen die Testspezifikationen bewertet.

Ein Test hat zufriedene Gültigkeit, die darin durch die sorgfältige Auswahl an der Sachen eingebaut ist (Anastasi & Urbina, 1997) einzuschließen. Sachen werden gewählt, so dass sie die Testspezifikation erfüllen, die durch eine gründliche Überprüfung des unterworfenen Gebiets aufgerichtet wird. Foxcraft u. a. (2004, p. 49) bemerken, dass durch das Verwenden einer Tafel von Experten, um die Testspezifikationen und die Auswahl an Sachen nachzuprüfen, die zufriedene Gültigkeit eines Tests verbessert werden kann. Die Experten werden im Stande sein, die Sachen nachzuprüfen und sich zu äußern, ob die Sachen eine repräsentative Stichprobe des Verhaltensgebiets bedecken.

Darstellungsgültigkeit

Darstellungsgültigkeit, auch bekannt als Übersetzungsgültigkeit, sind über das Ausmaß, in dem eine abstrakte theoretische Konstruktion in einen spezifischen praktischen Test verwandelt werden kann

Gesichtsgültigkeit

Gesichtsgültigkeit ist eine Schätzung dessen, ob ein Test scheint, ein bestimmtes Kriterium zu messen; es versichert nicht, dass der Test wirklich Phänomene in diesem Gebiet misst. Tatsächlich, wenn ein Test dem Fälschen (malingering) unterworfen ist, liegen Sie niedrig Gültigkeit könnte den Test gültiger machen.

Gesichtsgültigkeit ist sehr nah mit der zufriedenen Gültigkeit verbunden. Während zufriedene Gültigkeit von einer theoretischen Basis abhängt, um anzunehmen, ob ein Test alle Gebiete eines bestimmten Kriteriums bewertet (z.B tut Festsetzen-Hinzufügungssachkenntnis-Ertrag in einem guten Maß für mathematische Sachkenntnisse? - Um darauf zu antworten, müssen Sie wissen, welche verschiedene Arten von arithmetischen Sachkenntnissen mathematische Sachkenntnisse einschließen), bezieht sich Gesichtsgültigkeit darauf, ob ein Test scheint, ein gutes Maß zu sein, oder nicht. Dieses Urteil wird auf dem "Gesicht" des Tests gemacht, so kann es auch vom Dilettanten beurteilt werden.

Gesichtsgültigkeit ist ein Startpunkt, aber sollte NIE angenommen werden, zu jedem gegebenen Zweck nachweisbar gültig zu sein, weil sich die "Experten" geirrt haben, vorher — hatte Malleus Malificarum (Hammer von Hexen) keine Unterstützung für seine Beschlüsse außer der selbstvorgestellten Kompetenz von zwei "Experten" in der "Hexerei-Entdeckung," noch wurde es als ein "Test" verwendet, um am Anteil Zehntausende Frauen als "Hexen" zu verurteilen und zu verbrennen.

Kriterium-Gültigkeit

Kriterium-Gültigkeitsbeweise schließen die Korrelation zwischen dem Test und einer Kriterium-Variable (oder den Variablen) genommen als Vertreter der Konstruktion ein. Mit anderen Worten vergleicht es den Test mit anderen Maßnahmen oder Ergebnissen (die Kriterien) bereits gehalten, gültig zu sein. Zum Beispiel werden Mitarbeiterauswahl-Tests häufig gegen Maßnahmen der Arbeitsleistung (das Kriterium) gültig gemacht, und IQ-Tests werden häufig gegen Maßnahmen der akademischen Leistung (das Kriterium) gültig gemacht.

Wenn die Testdaten und Kriterium-Daten zur gleichen Zeit gesammelt werden, wird das gleichzeitige Gültigkeitsbeweise genannt. Wenn die Testdaten zuerst gesammelt werden, um Kriterium-Daten vorauszusagen, die an einem späteren Punkt rechtzeitig gesammelt sind, dann wird das prophetische Gültigkeitsbeweise genannt.

Gleichzeitige Gültigkeit

Gleichzeitige Gültigkeit bezieht sich auf den Grad, zu dem der operationalization anderen Maßnahmen derselben Konstruktion entspricht, die zur gleichen Zeit gemessen werden. Zum Auswahl-Testbeispiel zurückkehrend, würde das bedeuten, dass die Tests aktuellen Angestellten verwaltet und dann mit ihren Hunderten auf Leistungsrezensionen aufeinander bezogen werden.

Prophetische Gültigkeit

Prophetische Gültigkeit bezieht sich auf den Grad, zu dem der operationalization voraussagen (oder entsprechen kann) andere Maßnahmen derselben Konstruktion, die in einer Zeit mit der Zukunft gemessen werden. Wieder, mit dem Auswahl-Testbeispiel, würde das bedeuten, dass die Tests Bewerbern verwaltet werden, werden alle Bewerber angestellt, ihre Leistung wird in einer späteren Zeit nachgeprüft, und dann werden ihre Hunderte auf den zwei Maßnahmen aufeinander bezogen.

Experimentelle Gültigkeit

Die Gültigkeit des Designs von experimentellen Forschungsstudien ist ein grundsätzlicher Teil der wissenschaftlichen Methode und eine Sorge der Forschungsethik. Ohne ein gültiges Design können gültige wissenschaftliche Schlüsse nicht gezogen werden.

Beschluss-Gültigkeit

Ein Aspekt der Gültigkeit einer Studie ist statistische Beschluss-Gültigkeit - der Grad, vor dem Schlüsse, die über Beziehungen zwischen Variablen gelangen sind, gerechtfertigt werden. Das schließt das Sicherstellen entsprechender ausfallender Verfahren, passender statistischer Tests und zuverlässiger Maß-Verfahren ein. Beschluss-Gültigkeit wird nur betroffen mit, ob es eine Art der Beziehung überhaupt zwischen den Variablen gibt, die studieren werden; es kann nur eine Korrelation sein.

Innere Gültigkeit

Innere Gültigkeit ist eine induktive Schätzung des Grads, zu dem Beschlüsse über kausale Beziehungen (z.B Ursache und Wirkung) gemacht, auf den Maßnahmen verwendet, die Forschungseinstellung und das ganze Forschungsdesign gestützt werden können. Gute experimentelle Techniken, in denen die Wirkung einer unabhängigen Variable auf einer abhängigen Variable unter hoch kontrollierten Bedingungen studiert wird, berücksichtigen gewöhnlich höhere Grade der inneren Gültigkeit als, zum Beispiel, Designs des einzelnen Falls.

Acht Arten, Variable zu verwechseln, können innere Gültigkeit (d. h. mit dem Versuch stören, kausale Beziehungen zu isolieren):

  1. Geschichte, die spezifischen Ereignisse, die zwischen den ersten und zweiten Maßen zusätzlich zu den experimentellen Variablen vorkommen
  2. Reifung, Prozesse innerhalb der Teilnehmer als eine Funktion des Zeitablaufs (nicht spezifisch zu besonderen Ereignissen), z.B älter, hungriger, müder und so weiter wachsend.
  3. Die Prüfung, die Effekten, sich einer Prüfung auf die Hunderte von einer zweiten Prüfung zu unterziehen.
  4. Instrumentierung, Änderungen in der Kalibrierung eines Maß-Werkzeugs oder Änderungen in den Beobachtern oder Schreibern können Änderungen in den erhaltenen Maßen erzeugen.
  5. Statistisches rückwärts Gehen, funktionierend, wo Gruppen auf der Grundlage von ihren äußersten Hunderten ausgewählt worden sind.
  6. Auswahl, Neigungen, die sich aus Differenzialauswahl an Befragten für die Vergleich-Gruppen ergeben.
  7. Experimentelle Sterblichkeit oder Differenzialverlust von Befragten von den Vergleich-Gruppen.
  8. Wechselwirkung der Auswahl-Reifung, usw. z.B, in Quasiversuchsplänen der vielfachen Gruppe

Absichtliche Gültigkeit

Inwieweit die gewählten Konstruktionen tat und Maßnahmen entsprechend bewerten, was die Studie vorhatte zu studieren?

Außengültigkeit

Außengültigkeit betrifft das Ausmaß, zu dem (innerlich gültig), wie man halten kann, Ergebnisse einer Studie für andere Fälle, zum Beispiel verschiedenen Leuten, Plätzen oder Zeiten wahr sind. Mit anderen Worten ist es darüber, ob Ergebnisse gültig verallgemeinert werden können. Wenn dieselbe Forschungsstudie in jenen anderen Fällen geführt würde, würde es dieselben Ergebnisse bekommen?

Ein Hauptfaktor darin ist, ob die Studienprobe (z.B die Forschungsteilnehmer) die allgemeine Bevölkerung entlang relevanten Dimensionen vertretend ist. Andere Faktoren, die Außengültigkeit gefährden, sind:

  1. Reaktiv oder Wechselwirkungswirkung der Prüfung, ein Vortest könnte die Hunderte auf einem Posttest vergrößern
  2. Wechselwirkungseffekten von Auswahl-Neigungen und der experimentellen Variable.
  3. Reaktive Effekten von experimentellen Maßnahmen, die Generalisation über die Wirkung der experimentellen Variable auf Personen ausschließen würden, die dazu in nichtexperimentellen Einstellungen ausstellen werden
  4. Einmischung der vielfachen Behandlung, wo Effekten von früheren Behandlungen nicht erasable sind.

Ökologische Gültigkeit

Ökologische Gültigkeit ist das Ausmaß, in dem Forschungsergebnisse auf echte Lebenssituationen außerhalb Forschungseinstellungen angewandt werden können. Dieses Problem ist nah mit der Außengültigkeit verbunden, aber bedeckt die Frage dessen, in welchem Maße experimenteller Ergebnis-Spiegel, was in der echten Welt (Ökologie = die Wissenschaft der Wechselwirkung zwischen Organismus und seiner Umgebung) beobachtet werden kann. Um ökologisch gültig zu sein, müssen die Methoden, Materialien und Einstellung einer Studie der wahren Situation näher kommen, die unter der Untersuchung ist.

Ökologische Gültigkeit ist teilweise mit dem Problem des Experimentes gegen die Beobachtung verbunden. Normalerweise in der Wissenschaft gibt es zwei Gebiete der Forschung: Beobachtungs-(passiv) und experimentell (aktiv). Der Zweck von Versuchsplänen ist, Kausalität zu prüfen, so dass Sie ableiten können, verursachen Ursachen B oder B A. Aber manchmal halten ethische und/oder methological Beschränkungen Sie davon ab, ein Experiment durchzuführen (z.B wie beeinflusst Isolierung eine kognitive Wirkung eines Kindes?). Dann können Sie noch Forschung tun, aber es ist nicht kausal, es ist correlational. Sie können nur beschließen, dass A zusammen mit B vorkommt. Sowohl Techniken haben ihre Kräfte als auch Schwächen.

Die Beziehung der äußerlichen und inneren Gültigkeit

Auf dem ersten flüchtigen Blick scheint innere und äußerliche Gültigkeit, einander zu widersprechen: Um Einen Versuchsplan zu bekommen, müssen Sie für alle Störvariablen kontrollieren. Deshalb führen Sie häufig Ihr Experiment in einer Laboreinstellung durch. Während Sie innere Gültigkeit gewinnen (Störvariablen ausschließend, indem Sie sie unveränderlich halten), verlieren Sie ökologische oder äußerliche Gültigkeit, weil Sie eine künstliche Laboratorium-Einstellung einsetzen. Andererseits mit der Beobachtungsforschung können Sie nicht für störende Variablen kontrollieren (niedrige innere Gültigkeit), aber Sie können in der natürlichen (ökologischen) Umgebung am Platz messen, wo Verhalten normalerweise vorkommt. Jedoch, dabei, opfern Sie innere Gültigkeit.

Der offenbare Widerspruch der inneren Gültigkeit und Außengültigkeit ist jedoch nur, oberflächlich. Die Frage dessen, ob Ergebnisse von einer besonderen Studie anderen Leuten, Plätzen oder Zeiten verallgemeinern, entsteht nur, wenn man einer inductivist Forschungsstrategie folgt. Wenn die Absicht einer Studie ist, eine Theorie deduktiv zu prüfen, ist man nur mit Faktoren beschäftigt, die die Strenge der Studie, d. h. Drohungen gegen die innere Gültigkeit untergraben könnten.

Diagnostische Gültigkeit

In klinischen Feldern wie Medizin kann die Gültigkeit einer Diagnose, und vereinigte diagnostische Tests oder Abschirmungstests, bewertet werden.

Hinsichtlich Tests können die Gültigkeitsprobleme ebenso bezüglich psychometrischer Tests, wie entworfen, oben untersucht werden, aber es gibt häufig besondere Anwendungen und Prioritäten. In der Laborarbeit ist die medizinische Gültigkeit einer wissenschaftlichen Entdeckung als der 'Grad definiert worden, das Ziel zu erreichen', - nämlich auf die Frage zu antworten, die der Arzt stellt. Eine wichtige Voraussetzung in der klinischen Diagnose und Prüfung ist Empfindlichkeit und Genauigkeit - ein Test muss empfindlich genug sein, um das relevante Problem zu entdecken, wenn es da ist (und vermeiden Sie deshalb zu viele falsche negative Ergebnisse), aber spezifisch genug, um auf andere Dinge nicht zu antworten (und deshalb zu viele falsche positive Ergebnisse zu vermeiden).

In der Psychiatrie gibt es ein besonderes Problem mit dem Festsetzen der Gültigkeit der diagnostischen Kategorien selbst. In diesem Zusammenhang:

  • zufriedene Gültigkeit kann sich auf Symptome und diagnostische Kriterien beziehen;
  • gleichzeitige Gültigkeit kann durch verschiedene Korrelate oder Anschreiber, und vielleicht auch Behandlungsantwort definiert werden;
  • prophetische Gültigkeit kann sich hauptsächlich auf die diagnostische Stabilität mit der Zeit beziehen;
  • Discriminant-Gültigkeit kann Abgrenzung von anderen Unordnungen einschließen.

Rotkehlchen und Guze haben 1970 vorgeschlagen, was einflussreiche formelle Kriterien werden sollte, für die Gültigkeit der psychiatrischen Diagnose zu gründen. Sie haben fünf Kriterien verzeichnet:

  • verschiedene klinische Beschreibung (einschließlich Symptomprofile, demografischer Eigenschaften und typischen precipitants)
  • Laborstudien (einschließlich psychologischer Tests, Röntgenologie und Leichenergebnisse)
  • Abgrenzung von anderen Unordnungen (mittels Ausschluss-Kriterien)
  • setzen Sie Studien fort, einen charakteristischen Kurs (einschließlich Beweise der diagnostischen Stabilität) zeigend
  • Familienstudien, das Familiensammeln zeigend

Diese wurden in die Feighner Kriterien und Forschung Diagnostische Kriterien vereinigt, die die Basis des DSM und der ICD Klassifikationssysteme seitdem gebildet haben.

Kendler 1980 hat unterschieden zwischen:

  • vorangegangenes Ereignis validators (Familienansammlung, vorkrankhafte Persönlichkeit und sich niederschlagende Faktoren)
  • gleichzeitiger validators (einschließlich psychologischer Tests)
  • prophetischer validators (diagnostische Konsistenz mit der Zeit, Raten des Rückfalls und der Wiederherstellung und der Antwort auf die Behandlung)

Nancy Andreasen (1995) hat mehrere zusätzliche validators — molekulare Genetik und molekulare Biologie, Neurochemie, Neuroanatomie, Neurophysiologie, und kognitiven neuroscience verzeichnet - die alle dazu potenziell fähig sind, Symptome und Diagnose zu ihren Nervensubstraten zu verbinden.

Kendell und Jablinsky (2003) haben die Wichtigkeit vom Unterscheiden zwischen Gültigkeit und Dienstprogramm betont und haben behauptet, dass diagnostische durch ihre Syndrome definierte Kategorien als gültig nur betrachtet werden sollten, wenn, wie man gezeigt hat, sie getrennte Entitäten mit natürlichen Grenzen gewesen sind, die sie von anderen Unordnungen trennen.

Kendler (2006) hat betont, dass, um nützlich zu sein, ein Bestätigungskriterium empfindlich genug sein muss, um die meisten Syndrome gültig zu machen, die wahre Unordnungen sind, auch spezifisch genug seiend, um die meisten Syndrome ungültig zu machen, die nicht wahre Unordnungen sind. Auf dieser Basis behauptet er, dass ein Kriterium von Robins und Guze von "Läufen in der Familie" unzulänglich spezifisch ist, weil sich die meisten menschlichen psychologischen und physischen Charakterzüge - zum Beispiel, ein willkürliches Syndrom qualifizieren würden, das eine Mischung der "Höhe mehr als 6 ft, rotes Haar umfasst, und, wie man gefunden wird, eine große Nase" in Familien "laufen wird" und "erblich" sein, aber das sollte als Beweise nicht betrachtet werden, dass es eine Unordnung ist. Kendler hat weiter vorgeschlagen, dass "essentialist" Genmodelle von psychiatrischen Unordnungen und die Hoffnung, dass wir im Stande sein werden, kategorische psychiatrische Diagnose "das Schnitzen der Natur an seinen Gelenken" allein infolge der Genentdeckung gültig zu machen, unwahrscheinlich sind.

In der USA-Bundesgerichtshof-Systemgültigkeit und Zuverlässigkeit von Beweisen wird mit dem Daubert Standard bewertet. Perri und Lichtenwald (2010) stellen einen Startpunkt für eine Diskussion über eine breite Reihe der Zuverlässigkeit und Gültigkeitsthemen in ihrer Analyse einer ungerechten Mordüberzeugung zur Verfügung.

Juli 2010, 34-45.

http://www.all-about-forensic-psychology.com/support-files/the-precarious-use-of-forensic-psychology-as-evidence.pdf

Siehe auch

Links


Zuverlässigkeit (Statistik) / Die Poldark Romane
Impressum & Datenschutz