HRweb | Die erfrischende Plattform für Human Resources

Reliabilität in der Potenzial-Analyse | Wie man die Zuverlässigkeit eines Tests feststellt

Tests (Potenzial-Analyse, Personal-Diagnostik, etc) haben nur Sinn, wenn sie zuverlässig sind – Stichwort Reliabilität. Welche Angebote auf dem Markt sind es – welche nicht?

Gastautor Reliabilität: Master HR Consulting (Psychologen-Team von Master HR)

Unabhängige Institute

Zum Glück gibt es unabhängige Institutionen, die die Testqualität bewerten – zum Beispiel die British Psychological Society (BPS) in Großbritannien oder DNV in Norwegen. Eine Akkreditierung durch diese Institutionen bedeutet, dass ein Test mehrere strenge Qualitätsanforderungen erfüllt, die von unabhängigen Experten bewertet werden, und gilt als ein sehr guter Maßstab.

Aber was tut man in Ländern ohne solche Institutionen?

Was sagen die Zahlen zur Zuverlässigkeit (Reliabilität) über die Präzision und Qualität eines Tests aus?

Um die Qualität eines Tests in Bezug auf die Zuverlässigkeit vollständig zu beurteilen, wird empfohlen, mehr als einen Faktor zu berücksichtigen. Selbstverständlich wäre es einfacher, wenn wir die Qualität eines Tests an einer einzigen Zahl messen könnten. Leider ist das aufgrund der Komplexität der berufsbezogenen Tests nicht möglich.

Die Zuverlässigkeit eines Tests auf eine einzige Zahl zu reduzieren ist nicht sinnvoll. Es wäre gleichzusetzen mit der Bewertung eines Autos allein aufgrund seines Treibstoffverbrauchs. Erstens gibt es viele andere Elemente, die für ein gutes Auto wichtig sind, wie z. B. Sicherheit, Leistung oder Größe. Zweitens gibt es mehrere verschiedene Standards für die Bewertung des Treibstoffverbrauchs eines Autos. Ebenso wenig können Sie die Zuverlässigkeit eines Tests anhand einer einzigen Zahl bewerten. Der wichtigste Faktor beim Messen, ob das Auto gut ist oder nicht, ist zu wissen, wofür man das Auto braucht – man benötigt einen Kontext.

Dazu ist es wichtig zu verstehen, was Zuverlässigkeit wirklich ist. Im Wesentlichen beschreibt die Zuverlässigkeit die Präzision über Zeit und Ort. Um das Konzept besser zu erklären, beschreibe ich stattdessen, wie wir die Zuverlässigkeit untersuchen – das gibt ein gutes Bild davon, womit wir es zu tun haben.

3 Arten der Test-Zuverlässigkeit

Die Zuverlässigkeit in Tests kann auf drei verschiedene Arten untersucht werden:

  • Wie gut passen die Elemente innerhalb des Tests zusammen? (interne Konsistenz)
  • Erreichen Testteilnehmer dasselbe Ergebnis, wenn sie den Test mehrere Male machen?
    (Test-Retest Reliabilität)
  • Kommen unterschiedliche Personen oder Testversionen des Tests auf dieselben Ergebnisse? (Interne Zuverlässigkeit oder parallele Versionen)

Interne Konsistenz

Die Interne Konsistenz wird untersucht indem festgestellt wird wie sehr ein Punkt auf einer Skala mit einem anderen innerhalb derselben Skala zusammenhängt. Eine häufig verwendete Statistik ist der Alpha-Koeffizient, auch Cronbachs Alpha genannt. Alpha erfasst den Grad zu welchem eine Skala beständig bei der Messung des zugrunde liegenden Interessenkonzepts ist. Was wir hier erreichen wollen ist, dass die Punkte auf einer Skala möglichst viel Varianz haben. Alpha fängt diese Varianz ein. Sie liegt zwischen 0 und 1, wobei Werte unter 0,65 als Minimum und Werte um 0,9 allgemein als optimal angesehen werden. Wenn Menschen nach der „Zuverlässigkeit eines Tests“ fragen, beziehen sie sich oft auf den Alpha-Koeffizienten als eines der am häufigsten verwendeten Maße für den Genauigkeitsgrad eines Tests.

Test-Retest Reliabilität

In manchen Fällen kann es wichtiger sein zu wissen, ob der Test über die Zeit auch konsistent ist. Mit anderen Worten: Erhalten Menschen das gleiche Ergebnis, wenn sie den Test z. B. nach drei Monaten wiederholen? Das ist z. B. eine wichtige Information, wenn Sie Mitarbeitende nach einer Periode erneut testen. Wenn Sie einen Test mit schlechter Zuverlässigkeit verwenden, wissen Sie nicht, ob die Unterschiede in den Ergebnissen auf eine Ungenauigkeit des Tests zurückzuführen sind oder ob der Mitarbeitende tatsächlich sein Verhalten geändert hat.

Die Test-Retest Reliabilität ist normalerweise als Korrelationskoeffizient zwischen den verschiedenen Zeitpunkten der Testdurchführung angegeben und liegt zwischen 0 und 1. Je höher die Assoziation zwischen den Ergebnissen eines Tests zur Zeit x und Zeit y ist, desto besser (d. h. Koeffizienten, die näher an 1 liegen, sind besser). In der Praxis sind Werte, die um 0,7 liegen, gut.

Interne Zuverlässigkeit

Die Interne Zuverlässigkeit wird untersucht, indem verschiedene Personen dieselbe Person beurteilen. Ein Beispiel könnte eine 360-Grad-Umfrage sein, bei der mehrere verschiedene Personen gebeten werden, die gleiche Person zu beurteilen. Die Ähnlichkeit ihrer Bewertungen zeigt die Genauigkeit des verwendeten Tests an. Offensichtlich verwirren persönliche Bewertungen die Ergebnisse und beeinträchtigen die Präzision. Wenn das verwendete Instrument jedoch zuverlässig ist, sollten Sie eine solide Korrelation zwischen den Ergebnissen eines Tests sehen, unabhängig davon, wer den Test durchgeführt hat. Vorzugsweise wollen wir eine Assoziation über 0,6 sehen.

Parallelversionen desselben Tests werden für Unternehmen nicht oft verwendet, da es erforderlich ist, den „gleichen“ Test zweimal zu entwickeln und dann zu untersuchen, wie ähnlich die Ergebnisse beider Tests sind, wenn sie von derselben Person ausgefüllt werden. Hier ist es normalerweise gut, Korrelationswerte über 0,8 zu sehen.

Die Zahlen in ihrem richtigen Kontext verstehen

Die Zuverlässigkeit eines Tests ist von Grund aus ein komplexes Thema. Am Ende möchte man wissen, ob ein Test „gut“ ist oder nicht. Das lässt sich jedoch nicht allein anhand einer einzigen Nummer feststellen. Sie benötigen zumindest einen Kontext. Ein Alpha von 0,7 scheint nicht „gut“, aber wenn wir über die Zuverlässigkeit von Test-Wiederholungstest sprechen, dann würde diese Zahl tatsächlich zeigen, dass der Test über die Zeit stabil ist.

Um die Sache noch komplizierter zu machen, reicht das Wissen über die Zuverlässigkeit nicht aus, um die Gesamtqualität eines Tests zu beurteilen. Sie müssen sich auch mit der Gültigkeit (Validität) befassen – was wir in einem kommenden Artikel näher betrachten werden.


Gast-Autor

Text bereitgestellt von Master HR Consulting, übersetzt von Mag. Bernhard Dworak.

Mag. Bernhard Dworak verfügt aufgrund seiner jahrelangen Erfahrung im HR Bereich und als Geschäftsführer von Master HR Consulting über eine umfangreiche praktische und theoretische Expertise im Bereich der Personaldiagnostik. Der kontinuierliche Austausch mit HR Abteilungen ermöglicht ihm einen tiefen Einblick in die Bedürfnisse und Herausforderungen. Das wiederum kommt seinem Gegenüber zugute.

bernhard.dworak@master-hr.at
https://www.master-hr.at


teilen

Ein Kommentar

  1. Dr. Matthias Scharlach am

    Eine gute Zusammenfassung! Wichtig scheint mir – auch in Zusammenhang mit der Validität -, dass man abbildungstheoretisch „sauber“ bleibt und die Homomorphie-Ebene nicht verlässt. Wir haben es bei der Erfassung von Persönlichkeitseigenschaften mit ordinalskalierten Rangdaten zu tun und „messen“ nichts. Das muss auch prüfstatistisch durchgehalten werden, sonst haben wir real eine „Vinylplatte“, interpretieren aber “Digitalradio” und dessen Vorzüge und reden dann an der Wirklichkeit vorbei.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.