Contributi scientifici DOI: 10.38023/99ec0322-f601-4ef3-8c28-2e5af5e27cbf

Verständnis und Nutzung von Bewertungskriterien

Eine explorative Studie bei Mitgliedern der SEVAL

Véronique Eicher

Céline Mavrot

Lars Balzer

Melike Ömerogullari

Corinna Bumann-Pacozzi

Oto Potluka

Citazione: Véronique Eicher / Céline Mavrot / Lars Balzer / Melike Ömerogullari / Corinna Bumann-Pacozzi / Oto Potluka, Verständnis und Nutzung von Bewertungskriterien, in: LeGes 36 (2025) 2

La présente contribution rend compte des résultats d’une étude explorative menée auprès des membres de la SEVAL au sujet des critères d’évaluation. Il règne certes un consensus minimal sur la définition des critères d’évaluation, mais de grandes différences sont constatées entre les groupes d’actrices et acteurs quant à leur pondération. Suivant le domaine et le rôle des personnes dans le processus d’évaluation, l’utilisation des critères et les exemples varient relativement fortement. L’étude montre que les différentes actrices et acteurs devraient se concerter pour clarifier le mandat et la manière dont ils comprennent les critères d’évaluation et entendent les utiliser.

Indice

1. Ausgangslage
2. Explorative Studie
3. Ergebnisse
4. Zusammenfassung und Diskussion

1. Ausgangslage

[1]

In jeder Evaluation muss bewertet werden, und ohne Bewertungskriterien ist eine solche Bewertung nicht seriös und transparent möglich. Deswegen sind Bewertungskriterien zentral für jede Evaluation und Voraussetzung für die systematische und faire Bewertung des Evaluationsgegenstandes (vgl. Balzer/Beywl 2018). «Kriterien in der Evaluation können allgemein als Referenzen oder Bezugsbasis definiert werden, auf die sich Urteile über die Güte oder Tauglichkeit von Evaluationsgegenständen stützen. Sie sind unverzichtbare Basis für einen systematischen Bewertungsprozess.» (ebenda 2018, S. 80). Evaluationskriterien beschreiben die Aspekte, Dimensionen oder Eigenschaften, die einen hochwertigen Evaluationsgegenstand von einem weniger hochwertigen unterscheiden (Davidson 2005).

[2]

Die internationale Diskussion und Anwendung von Kriterien in Evaluationen wird durch breit verwendete Kriterien und Standards gerahmt, die zum Beispiel mit den Bewertungskriterien des «Development Assistance Committee» (DAC) der OECD (2021) und den «Program Evaluation Standards» (zweite und dritte Auflage) beschrieben werden (Qian-Khoo et al. 2022). Solche Referenzwerke – die Standards der Schweizerischen Evaluationsgesellschaft SEVAL (Schweizerische Evaluationsgesellschaft 2016) gehören ebenfalls dazu – stellen jedoch insofern eine Herausforderung dar, als ihr Verständnis im Evaluationsprozess oft vorausgesetzt wird (Teasdale 2021) und das tatsächliche Verständnis davon abweichen kann, auch wenn sich die beteiligten Akteure und Akteurinnen dessen nicht bewusst sind. Zudem «bleiben die Evaluationskriterien – und die zugrundeliegenden Werte – oft implizit und unausgesprochen in der Evaluationspraxis» (Teasdale et al. 2023, S. 2, aus dem Englischen übersetzt). Auch Balzer (2005) kommt zum Schluss: «Die Bestimmung von Bewertungskriterien ist von den Evaluationsexperten […] als eine wichtige und gleichzeitig in der Praxis als unzureichend beachtete Erfolgsbedingung im Evaluationsprozess identifiziert worden» (S. 201). Hense/Widmer (2013) untersuchten den internationalen Stand der Forschung über Evaluation und zeigen, dass – obwohl der (Be-)wertungsvorgang das Kernstück jeder Evaluation ist – diesem Schritt insbesondere in der empirischen Forschung bisher wenig Beachtung geschenkt wurde. Die beiden Autoren vermuten, dass dies einerseits auf die mangelnde Transparenz in vielen Evaluationen zurückzuführen und andererseits den Schwierigkeiten der Sozialforschung im Umgang mit Bewertungsvorgängen zuzuschreiben sei (vgl. Hense/Widmer 2013, S. 270). Heuer (2017) griff diesen Umstand in ihrer Untersuchung auf, in der sie die Verwendung von Bewertungskriterien in externen Evaluationen der schweizerischen Bundesverwaltung analysierte. Sie untersuchte 29 Evaluationsberichte mittels Dokumentenanalyse und schlussfolgerte, dass dem «Thema Bewertungskriterien und ihrer Verwendung in den untersuchten Fallbeispielen sehr unterschiedlich und der Tendenz nach eher wenig Aufmerksamkeit» geschenkt wurde (Heuer 2017, S. 343). Coryn et al. (2017) analysierten den Stand der internationalen Forschung über Evaluation im Zeitraum von 2005 bis 2014 und zeigten, dass sich von den insgesamt untersuchten 257 Studien lediglich 3.5% (9 Studien) explizit mit dem Bewertungsprozess befassten. Ozeki et al. (2019) befragten Mitglieder der American Evaluation Association (AEA) zur Kenntnis und Nutzung der Bewertungslogik. Die Ergebnisse zeigen, dass fast drei Viertel der Befragten mit der Bewertungslogik nicht oder wenig vertraut sind, obwohl fast alle Befragten angeben, dass es wichtig ist, Bewertungskriterien festzulegen. Entsprechend geben mehr als vier Fünftel an, dies in ihrer Evaluationspraxis zu tun, wobei davon lediglich ein Fünftel der Personen angibt, dies immer zu tun. Rund die Hälfte der Befragten schätzt das Festlegen von Kriterien als schwierigsten Schritt in der Bewertungslogik ein. Teasdale et al. (2023) untersuchten die Nutzung von Kriterien in formativen und summativen Evaluationen, die zwischen 2016 und 2019 in der Zeitschrift «Evaluation and Program Planning» veröffentlicht wurden. Basierend auf einem Kriterien-Modell, das Bereiche und Quellen von Kriterien beschreibt (Teasdale 2021), zeigen die Autoren, welche Kriterien(-bereiche) am häufigsten genutzt werden: Effektivität, Güte und Umsetzung der Konzeption, Zufriedenheit/Relevanz, Erreichung der Zielgruppe, Effizienz und Nachhaltigkeit. Dabei zeigen sich Unterschiede je nach Themenbereich: Während im Bereich Arbeit 90% der Evaluationen Kriterien zur Effektivität nutzen, trifft dies in den Bereichen Gesundheit, Bildung und Soziales in 70% der Fälle zu. Kriterien zur Güte und Umsetzung der Konzeption waren im Bildungsbereich am häufigsten (80%) und auch im Bereich Arbeit noch sehr relevant (65%). Die Kriterien zur «Erreichung der Zielgruppe» waren wesentlich häufiger bei Gesundheit (32%) und Soziales (25%) als im Bereich Arbeit (10%) oder Bildung (5%). Und die Kriterien zur Nachhaltigkeit waren im Bereich Soziales wesentlich häufiger (25%) als im Bereich Arbeit (5%). Eine aktuelle Literaturübersicht von Mavrot et al. (2025) zeigt, dass die Verwendung von Bewertungskriterien unterschiedlich ist, je nachdem, welche Evaluationsteams die Bewertung durchführen, und zu welchem Zweck und in welchem Politikbereich (z. B. Sozialarbeit, Umweltpolitik, Lehre). Darüber hinaus zeigt die Studie, dass die Art und Weise, wie die Bewertungskriterien ausgewählt werden – z. B. aus der Literatur, aus internationalen Standards oder in Zusammenarbeit mit anderen Akteurinnen und Akteuren – zwischen den einzelnen Politikfeldern und innerhalb der Politikfelder sehr unterschiedlich ist. In Evaluationen werden unterschiedliche Bewertungskriterien angewendet, selbst wenn es sich um Evaluationen aus demselben Bereich handelt, bei denen man erwarten könnte, dass einige Bewertungskriterien aufgrund des gegebenen thematischen Schwerpunkts in gleicher oder ähnlicher Weise verwendet würden. Unterschiedliche Auffassungen von Bewertungskriterien können beispielsweise bei Projekten und Programmen deutlich werden, bei denen die Rollen der Durchführenden und der Finanzierenden getrennt sind (typischerweise z. B. im Fall von gemeinnützigen Organisationen und ihren Geldgebern (Poole et al. 2000).

[3]

Nebst der inhaltlichen Festlegung der Bewertungskriterien gibt es auch unterschiedliche Auffassungen darüber, in wessen Aufgabenbereich es fällt, die Bewertungskriterien festzulegen und in der Folge die darauf gestützten Bewertungen vorzunehmen. Nach Scriven (2007) fallen diese Aufgaben in den Verantwortungsbereich der Evaluierenden. Er gibt detaillierte Hinweise, wie dies geschehen soll, welche Art von Kriterien erwünscht ist und wie ein die Daten zusammenfassendes Urteil bei Einbezug mehrerer Kriterien erfolgen soll. Auch die oben genannte Studie von Teasdale (2021) zeigt, dass die Auftragnehmenden der Evaluation die Hauptquelle für die genutzten Bewertungskriterien darstellen. Nach Stake und Kollegen (Stake 1995; Stake/Schwandt 2006) hingegen wird die Bewertungsverantwortung wesentlich den berechtigten Beteiligten und Betroffenen zugesprochen, auf deren Werten und Interessen aufbauend die abschliessenden Bewertungen vorgenommen werden. Nach Beywl (2006) sollen Bewertungskriterien in einem partizipativen Vorgehen mit berechtigten Beteiligten und Betroffenen ausgehandelt werden.

[4]

Um ein besseres Bild über das Verständnis und die Nutzung von Bewertungskriterien in der Schweiz zu erhalten, wurde eine explorative Untersuchung durchgeführt.

2. Explorative Studie

[5]

Die Evaluation in der Schweiz ist im internationalen Vergleich stark institutionalisiert und professionalisiert (Stockmann et al. 2021): Es gibt eine starke Evaluationsgemeinschaft, die sich an einer nationalen Evaluationsgesellschaft – der SEVAL, gemeinsam vereinbarten Evaluationsstandards und Weiterbildungscurricula orientiert; Evaluation ist in einem Verfassungsartikel sowie in Evaluationsklauseln in der Gesetzgebung verankert und Evaluation ist in der parlamentarischen Kontrolle der Verwaltung institutionalisiert (Horber-Papazian/Baud-Lavigne 2019). Es besteht jedoch wenig Wissen darüber, wie Bewertungskriterien verstanden und genutzt werden. Bei der oben genannten Studie von Heuer (2017) über die Anwendung von Bewertungskriterien bei Evaluationen im Auftrag von Schweizerischen Bundesämtern lassen die Ergebnisse aufhorchen: Es werden nicht in allen Evaluationen explizit die Bewertungskriterien dargelegt und bei denjenigen, die dies tun, wird die Operationalisierung der Kriterien nicht immer transparent dargestellt. Die Verwendung von Bewertungskriterien erscheint daher als Schwachstelle in einem ansonsten robusten Evaluationssystem, so dass es sich lohnt, diese genauer zu untersuchen. Zielgruppe sind die verschiedenen Akteurinnen und Akteure der Evaluationsgemeinschaft, daher wird auf die Schweizerische Evaluationsgesellschaft SEVAL fokussiert. In der vorliegenden explorativen Studie stehen folgende Fragestellungen im Vordergrund:

Was verstehen Mitglieder der SEVAL unter Bewertungskriterien?
Wer legt die Bewertungskriterien fest?
Wie nutzen sie Bewertungskriterien?
Welche Bewertungskriterien werden genutzt?

[6]

Um diese Fragestellungen zu untersuchen, wurde eine Umfrage bei den Mitgliedern der SEVAL durchgeführt. Die Erhebung erfolgte mittels Online-Fragebogen. Die Ersteinladung wurde Ende August 2022, eine Erinnerung Mitte September versendet und die Umfrage wurde Mitte Oktober geschlossen.

2.1. Instrument

[7]

Der Online-Fragebogen umfasste drei offene Fragen und eine geschlossene Frage zum Thema Bewertungskriterien. Die drei offenen Fragen sind die folgenden:

«Bitte beschreiben Sie, was Sie unter Bewertungskriterien verstehen.»
«Wie werden Bewertungskriterien in Evaluationsprojekten, mit denen Sie zu tun haben, verwendet? Beschreiben Sie bitte kurz, was für Sie wichtig ist (zum Beispiel: Bedeutung der Bewertungskriterien, Herleitung der Bewertungskriterien, Quellen für Bewertungskriterien, Verwendung im Evaluationsprozess etc.).»
«Falls Bewertungskriterien in Evaluationsprojekten, mit denen Sie zu tun haben, verwendet werden: Gibt es solche, die immer wieder verwendet werden? Welches sind die wichtigsten?».

[8]

Die geschlossene Frage beinhaltete mehrere Aussagen, bei welchen man ankreuzen konnte, ob diese zutreffen oder nicht (Mehrfachwahl möglich): «Nach Ihrer Erfahrung sind Bewertungskriterien in Evaluationsprojekten, mit denen Sie zu tun haben, oftmals: irrelevant / von vorneherein (zum Beispiel durch eine Ausschreibung) vorgegeben / während der Projekte vor der Datenauswertung herausgearbeitet / während der Projekte während der Datenauswertung herausgearbeitet / im Nachhinein bestimmt / in der Verantwortung der Auftraggebenden / in gemeinsamer Verantwortung relevanter Akteure / in der Verantwortung der Evaluierenden». Nebst diesen Fragen zu Bewertungskriterien wurden weitere Fragen zur Person gestellt, ihre Evaluationserfahrung (Themenbereich, Art der Tätigkeit), ihren Arbeitsort, sowie ihre selbst eingeschätzte Expertise bzgl. Evaluationstheorie und -praxis.

2.2. Stichprobe

[9]

Über das Sekretariat der SEVAL wurde die Einladung zum Online-Fragebogen an alle Mitglieder der SEVAL gesendet (ca. 500 Mitglieder). Der Fragebogen wurde 201-mal aufgerufen und von 83 Personen (ca. 16%) wurde mindestens eine Frage beantwortet. Insgesamt haben 69 Personen den Fragebogen abgeschlossen, von denen 66 Personen mindestens eine der offenen Fragen zu den Bewertungskriterien beantworteten. Diese 66 Personen (ca. 13%) bilden die Stichprobe für die vorliegende Untersuchung.

[10]

Von den 66 teilnehmenden Personen haben 51 (77.3%) den Fragebogen auf Deutsch ausgefüllt, die übrigen auf Französisch. Als hauptsächliche Evaluationserfahrung geben 41 Personen (63.1%) an, dass sie selbst Evaluationen durchführen (im folgenden «Evaluierende» genannt) und 11 Personen (16.9%), dass sie Evaluationen in Auftrag geben (im folgenden «Auftraggebende» genannt). Weitere Evaluationserfahrungen sind Beratung in Evaluationsprojekten (n=5, 7.7%), Nutzung von Evaluationsergebnissen (n=4, 6.2%), Ausbildung im Bereich der Evaluationen (n=3, 4.6%), sowie Forschung über Evaluationen (n=1, 1.5%).

[11]

Themenbereiche, in denen die meisten Teilnehmenden mit Evaluation zu tun haben, sind die Bildung (n=15, 23.1%), die Gesundheit (n=12, 18.5%), sowie die Entwicklungszusammenarbeit, die Umwelt und der soziale Bereich (jeweils 7 Personen, jeweils 10.6%). 39 Personen (59.1%) charakterisieren die Institution, in der sie arbeiten als Non-Profit und 41 Personen (62.1%) geben an, in einer öffentlichen Institution zu arbeiten. Von den Teilnehmenden schätzen 83.1% (n=54) ihre Fachkenntnisse in der Evaluationspraxis als hoch bzw. sehr hoch ein. Zudem geben 48.4% (n=31) an, hohe oder sehr hohe Fachkenntnisse im Bereich der Evaluationstheorie zu haben.

2.3. Datenanalyse

[12]

Für die Datenanalyse der drei offenen Fragen wurde MAXQDA verwendet. Für die Kodierung der Fragen nach dem Verständnis von Bewertungskriterien und deren Art der Verwendung wurde das deduktive Verfahren gewählt und die Standards der «Joint Committee on Standards for Educational Evaluation» der American Evaluation Association, sowie der grössten deutschsprachigen Evaluationsgesellschaften (SEVAL, DeGEval) genutzt. Anhand dieses ersten Kodierungsschemas wurden ca. 25% der Antworten von zwei Personen kodiert, Abweichungen besprochen und Kodierregeln angepasst (z. B. explizite Abgrenzungen). In diesem Schritt wurde das Kodierschema mit induktiven Codes erweitert (Gläser/Laudel 2010), die nicht unter die deduktiven Codes subsumiert werden konnten. Mit dem erweiterten Kodierungsschema wurden weitere 25% der Antworten parallel kodiert und geringe Anpassungen vorgenommen. Die restlichen 50% der Antworten wurden von einer Person anhand des finalen Kodierungsschemas kodiert (siehe Tabelle 1; grau hinterlegt sind die induktiven Codes). Zwecks Anonymität und Vereinheitlichung sind alle Beispiele in der Tabelle auf Deutsch dargestellt (der Fragebogen konnte auf Deutsch oder Französisch ausgefüllt werden).

Tabelle 1: Kodierungsschema für die Fragen 1 & 2 (deduktive und induktive Codes)

Anmerkung: Grau hinterlegt sind induktive Codes. Nicht-deutschsprachige Antworten wurden auf Deutsch übersetzt.

[13]

Für die Datenanalyse wurden die verschiedenen Codes teilweise nochmal aggregiert in (a) definitorische Elemente (Bewertung des Evaluationsgegenstands, Merkmal des Evaluationsgegenstands, Schwellenwert), (b) Charakteristiken von Kriterien (Begründung, Operationalisierung, vor Datenerhebung festgelegt, Unterscheidung quanti-quali, Möglichkeit der Anpassung nach Datenerhebung), und (c) Herleitung der Kriterien (Stakeholder, Herleitung aus Evaluationsgegenstand, Zusammenhang mit Fragestellungen, deduktive Herleitung).

[14]

Die dritte offene Frage zu Bewertungskriterien befasste sich mit Beispielen für Bewertungskriterien. Ein Kodierschema wurde nicht erstellt, da die Antworten eindeutig und somit leicht zu kodieren waren.

[15]

Um die offenen Fragen vertiefter zu untersuchen, wurden die teilnehmenden Personen in verschiedenen Gruppen zusammengefasst, die im nächsten Abschnitt erläutert werden.

3. Ergebnisse

[16]

Die Ergebnisse zu den verschiedenen Fragestellungen werden jeweils für die gesamte Stichprobe (n=66), sowie für verschiedene Akteursgruppen separat dargestellt: Es werden mögliche Unterschiede zwischen Evaluierenden (n=41) und Auftraggebenden (n=11) untersucht, da sie unterschiedliche Rollen in der Evaluation einnehmen. Zudem werden Ergebnisse für Akteurinnen und Akteure in der Bildung (n=15, davon 8 Evaluierende und 1 Auftraggebende) vs. in der Gesundheit (n=12, davon 6 Evaluierende und 3 Auftraggebende) dargestellt, da dies die Themenbereiche mit den meisten Teilnehmenden waren und untersucht werden soll, ob es Unterschiede zwischen verschiedenen Themenbereichen gibt.

3.1. Verwendung der Bewertungskriterien

[17]

Es wird zunächst dargestellt, wie viele Personen den verschiedenen Aussagen bzgl. Verwendung der Bewertungskriterien zustimmen.

Tabelle 2: Verwendung von Bewertungskriterien

Anmerkung: Grau hinterlegt sind hohe Werte oder weisen auf Unterschiede zwischen Gruppen hin.

[18]

Es zeigt sich, dass ca. drei Viertel der Personen angeben, dass die Bewertungskriterien vor der Datenauswertung ausgearbeitet werden, eine Einschätzung, die für beide Akteursgruppen und Themenbereiche gilt. Fast die Hälfte der Befragten gibt an, dass die Kriterien vorher vorgegeben sind, hier sind jedoch Unterschiede zwischen den Gruppen und Themenbereichen zu beobachten: Während fast zwei Drittel der Auftraggebenden angibt, dass die Kriterien vorher vorgegeben sind, wird dies nur von 39% der Evaluierenden so gesehen. In der Bildung stimmen knapp die Hälfte der Befragten dieser Aussage zu, während es in der Gesundheit nur knapp ein Drittel ist.

[19]

Rund zwei Drittel der Befragten geben an, dass Bewertungskriterien in der Verantwortung der relevanten Akteure sind, eine Einschätzung, die von beiden Akteursgruppen geteilt wird und für beide Themenbereiche gilt. Interessanterweise geben mehr Auftraggebende als Evaluierende an, dass die Kriterien in Verantwortung der Auftraggebenden sind (46% vs. 29%), während Evaluierende eher die Evaluierenden in der Verantwortung sehen (54% vs. 27%). Wenn die drei Aussagen zur Verantwortung der Bewertungskriterien gemeinsam betrachtet werden (d.h. Aussagen, die gleichzeitig oder aber auch ausschliesslich angekreuzt wurden), zeigt sich, dass ca. ein Drittel aller Personen die Bewertungskriterien in Verantwortung der relevanten Akteure sehen, 15% sehen sie in alleiniger Verantwortung der Evaluierenden und 9% sehen sie in alleiniger Verantwortung der Auftraggebenden (Daten in Tabelle 2 nicht enthalten)¹.

3.2. Verständnis von Bewertungskriterien

[20]

In der ersten offenen Frage wurden die Teilnehmenden nach ihrem Verständnis zu Bewertungskriterien gefragt. Hier wurden 12 der 14 Codes verwendet, die in Tabelle 1 aufgeführt sind («grosse Bedeutung» und «Möglichkeit der Anpassung nach Datenerhebung» wurden nicht genutzt). Die Frequenzen der häufigsten Codes sind in Tabelle 3 dargestellt.

Tabelle 3: Verständnis von Bewertungskriterien

Anmerkung: Grau hinterlegt sind hohe Werte oder weisen auf Unterschiede zwischen Gruppen hin.

[21]

Knapp vier Fünftel der Teilnehmenden geben an, dass mit den Kriterien ein Gegenstand bewertet wird. Im Gesundheitsbereich sind es sogar 92% (n=11), welche diese Kategorie nutzen, während es im Bildungsbereich etwas weniger sind (73%, n=11). Alle weiteren Codes wurden wesentlich weniger häufig genutzt bzw. durch verschiedene Akteursgruppen unterschiedlich oft angegeben. Die Nennung eines Schwellenwertes sowie Hinweise zur Operationalisierung wurden insgesamt von knapp einem Drittel der Teilnehmenden genannt. Hier konnten Unterschiede zwischen den Gruppen beobachtet werden: Schwellenwerte wurden häufiger von Auftraggebenden genannt (55%, n=6), als von Evaluierenden (27%, n=11), während Personen aus dem Bildungsbereich öfter die Operationalisierung betonten (47%, n=7) als Personen aus dem Gesundheitsbereich (25%, n=3). Rund ein Viertel der Teilnehmenden weist explizit darauf hin, dass Merkmale von Gegenständen evaluiert werden und gibt diverse Beispiele für Bewertungskriterien. Dabei werden Beispiele häufiger von Evaluierenden genannt (34%, n=14), als von Auftraggebenden (18%, n=2) und häufiger von Personen im Gesundheitsbereich (50%, n=6), als von Akteurinnen und Akteuren im Bildungsbereich (7%, n=1). Ein Fünftel der Befragten gibt an, dass die Kriterien begründet werden müssen. Alle weiteren Codes wurden von weniger als 20% der Teilnehmenden genannt, mit einer Ausnahme: Rund ein Viertel der Auftraggebenden gibt an, dass die Bewertungskriterien vor der Datenerhebung festgelegt sein müssen (n=3) während dies nur jede/r zehnte Evaluierende (n=4) angibt.

[22]

Wenn die Codes gruppiert werden in (a) definitorische Aspekte, (b) Charakteristiken von Kriterien und (c) Herleitung von Kriterien, zeigt sich das nachfolgende Bild (Daten in Tabelle 3 nicht enthalten). Mehr als vier Fünftel der Teilnehmenden (86%, n=57) nennen einen definitorischen Aspekt, wenn sie zu ihrem Verständnis von Bewertungskriterien befragt werden. 53% der Teilnehmenden (n=35) beschreiben Charakteristiken von Kriterien und 23% (n=15) geben an, wie Kriterien entwickelt werden können. Bei den Auftraggebenden nutzen alle Auftraggebenden ein definitorisches Element (n=11), bei den Evaluierenden sind es «nur» 83% (n=34). Bei den Personen im Gesundheitsbereich nutzen 92% (n=10) ein definitorisches Element, bei jenen im Bildungsbereich 80% (n=12). Bei den Charakteristiken von Kriterien zeigt sich, dass Auftraggebende (64%, n=7) und Personen aus dem Bildungsbereich (67%, n=10) diese häufiger zur Erläuterung nennen als Evaluierende (49%, n=20) und Personen aus dem Gesundheitsbereich (42%, n=5). Bei der Nennung der Herleitung der Kriterien gibt es wenig Unterschiede, lediglich Personen aus dem Gesundheitsbereich nutzen diese Kategorie weniger (8%, n=1), als die übrigen Akteursgruppen (24%, 18%, bzw. 20%).

3.3. Nutzung der Bewertungskriterien

[23]

In einem zweiten Schritt wurden die Teilnehmenden gebeten zu beschreiben, wie Bewertungskriterien in Projekten, mit denen sie zu tun haben, verwendet werden. Bei dieser Frage wurden alle 14 Codes verwendet, die in Tabelle 1 aufgeführt sind. Die Frequenzen der häufigsten Codes sind in Tabelle 4 dargestellt.

Tabelle 4: Nutzung von Bewertungskriterien

Anmerkung: Grau hinterlegt sind hohe Werte oder weisen auf Unterschiede zwischen Gruppen hin.

[24]

Direkt ersichtlich ist, dass die Antworten wesentlich heterogener sind als bei der ersten Frage zum Verständnis von Bewertungskriterien. In der Gesamtstichprobe wird der häufigste Code von etwas mehr als einem Drittel der Teilnehmenden genannt, weitere vier Codes werden ebenfalls ähnlich häufig genutzt.

[25]

Am häufigsten beschreiben die Teilnehmenden Charakteristiken von Kriterien: dass diese operationalisiert sind, begründet wurden und vor der Datenerhebung festgelegt werden müssen. Interessanterweise scheint die Begründung der Kriterien für die Auftraggebenden wichtiger (55%, n=6) als für Evaluierende (29%, n=12). Akteurinnen und Akteure im Gesundheitsbereich betonen stärker die Operationalisierung (33%) und die Festlegung vor der Datenerhebung (50%) als Personen aus dem Bildungsbereich (13% bzw. 27%).

[26]

Ein Drittel der Teilnehmenden beschreibt, wie Kriterien hergeleitet werden: mit Stakeholdern oder auch durch einen Zusammenhang mit den Evaluationsfragestellungen. Interessanterweise ist der Einbezug der Stakeholder für die Evaluierenden wichtiger (32%) als für die Auftraggebenden (18%). Personen im Gesundheitsbereich benennen dagegen öfter den Zusammenhang mit den Fragestellungen (33% vs. 7%) als Personen aus dem Bildungsbereich, während letztere stärker auf die Herleitung aus dem Evaluationsgegenstand fokussieren (47% vs. 17%).

[27]

Wenn die Ergebnisse pro Code-Gruppierung untersucht werden, zeigt sich das nachfolgende Bild. Fast drei Viertel der Teilnehmenden (73%, n=48) beschreiben Charakteristiken von Kriterien, zwei Drittel (65%) beschreiben die Herleitung der Kriterien und ca. ein Drittel der Teilnehmenden (35%) nennen definitorische Aspekte. Es zeigt sich also, dass die Teilnehmenden die Fragen korrekt differenziert haben, da hier nicht mehr die definitorischen Aspekte im Vordergrund stehen (Verständnis von Bewertungskriterien), sondern die Charakteristiken und Herleitung (Nutzung von Bewertungskriterien).

[28]

Bei den Evaluierenden beschreiben zwei Drittel der Teilnehmenden (66%, n=27) die Herleitung von Kriterien, während es bei den Auftraggebenden nur wenig mehr als die Hälfte sind (55%, n=6). Bei der Nennung der Charakteristiken von Kriterien gibt es keine nennenswerten Unterschiede zwischen den verschiedenen Akteursgruppen. Interessanterweise nennen bei dieser Frage etwas mehr als die Hälfte der Auftraggebenden weiterhin definitorische Aspekte (55%, n=6), während es bei den Evaluierenden nur ein Viertel ist (24%, n=10). Personen aus dem Bildungsbereich nennen hier ebenfalls eher definitorische Aspekte (47%, n=7) als Personen aus dem Gesundheitsbereich (33%, n=4).

3.4. Beispiele von Bewertungskriterien

[29]

In der letzten offenen Frage wurden die Teilnehmenden nach den immer wieder verwendeten Bewertungskriterien und deren Wichtigkeit gefragt. Tabelle 5 zeigt die häufigsten Codes; d.h. jene, die von mindestens einer Akteursgruppe in 10% der Fälle genannt wurden.

Tabelle 5: Beispiele für Bewertungskriterien

Anmerkung: Grau hinterlegt sind hohe Werte oder weisen auf Unterschiede zwischen Gruppen hin.

[30]

Klar zeigt sich, dass Effektivität und Effizienz, die am häufigsten genannte Beispiele sind (46% und 36%). Ein Fünftel der Personen (20%, n=11) nennt Relevanz als Beispiel und ebenfalls ein Fünftel gibt an, dass jedes Mal neue Kriterien genutzt werden. Insgesamt zeigt sich, dass die fünf häufigsten Kriterien (Effektivität, Effizienz, Relevanz, Kohärenz, Nachhaltigkeit) fünf der sechs OECD DAC Kriterien darstellen (OECD 2021).

[31]

Sowohl die Evaluierenden wie auch die Auftraggebenden nennen Effektivität und Effizienz als häufigste Beispiele. Allerdings nennen die Evaluierenden häufiger Effektivität als Effizienz (46% vs. 27%), während Auftraggebende diese beiden Beispiele gleich häufig nennen (je 55%). Interessanterweise werden beide Beispiele von der Mehrheit der Akteurinnen und Akteure im Gesundheitsbereich genannt (75% bzw. 67%), jedoch nur von wenigen Personen im Bildungsbereich (7% bzw. 13%). Von den untersuchten Akteursgruppen geben Auftraggebende am häufigsten an, dass jedes Mal neue Kriterien gewählt werden (36%). Kohärenz, Nachhaltigkeit und Zweckmässigkeit sind wichtige Beispiele für Personen aus dem Gesundheitsbereich (je 33%), wobei lediglich Nachhaltigkeit noch bei einer anderen Akteursgruppe – die Auftraggebenden – eine Rolle spielt (36%).

[32]

Interessant ist auch, dass insgesamt rund drei Viertel der Teilnehmenden (74%) konkrete Beispiele angeben, im Durchschnitt 3 Beispiele pro Person. Bei den Auftraggebenden sind es hingegen lediglich 55%, die Beispiele angeben. Diese geben dann aber im Durchschnitt 5 Beispiele pro Person. Akteurinnen und Akteure im Gesundheitsbereich geben häufiger Beispiele an, als Personen aus dem Bildungsbereich (92% vs. 67%) und nennen durchschnittlich auch mehr Beispiele als jene aus dem Bildungsbereich (3.9 vs. 2.3).

4. Zusammenfassung und Diskussion

[33]

Die Ergebnisse dieser explorativen Studie zeigen einige spannende Muster auf, die in weiterer Forschung vertiefter untersucht werden sollten. Bei der Definition eines Bewertungskriteriums zeigt sich, dass die einzige Gemeinsamkeit, die von der grossen Mehrheit der Befragten angegeben wird, ist, dass ein Evaluationsgegenstand bewertet wird. Alle weiteren Nennungen werden nur von maximal einem Drittel der Teilnehmenden geteilt (z. B., dass ein Schwellenwert festgelegt [werden kann] oder dass etwas operationalisiert wird). Dabei ist der Schwellenwert wichtiger für Auftraggebende als für Evaluierende, während Evaluierende eher auch bereits Beispiele nennen. Auch Personen aus dem Gesundheitsbereich nennen eher Beispiele als Personen aus dem Bildungsbereich, während diese die Operationalisierung stärker betonen als jene aus dem Gesundheitsbereich. Diese Ergebnisse zeigen, dass es zwar einen minimalen Konsens bzgl. Definition eines Bewertungskriteriums gibt, die Schwerpunktsetzung aber sehr unterschiedlich ist – unter anderem je nach Rolle im Evaluationsprozess. Interessanterweise scheinen die Auftraggebenden in der vorliegenden Studie ein besseres Verständnis des Bewertungskriteriums zu haben als Evaluierende, da sie alle ein definitorisches Element verwenden (im Gegensatz zu 83% bei den Evaluierenden). Dies ist eventuell dadurch zu erklären, dass Auftraggebende weniger häufig SEVAL-Mitglied sind als Evaluierende und die an der Umfrage teilnehmenden Auftraggebenden somit vermutlich einen höheren Expertisegrad aufweisen als die Evaluierenden. Diese Vermutung wird dadurch gestützt, dass der selbst eingeschätzte Expertisegrad in Evaluationspraxis bei den Auftraggebenden nur leicht unter jenem der Evaluierenden liegt (bei der Evaluationstheorie schätzen sie sich sogar etwas höher ein).

[34]

Bei der Nutzung der Bewertungskriterien gibt es wesentlich weniger Konsens zwischen den Befragten. Die grösste Übereinstimmung (je ca. ein Drittel der Teilnehmenden) findet sich bei den Aussagen, dass Kriterien operationalisiert werden, sie vor der Datenerhebung festgelegt werden, sie begründet sein müssen, mit den Stakeholdern festgelegt werden und/oder einen Zusammenhang mit den Fragestellungen aufweisen sollten. Während die überwiegende Mehrheit der Evaluierenden und Auftraggebenden zustimmen, dass die Evaluationskriterien während dem Projekt vor der Datenauswertung ausgearbeitet sein sollen, sind 64% der Auftraggebenden der Meinung, dass die Kriterien vorgegeben sein sollten (versus 39% der Evaluierenden). Dies weist auf unterschiedliche Präferenzen zwischen den beiden Akteursgruppen bezüglich der Herleitung von Kriterien hin. Personen aus dem Gesundheitsbereich betonen eher, dass die Kriterien in Zusammenhang mit den Fragestellungen stehen sollten, während Befragte aus dem Bildungsbereich eher eine Herleitung aus dem Evaluationsgegenstand sehen. Für Auftraggebende ist zentral, dass die Kriterien begründet werden, was eventuell darauf zurückzuführen ist, dass sie die Evaluation gegen aussen vertreten müssen, während Evaluierende stärker betonen, dass die Kriterien in Abstimmung mit den Stakeholdern festgelegt werden, was eventuell darauf hinweist, dass sie eher bestrebt sind, die Evaluation – und damit einhergehend die Akzeptanz und Nutzung der Evaluationsergebnisse – breit abzustützen. Interessant ist, dass die Antworten über die Standards hinausgehen, dass also eine induktive Kodierung notwendig wurde (Zusammenhang mit Fragestellungen, Herleitung aus Gegenstand).

[35]

Die Ergebnisse zum Verständnis und zur Nutzung der Kriterien weisen darauf hin, dass es hilfreich und eventuell sogar notwendig ist, dass die verschiedenen Akteurinnen und Akteure sich bei der Auftragsklärung darüber austauschen, wie sie Bewertungskriterien verstehen (z. B. braucht es zwingend einen Schwellenwert oder nicht?) und nutzen wollen (z. B. wie und wann sollen die Kriterien hergeleitet werden?). Wenn die Beteiligten davon ausgehen, dass andere ihre Sichtweise teilen, kann es zu Missverständnissen kommen, die den Bewertungsprozess und die Nutzung der entstandenen Evaluationsergebnisse erschweren.

[36]

Als Beispiele für Bewertungskriterien werden Effektivität und Effizienz klar am häufigsten genannt, einzig von Personen im Bildungsbereich werden beide wenig genannt. Diese häufige Nennung deckt sich für die Schweiz mit der Studie von Heuer (2017) und mit den Ergebnissen von Teasdale et al. (2023) für den internationalen Bereich. Die häufigere Nennung dieser zwei Kriterien im Gesundheitsbereich könnte die Wichtigkeit widerspiegeln, ein direktes und konkretes Gesundheitsoutcome messen zu können (die Effektivität) mit Berücksichtigung des Drucks auf die Gesundheitskosten (die Effizienz). Wie zu erwarten ist die Effizienz wichtiger für Auftraggebende als für Evaluierende, da dieser Aspekt in ihre Verantwortung fällt. Ein spannender Befund ist, dass die fünf häufigsten Beispiele (Effektivität, Effizienz, Relevanz, Kohärenz, Nachhaltigkeit), fünf der sechs OECD DAC Kriterien darstellen (einzig Impact wird nicht genannt). Unklar ist, ob die Akteurinnen und Akteure diese fünf Kriterien wirklich häufiger nutzen als andere oder ob ihnen diese Kriterien – aufgrund ihrer Bekanntheit – eher in den Sinn kamen als andere. Generell zeigt sich ein relativ hoher Konsens zwischen den verschiedenen Akteursgruppen, einzig Befragte aus dem Bildungsbereich nennen in der Regel andere Beispiele als andere Personen (Fokus auf Lehrkriterien) und geben auch seltener an, dass sie immer wieder andere Kriterien verwenden.

[37]

Die Verantwortung für die Bewertungskriterien wird von den meisten Personen in gemeinsamer Verantwortung der relevanten Akteure gesehen, auch wenn sich ein akteurstypisches Muster zeigt (Auftraggebende und Evaluierende sehen sich jeweils häufiger selbst in der Verantwortung als die jeweilige andere Person). Dies ist ein interessantes Ergebnis, da diese Diskrepanz in der Praxis zu Spannungen führen kann. Die gemeinsame Verantwortung deckt sich am ehesten mit dem Ansatz von Stake (Stake 1995; Stake/Schwandt 2006) und Beywl (2006), bei denen die Bewertungsverantwortung zwischen den berechtigten Beteiligten und Betroffenen ausgehandelt werden soll. Bei der offenen Frage zur Nutzung der Bewertungskriterien gibt knapp ein Drittel der Befragten an, dass dies mit Einbezug der Stakeholder geschehen soll, wobei offen bleibt inwiefern damit nur Auftraggebende/Evaluierende oder auch weitere Beteiligte und Betroffene gemeint sind.

[38]

Die vorliegende Untersuchung liefert bisher nicht vorhandene Erkenntnisse über die Evaluationslandschaft in der Schweiz in Bezug auf Bewertungskriterien, sowohl aus der Sicht der Auftraggebenden als auch aus der Sicht der Evaluierenden. Sie zeigt, dass verschiedene Akteurinnen und Akteure den Inhalt und die Verwendung von Bewertungskriterien unterschiedlich verstehen. Dies ist zwar verständlich, wenn sie in unterschiedlichen Themenfeldern tätig sind, aber vorherige Forschung (Mavrot et al. 2025) hat gezeigt, dass Bewertungskriterien auch in den gleichen Themenfeldern oft unterschiedlich genutzt werden. Dies macht Vergleiche, sowohl innerhalb wie auch zwischen verschiedenen Themenfeldern schwierig. Es sind jedoch einige Einschränkungen zu berücksichtigen. Die explorative Studie wurde mit einer relativ kleinen Stichprobe durchgeführt, was die Analyse von Teilpopulationen oder spezifischen Unterthemen statistisch erschwert. Trotzdem zeigt sie allgemeine Tendenzen auf und erfüllt ihr Ziel, neue Erkenntnisse zu liefern, die dazu dienen könnten, Hypothesen für die künftige Evaluationsforschung aufzustellen. Ein mögliches Problem stellt ein Selektionsbias dar, also dass Personen mit grösserer Evaluationserfahrung und/oder Interesse an Bewertungskriterien eher an der Studie teilgenommen haben als andere. Diese Vermutung wird durch den Befund gestützt, dass die grosse Mehrheit der Teilnehmenden ihre Fachkenntnisse in der Evaluationspraxis als hoch bzw. sehr hoch einschätzt. Dies verhindert eine Verallgemeinerung auf die ganze Evaluationsgemeinschaft der Schweiz, zeigt aber dennoch die Vielfalt des Verständnisses und Nutzung der Bewertungskriterien selbst innerhalb dieser Teilgruppe. Schliesslich ist zu bedenken, dass die Ergebnisse möglicherweise nicht auf andere Länder oder Kontexte übertragbar sind, da die Schweizerische Evaluationsgemeinschaft stark professionalisiert ist. Wie bereits betont, bleibt die Frage der Bewertungskriterien allerdings trotz der Professionalisierung der Schweizerischen Evaluationsgemeinschaft ein blinder Fleck der Evaluationsforschung und -praxis. Zudem eröffnet die Studie interessante Forschungsperspektiven: Angesichts der Wichtigkeit der Kommunikation zwischen Auftraggebenden und Evaluierenden in der Evaluationspraxis sollte das teils unterschiedliche Verständnis von Bewertungskriterien und deren Verwendung weiter untersucht werden.

Véronique Eicher ist Projektleiterin in der Fachstelle Evaluation an der Eidgenössischen Hochschule für Berufsbildung EHB und dort in der Evaluation der internen Lehre sowie von externen Projekten tätig.

Céline Mavrot ist Assistenzprofessorin an der Universität Lausanne, Institut des sciences sociales. Sie ist spezialisiert in Politikevaluation und Gesundheitspolitik und Ko-Autorin des Buches Politikevaluation. Eine Einführung. Wiesbaden: Springer, 2021 (mit Fritz Sager, Susanne Hadorn, Andreas Balthasar).

Lars Balzer ist Leiter der Fachstelle Evaluation an der Eidgenössischen Hochschule für Berufsbildung EHB und dort mit seinem Team für das Thema Evaluation in Forschung, Lehre sowie interner und externer Projektarbeit zuständig. Aktuell arbeitet er mit Wolfgang Beywl an der dritten Auflage des beim hep Verlag erscheinenden Lehrbuches «evaluiert».

Melike Ömerogullari ist Oberassistentin am Institut für Erziehungswissenschaft der Universität Zürich. Sie arbeitet zum Thema Unterrichtsqualität und interessiert sich u.a. für dessen Rolle in der Schulevaluation.

Corinna Bumann-Pacozzi ist Mitglied der Stabsstelle für Hochschulentwicklung und Qualität an der Pädagogischen Hochschule Wallis und dort Verantwortliche für den Leistungsbereich Qualitätsevaluation.

Oto Potluka ist Senior Researcher am Center for Philanthropy Studies an der Universität Basel. Er spezialisiert sich auf kontrafaktische Wirkungsanalysen und die Evaluation der Rolle von NPOs in der lokalen und regionalen Entwicklung.

Die Autorinnen und Autoren danken den Personen, die an der Umfrage teilgenommen haben, der SEVAL, dass sie den Versand der Umfrage ermöglicht hat, sowie der SEVAL-AG Forschung für ihre hilfreichen Rückmeldungen bei der Erstellung des Beitrags.

Literaturverzeichnis

Balzer, Lars (2005): Wie werden Evaluationsprojekte erfolgreich? Ein integrierender theoretischer Ansatz und eine empirische Studie zum Evaluationsprozess. Verlag Empirische Pädagogik, Landau.
Balzer, Lars / Beywl, Wolfgang (2018): evaluiert. Planungsbuch und Methoden für Evaluationen im Bildungsbereich. 2. überar. Aufl., hep Verlag.
Beywl, Wolfgang (2006): Demokratie braucht wirkungsorientierte Evaluation. Entwicklungspfade im Kontext der Kinder- und Jugendhilfe. Projekt, Ex. (ed.): München.
Coryn, Chris L.S. / Wilson, Lyssa N. / Westine, Carl D. / Hobson, Kristin A. / Ozeki, Satosha / Fiekowsky, Erica L. / Greenman, Gregory D. / Schröter, Daniela C. (2017): A Decade of Research on Evaluation: A Systematic Review of Research on Evaluation Published Between 2005 and 2014. Am J Eval 38, 329–347.
Davidson, E. Jane (2005): Evaluation methodology basics: The nuts and bolts of sound evaluation. Sage Publications.
Gläser, Jochen / Laudel, Grit (2010): Experteninterviews und qualitative Inhaltsanalyse. 4. Aufl., VS Verlag für Sozialwissenschaften, Wiesbaden.
Hense, Jan / Widmer, Thomas (2013): Ein Überblick zum internationalen Stand der Forschung über Evaluation. In: Hense, Jan / Rädiker, Stefan / Böttcher, Wolfgang / Widmer, Thomas (eds.): Forschung über Evaluation: Bedingungen, Prozesse und Wirkungen. Waxmann, Münster, 251–278.
Heuer, Christine (2017): Verwendung von Bewertungskriterien in den externen Evaluationen der Bundesverwaltung: Ergebnisse einer Forschungsstudie. In: LeGes 28 (2017) 2, 327–345.
Horber-Papazian, Katia / Baud-Lavigne, Marion (2019): Factors Contributing to the Strong Institutionalization of Policy Evaluation in Switzerland. In: Ladner, Andreas / Soguel, Nils / Emery, Yves / Weerts, Sophie / Nahrath, Stéphane (eds.): Swiss Public Administration: Making the State Work Successfully. Springer International Publishing, Cham, 355–371.
Mavrot, Céline / Potluka, Oto / Balzer, Lars / Eicher, Véronique / Haunberger, Sigrid / Heuer, Christine / Viallon, François-Xavier (2025): What evaluation criteria are used in policy evaluation research: A cross-field literature review. Eval Program Plann 108.
OECD (2021): Applying Evaluation Criteria Thoughtfully. OECD Publishing, Paris. doi:10.1787/543e84ed-en
Ozeki, Satosha / Coryn, Chris L.S. / Schröter, Daniela C. (2019): Evaluation logic in practice: Findings from two empirical investigations of American Evaluation Association members. Eval Program Plann 76.
Poole, Dennis L. / Nelson, Joan / Carnahan, Sharon / Chepenik, Nancy G. / Tubiak, Christine (2000): Evaluating performance measurement systems in nonprofit agencies: the program accountability quality scale (PAQS). Am J Eval 21, 15–26.
Qian-Khoo, Joanne Xiaolei / Hiruy, Kiros / Hutton, Rebecca Willow Anne / Barraket, Jo (2022): A Systematic Review of Meta-Evaluations: Lessons for Evaluation and Impact Analysis. Am J Eval 43, 394–411.
Schweizerische Evaluationsgesellschaft (SEVAL) (2016): Evaluationsstandards der Schweizerischen Evaluationsgesellschaft (SEVAL-Standards).
Scriven, Michael (2007): Key Evaluation Checklist (von Daniela Schröter und Wolfgang Beywl ins Deutsche übersetzt und kommentiert). Michigan: Western Michigan University und Köln: Univation.
Stake, Robert E. (1995): The Art of Case Study Research. Sage Publications.
Stake, Robert E. / Schwandt, Thomas A. (2006): On Discerning Quality in Evaluation. In: Shaw, Ian / Greene, Jennifer / Mark, Melvin (eds.): The Sage Handbook of Evaluation. Sage Publications. doi:https://doi.org/10.4135/9781848608078.n18
Stockmann, Reinhard / Meyer, Wolfgang / Taube, Lena (2021): Die Institutionalisierung der Evaluation in Europa: Eine Synthese. In: Stockmann, Reinhard / Meyer, Wolfgang / Taube, Lena (Hrsg.): Die Institutionalisierung der Evaluation in Europa. Waxmann, 387–423.
Teasdale, Rebecca M. (2021): Evaluative Criteria: An Integrated Model of Domains and Sources. Am J Eval 42, 354–376.
Teasdale, Rebecca M. / Strasser, Mikayla / Moore, Ceily / Graham, Kara E. (2023): Evaluative criteria in practice: Findings from an analysis of evaluations published in Evaluation and Program Planning. Eval Program Plann 97, 102226.

1 Umgekehrt zeigt sich, dass knapp 70% der Personen die Auftraggebenden nicht in der Verantwortung sehen (weder allein noch in Kombination mit anderen) und 56% der Personen die Evaluierenden nicht in der Verantwortung sehen (weder allein noch in Kombination mit anderen).