Headnote
Gießen Zusammenfassung: Implementationstreue bezeichnet das Ausmaß, in dem die Umsetzung eines Programms mit dem urspriinglich Geplanten iibereinstimmt. Die Implementationsforschung zeigt, dass eine konzepttreue Umsetzung von Programmen eher Ausnahme als Regel ist, wofür unterschiedliche Gründe verantwortlich sein können. Für Evaluationen ergibt sich die Notwendigkeit, Implementationstreue in geeigneter Weise zu berücksichtigen. Denn Abweichungen in der Implementationstreue können in formativen Evaluationen auf Verbesserungsmöglichkeiten hinweisen und in summativen Evaluationen führt ihr Ignorieren zu Fehlschlüssen über Programmeffekte. Bisher fehlt ein feldübergreifendes, möglichst generisches und theoretisch begründbares Kriteriensystem zur Operationalisierung von Implementationstreue. Der Beitrag gibt einen Überblick über den Stand der Literatur und präsentiert einen Vorschlag für ein umfassendes Kriteriensystem zur Erfassung der Implementationstreue in Evaluationsstudien, das theoretisch auf dem in der Evaluation wohletablierten Ansatz des logischen Modells basiert.
Schlagwörter: Implementation, Implementationstreue, Kriterien, logisches Modell,
Fidelity Abstract: Implementation fidelity is the degree of overlap between the actual execution of a program and the programs initial plan. Implementation research shows that due to a number of reasons programs can deviate from their initial plan more often than not. Accordingly, evaluations have to consider implementation fidelity adequately. In formative evaluation, deviations from a program's concept can suggest possible improvements, while in summative evaluations, neglecting implementation fidelity can lead to erroneous attributions of effectiveness. While a number of approaches for operationalizing implementation fidelity have been proposed in the literature, a domain independent, as far as possible generic, and theoretically derived system of criteria for measuring implementation fidelity is still missing. The article reviews the state of the literature and proposes a comprehensive system of criteria for determining implementation delity in evaluation studies which is theoretically based on the well-established logic model approach.
Keywords: implementation, implementation fidelity, criteria, logic model, program evaluation
1. Das Problem der Implementationstreue in Evaluationsstudien
Die Beobachtung von Cronbach ,Even when a treatment supposedly has been standardized, realizations are certain to vary" (Cronbach, 1982, S. 79) gilt nicht nur fiir psychologische oder pädagogische ,treatments' im engeren Sinne, sondern vermutlich für die allermeisten Maßnahmen, Projekte oder Interventionen (im Folgenden kurz: Programme'. In ihr zeigt sich, dass Implementation, hier verstanden als plangemäße Realisierung eines Programmkonzepts, keine triviale Herausforderung ist. Denn sobald ein Programm die Phase der Konzeption und Planung verlässt und in die Durchführungsoder Ausweitungsphase eintritt, ist es Einflüssen unterworfen, die nicht mehr zur Gänze von jenen kontrolliert werden, die das Programm ursprünglich erdacht oder initiiert haben (Euler & Sloane, 1998; McLaughlin, 1987; Winter, 2012).
Solche störenden' Einflüsse können programmextern sein, beispielsweise lokale Besonderheiten des Implementationsumfelds, hemmende Kontextfaktoren oder unerwartete Reaktionen der Zielgruppe und anderer Beteiligter. Sie können aber auch aus dem Programm selbst entstehen, wenn etwa Programmverantwortliche sich aus Unkenntnis, wegen fehlender Kompetenzen oder unzureichender Ressourcen nicht an das eigentlich geplante Konzept halten oder aufgrund eigener Einstellungen oder Motivationslagen in der Umsetzung Anpassungen vornehmen (Spillane et al., 2002). Zum Tragen kommt dabei das Phänomen der street level bureaucracy' Es besagt, dass Maßnahmen zwar in der Regel top down' konzipiert werden, für die Ausführung letztlich aber Personal an der „front-line" (Meyers & Nielsen, 2012, S. 305) verantwortlich ist, das die Umsetzung bottom up' betreibt und dabei einer eigenen Handlungslogik folgt, aus der heraus Anpassungen aus guten Gründen resultieren können.
In der Evaluationsliteratur wird der Grad an Übereinstimmung zwischen Konzept und Umsetzung eines Programms als Implementationstreue (engl. implementation fidelity oder fidelity of implementation) bezeichnet (Carroll et al., 2007; Durlak & DuPre, 2008; Dusenbury et al., 2003; Mowbray et al., 2003; O'Donnell, 2008). Konzept' meint in diesem Zusammenhang die Vorlage, die einem Programm zugrunde liegt, und auf die jene, die das Programm zur Umsetzung bringen, als Grundlage zurückgreifen oder zurückgreifen sollten. Je nach Art des Programms kann das Programmkonzept in Form von Antragstexten, Projektplänen, Manualen, Konzeptpapieren oder ähnlichen Texten vorliegen, wobei auch informelles und nicht kodifiziertes Wissen eine Rolle spielen kann. Im weiteren Sinne manifestiert sich ein Programmkonzept auch in unterstützenden Materialien, die bei der Umsetzung des Programms verwendet werden, wie beispielsweise Handreichungen, Instruktionsvideos, Informationsmaterialien, Präsentationen, Ablaufpläne oder Arbeitshilfen.
Begrifflich ist anzumerken, dass Implementationstreue bisher primär im Kontext der Programmevaluation nordamerikanischer Provenienz diskutiert wurde (vgl. Abschnitt 3.1), die v.a. personenzentrierte Sozialprogramme beispielsweise im Gesund- heits-, Bildungs- oder Arbeitsmarktsektor im Blick hat. Trotz Uberschneidungen in den Begrifflichkeiten und starker inhaltlicher Beziige ist sie daher nur punktuell mit der Implementationsforschung verschránkt, wie sie in der Politik- und Verwaltungswissenschaft seit den 1970er Jahren bearbeitet wird (2. В. Mayntz, 1983; Pressman & Wildavsky, 1984; Winter, 2012). Anschlussfähigkeit besteht dagegen eher zum Implementationsdiskurs in stárker auf das Individuum fokussierten Disziplinen wie Medizin, Psychologie oder Pädagogik (z.B. Euler & Sloane, 1998; Petermann, 2014).
Wichtig ist zudem, dass der Wortbestandteil Treue' (fidelity) nicht normativ missverstanden werden sollte in dem Sinne, dass eine möglichst starke Implementationstreue aus Sicht der Evaluation per se positiv zu bewerten sei. Denn fiir Abweichungen kann es unterschiedliche Griinde geben und sie kónnen negative, positive oder neutrale Folgen fiir bewertungsrelevante Outcomes haben. Implementationstreue ist also zunächst einmal nur ein deskriptiv zu verstehendes Май, das der Interpretation bedarf. Zentrale Annahme ist aber, dass fiir die Evaluation Informationen über Implementationstreue, je nach Fokus und Zweck der Evaluation, aus mindestens zwei Gründen von großer Relevanz sind:
- In formativen Evaluationen sind Abweichungen vom Programmkonzept relevant, da sie auf Verbesserungs- bzw. Nachsteuerungsbedarf hinweisen können. Dieser Bedarf kann die Programmdurchführung betreffen, wenn es sich etwa um eher leicht zu behebende Defizite 7. В. in der Ressourcenverteilung handelt. Erweisen sich Teile eines Programmkonzepts als grundsätzlich nicht realisierbar, muss das Konzept selbst verbessert werden. Genauso können auch Abweichungen vom Ursprungskonzept, die sich bewährt haben, in das Konzept übernommen werden. Eine formative Evaluation braucht also notwendigerweise Informationen über die Programmumsetzung und Abweichungen vom Geplanten, kurz: über Implementationstreue, um empirisch basiert Verbesserungshinweise geben zu können.
- In summativen Evaluationen kann das Ignorieren von Implementationstreue bei der Interpretation von Programmwirkungen zu massiven Fehlschlüssen über das Programm führen. Schließlich resultieren empirisch beobachtbare Effekte nicht aus einem ideellen Programmkonzept, sondern aus seiner tatsichlichen Realisierung. Wenn diese vom Geplanten abweicht und die Abweichungen nicht bei der Interpretation beriicksichtigt werden, sind interne und externe Validität der Ergebnisse bedroht (Durlak & DuPre, 2008). Empirisch beobachtete Effekte werden dann falsch oder ungenau attribuiert und die Ergebnisse sind nicht sinnvoll auf weitere Implementationen des Programmkonzepts übertragbar.
Trotz dieser Argumente scheint es so, als wenn das Problem der Implementationstreue in vielen Evaluationsstudien nicht angemessen adressiert würde (Borrelli et al., 2005; Dane & Schneider, 1998; Goense et al., 2014; Moncher & Prinz, 1991). Dabei hat das Thema in den vergangenen Jahren sowohl theoretisch als auch empirisch verstárkt Aufmerksamkeit in der Evaluationsliteratur erfahren. Ein wichtiger Aspekt war dabei die konzeptionelle Frage, worin genau sich Implementationstreue zeigt und, darauf aufbauend, wie man sie empirisch erfassen kann. Dazu wurden verschiedene Ansátze vorgeschlagen, zu denen teils auch entsprechende Kriterienraster existieren. Problematisch ist dabei, dass diese oft eher induktiv generierte Kataloge darstellen oder dass sie nur fiir ein relativ kleines Spektrum móglicher Evaluationsgegenstinde (z.B. pádagogische Maßnahmen) oder Anwendungsfelder (z.B. Gesundheitspolitik) gedacht und dementsprechend schwer auf andere Kontexte übertragbar sind. Der vorliegende Beitrag stellt daher einen Vorschlag fiir ein feldibergreifendes, deutschsprachiges Kriterienraster der Implementationstreue vor, das fiir ein móglichst breites Spektrum von Evaluationsgegenständen und -kontexten adaptierbar sein sollte. Dazu ist zunächst náher auf den Implementationsbegriff im Kontext von Evaluationen einzugehen.
2. Implementation und ihre Rolle in der Evaluation
Implementation' (synonym: ,Implementierung') bezeichnet allgemein die Umsetzung einer Idee in die Praxis, wobei diese Idee gewöhnlich in Form eines Konzepts oder Plans vorliegt (Euler & Sloane, 1998; McLaughlin, 1987; Meyers et al., 2012; Spillane et al., 2002). Der Begriff ist ähnlich wie Evaluation' je nach Kontext mit unterschiedlichen Bedeutungsvarianten und Konnotationen in Gebrauch (Petermann, 2014). So wird er teils enger nur auf die Umsetzung wissenschaftlicher Erkenntnisse (z.B. Euler & Sloane, 1998) oder den Bereich der Politik (2. В. McLaughlin, 1987) bezogen. Besonders im Bereich der Politik- und Verwaltungswissenschaft ist die Implementationsforschung seit den 1970er Jahren umfassend etabliert (Mayntz, 1983; Pressman & Wildavsky, 1984; Winter, 2012; Knill & Tosun, 2020). Da Evaluation sich auf Maßnahmen unterschiedlichster Art in sämtlichen sozialen Handlungsfeldern beziehen kann, erscheint eine Einschränkung in Bezug auf das was' oder wo' der Implementation allerdings unangemessen.
Implementation wird einerseits als die Umsetzung eines bisher nur auf dem Paр1ег` bestehenden Plans in die Wirklichkeit verstanden (Implementation als Realisation, z.B. erstmalige Implementation eines innovativen schulischen Präventionsprogramms als Pilotprojekt). Andererseits meint Implementation oft auch die Umsetzung, Einführung oder Ausweitung einer Praxis, die bisher nur an anderem Orte oder lokal, etwa in einem Pilotversuch, bestand (Implementation als Einführung, 7. В. Implementation des schulischen Präventionsprogramms in anderen Schulen), wobei sich inhaltlich Überschneidungen mit Konzepten wie Transfer, Diffusion oder Dissemination ergeben können (Ottoson, 2009). Im ersten Fall verläuft die Implementation vom Ideellen zum Realen, im zweiten Fall von einem realen Kontext auf andere reale Kontexte. Das Gemeinsame an beiden Varianten und damit der Wesenskern des Implementationsbegriffs ist, dass es abstrakt gesprochen eine Vorlage oder ein Modell Z in Form eines Programmkonzepts gibt, das in der Realität oder in der Breite als Z" umgesetzt wird. Der Unterschied ist, dass das Modell Z im ersten Fall bisher nur ideell existierte, im zweiten Fall dagegen als reales Vorbild, wobei es aber in beiden Fällen zwischen Z und Z zu Abweichungen kommen kann.
Eine Evaluation kann sich auf beide Varianten, Realisation oder Einführung, beziehen und kann im ersten Fall z. B. eher formativ, im zweiten Fall eher summativ ausgelegt sein. Aus Sicht des hier interessierenden Problems der Implementationstreue in Evaluationsstudien sind die beiden Varianten allerdings äquivalent, da in beiden Fäl- len gleichermaßen die Abweichung der Umsetzung vom ursprünglichen Modell, das rein ideell oder real sein kann, zu beriicksichtigen ist.
Evaluation und Implementation wurden schon friih als ,opposite sides of the same coin" (Pressman & Wildavsky, 1984, $. xv) beschrieben, da Implementation den Gegenstand hervorbringt, den Evaluation untersucht, und Evaluation zur Erklärung dessen beitragen soll, was in der Praxis zur Umsetzung kam. Auch im idealtypischen Policy-Zyklus (Ко & Tosun, 2020) sind Implementation und Evaluation, ähnlich wie in anderen kybernetisch inspirierten Modellen der Handlungssteuerung, eng aufeinander bezogen.
Dementsprechend spielt Implementation zumindest konzeptuell schon lange eine Rolle in der Evaluationsliteratur. Im CIPP-Modell (Context, Input, Process, Product) von Stufflebeam (2003) ist sie Gegenstand der Prozessevaluation. Andere Evaluationsvarianten tragen explizit die Bezeichnung Implementation Evaluation' (z.B. Love, 2004). Das Problem, das Variationen in der Ausführung des Programmplans für die Validität von Evaluationsergebnissen darstellen, hat Cronbach (1982) ausführlich im Rahmen des UTOS/utoS'-Ansatzes analysiert. Im Akronym, das für Units, Treatments, Observing Operations und Setting steht, verbirgt sich der Gedanke der Implementationstreue im Unterschied zwischen geplantem Treatment (großes T') und umgesetztem Treatment (kleines t'). Weiss (1998) hat das Problem unter Perspektive der programmtheoriegestützten Evaluation aufgegriffen, indem sie zwischen dem Versagen der Programmtheorie ( theory failure') und der Programmumsetzung (,implementation failure') unterscheidet. Im weiteren Kontext der Verwendung von Programmtheorien und logischen Modellen in der Evaluation wird häufig betont, dass diese die Überprüfung der Implementationstreue erleichtern, indem sie eine konkrete, leicht operationalisierbare Beschreibung wesentlicher Programmkomponenten bereitstellen (Bickmann, 1987; McLaughlin & Jordan, 2015). Relevant ist dann allerdings nur jener Teil einer Programmtheorie bzw. eines logischen Modells, der die Umsetzung des Programms betrifft, also alles, was kausal vor den Wirkungen des Programms liegt. Im Programmtheorieansatz von Chen (1990) ist das die Action Theory' in Abgrenzung zur Change Theory'. Schließlich findet das Problem Implementationstreue in gängigen Standards der Evaluation zumindest konzeptuell Berücksichtigung und die 2016 revidierten DeGEval-Standards sprechen es in den Erläuterungen zum Standard G1 Beschreibung des Evaluationsgegenstandes' auch direkt an (DeGEval, 2017).
3. Implementationstreue: Begriffsvarianten, Befunde und Kriterien
Implementationstreue wurde eingangs definiert als ein deskriptives Maß, mit dem in Evaluationen der Grad der Ubereinstimmung zwischen Konzept und Umsetzung eines Programms erfasst wird. Im Folgenden ist auf begrifflich-konzeptuelle Varianten in der deutschsprachigen und der internationalen Literatur, auf den empirischen Zusammenhang von Implementationstreue und Programmeffektivitát sowie auf bereits existierende Ansátze zur Kategorisierung von Kriterien der Implementationstreue einzugehen.
3.1 Begriffsvarianten und verwandte Konzepte
Obwohl sich der im obigen Sinne verstandene Begriff Implementationstreue (bzw. implementation fidelity) inzwischen durchzusetzen scheint, sind in der internationalen Literatur eine Reihe von Varianten in Gebrauch, die teils synonym verstanden werden können, teils Bedeutungsnuancen enthalten. Inhaltlich kaum bedeutungstragend sind Varianten, die sich auf den Gegenstand der Implementation beziehen. Wenn etwa von program fidelity' (Nelson et al., 2015), ,intervention fidelity' (Abry et al, 2015) oder treatment fidelity' (Borrelli et al., 2005) die Rede ist, sind das eher Hinweise auf den jeweiligen Anwendungskontext und die dort typischen Evaluationsgegenstände als auf Bedeutungsvarianten hinsichtlich der Implementationstreue.
Bei Variationen in Bezug auf den zweiten Bestandteil des Kompositums geht es dagegen teils um begriffliche Nuancen, wobei sich ein wenig einheitliches Bild ergibt. Adherence' (Einhaltung) impliziert semantisch und teils auch konzeptionell stärker den präskriptiven Gedanken, dass eine möglichst exakte Befolgung des Programmkonzepts wünschenswert ist, wie etwa in therapeutischen und Gesundheitskontexten (z.B. Webb et al, 2010). Integrity' dagegen kann weitgehend synonym zu ,Fidelity' verstanden werden (z.B. Dane & Schneider, 1998; Schulte et al., 2009) und findet als Behandlungsintegrität' auch im Deutschen Verwendung (z.B. Weck et al., 2011), ist hier allerdings wieder auf ein bestimmtes Handlungsfeld, das der Therapie, eingeschränkt.
Weitere Bezeichnungen, die in diesem Begriffsfeld im Deutschen verwendet wurden und sich als Pendant des Begriffs implementation fidelity anbieten würden, sind Implementationskontrolle' (Rost, 2000), Ausführungsintegrität' (Hager, 2000), Wiedergabetreue' (Petermann, 2014) und Umsetzungstreue' (Eisner et al., 2012). Der Begriff Implementationskontrolle' verweist allerdings eher auf die Evaluationsvariante der Implementation Evaluation' (vgl. Abschnitt 2), bei der überprüft bzw. bewertet wird, wie erfolgreich eine Implementation erfolgt. Ausführungsintegrität' und Wiedergabetreue' dagegen betonen etwas zu einseitig den Aspekt der prozeduralen Treue beim Vollzug von Programmaktivitäten und vernachlässigen damit begrifflich strukturelle Aspekte der Implementationstreue (vgl. Abschnitt 3.3). Am ehesten trifft Umsetzungstreue' semantisch den Gedanken der implementation fidelity. Wie in Abschnitt 2 ausgeführt, kann als Implementation sowohl ein Umsetzungs- als auch ein Einführungsprozess bezeichnet werden. Daher und nicht zuletzt aufgrund der begrifflich größten Nähe zum englischsprachigen Begriff wird hier der Bezeichnung Implementationstreue' der Vorzug gegeben, wobei wie eingangs erwähnt Treue' hier nicht normativ zu verstehen ist.
Vom Grundgedanken her besteht eine enge Verwandtschaft zwischen Implementationstreue und manipulation checks' (Döring & Bortz, 2016; Pedhazur & Schmelkin, 1991) bzw. zur Idee der Messung der unabhängigen Variable (Peterson et al., 1982) im Bereich des experimentellen Forschungsparadigmas. Shadish et al. (2002) differenzieren im selben Kontext in Analogie zu einer medizinischen Therapie drei Komponenten: Die Auslieferung' des treatments (z.B. Ausstellen eines Rezepts), den Empfang' des treatments (Abholung des Medikaments) und Befolgung des treatments (vorschriftsgemäße Einnahme des Medikaments). Die drei Komponenten der medizini- schen Analogie lassen sich auch auf die Implementationstreue übertragen und finden sich inhaltlich in verschiedenen Konzeptualisierungen (vgl. Abschnitt 3.3).
3.2 Implementationstreue und Programmeffektivitat
Die Forderung, Implementationstreue in Evaluationsstudien zu berücksichtigen, speist sich aus der Annahme, dass Abweichungen bei der Implementation Konsequenzen fiir Wirkweise und Wirkungen von Programmen haben. Insbesondere wird befiirchtet, dass mangelnde Implementationstreue die Effektivität von potenziell wirksamen Programmen beeintráchtigt. Schon sachlogisch erscheint diese Befiirchtung plausibel, da ja die unterstellte Ursache móglicher Effekte bei fehlender Implementationstreue verändert oder abgeschwächt wird. Aber auch aus empirischer Sicht gibt es für diese naheliegende Annahme eine Reihe von Belegen aus meist dománenspezifischen Uberblicksarbeiten und Metaanalysen, auf die hier aus Platzgriinden nur punktuell eingegangen werden kann.
Belege fir eine die Effektivität einschränkende Auswirkung liefern u. a. Durlak und DuPre (2008), Derzon et al. (2005), Blakely et al. (1987), Hill und Erickson (2019) und Lipsey (1997). Letzterer illustriert beispielsweise anhand von metaanalytischen Daten im Kontext von Programmen fiir jugendliche Straftäter, dass deren Effektivität mit dem Ausmaß an Implementationstreue steigt. Allerdings zeigen einige Programme bereits bei niedriger Implementationstreue Effekte, während andere dafür eine mindestens mittlere Implementationstreue benótigen. Dies weist auf den wichtigen Sachverhalt hin, dass der Zusammenhang mit der Programmeffektivitát nicht immer ein linearer sein muss, sondern auch Mindest- oder Sáttigungsschwellen aufweisen kann.
Teils sind die Befunde aber auch weniger erwartungskonform, wie der Uberblick von Dane und Schneider (1998) zeigt. Signifikante Zusammenhánge mit Programmeffekten wurden vor allem dann sichtbar, wenn Implementationstreue objektiv durch geschulte vs. ungeschulte Beobachtende erhoben wurde und wenn die Programmdosis als Element der Implementationstreue beriicksichtigt wurde. Im Handlungsfeld Psychotherapie konnte die Metaanalyse von Webb et al. (2010) keine systematischen sammenhánge Behandlungsintegritit und Therapieerfolg aufdecken. Die Befundlage ist allerdings sehr heterogen und weist vor allem in methodischer Hinsicht erhebliche Kritikpunkte auf, da wichtige Kriterien nicht erfasst wurden und die Erfassung nur in kleinen Ausschnitten des Therapieprozesses erfolgte (Weck et al., 2011). Hier scheint die Befundlage also weniger auf einen fehlenden Zusammenhang hinzuweisen als auf konzeptionelle und methodische Schwierigkeiten der Erfassung von Implementationstreue.
Zusammenfassend zeigt die Forschungslage kein einheitliches Bild zum Zusammenhang zwischen der plangemáfsen Umsetzung und der Effektivität von Programmen. Ein wichtiger Gesichtspunkt bei der Interpretation dieses Befunds betrifft die Programmtheorie der untersuchten Maßnahmen. Wenn diese auf unzutreffenden Wirkungsannahmen beruht, kann das Programm auch bei vollständiger Implementation nicht die erwinschten oder sogar nicht intendierte negative Effekte zeitigen, so dass ein fehlender oder negativer Zusammenhang von Implementationstreue und Effektivität völlig erwartungskonform wire. Ein positiver Einfluss der Implementati- onstreue kann sich prinzipiell also nur dann zeigen, wenn das Richtige' richtig' umgesetzt wird, was bedeutet, dass der Zusammenhang für theoretisch wirksame Maf3nahmen empirisch eher unter- als überschätzt werden wird.
Berücksichtigt man darüber hinaus verschiedene konzeptionelle und methodische Probleme bei einem Teil der relevanten Studien, lässt sich die Annahme eines systematischen Einflusses der Implementationstreue auf die Programmwirksamkeit konzeptionell gut fundierter Maßnahmen recht überzeugend belegen. Gleichzeitig wird evident, dass die Operationalisierung und Erfassung von Implementationstreue eine Herausforderung darstellen, die nicht immer befriedigend adressiert wird. Ursächlich ist dabei u.a. eine oft beklagte fehlende konzeptionelle Fundierung von Kriterien der Implementationstreue. Sie ist daher Gegenstand der weiteren Erörterungen.
3.3 Überblick bestehender konzeptioneller Ansätze
Zur inhaltlichen Strukturierung möglicher Kriterien der Implementationstreue wurden in der Literatur bisher eine Reihe unterschiedlicher Kriterienkataloge und Systematiken vorgeschlagen. Oft ist deren Reichweite begrenzt, da sie nur für ein bestimmtes Handlungsfeld oder einen bestimmten Programmtyp (z.B. psychotherapeutische Verfahren) gedacht sind. In Anlehnung an Century et al. (2010) werden im Folgenden drei grundlegende Herangehensweisen bisheriger Ansätze dargestellt, die als Bezugspunkt eines eigenen Vorschlags dienen sollen.
Komponentenansätze der Implementationstreue gehen davon aus, dass Programme aus einer Reihe von distinkten Teilkomponenten bestehen, die idealerweise vollständig realisiert werden sollten (Blakely et al., 1987). Mowbray et al. (2003) haben dafür den Begriff der kritischen Komponenten' verwendet, wobei jene Komponenten als kritisch' gelten, die für die Wirkungen des Programms als maßgeblich anzusehen sind. Abry et al. (2015) sprechen daher auch von den aktiven Inhaltsstoffen' eines Programms. Implementationstreue wird hier bestimmt als der Anteil von kritischen Teilkomponenten, der tatsächlich realisiert wurde, wobei zusätzlich auch Informationen über die Art und Qualität der Umsetzung der einzelnen Komponenten einfließen können (Schoenwald et al., 2011). Unbefriedigend ist bei dieser Betrachtungsweise, dass der angemessene Auflösungsgrad („grain size", Century et al., 2010, S. 204) bei der Identifikation von Programmkomponenten unklar bleibt. Denn im Prinzip ließe sich jedes prozedurale Programmelement in weitere, kleinere Bestandteile zerlegen (z.B. eine Weiterbildungsmaßnahme in Kurstage, diese wiederum in Themenblócke bis hinab zur einzelnen pädagogischen Interaktion), wobei das Problem der Identifizierung relevanter Kriterien für Implementationstreue auf die jeweils feiner aufgelöste Ebene verlagert wird. Reine Komponentenansätze legen die Aufmerksamkeit zudem in starkem Maße auf die Aktivitäten eines Programms. Eine solche prozessbetonte Sichtweise lässt allerdings wesentliche andere Kriterienbereiche außer Acht, die nicht der Umsetzung von Programmaktivitäten zuzuordnen sind.
Struktur-Prozess-Ansätze der Implementationstreue berücksichtigen demgegenüber auch explizit die Strukturen, in denen das Programm umgesetzt wird, wobei Struktur' hier in Anlehnung an die auf Donabedian (1980) zurückgehende Unterscheidung von Struktur-, Prozess- und Ergebnisqualitäten zu verstehen ist. Der Strukturbegriff umfasst einerseits Ressourcen bzw. Inputs (Finanzen, Personal, Zeit etc.) und andererseits Merkmale des Kontexts (politische, organisationale etc. Rahmenbedingungen), die qualitätsrelevant sind. Analog fragen Struktur-Prozess-Ansätze der Implementationstreue nicht nur danach, ob der prozedurale Vollzug von Programmaktivitäten gemäß Konzept erfolgt (Prozess), sondern auch, ob die dafür erforderlichen Bedingungen (Struktur) hergestellt wurden bzw. vorlagen (Century et al., 2010; Mowbray et al., 2003).
Während Struktur-Prozess-Ansätze ebenso wie Komponentenansätze von Oberkategorien für Kriterien der Implementationstreue ausgehen, stellen dimensionale Ansätze als dritter Typus generische Kategorien in den Mittelpunkt. So unterscheidet der einflussreiche Ansatz von Dane und Schneider (1998) fünf Dimensionen:
- Adherence entspricht dem Gedanken der prozeduralen Wiedergabe- oder Ausführungstreue, umfasst also, wie genau der Vollzug von Programmaktivitäten gemäf Vorgaben erfolgte (7. В. Durchführung von Beratungsgesprächen gemäß Leitfaden).
- Exposure entspricht der Programmdosis, also dem quantitativen Ausmaß, in dem das Programm durchgeführt wurde (z.B. Anzahl Beratungsstellen; Gesamtôffnungszeit der Beratung).
- Quality of Delivery beschreibt dagegen den qualitativen Aspekt der Umsetzung jenseits der reinen Einhaltung von Teil- oder Arbeitsschritten (2. В. Qualität der Beratung).
- Participant responsiveness umfasst, in welchem Umfang und mit welcher Reaktion das Programm durch die Zielgruppe angenommen und konsumiert' wurde (2. В. Anzahl beratener Personen).
- Program differentiation thematisiert schlieBlich, wie deutlich sich das Programm von einer Vergleichs- oder Kontrollbedingung unterscheiden lässt. Damit wird vor allem die Frage impliziert, ob Teile der Maßnahme in der Vergleichsbedingung bereits vorhanden waren (2. В. Beratungsangebot eines anderen Trágers) oder im Laufe des Programms hinüber diffundiert sind (z.B. Weiterverteilung von Beratungsmaterial an Mitglieder der Vergleichsbedingung).
Die fünf Dimensionen von Dane und Schneider (1998) wurden verschiedentlich weiterentwickelt, ergánzt oder in anderen dimensionalen Ansátzen integriert (Durlak & DuPre, 2008; Dusenbury et al, 2003). Dabei wurde unter anderem versucht, die im Original bestehenden Uberschneidungen bzw. unklaren Abgrenzungen der Dimensionen, 7. В. zwischen adherence und quality of delivery zu beseitigen. Teils wurden aber auch neue Überschneidungen oder Redundanzen eingeführt, z. В. mit dem Kriterium adaptation (Durlak & DuPre, 2008). Darin wird ein Grundproblem existierender dimensionaler Ansätze sichtbar. Denn weder die fünf Dimensionen noch die darauf basierenden Erweiterungen wurden deduktiv von einem zu Grunde liegenden theoretischen Rahmen abgeleitet. Eher sind sie Ergebnis einer induktiven Sammlung, was zu einem additiven Gesamteindruck und konzeptionellen Überschneidungen führt. Hinzu kommt, dass teils Dimensionen integriert werden, die mit der Definition von Implementationstreue als Grad der Übereinstimmung zwischen Konzept und Umsetzung eines Programms: theoretisch nicht vereinbar sind. Dies gilt vor allem für die Dimension program differentiation von Dane und Schneider (1998), die zu groBen Teilen nicht vom Programm beeinflussbar oder inhaltlich von anderen Dimensionen bereits In ihrer klassischen Form umfassen logische Modelle mindestens die Komponenten Inputs, Aktivitáten, Outputs und Outcomes (United Way of America, 1996). Fir die Erfassung von Implementationstreue ist nur die action theory' (Chen, 1990) eines Programms relevant, also alles das, was erforderlich ist, um Wirkungsmechanismen überhaupt in Gang zu bringen. Daher sind die Bereiche Outcomes (Wirkungen auf Ebene der Zielgruppe) ebenso wie weiterführende Impacts (übergeordnete und/oder längerfristige Wirkungen), auch wenn sie für eine wirkungsorientierte Evaluation natürlich zentrale Bewertungskriterien darstellen, zur Bestimmung des Konstrukts Implementationstreue irrelevant. Die vier Basiskomponenten wurden in verschiedenen Varianten des logischen Modells um weitere Komponenten vervollständigt, von denen Kontext und Zielgruppe unmittelbar Aspekte von Implementationstreue betreffen. Im Weiteren werden diese Begriffe folgendermaßen verwendet (DeGEval, 2017; Funnell & Rogers, 2011; McLaughlin & Jordan, 2015; W.K. Kellogg Foundation, 2004): erfasst ist. Ähnlich kritisch ist die Dimension adaptation zu sehen, die von Durlak und DuPre (2008) als zusätzliche Dimension eingeführt wurde. Sie soll erfassen, in welchem Ausmaß das Programm im Zuge der Implementation verändert wurde. Ge nau diese Abweichung wird ja aber per Definition von den anderen Dimensionen er fasst, was eine eigene Dimension adaptation redundant macht.
Insgesamt zeigt sich, dass zwar eine Reihe von Ansätzen existiert, die Implemen tationstreue mittels verschiedener Kriterien operationalisierbar machen. Aus verschie denen Gründen erscheinen diese als übergreifende Ansätze aber nicht zufriedenstel lend. Dafür sind auch theoretische Defizite verantwortlich, da sie unvollständig, zu wenig differenziert, redundant oder nicht überschneidungsfrei erscheinen oder nur lokale Lösungen für bestimmte Programmtypen darstellen. Dieser Hang zu feldspe zifischen Lösungen (z. B. Schule, Therapie etc.) erklärt vielleicht auch, dass die ent sprechende Literatur relativ abgekoppelt von der allgemeinen evaluationstheoretischen Auseinandersetzung wirkt. Dabei stünde hier mit dem logischen Modell (Funnell & Rogers, 2011; W. K. Kellogg Foundation, 2004) ein seit Langem gut etabliertes Inst rument zur Beschreibung von Programmkonzepten zur Verfügung, das direkt für die Untersuchung von Implementationstreue geeignet wäre und dabei die Anschlussfähig keit zur allgemeinen evaluationstheoretischen Auseinandersetzung sicherstellen wür de. Diese Anschlussfähigkeit soll das im Folgenden zu entwickelnde Kriteriensystem herstellen.
4. Ein feldübergreifendes Kriteriensystem zur Erfassung von Implementationstreue
Das vorgeschlagene Kriteriensystem soll gegenüber bisherigen Vorschlägen v. a. zwei Anforderungen erfüllen: Erstens soll es möglichst übergreifend für verschiedene Arten von Programmen aus unterschiedlichen Handlungsfeldern anwendbar sein. Zweitens soll es möglichst vollständig sein, indem es gegenstandsübergreifend mögliche rele vante Kriterienbereiche von Implementationstreue identifiziert, wobei Letzteres nicht impliziert, dass in allen Evaluationen möglichst viele der enthaltenen Kriterienberei che operationalisiert werden sollten (vgl. Abschnitt 5).
Ausgangspunkt der Entwicklung ist die Überlegung, dass das Konstrukt der Imple mentationstreue möglichst umfassend die Abweichungen von einem gegebenen Pro grammkonzept erfassen können soll. Es bietet sich daher an, eine Konzeptualisierung sowohl inhaltlich als auch begrifflich an ein in der Evaluation seit Langem etablier tes, generisches Werkzeug für die strukturierte Beschreibung von Programmkonzep ten anzulehnen. Gemeint ist das Werkzeug des logischen Modells, das primär dazu dient, die Ablauf- oder Umsetzungslogik eines Programms umfassend zu beschreiben (Beywl et al., 2007; Hense & Taut, 2021; McLaughlin & Jordan, 2015; W. K. Kellogg Foundation, 2004). Per Definition enthalten logische Modelle in präskriptiver Form Angaben zu allen Faktoren, die für eine idealtypische und erfolgreiche Umsetzung des Programms erforderlich sind. Von daher verwundert es, dass bisherige Ansätze der Implementationstreue nicht den begrifflichen oder inhaltlichen Anschluss an das logi sche Modell hergestellt haben.
- Kontext umfasst relevante Faktoren im Umfeld eines Programms, die auf seine Umsetzung und Wirkungen Einfluss nehmen, vom Programm selbst aber nicht direkt beeinflussbar sind.
- Inputs sind die in das Programm investierten materiellen und immateriellen Mittel. Darunter fallen у. a. finanzielle, personelle, zeitliche und räumliche Ressourcen sowie ggf. deren Merkmale, z. B. bestimmte Qualifikationen des Programmpersonals.
- Aktivitäten sind jene Prozesse, Teilmaßnahmen, Tätigkeiten, Dienstleistungen etc., die mit Hilfe der investierten Ressourcen ermöglicht werden und in denen das Programm vollzogen wird (z. B. Produktion und Verteilung von Informationsmaterial).
- Outputs sind die dabei generierten zählbaren' Leistungen und Produkte, die aus den Aktivitäten hervorgehen (z.B. Anzahl verteilter Informationsbroschüren).
- Zielgruppe umfasst die Reichweite' (McLaughlin & Jordan, 2015), also das Ausmaß, in dem intendierte Zielgruppen tatsächlich erreicht werden (z.B. Personen, die die Informationsbroschüre erhalten) sowie deren für die Programmwirkungen relevanten Vorbedingungen wie z. B. Vorkenntnisse oder Motivationslagen.
Die folgenden Abschnitte erläutern die daraus abgeleiteten fünf Hauptbereiche des Kriteriensystems und geben jeweils einige inhaltliche Vertiefungshinweise sowie methodische Ansätze zur empirischen Erfassung des Kriterienbereichs. Eine Definition der Haupt- und Unterkriterien der fünf Kriterienbereiche ist jeweils in Tabellenform enthalten.
4.1 Kontext-Kriterien der Implementationstreue
Zu den Kontext-Kriterien der Implementationstreue zählen potenziell alle Umfeldfaktoren eines Programms, die einen maßgeblichen Einfluss auf seine Umsetzbarkeit, Umsetzung und Wirkweise haben können. Dieser Einfluss kann direkt förderlich oder hinderlich für ein Programm sein, kann sich aber auch darin ausdrücken, dass die Wirkmechanismen, auf deren Zustandekommen das Programm setzt, von Kontextfaktoren abhängig sind, wie es besonders im Ansatz der Realistic Evaluation' von Pawson und Tilley (1997) betont wird.
Kontextfaktoren sind im Rahmen eines Implementationsprozesses nicht aktiv zu verändern, können aber indirekt durch die Auswahl geeigneter Standorte (z. B. Regio nen, Kommunen, Stadtviertel, Institutionen, Organisationen, Organisationseinheiten) für eine Implementation beeinflusst werden (Elliott & Mihalic, 2004). Implementa tionstreue äußert sich hier also darin, inwiefern bei der Auswahl von Implementa tionsorten auf das Vorhandensein von Faktoren geachtet wurde, die vom Programm konzept als Voraussetzung einer erfolgreichen Umsetzung und Wirkung angesehen werden.
Je nach Programm können darunter sehr unterschiedliche Aspekte fallen (vgl. Tabelle 1). Beispielsweise können normative Bedingungen dort eine besondere Rol le spielen, wo es sich um Programme handelt, die das Potenzial für (mikro-)politi schen Richtungsstreit in sich tragen oder bei denen das Programm mit den spezifischen Werten und Zielen einer Organisation kompatibel sein sollte (Noonan et al., 2009). Die Wirkungsweise einer weitverbreiteten Interventionsstrategie wie ‚monetäre Anreize bzw. Strafen' ist stark von ökonomischen und sozialen Bedingungen abhän gig, da z. B. Boni oder Strafgelder je nach ökonomischen Bedingungen unterschiedlich wirken können. Infrastrukturelle Bedingungen können besonders bei Programmen in Bereichen wie Verkehr, Digitalisierung oder Wirtschaftsförderung eine Rolle spie len, denkbar sind hier Kriterien wie etwa Einkommensstruktur, Bevölkerungsdichte oder Breitbandausbau. Zeitliche Bedingungen können immer dann besonders relevant werden, wenn im Implementationskontext wiederkehrende Zyklen existieren, wie z. B. im Bildungsbereich ein Schuljahr oder ein Semester, die je nach Zeitpunkt im Zyklus günstigere oder weniger günstige Voraussetzungen für das Programm und v. a. seinen Beginn implizieren. Klimatische Bedingungen werden in nur wenigen Bereichen eine Rolle spielen, denkbar sind hier etwa der Agrarbereich im Kontext Entwicklungszu sammenarbeit oder Programme der Stadt- und Raumplanung.
Die Erfüllung von Kontext-Kriterien der Implementationstreue, soweit diese als Voraussetzung Bestandteile des Programmkonzepts sind, kann bereits zu Beginn eines Programms überprüftwerden. Mit Ausnahme von ‚weichen' Umfeldfaktoren wie etwa Werthaltungen oder dem Organisationsklima, wird der methodische Zugang dabei meist trivial sein. So genügt z. B. bei zeitlichen Bedingungen ein Blick in den Kalen der, aber auch in vielen anderen Fällen sind Kontext-Kriterien im Rahmen von Doku mentenanalysen, Vor-Ort-Besuchen oder Befragungen von Expertinnen und Experten vergleichsweise wenig aufwändig zu recherchieren oder zu erschließen. Zur Erfassung kann eine an den als relevant bestimmten Kriterien orientierte Checkliste, ein ähnli ches Instrument oder ein einfacher Interviewleitfaden ausreichen (Martz, 2010). Zu beachten ist, dass sich gerade bei längerfristigen Maßnahmen Kontextfaktoren ver ändern können, z. B. in Folge von Neuwahlen (politische Bedingungen) oder einer or ganisationalen Umstrukturierung (organisationale Bedingungen). Soweit diese nicht vorhersehbar sind, handelt es sich bei solchen Veränderungen nicht um grundsätzlich vermeidbare Implementationsprobleme, sondern Kontexteinflüsse, die im Rahmen des sonstigen Evaluationsdesigns und der Ergebnisinterpretation zu berücksichtigen sind.
4.2 Input-Kriterien der Implementationstreue
Implementation kann daran scheitern, dass erforderliche Ressourcen und Ausgangsbedingungen nicht im geplanten Maße verfügbar sind. In diesem Sinne gehören zu den Input-Kriterien der Implementationstreue alle materiellen und immateriellen Mittel und Voraussetzungen, die für eine р1апретаВе Umsetzung der Programmaktivitäten erforderlich sind. Das Kriteriensystem unterscheidet im Einzelnen finanzielle, personelle, zeitliche, riumliche und ausstattungsbezogene Ressourcen (vgl. Tabelle 2). Im Gegensatz zu den Kontext-Kriterien ist die Erfüllung von Input-Kriterien aktiv beeinflussbar. In der Verantwortung stehen bei vielen Input-Kriterien aber noch nicht Mitglieder des Programmpersonals, sondern jene, die das Programm ermóglichen, wie 7. В. mittelgebende oder unterstiitzende Institutionen.
Bei vielen Input-Kriterien wird es nicht alleine um das Vorhandensein von Ressourcen gehen, sondern auch um deren jeweilige Merkmale, soweit diese als relevant fiir die Programmwirkungen erachtet werden. Beispielsweise muss eine Finanzierung nicht nur gegeben, sondern auch zum richtigen Zeitpunkt verfiigbar sein; Programmpersonal muss nicht nur vorhanden sein, sondern auch die erforderlichen Qualifikationen und vielleicht bestimmte Persónlichkeitsmerkmale aufweisen; räumliche Res- sourcen driicken sich ggf. nicht nur in Quadratmetern aus, auch deren Erreichbarkeit oder Ausstattung kann eine Rolle spielen.
Ahnlich wie beim Kontext ist auch die Uberpriifung von formalen Input-Kriterien relativ unmittelbar móglich und kann oft ebenfalls 7. В. per Checklisten erfolgen. So könnten räumliche Ressourcen und Ausstattungsmerkmale, soweit sie als kritisch fiir die Implementation betrachtet werden, im Rahmen einer Vor-Ort-Begehung, durch eine Befragung relevanter Stakeholder oder durch die kriteriengeleitete Auswertung der Programmdokumentation auf Passung zum Programmkonzept überprüft werden. Inwiefern finanzielle, personelle oder zeitliche Ressourcen im geplanten Майе verfigbar waren, sollte in vielen Fillen an ohnehin vorhandenen Dokumenten (Zuwendungsnachweise, Protokolle, Akten, Monitoringdaten etc.) ablesbar sein oder, falls diese für Evaluationszwecke nicht zugänglich sind, von relevanten Stakeholdern retrospektiv erfragt werden. Aufwändiger in der Erfassung können allerdings qualitative Input-Aspekte sein wie z.B. Qualifikationen des Programmpersonals, soweit diese über den rein formalen Nachweis von Qualifikationen hinausgehen sollen. Sie können dann z.B. durch entsprechende Fremd- und Selbsteinschätzungen oder ggf. auch passende Testverfahren erschlossen werden.
4.3 Prozess-Kriterien der Implementationstreue
Prozess-Kriterien der Implementationstreue beziehen sich auf die Umsetzung der Aktivitäten des Programms und erfassen damit den eigentlichen Kern der Implementation. Im Wesentlichen entspricht dieser Kriterienbereich damit der Komponente adherence, wie er etwa bei Dane und Schneider (1998) verwendet wird. Er geht davon aus, dass das Programm aus einer Reihe distinkter Teilschritte oder -aktivitäten besteht, für die gefragt wird, ob sie überhaupt stattgefunden haben und ob sie in der vorge- sehenen Reihenfolge, fristgemáf3 und mit der nötigen Qualität erfolgten. Da es sich dabei oft um Interaktionen mit den Zielgruppen des Programms handelt, spielt hier auch die Qualitát der Beziehungsgestaltung eine Rolle. Neben diesen Kriterien auf der operativen Ebene des Programms sind Kriterien auf Ebene der Steuerung und Zusammenarbeit im Programm hier relevant (vgl. Tabelle 3).
Aufgrund der Unterschiedlichkeit der in Programmen zum Einsatz kommenden Interventions- und Práventionsstrategien ist es bei den Prozess-Kriterien naturgemäß schwer, allgemeingiltige Kriterien der Implementationstreue zu identifizieren. Der feldiibergreifende Anspruch des Kriteriensystems erweist sich an dieser Stelle als Nachteil, da man sich auf bestimmte Interventionstypen wie 7. В. den der Psychotherapie beschránken miisste, um hier konkreter werden zu kónnen. Insofern trifft die in Abschnitt 3.3 geäuferte Kritik an Komponentenansátzen der Implementationstreue auch hier zu: Das Kriteriensystem muss in Bezug auf die Programmelemente, deren Vollständigkeit, Reihenfolge, Fristgemáfheit und Qualität überprüft werden, relativ unkonkret bleiben. Im Kontext der Anwendung des Kriterienrasters ist der generische Begriff Programmelement' also jeweils durch distinkte Teilaktivitäten des Programms zu ersetzen.
Ein möglicher Ausweg für zukünftige Erweiterungen des Kriteriensystems wäre eine Orientierung an Programmarchetypen, wie sie von Funnell und Rogers (2011) vorgeschlagen wurden. Sie haben unabhängig vom jeweiligen Handlungs- oder Politikfeld fünf allgemeine Interventionstypen vorschlagen, die der Wirklogik einer Vielzahl von Programmen zugrunde liegen: (1) Beratung, Information und Bildung, (2) Belohnung und Sanktionen, (3) Einzelfallarbeit, (4) Kapazitätsaufbau und (5) Produkte und Dienstleistungen. Begibt man sich auf den Auflösungsgrad solcher und weiterer prototypischer Interventionsstrategien, wäre es durchaus möglich für diese spezifischere, aber dennoch generische Prozess-Kriterien der Implementationstreue abzuleiten. Dies geht jedoch über die Zielsetzung des aktuellen Beitrags hinaus.
Gegenüber Kontext- und Input-Kriterien wird die Erfassung von Prozess-Kriterien je nach Komplexitätsgrad des Programms aufwändiger sein. Dies gilt vor allem dann, wenn die Ansprüche hinsichtlich der Qualität von Programmaktivitäten hoch und nicht trivial zu erfüllen sind. So werden beispielsweise beim schlichten Verteilen von Informationsmaterial die Qualität der Umsetzung und der Beziehungsgestaltung eine relativ geringe Rolle spielen, beim Durchführen von psychosozialen Beratungsgesprächen dagegen dürfte ihnen eine zentrale Bedeutung für die Wirksamkeit zukommen. Eine Erfassung entsprechender Qualitätsmerkmale muss dann nah an den jeweiligen Vorgaben des Programmkonzepts erfolgen, etwa in Form von Beobachtungen oder Fremd- und Selbsteinschätzungen durch Zielgruppenmitglieder bzw. das Programmpersonal selbst. Die eher quantitativen Kriterien wie Vollständigkeit der Umsetzung oder Reihenfolge können wieder etwas weniger aufwändig, beispielsweise in Form einer prozessnahen Dokumentation durch angepasste Dokumentationsraster, Projekttagebücher oder Checklisten, erhoben werden.
4.4 Output-Kriterien der Implementationstreue
Das Output eines Programms umfasst jene Produkte und Leistungen, die aus den Programmaktivitáten hervorgehen und durch deren ,Konsum' Wirkungen bei den Zielgruppen entstehen sollen (vgl. Tabelle 4). Kriterien der Implementationstreue richten sich demgemäf zunächst auf bestimmte Mengen von Produkten und Dienstleistungen, die als Voraussetzung von Programmwirkungen erstellt und disseminiert bzw. angeboten werden müssen, und umfassen damit die oben bereits erwähnte ,Programmdosis' (vgl. Abschnitt 3.3). Um bei der medizinischen Analogie zu bleiben, reicht alleine das Erstellen und Anbieten hier nicht aus. Um Wirkungen zu erzielen, missen Produkte und Angebote des Programms der Zielgruppe verfiigbar gemacht oder an sie distribuiert werden und schließlich von dieser in Anspruch genommen oder rezipiert werden.
Der letztgenannte Punkt der Inanspruchnahme bzw. Rezeption durch die Zielgruppe ist insofern noch erklärungsbedürftig, als er theoretisch gesehen einen Grenzfall zu den Programmwirkungen darstellt, die definitionsgemáf3 nicht mehr in den Bereich der Implementationstreue fallen. Schließlich kann man argumentieren, dass etwa die Rezeption von Informationsmaterial, das Aufsuchen von Beratungen oder die 4.6 Das Kriteriensystem im Vergleich mit bisherigen Ansátzen
Teilnahme an Schulungen bereits eine aktive Reaktion von Zielgruppenmitgliedern darstellen und damit als Wirkungen auf Zielgruppenebene definitionsgemäß zu den Outcomes des Programms zählen. Dies würde nahelegen, entsprechende Kriterien bei der Erhebung der Implementationstreue auszuklammern und als erstes Element einer Wirkungskette auf Zielgruppenebene zu integrieren. Auf der anderen Seite wird man kaum ein Programm als erfolgreich implementiert bezeichnen wollen, dessen Produk te oder Leistungen von niemandem rezipiert oder in Anspruch genommen werden. Im Sinne der Vollständigkeit wurden Aspekte der Zielgruppenresonanz im Kriterien system aufgenommen, im Bewusstsein, dass hier ein Grenzfall vorliegt, da fehlende Resonanz in diesem Sinne nicht in allen Fällen auf Implementierungsfehler zurück zuführen ist.
In der Erfassung sind Output-Kriterien aufgrund ihrer weitgehend quantitativen Natur relativ wenig aufwändig und können im Sinne eines Nachweises der Leistungs erbringung z. B. in Form von Protokollen, Listen, Logbüchern etc. festgehalten oder beim Programmpersonal abgefragt werden. Alleine die Erfassung der Zielgruppenre sonanz kann dann ein komplexeres Problem darstellen, wenn diese nicht in situ beob achtbar, sondern aufgrund medialer Vermittlung nicht unmittelbar zugänglich ist. So ist z. B. die physische Anwesenheitsquote bei einer Fortbildung direkt protokollierbar. Ob und in welchem Ausmaß dagegen ein medialer Informationsspot im Rahmen ei ner Aufklärungskampagne rezipiert wurde, kann nur aufwändiger, etwa durch Reich weitenanalysen, ermittelt werden.
4.5 Zielgruppen-Kriterien der Implementationstreue
Programme verfolgen definitionsgemäß immer eine Interventions-, Förder- oder Prä ventionsstrategie, um bei definierten Zielgruppen bestimmte, als wünschenswert ge setzte Wirkungen zu erzielen. Diese Zielgruppen bestehen in vielen Fällen aus Indi viduen, es gibt aber, je nach Politikfeld oftsogar häufiger, auch Programme, die sich an Kollektive wie Organisationen, Kommunen, Regionen und andere überindividuelle Strukturen richten. Während Förderprogramme eher breit und unspezifisch wirken sollen, richten sich Interventions- und Präventionsprogramme auf Individuen oder Kollektive, bei denen ein bestimmtes Defizit oder Problem vorliegt, das gelindert wer den soll (Intervention), oder bei denen die Wahrscheinlichkeit einer zu befürchtenden negativen Entwicklung gemindert werden soll (Prävention).\
Für die Implementation ist es ofterforderlich, dass die Mitglieder dieser Zielgrup pen bestimmte Voraussetzungen erfüllen, damit das Programm bei ihnen in vorgese hener Weise wirken kann (vgl. Tabelle 5). Implementationsmängel können dann darin bestehen, dass Zielgruppenmitglieder einen solchen Zugang erhalten, obwohl sie diese Voraussetzungen nicht mitbringen. Dies gilt allerdings nur dann, wenn das Programm den Zugang zu seinen Leistungen oder Produkten aktiv beeinflussen oder steuern kann. Wo dies nicht der Fall ist, handelt es sich nicht um ein Implementierungsprob lem, die relevanten Variablen sollten sich aber sicherlich im Sinne von Kontrollvariab len im Evaluationsdesign wiederfinden.
In diesem Sinne ist ein erstes Kriterium von Implementationstreue in Bezug auf die Zielgruppe, dass das von einem Programm adressierte Problem, Defizit oder Ri siko bei jenen, an die es sich richtet, überhaupt vorhanden ist. Denn ansonsten droht die Gefahr, dass Programmressourcen vergeudet werden und eine potenzielle Wirk samkeit aufgrund von Deckeneffekten reduziert wird, weil für intendierte Outcomes nur noch wenig Raum ‚nach oben' besteht. Zusätzlich kann es je nach Art des Pro gramms sein, dass Zielgruppenmitglieder für die intendierte Wirksamkeit über be stimmte demographische Merkmale (z. B. bestimmte Altersgruppe, sozialer Hinter grund etc.), über bestimmte Vorerfahrungen und Qualifikationen, motivationale Voraussetzungen oder Persönlichkeitsmerkmale verfügen sollten. Tabelle 5 listet die Kriterien dieses Bereichs, wobei anzumerken ist, dass aus Gründen der Kürze von in dividuellen Zielgruppenmitgliedern ausgegangen wird. Besteht die Zielgruppe eines Programms aus Kollektiven wie z. B. Schulen oder Unternehmen (s. o.), dann sind die se Kriterien sinngemäß zu adaptieren oder von der individuellen auf die kollektive Ebene zu aggregieren. So könnten bei 5.2 Demographische Merkmale Aspekte wie ‚Or ganisationsgröße' oder ‚Gesellschaftsform' relevant sein, während ‚Alter', falls über haupt theoretisch für das Programm relevant, zu ‚Altersstruktur der Mitarbeitenden' zu aggregieren wäre.
Viele Zielgruppen-Kriterien sind einfach und direkt zu erfassen. Beispielsweise können demographische Kriterien, objektiv belegbare Vorerfahrungen oder zertifizier te Qualifikationen durch direkte Abfragen bei den Zielgruppenmitgliedern, Monito ringdaten oder Kennzahlen wie z. B. Anmeldestatistiken erhoben werden. Soweit eher qualitative Merkmale wie motivationale Voraussetzungen oder Persönlichkeitsmerk male betroffen sind, kann die Erfassung aufwändiger sein, wird in der Regel aber auch über eine direkte Erfassung bei den Zielgruppenmitgliedern, z. B. in Form passender Fragebogen-Items, erfolgen. Gleiches kann für die Frage gelten, inwiefern überhaupt das vom Programm adressierte Ausgangsproblem vorliegt.
Tabelle 6 zeigt die fünf Hauptbereiche des vorgeschlagenen Kriteriensystems im Verháltnis zu den drei Ansátzen zur Strukturierung von Kriterien der Implementationstreue, die in Abschnitt 3.3 besprochen wurden. Im Vergleich zeigen sich mehrere Vorteile des feldibergreifenden, an das logische Modell angelehnten Ansatzes:
1. Die fiinf aus dem logischen Modell abgeleiteten Kriterienbereiche differenzieren inhaltlich sinnvoll trennbare Bereiche, die in anderen Ansátzen in einem Kriterienbereich zusammenfallen. Die in Struktur/Prozess- Ansätzen verwendete Struktur-Komponente wird hier in die beiden distinkten Bereiche Kontext und Input unterschieden. Aus Implementationsperspektive ist das schon deswegen sinnvoll, da beide Bereiche im Implementationsprozess unterschiedlich zu adressieren sind. Denn Kontextfaktoren sind nur indirekt durch die Auswahl geeigneter Implementationsorte beeinflussbar, Inputfaktoren dagegen sind direkt steuerbar, teils von Seiten des Programms selbst, teils von Seiten der das Programm ermóglichenden Instanzen.
2. Kriterienbereiche, die in anderen Ansátzen inhaltlich unscharf voneinander abgegrenzt sind, fallen im feldübergreifenden Kriteriensystem in einen gemeinsamen Bereich. Die Trennung zwischen adherence und quality of delivery im dimensionalen Ansatz erscheint künstlich. Prozedurale Wiedergabe- oder Ausführungstreue und die Qualität der Wiedergabe bzw. Ausführung sind beides Aspekte der Programmdurch- führung, also der Prozesskomponente, die hier ergänzt um weitere implementationsrelevante Kriterien unter einem inhaltlichen Dach vereinigt sind.
3. Wie der tabellarische Vergleich besonders deutlich zeigt, schließt der vom logischen Modell ausgehende Ansatz Liicken in bestehenden Ansátzen. Bei Komponenten- und dimensionalen Ansátzen fehlen Kontext und Input, bei Komponenten- und Struktur/ Prozess-Ansátzen fehlen Output und Zielgruppe. In der Sprache der Mengenlehre stellt das feldübergreifende Kriteriensystem die Vereinigungsmenge von Komponenten-, Struktur/Prozess- und dimensionalem Ansatz dar und kann damit eher den Anspruch eines umfassenden Ansatzes einlösen.
4. Kriterienbereiche wie program differentiation, die definitionsgemäß nicht Aspekte der Implementationstreue erfassen, fehlen im feldübergreifenden Kriteriensystem (vgl. Abschnitt 3.3).
Ein weiterer Vorteil des feldübergreifenden Kriteriensystems besteht darin, dass es begrifflich den Anschluss an das in Evaluationskontexten gut etablierte Instrument des logischen Modells herstellt, das schon seit Längerem als Werkzeug zur Beschreibung von Programmen etabliert ist. Somit besteht die Hoffnung, dass das Thema Implementationstreue mit Hilfe des feldiibergreifenden Kriteriensystems stárker aus der oft eng fachspezifisch geführten Diskussion herausgelôst und in einen transdisziplinären Professionalisierungsdiskurs eingebettet werden kann.
5. Anwendung des feldübergreifenden Kriteriensystems
Aufgrund seines feldübergreifenden Charakters fällt das vorgeschlagene Kriteriensystem der Implementationstreue sehr umfassend aus. Dies könnte den Eindruck erwecken, dass auch die Erfassung von Implementationstreue entsprechend umfassend und kleinteilig ausfallen sollte. Dies wäre ein falscher Eindruck, denn das Kriteriensystem macht diesbezüglich keinerlei Vorgaben. Vielmehr versteht es sich wie eingangs erwähnt als , Auswahlmeni das im Sinne einer Checkliste eingesetzt werden kann, die in einem konkreten Evaluationskontext und in Bezug auf ein konkretes Programm daraufhin überprüft wird, welche Kriterien genau hier die relevanten und sinnvoll umsetzbaren sind. In vielen Fällen wird die umfangreiche Liste dabei auf relativ wenige Kriterien zusammenschrumpfen, da die Implementation vieler Programme in Bezug auf viele der Kriterien indifferent ist und einige Kriterien nur in wenigen Konstellationen überhaupt relevant werden.
Als Beispiel sei das Kontext-Kriterium 1.6 Klimatische Bedingungen' genannt. Für viele Programme, 7. В. pádagogischer, psychologischer oder sozialer Natur, wird dieses Kriterium fast abwegig erscheinen, da in diesen Bereichen kaum eine Konstellation denkbar ist, bei dem die Programmwirkung davon beeinflusst wird, dass ein Implementationsort mit unzureichenden klimatischen Bedingungen ausgewáhlt wird. Das gilt selbst dann, wenn eine Maßnahme tatsächlich unmittelbar vom Wetter beeinflusst wird, wie z.B. ein Outdoor-Training. Natürlich könnten extreme Wetterverháltnisse ein Outdoor-Training zum Scheitern bringen. Soweit das aber ein aus Implementationsperspektive nicht vorhersehbares Ereignis ist, liegt hier kein Implementationsfehler vor. Das Kriterium kime nur dann zum Einsatz, wenn die realistische Gefahr besteht, einen klimatisch derartig ungeeigneten Implementationsort zu wáhlen, dass das Outdoor-Training grundsátzlich in seiner Wirkweise beeintrichtigt ist. Denkt man dagegen an Programme aus dem Bereich der Entwicklungszusammenarbeit oder Stadtplanung z.B. zur Verbesserung der Wasserversorgung oder Anpassung an den Klimawandel, sind eher Fálle denkbar, in denen bei der Auswahl von Implementationsorten klimatische Faktoren wie etwa Niederschlagsmenge, Sonneneinstrahlung oder Durchschnittstemperatur eine Rolle spielen könnten.
Vor dem Hintergrund dieser Uberlegungen erscheint folgendes Vorgehen sinnvoll, wenn zu Beginn der Evaluation festzulegen ist, welche Kriterien der Implementationstreue im konkreten Fall (a) relevant sind und (b) in das Evaluationsdesign einbezogen werden sollten.
1. In einem ersten Schritt wird das Programmkonzept auf Basis des feldiibergreifenden Kriteriensystems auf Kriterien hin überprüft, die im konkreten Fall relevant sind. Je Kriterium ist dabei zu fragen, inwiefern das Programmkonzept Festlegungen oder Vorgaben im Hinblick auf das Kriterium enthált. Wenn ein Kriterium zwar aufgrund inhaltlich-theoretischer Uberlegungen fiir die Wirkung des Programms relevant erscheint, vom Programmkonzept aber nicht entsprechend berücksichtigt wird, ist es formal gesehen bei der Ermittlung der Implementationstreue nicht zu berücksichtigen. Je nach Ressourcen der Evaluation (s.u.) und ihrem Rollenverstindnis wird es aber sinnvoll sein, solche móglichen Einflussfaktoren auf die Programmwirkung dennoch im Erhebungsdesign zu berücksichtigen und, falls ein programmtheoriegesteuerter Evaluationsansatz (2. В. Funnell & Rogers, 2011) verfolgt wird, im Wirkungsmodell zu ergänzen. Denn sowohl fiir formative wie auch summative Evaluationszwecke ergibt sich daraus eine umfassendere Erkenntnisgrundlage fiir die Ableitung von Verbesserungsmoglichkeiten und die Interpretation von Programmeffekten. Allerdings sollte dabei klar bleiben, dass es sich nicht um Implementationstreue gemäß Programmkonzept handelt, sondern zusátzlich im Evaluationsdesign bzw. Wirkungsmodell beriicksichtigte Aspekte der Programmumsetzung.
2. Diein Schritt 1 identifizierten Kriterien kommen als fúr den konkreten Fall relevante Kriterien der Implementationstreue in Betracht. Im zweiten Schritt ist auf Basis von theoretischen Uberlegungen und empirischen Vorerfahrungen zu priifen, wie wahrscheinlich jeweils ein so deutliches Abweichen vom Geplanten ist, dass Wirkweisen oder Wirkungen beeinträchtigt werden. Wenn vorab bereits außer Frage steht, dass keinerlei Freiheitsgrade bei der Implementation bestehen, wie es v.a. bei Kontextoder Input-Kriterien der Fall sein kann, muss dies nicht zusátzlich empirisch erfasst werden. Beispiele könnten etwa flächendeckende Innovationen in einer Organisation, die alle Standorte erfasst, oder gesetzliche Verordnungen sein, die keinen Spielraum für Vollzugsvarianten lassen.
3. In den meisten Fällen sind aufgrund eingeschränkter Ressourcen oder eines eingeschränkten Feldzugangs Kompromisse erforderlich. Wie bei anderen Entscheidungen bezüglich des Evaluationsdesigns auch muss dann eine Aufwand-Nutzen-Abwägung erfolgen, um eine begründete Auswahl treffen zu können. Auf der einen Seite ist zu prüfen, wie aufwändig die empirische Erfassung eines Kriteriums ist und mit welchen Belastungen für das Feld sie einhergeht (vgl. Schritt 4). Auf der anderen Seite steht die Frage, wie substanziell das Erfüllen eines Kriteriums für die erwartete Programmwirkung und für eine möglichst sichere Beantwortung der Fragestellungen der Evaluation ist. Die dabei vorzunehmende Prognose bezüglich der Relevanz eines Kriteriums wird je nach Art und Kontext des Programms und des Kriteriums auf Fachexpertise aus der Praxis, Plausibilitätsüberlegungen, Vorerfahrungen aus ähnlichen Programmen und nicht zuletzt wissenschaftlichen Erkenntnissen fußen. Das ermittelte Verhältnis zwischen Aufwand und Nutzen der Erfassung eines Kriteriums sollte dann entscheidungsleitend sein, um nötigenfalls Kriterien auszuschließen. Im Sinne der Genauigkeit und Vollständigkeit sollte jedoch dies in der späteren Berichterstattung Erwähnung finden und in der Befundinterpretation als nicht berücksichtigter Faktor einfließen.
4. Gefragt ist schließlich nach geeigneten Verfahren zur empirischen Erfassung des Kriteriums. Abschnitt 4.2 hat dazu bereits einige allgemeine Hinweise je Kriterienbereich gegeben. Übergreifend stehen hier die üblichen empirischen Datenerhebungsmethoden wie Dokumentenanalysen von Akten, Berichten, Protokollen etc., Befragungen oder Beobachtungen (Brandon et al., 2008) mit ihren jeweiligen Spielarten (qualitativ, quantitativ, schriftlich, mündlich, teilnehmend, nicht teilnehmend etc.) zur Verfügung. Daneben bieten sich oft auch spezifischere Verfahren wie Checklisten, Logbücher und ähnliche prozessnahe Verfahren an (Ibrahim & Sidani, 2015; Melde et al., 2006; Nelson et al., 2015). Je nach Art des Programms kommen auch die direkte Messung physischer Sachverhalte oder die Nutzung digitaler Protokolldaten (2. В. ServerLogfiles) in Betracht.
Das vorgeschlagene Vorgehen sollte als Orientierung verstanden werden und ist natürlich kontextspezifisch zu adaptieren und zu modifizieren. So ist etwa denkbar, dass die Evaluation spezifische Fragestellungen verfolgen soll, für deren Beantwortung bestimmte Bereiche der Implementationstreue besonders relevant sind. Auch der Evaluationszweck kann eine Rolle spielen. V.a. bei summativen Evaluationen ist es besonders relevant jene Kriterien móglichst genau zu erfassen, von denen vermutlich ein besonders starker Einfluss auf die Programmwirksamkeit ausgeht, denn nur dann kann eine um Implementationsvarianzen korrigierte Schátzung von Programmeffekten wie z. В. bei Zvoch (2012) vorgenommen werden.
Eine solche Korrektur von quantitativen Programmeffekten ist in der Literatur eine der háufigsten Anwendungsvarianten von Implementationstreue bei der Auswertung von Evaluationsergebnissen. Auch wenn der Aspekt des Umgangs mit Daten zur Im- plementationstreue nicht Gegenstand dieses Beitrags ist, ist zu betonen, dass diese Variante bei Weitem nicht die einzige ist. Systematisch gewonnene Informationen darüber, wie ein Programm tatsächlich umgesetzt wurde und wie sich dies vom Geplanten unterscheidet, sind besonders fúr qualitative Studien oder Einzelfallstudien als Interpretationshintergrund wichtig. Auch ist der Einsatz keineswegs auf summative Evaluation beschránkt, denn besonders bei formativen Evaluationen kónnen Verbesserungen sich sowohl auf das Programmkonzept wie auf seine Umsetzung beziehen und für beides sind Daten zur Umsetzung unverzichtbar.
Obwohl das Kriteriensystem in erster Linie in der Planungsphase einer Evaluation hilfreich sein will, soll abschlieBend auf drei weitere Verwendungsmóglichkeiten hingewiesen werden. Erstens kann es auch ex-post zur Anwendung kommen, námlich dann, wenn es darum geht, Erklárungsansátze fiir ermittelte Programmwirkungen zu finden. Vor allem dann, wenn diese hinter dem Erwarteten zurück bleiben oder starke Unterschiede zwischen verschiedenen Implementationsorten beobachtet werden, kommen neben programmexternen Kontexteinfliissen und einer fehlerhaften Programmtheorie у. а. Implementationsvarianzen als Erklärungsfaktoren in Betracht. Das Kriteriensystem kann dann dazu dienen, systematisch móglicherweise relevante Faktoren zu identifizieren und zumindest theoretisch deren Einfluss im konkreten Fall zu diskutieren.
Zweitens können analog dazu Überlegungen zur Übertragbarkeit oder Verstetigung von Programmen vom Kriteriensystem profitieren. Es ist ein wiederkehrender Fehler im Umgang mit Programmevaluationen, davon auszugehen, dass ein positiv evaluiertes Programm auch auf Dauer und an anderen Orten gleichermaßen wirken wird. Oft wird dabei iibersehen, dass es besondere Bedingungen eines Piloteinsatzes oder besondere Gegebenheiten des Pilotstandorts waren, deren Vorhandensein auf Dauer oder in der Breite nicht gegeben ist. So geschehen ist dies etwa bei den Sprachlaboren der 1960er und 1970er Jahre, die zwar als Wundermittel beim schulischen Fremdsprachenunterricht evaluiert waren, in der Breite aber aufgrund mangelnden technischen Supports und fehlender Zusatzqualifikationen der Lehrkráfte nicht gleichermafen funktionierten (Roby, 2004). Ein rechtzeitiger kritischer Blick auf die Evaluationsergebnisse und die Frage Welche der im Kriteriensystem angesprochenen Aspekte der Implementation könnten maßgeblich dafür sein, dass die positiven Befunde bei einer Implementation in der Breite Bestand haben?' könnte vor ähnlichen Uberraschungen bewahren. Im obigen Beispiel wáren diese in den Bereichen 1.5 Organisationale Bedingungen und 2.2.2 Qualifikation und Vorerfahrung zu finden.
Drittens kann das Kriteriensystem unabhángig von einer Evaluation bereits in der Planungsphase von Maßnahmen genutzt werden, um ex ante mögliche Implementationshindernisse zu identifizieren. Denn áhnlich wie bei der Anwendung von Programmtheorien ist es nicht die origináre Aufgabe der Evaluation, Programmkonzepte hinsichtlich ihrer intendierten Wirkungen plausibel und umsetzbar zu gestalten. Der systematische Blick auf mógliche kritische Faktoren bei der Implementation, wie sie das Kriteriensystem versammelt, könnte auch hier dazu führen, mögliche Erfolgsfaktoren rechtzeitig zu erkennen und positiv im Sinne der Programmwirksamkeit zu gestalten.
6. Diskussion und Ausblick
Die pointierte Aussage „Ihe literature is replete with examples of interventions that are considered not to work when in fact the intervention was never really attempted von Bickmann (1987, S. 11) erinnert daran, wie wichtig und gleichzeitig vernachlässigt Implementationstreue zumindest in der Vergangenheit oft war. Das vorgeschlagene Kriteriensystem móchte in diesem Kontext eine umfassende und móglichst generische Lösung anbieten, die an den in der Evaluation etablierten theoretischen Rahmen des logischen Modells anschlussfáhig ist und zur Bestimmung der relevanten Kriterien fiir Implementationstreue in konkreten Evaluationsstudien dienen kann.
Anders als frühere Ansätze ist das Kriteriensystem feldübergreifend konzipiert worden, woraus die Frage resultiert, wie generisch es dadurch ist, inwiefern es also prinzipiell fiir alle Handlungsfelder und jede Art von Programm anwendbar ist. Von seiner Provenienz her könnte man einwenden, dass ein Großteil der bisherigen Literatur sich, wie eingangs dargestellt, auf die Evaluation von personenzentrierten Sozialprogrammen bezieht, in denen Interventions- und Präventionsmafsnahmen verhältnismäfig stark kodifiziert sein können, im Extremfall z.B. in Form eines Hilfeplans oder Therapiemanuals. Vor allem aus Europáischer Perspektive bewegen sich Programme als Gegenstand der Evaluation aber in einem Spektrum, das über diesen Typus weit hinausgeht. Es umfasst z.B. auch politisch-administrative Maßnahmen, die eher rechtliche Rahmenbedingungen oder strukturelle Gegebenheiten adressieren, wie etwa nationale Gesetzesprogramme oder EU-Programme zur Strukturfórderung. Sie waren bisher kaum im Blick der Evaluationsliteratur zur Implementationstreue. Dem Einwand eines daraus resultierenden fachlichen Biases ist aber entgegenzuhalten, dass die grundsitzliche Struktur des Kriteriensystems aus dem generisch konzipierten logischen Modell abgeleitet ist, das zwar eine áhnliche Provenienz aufweist, aufgrund seiner Genese aus der kybernetischen Produktionslogik aber prinzipiell auf alle Maßnahmen mit Interventions- oder Präventionslogik anwendbar ist (Hense & Taut, 2021) und politisch-administrative Programme zwar oft stirker inkrementalistisch vorgehen, sich grundsátzlich aber nicht von anderen Programmtypen unterscheiden (Knill & Tosun, 2020). Es lásst sich also argumentieren, dass wenn ein Programm sich in Form eines Wirkungsmodells beschreiben lásst, auch seine Implementation grundsátzlich mit Hilfe des vorgeschlagenen Kriteriensystems zu erfassen sein sollte. Das Kriteriensystem sollte also in seiner grundsätzlichen Struktur mit den fünf Kriterienbereichen generisch verwendbar sein. Es ist aber anzunehmen, dass fiir weitere Anwendungsfelder Anpassungen und Ergänzungen in seinen Unterkategorien erforderlich sein kénnen.
Das Ziel, möglichst umfassend und generisch, also feldunabhängig zu sein, bringt auch mógliche Nachteile mit sich. Aufgrund des umfassenden Anspruchs ist die Liste länger, als es für einen bestimmten Programmtyp nötig wire. So wire z.B. für breit streuende Informationskampagnen der gesamte Bereich der Zielgruppen-Kriterien obsolet. Das Problem ist allerdings leicht heilbar, da fiir eine solche eingeschränkte Anwendung die Kürzung nur einmalig erfolgen müsste und fiir weitere Anwendungen auf den gleichen Programmtyp übernommen werden kann. Ein zweiter, vielleicht gravierenderer Nachteil ist, dass der feldiibergreifende Anspruch zu einem relativ hohen Abstraktionsniveau führt, was sich u.a. sprachlich äußert. Hier ist in der Anwen- dung ein gewisser Transfer zu leisten, um die Kategorien auf ein praktisch existierendes Programm abzubilden. Vor allem wenn konkrete Instrumente zur Erfassung der Implementationstreue wie z. В. Checklisten, Logbücher oder Beobachtungsraster entwickelt werden, die von Stakeholdern angewendet werden sollen, ist es ratsam auf eine entsprechende sprachliche Anpassung zu achten, indem z.B. ein generischer Begriffe wie ,Zielgruppenmitglied· etwa mit Studierende' ersetzt wird.
Ein weiterer Einwand gegen das Kriteriensystem könnte sein, dass die Frage ,Wurde auf diesen Faktor bei der Umsetzung des Programms geachtet?' verschiedentlich fast trivial klingt, da die Antwort ,ja auf der Hand zu liegen scheint. So kónnte man fragen, ob es nicht selbstverstándlich ist, dass ein Programm z.B. im Kriterienbereich 2.2 Personelle Ressourcen bei der Einstellung von Mitarbeitenden auf deren hinreichende Qualifikationen oder geeignete Persónlichkeit achtet. Hierzu wurde in Abschnitt 5 bereits darauf hingewiesen, dass Kriterien, deren Ausprágung bekannt ist und die keine Varianz aufweisen, auch nicht empirisch erfasst werden miissen. Allerdings sollte die Frage, ob diese Sicherheit wirklich besteht, äußerst kritisch geprüft werden, denn die Erfahrung zeigt, dass wenn etwas grundsitzlich schiefgehen kann, es in der Praxis auch schiefgehen wird. In jedem Fall sei noch einmal betont, dass es Sache der einzelnen Evaluationsstudie ist, unter Berücksichtigung von Aspekten wie theoretische Relevanz, empirisch zu erwartende Varianz, Aufwand der empirischen Erfassung und geplante Verwendung der Implementationsinformationen eine passende Auswahl zu treffen.
Schließlich ist noch auf grundlegende Einwände gegen das Konzept der Implementationstreue in Programmen und ihrer Evaluation einzugehen. Das Konzept erweckt insgesamt, und vielleicht hier durch ein relativ abstraktes Kategoriensystem noch verstárkt, leicht den Eindruck sozialtechnologischer Steuerungs- und Kontrollphantasien. Ahnlich wie im Bereich der Programmtheorien impliziert das Werkzeug einen reduzierten und gewissermaßen mechanistischen Blick auf komplexe und hoch interdependente soziale Wirklichkeiten, in denen Wirkungen in Wahrheit nicht letztendlich linear vorhersagbar und technokratisch planbar sind, sondern oft generativ entstehen, sozial vermittelt und nicht voraussetzungslos sind. Dem ist allerdings entgegenzuhalten, dass der Schluss aus dieser Erkenntnis nicht sein kann, jeden Anspruch auf die Planbarkeit von Wirkungen oder zielgerichtete Fórder-, Práventions- und Interventionsprogramme aufzugeben. Dem Konzept der Implementationstreue ist der Grundgedanke der grundsätzlichen Plan- und Steuerbarkeit sozialen Wandels genau im gleichen Maße eingeschrieben, wie dem Programmwesen insgesamt. Will man diesen Grundgedanken nicht aufgeben, geht es darum, gerade im Bewusstsein, dass soziale Realitáten komplexer sind, als sie modell- oder kategorienbasiert abgebildet werden können, der Versuch gemacht werden muss, sich ihnen möglichst weit theoretisch und empirisch zu náhern.
Ein weiterer Einwand kann sein, dass Programme nicht immer bis in das letzte Interventionsdetail hinein ausgeplant sind, sondern oft nur eine relativ allgemeine Idee verfolgen und die Entwicklung konkreter Ansätze mit Unterstützung der Evaluation erst im Laufe des Programms erfolgen soll. Handelt es sich also wirklich um solchermaflen entwicklungsunterstiitzende Evaluationen, für die Patton (2011) den Begriff der ,developmental evaluation' geprágt hat, ist die Idee der Implementationstreue nur rudimentär anwendbar, da sie ein zumindest ideell vorhandenes Interventions- konzept voraussetzt. Dennoch ist zu argumentieren, dass zumindest das Anregen und Ermóglichen von Entwicklungsaktivitäten auf Steuerungsebene einem geplanten Implementationsprozess unterliegen sollten und dass auch auf der operativen Ebene die systematische Sammlung von Informationen über die Implementation wichtig ist, um entwicklungsunterstiitzend wirken zu können.
Zuletzt ist noch auf die umfangreiche Debatte ,fidelity vs. adaptation/reinvention zu verweisen, die um die Frage kreist, ob Abweichungen von Programmkonzepten angesichts lokaler Besonderheiten und der Expertise der umsetzenden Stakeholder nicht viel eher zielfôrdernd sind als ein starres Umsetzen von Vorgaben eines Programm - konzepts (Blakely et al., 1987). Die entsprechende Argumentation scheint dem Gedanken der Implementations-,Treue' zuwider zu laufen und tatsächlich lassen sich in der Debatte Befunde finden, die in diesem Sinne zu interpretieren sind. Theoretisch und teils normativ wird in diesem Kontext gerne auf das Ideal der ,reflective practitioner" (z.B. Schön, 1990) verwiesen, deren lokale Kompetenz mafigeblicher sei als die einer zentralistisch gedachten Steuerungsinstanz. Analog kann der Begriff der ,street-level bureaucrats' der politikwissenschaftlichen Implementationsforschung gelesen werden, der ausdrückt, dass Implementierende keine reinen Ausführungsorgane sind, sondern bei der Interpretation des Programms in ihrem Einflussradius einer eigenen Logik folgen (Meyers & Nielsen, 2012). Aus Perspektive der Evaluation spielt allerdings die práskriptive Frage, inwiefern Abweichungen von einem Konzept erlaubt oder sogar winschenswert sind, nur eine nachgeordnete Rolle. Denn in beiden Fillen benótigt die Evaluation zunächst einmal Informationen darüber, ob es zu Abweichungen kam, um angemessen zur Frage beizutragen, welche Abweichungen wie zu bewerten sind. Daraus folgt, dass Evaluation in ihrer Perspektive auf Implementationstreue grundsátzlich neutral bleiben und nicht von vorne herein unterstellen sollte, dass Abweichungen vom Geplanten als fehlerhaft oder in jedem Fall schádlich zu bewerten sind. Denn ein perfektes Programmkonzept ist schlieBlich selten vom Himmel gefallen.
Sidebar
References
Literatur
Abry, T., Hulleman, C.S., & Rimm-Kaufman, S. E. (2015). Using indices of fidelity to intervention core components to identify program active ingredients. American Journal of Evaluation, 36(3), 320-338. https://psycnet.apa.org/doi/10.1177/1098214014557009
Beywl, W., Kehr, J., Máder, S., & Niestroj, M. (Hrsg.). (2007). Evaluation Schritt fiir Schritt. Planung von Evaluationen. hiba.
Bickmann, L. (1987). The functions of program theory. New Directions for Evaluation, 33, 5-18. https://doi.org/10.1002/ev.1443
Blakely, C. H., Mayer, J.P, Gottschalk, R. G., Schmitt, N., Davidson, W.S., Roitman, D.B., & Emshoff, J. G. (1987). The fidelity-adaptation debate: Implications for the implementation of public sector social programs. American Journal of Community Psychology, 15(3), 253268. https://doi.org/10.1007/bf00922697
Borrelli, B., Sepinwall, D., Ernst, D., Bellg, A.J., Czajkowski, S., Breger, R., DeFrancesco, C., Levesque, C., Sharp, D.L., Ogedegbe, G., Resnick, B., & Orwig, D. (2005). A new tool to assess treatment fidelity and evaluation of treatment fidelity across 10 years of health behavior research. Journal of Consulting and Clinical Psychology, 73(5), 852-860. https://doi. org/10.1037/0022-006x.73.5.852
Brandon, P.R., Taum, A.K.H., Young, D.B., Pottenger, F.M., & Speitel, T.W. (2008). The complexity of measuring the quality of program implementation with observations: The case of middle school inquiry-based science. American Journal of Evaluation, 29(3), 235-250. https://doi.org/10.1177/1098214008319175
Carroll, C., Patterson, M., Wood, S., Booth, A., Rick, J., & Balain, $. (2007). A conceptual framework for implementation fidelity. Implementation Science, 2(1), 40. https://doi. org/10.1186/1748-5908-2-40
Century, J., Rudnick, M., & Freeman, С. (2010). A framework for measuring fidelity of implementation: A foundation for shared language and accumulation of knowledge. American Journal of Evaluation, 31(2), 199-218. https://doi.org/10.1177/1098214010366173
Chen, H. (1990). Theory-driven evaluations. Sage.
Cronbach, L.J. (1982). Designing evaluations of educational and social programs. Jossey-Bass.
Dane, A.V., & Schneider, В.Н. (1998). Program integrity in primary and early secondary prevention: Are implementation effects out of control? Clinical Psychology Review, 18(1), 23-45. https://doi.org/10.1016/s0272-7358(97)00043 -3
DeGEval - Gesellschaft fiir Evaluation. (2017). Standards fir Evaluation. Erste Revision 2016. Gesellschaft für Evaluation e. М. https://www.degeval.org/ degeval-standards/
Derzon, J. H., Sale, E., Springer, J. Е, & Brounstein, P. (2005). Estimating intervention effectiveness: Synthetic projection of field evaluation results. The Journal of Primary Prevention, 26(4), 321-343. https://doi.org/10.1007/s10935-005-5391-5
Donabedian, A. (1980). Explorations in quality assessment and monitoring: The definition of quality and approaches to its assessment. Health Administration Press.
Dôring, N., & Bortz, J. (2016). Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften (5. Aufl.). Springer.
Durlak, J. A., & DuPre, Е.Р. (2008). Implementation matters: A review of research on the influence of implementation on program outcomes and the factors affecting implementation. American Journal of Community Psychology, 41(3-4) 327-350. https://doi. org/10.1007/s10464-008-9165-0
Dusenbury, L., Brannigan, R., Falco, M., & Hansen, W. В. (2003). A review of research on fidelity of implementation: Implications for drug abuse prevention in school settings. Health Education Research, 18(2), 237-256. https://doi.org/10.1093/her/18.2.237
Eisner, M., Malti, T., Ribeaud, D., & Müller, B. (2012). Grof angelegte Feldversuche in der kriminologischen Präventionsforschung. In R. Strobl, O. Lobermeier, & W. Heitmeyer (Hrsg.), Evaluation von Programmen und Projekten für eine demokratische Kultur (S. 69-97). Springer VS.
Elliott, D.S., & Mihalic, S. (2004). Issues in disseminating and replicating effective prevention programs. Prevention Science: The Official Journal of the Society for Prevention Research, 5(1), 47-53. https://doi.org/10.1023/b:prev.0000013981.28071.52
Euler, D., & Sloane, P.F.E. (1998). Implementation als Problem der Modellversuchsforschung. Unterrichtswissenschaft, 26(4), 312-326. https://doi.org/10.25656/01:7777
Funnell, S.C., & Rogers, P.J. (2011). Purposeful program theory. Effective use of theories of change and logic models. Jossey-Bass.
Goense, P., Boendermaker, L., van Yperen, T., Stams, G.J., van Laar, J. (2014). Implementation of treatment integrity procedures. Zeitschrift fiir Psychologie, 222(1), 12-21. https:// doi.org/10.1027/2151-2604/a000161
Hager, W. (2000). Zur Wirksamkeit von Interventionsprogrammen: Allgemeine Kriterien der Wirksamkeit in einzelnen Untersuchungen. In W. Hager, J.L. Patry, & H. Brezing (Hrsg.), Evaluation psychologischer Interventionsmassnahmen (S. 153-168). Huber.
Hense, J. U., & Таш, S. (2021). Wie Wirkungsmodelle zur Wirkung kommen. Nutzungsvarianten, Mehrwert und Kosten ihrer Verwendung in der Evaluationspraxis. Zeitschrift fir Evaluation, 20(2), 267-292. https://doi.org/10.31244/zfe.2021.02.02
Hill, H.C., & Erickson, A. (2019). Using implementation fidelity to aid in interpreting program impacts: A brief review. Educational Researcher, 48(9), 590-598. https://doi. org/10.3102/0013189X19891436
Ibrahim, S., % Sidani, S. (2015). Fidelity of intervention implementation: A review of instruments. Health, 7(12), 1687-1695. https://doi.org/ 10/gtmr8w
Knill, C., 8% Tosun, J. (2022). Public policy: A new introduction (2. Aufl.). Bloomsbury Academic.
Lipsey, M. W. (1997). What can you build with thousands of bricks? Musings on the cumulation of knowledge in program evaluation. New Directions for Evaluation, 76, 7-23. https://doi.org/10.1002/ev.1084
Love, A.J. (2004). Implementation evaluation. In J.S. Wholey, H.P. Hatry, & К.Е. Newcomer (Hrsg.), Handbook of practical program evaluation (2. Aufl., S. 63-97). Jossey-Bass.
Martz, W. (2010). Validating an evaluation checklist using a mixed method design. Evaluation and Program Planning, 33(3), 215-222. https://doi.org/10.1016/j.evalprogplan. 2009.10.005
Mayntz, В. (Hrsg.). (1983). Implementation politischer Programme II: Ansätze zur Theoriebildung. Westdeutscher Verlag.
McLaughlin, J. A., & Jordan, С. В. (2015). Using logic models. In К.Е. Newcomer, H. P. Hatry, & J.S. Wholey (Hrsg.), Handbook of Practical Program Evaluation (5. Aufl., $. 6287). Jossey-Bass.
McLaughlin, M. W. (1987). Learning from experience: Lessons from policy implementation. Educational Evaluation and Policy Analysis, 9(2), 171-178. https://doi.org/10.3102 /01623737009002171
Melde, C., Esbensen, Е-А., & Tusinski, К. (2006). Addressing program fidelity using onsite observations and program provider descriptions of program delivery. Evaluation Review, 30(6), 714-740. https://doi.org/10.1177/0193841x06293412
Meyers, D. C., Katz, J., Chien, V., Wandersman, A., Scaccia, J. Р., & Wright, A. (2012). Practical implementation science: Developing and piloting the quality implementation tool. American Journal of Community Psychology, 50(3-4), 481-496. https://doi.org/10.1007/ s10464-012-9521-y
Meyers, M.K., & Nielsen, V.L. (2012). Street-level bureaucrats and the implementation of public policy. In В. С. Peters & J. Pierre (Hrsg.), The SAGE handbook of public administration (2. Aufl., S. 305-318). SAGE.
Moncher, Е J., & Prinz, R.J. (1991). Treatment fidelity in outcome studies. Clinical Psychology Review, 11(3), 247-266. https://doi.org/10.1016/0272-7358(91)90103-2
Mowbray, C.T., Holter, M.C., Teague, G.B., % Bybee, D. (2003). Fidelity criteria: Development, measurement, and validation. American Journal of Evaluation, 24(3), 315-340. https://doi.org/10.1177/109821400302400303
Nelson, J.R., Oliver, R.M., Hebert, M. A., & Bohaty, J. (2015). Use of self-monitoring to maintain program fidelity of multi-tiered interventions. Remedial and Special Education, 36(1), 14-19. https://doi.org/10.1177/0741932514544970
Noonan, R.K., Emshoff, J. G., Mooss, A., Armstrong, M., Weinberg, J., & Ball, В. (2009). Adoption, adaptation, and fidelity of implementation of sexual violence prevention programs. Health Promotion Practice, 10(1_suppl), 59-70. https://doi.org/10.1177/152 4839908329374
O'Donnell, C.L. (2008). Defining, conceptualizing, and measuring fidelity of implementation and its relationship to outcomes in k-12 curriculum intervention research. Review of Educational Research, 78(1), 33-84. https://doi.org/10.3102/0034654307313793
Ottoson, J.M. (2009). Knowledge-for-action theories in evaluation: Knowledge utilization, diffusion, implementation, transfer, and translation. New Directions for Evaluation, 124, 7-20. https://doi.org/10.1002/ev.310
Patton, М. ©. (2011). Developmental evaluation: Applying complexity concepts to enhance innovation and use. Guilford Press.
Pawson, R., & Tilley, N. (1997). Realistic Evaluation. SAGE Publications.
Pedhazur, Е. ]., & Schmelkin, L.P. (1991). Measurement, design, and analysis: An integrated approach. Lawrence Erlbaum Associates.
Petermann, E (2014). Implementationsforschung. Grundbegriffe und Konzepte. Psychologische Rundschau, 65(3), 122-128. https://doi.org/10/gtmr8x
Peterson, L., Homer, A.L., & Wonderlich, S. A. (1982). The integrity of independent variables in behavior analysis. Journal of Applied Behavior Analysis, 15(4), 477-492. https:// doi.org/10.1901/jaba.1982.15-477
Pressman, J. L., & Wildavsky, A.B. (1984). Implementation: How great expectations in Washington are dashed in Oakland: Or, why its amazing that federal programs work at all, this being a saga of the Economic Development Administration as told by two sympathetic observers who seek to build morals on a foundation of ruined hopes (3. Aufl.). University of California Press.
Roby, W.B. (2004). Technology in the service of foreign language learning: The case of the language laboratory. In D.H. Jonassen (Hrsg.), Handbook of research on educational communications and technology (S. 523-541). Lawrence Erlbaum.
Rost, J. (2000). Allgemeine Standards für die Evaluationsforschung. In W. Hager, J.L. Patry, & H. Brezing (Hrsg.), Evaluation psychologischer Interventionsmaf?nahmen (S. 129140). Huber.
Schoenwald, S.K., Garland, A.F., Chapman, J. E., Frazier, S. L., Sheidow, A.J., & SouthamGerow, M. A. (2011). Toward the effective and efficient measurement of implementation fidelity. Administration and Policy in Mental Health and Mental Health Services Research, 38(1), 32-43. https://doi.org/10.1007/s10488-010-0321-0
Schón, D. A. (1990). Educating the reflective practitioner: Toward a new design for teaching and learning in the professions. Jossey Bass.
Schulte, A. C., Easton, J.E., & Parker, J. (2009). Advances in treatment integrity research: Multidisciplinary perspectives on the conceptualization, measurement, and enhancement of treatment integrity. School Psychology Review, 38(4), 460-475. https://Www. scopus.com/record/display.uri?eid=2-s2.0-76749167972&origin=inward&txGid=75 77897724a583a00b10f.d65579bc094
Shadish, W.R., Cook, T.D., & Campbell, D. T. (2002). Experimental and quasi-experimental designs for generalized causal inference. Houghton Mifflin.
Spillane, J. P., Reiser, В. ]., & Reimer, T. (2002). Policy implementation and cognition: Reframing and refocusing implementation research. Review of Educational Research, 72(3), 387-431. https://doi.org/10.3102/00346543072003387
Stufflebeam, D.L. (2003). The CIPP model for evaluation. In T. Kellaghan & D.L. Stufflebeam (Hrsg.), International Handbook of Educational Evaluation (S. 31-62). Kluwer Academic Publishers.
United Way of America. (1996). Measuring program outcomes: A practical approach. United Way of America.
Webb, С. A., DeRubeis, R.J., & Barber, J.P. (2010). Therapist adherence; competence and treatment outcome: A meta-analytic review. Journal of Consulting and Clinical Psychology, 78(2), 200-211. https://doi.org/10.1037/a0018912
Weck, Е, Bohn, C., Ginzburg, D.M., & Stangier, U. (2011). Behandlungsintegritát: Implementierung, Messung, Evaluation und Zusammenhänge zum Therapieerfolg. Verhaltenstherapie, 21(2), 99-107. https://doi.org/10.1159/000328840
Weiss, С.Н. (1998). Evaluation: Methods for studying programs and policies (2. Aufl.). Prentice Hall.
Winter, S.C. (2012). Implementation perspectives: Status and reconsideration. In B.G. Peters & J. Pierre (Hrsg), The SAGE Handbook of Public Administration (S. 265-278). SAGE. W.K. Kellogg Foundation. (2004). Logic model development guide: Using logic models to bring together planning, evaluation, & action (Updated January 2004). W.K. Kellogg Foundation.
Zvoch, K. (2012). How Does Fidelity of Implementation Matter?: Using Multilevel Models to Detect Relationships Between Participant Outcomes and the Delivery and Receipt of Treatment. American Journal of Evaluation, 33(4), 547-565. https://doi.org/10.1177/ 1098214012452715