Der Beitrag beschäftigt sich mit dem Thema leistungsangemessener Benotung durch Lehrkräfte am Ende der 4. Schulstufe der österreichischen Volksschule anhand einer mehrebenenanalytischen Betrachtung von Effekten der Leistungszusammensetzung von Klassen auf individuelle Noten. Die Analysen erfolgten mit Daten aus der 2013 vom Bundesinstitut für Bildungsforschung, Innovation und Entwicklung des österreichischen Schulwesens (BIFIE) durchgeführten Bildungsstandardüberprüfung Mathematik 4 (N = 73.655). Neben der individuellen Testleistung und der Leistungszusammensetzung der Klasse wurden das Geschlecht, der sozioökonomische Status (SES) und der Migrationshintergrund der Schüler/innen berücksichtigt. Insgesamt ergab sich ein mittels logistischer Regressionen berechneter Zusammenhang zwischen Testleistung und Note von über 0,60. Demnach gelingt es Lehrkräften über Klassen und Schulen hinweg recht gut, die Leistungsrangfolge von Primarstufenschüler/inne/n mit Noten abzubilden. Darüber hinaus zeigten sich aber auch Referenzgruppeneffekte sowie eine weniger leistungsadäquate Benotungen von besonders leistungsschwachen und besonders leistungsstarken Schüler/inne/n. Zudem fanden sich positive Abweichungen der Noten von den Testleistungen bei Schüler/inne/n aus Elternhäusern mit höherem SES und negative bei jenen mit Migrationshintergrund (nur innerhalb von Klassen). Keine systematischen Abweichungen der Noten von den Testleistungen ergaben sich in Abhängigkeit vom Geschlecht. (DIPF/Orig.), This article addresses the issue of performance-appropriate marks for pupils in Austrian elementary schools at the end of fourth grade, based upon a multilevel analysis including the effect of the performance composition of classes on individual marks. The analyses were performed using data from the 2013 Learning Standards Assessment Mathematics 4 (N = 73,655) conducted by the Federal Institute for Educational Research, Innovation and Development of the Austrian School System (BIFIE). In addition to individual test performance and the performance composition of classes, gender, socio-economic status (SES), and the immigrant backgrounds of pupils were taken into account. Overall, logistic regressions reveal a relationship higher 0,60 between test performance and marks. This means that teachers were fairly successful in matching the performance rankings of primary school pupils with marks across classes and schools. However, the results also indicate the less-than-adequate evaluation of particularly low-performing and highperforming students. In addition, a positive deviation of marks compared to test performance was found for students from families with higher SES, and a negative deviation for students with immigrant backgrounds (within classes only). No systematic deviation of marks compared to test performance was found in relation to gender. (DIPF/Orig.)