Problem Durumu: Yükseköğretimin temel amacının, öğrencileri, kendi mesleki uygulamaları üzerinde eleştirel düşünen, problem çözen, yansıtıcı uygulayıcılar haline getirmelerine destek vermeye yöneldiği açıktır (Falchikov & Goldfinch, 2000; Kwan & Leung, 1996). Bireylerin bu becerileri kazanması ve geliştirmesi öğretim programlarının da odak noktası haline gelmiştir. Dolayısıyla öğretim programlarının belirtilen bu becerileri izlemesi ve değerlendirmesi söz konusudur. Bu amaç için uygulanan klasik ölçme araçları sözü edilen özelliklerin ölçülmesinde yetersiz kalmaktadır. Bu yeni anlayış öğrenme sürecinin de değerlendirilmeye öğrencilerin katılmasını önemli görmektedir. Bu durum ise yeni değerlendirme yaklaşımlarının kullanılmasını ön plana çıkarmıştır (Bushell, 2006; Dochy, 2001; Falchikov ve Goldfinch, 2000). Öğrencilerin öğrenmelerinde, sorumluluklarını almaları için öz değerlendirme ve akran değerlendirme önemli değerlendirme yaklaşımları olarak görülmekte ve bu değerlendirmelerin kullanılarak öğrencilerin öğretime aktif olarak katılmalarının teşvik edilmesi önerilmektedir. Öğretimde öz ve akran değerlendirmelerinin kullanılması önemi yadsınamayacak bir yarar sağlamaktadır. Çünkü değerlendiricilerin sayısı arttıkça, öğrenciye ilişkin daha fazla resim elde ederek onu çok yönlü tanımak mümkün olabilecektir. Başka bir deyişle öğrenciler, tek bir öğretim elemanının klasik değerlendirme yöntemlerinden daha fazla değerlendirebileceği ölçüde, yaptıkları çalışmaların kalitesi hakkında çok yönlü bir geribildirime sahip olurlar (Millar, 2003). Öğretim sürecinde öz ve akran değerlendirme yöntemleri kullanıldığında en önemli sorun, bu kaynaklardan elde edilen puanların güvenirliği ve bu puanlara dayalı yapılan çıkarımların geçerliği olarak görülmektedir (Donnon, Mcllwrick ve Wololoschuk, 2013). Öğrencinin performansını etkileyen puanlayıcı kaynaklı faktörler puanlayıcı davranışları olarak adlandırılmaktadır (Farrokhi, Esfandiari ve Vaez Dalili, 2011). Bu bağlamda mevcut çalışmanın problem durumu, öz ve akran değerlendirmede hangi puanlayıcı davranışlarının ortaya çıktığı şeklinde belirlenmiştir.Araştırmanın Amacı: Bu çalışmanın amacı, üniversite öğrencilerinin öz ve akran puanlama sürecinde hangi puanlayıcı davranışlarını sergilediklerini çok yüzeyli Rasch ölçme modeli aracılığıyla belirlemektir.Araştırmanın Yöntemi: Araştırma öğretmen adaylarının hazırlamış oldukları araştırma önerilerinin puanlanması sürecinde göstermiş oldukları puanlayıcı davranışlarının ortaya çıkarılmasını hedeflediği için var olan bir durumun betimlenmesinden dolayı betimsel türden bir nicel araştırma özelliği göstermektedir. Araştırmanın katılımcıları 2017-2018 eğitim ve öğretim yılında Ankara ilindeki bir vakıf üniversitenin eğitim fakültesi Rehberlik ve psikolojik danışmanlık programında yer alan bilimsel araştırma yöntemleri dersini alan öğrenciler arasından, çalışma kapsamında gönüllü olarak katılan 58 kişiden oluşmaktadır. Araştırma kapsamındaki veriler, araştırmacılar tarafından geliştirilen analitik dereceli puanlama anahtarı (ADPA) ile toplanmıştır. ADPA, herhangi bir bilimsel araştırma önerisini değerlendirmek amacıyla geliştirilmiştir. Öncelikle taslak olarak geliştirilen ölçme aracına yönelik olarak uzman görüşleri alınmıştır. Görüş ve öneriler doğrultusunda ölçme aracının son şekli verilmiştir. Buna göre, ölçme aracının ölçütleri; problem durumunun belirlenmesi, yöntem, bulgular ve sonuç/yorum olarak belirlenmiştir. ADPA’nın her bir ölçütü dörtlü bir derecelendirme (oldukça yetersiz “0”, oldukça yeterli “3” ) kullanılarak puanlanmıştır. ADPA’dan elde edilen ölçümlerin geçerliği için AFA’i güvenirliği için ise McDonald ω katsayısı kullanılmıştır. Araştırmadaki verilerin analizinde; çok yüzeyli Rasch ölçme modeli kullanılmıştır. Analizler FACETS palet programı kullanılarak yapılmıştır. Analizinin bazı varsayımları bulunmaktadır. Bu varsayımların karşılanması analiz sonuçlarına dayalı yapılan çıkarımların geçerliğine hizmet etmektedir. İlk varsayım olarak tek boyutluluk incelenmiş olup veri toplama araçları kısmında ölçme aracının tek boyutluluğa sahip olduğu görülmüştür. Tek boyutluluğun sağlanması yerel bağımsızlığın da karşılandığının bir göstergesi olarak ele alınmış olup yerel bağımsızlık için herhangi bir işlem yapılmamıştır. Son olarak model veri uyumu incelenmiştir. Model veri uyumu için ±2 aralığının dışında kalan standartlaştırılmış artık değerlerin sayısı toplam gözlem sayısının %5’inden fazla olmaması ve ±3 aralığının dışında kalan standartlaştırılmış artık değerlerin de toplam veri sayısının %1’inden fazla olmaması gerektiği belirtilmiştir (Linacre, 2017). Bu çalışmada toplam gözlem sayısı 2784 (58 x 12 x 4) olup, ±2 aralığının dışında kalan standartlaştırılmış artık değerlerin sayısı 116 (%4.17) ve ±3 aralığının dışında kalan standartlaştırılmış artık değerlerin sayısı ise 28 (%1.ff01) olduğundan mevcut çalışma için model veri uyumunun sağlandığı görülmektedir., Purpose: When self and peer assessment methods become commonly used in the teaching process, the most important problem turns out to be the reliability of the ratings acquired from these sources. Increasing the rater reliability has great importance in the performance evaluation for the reliability of the measurement. This study aimed to determine rater behaviors university students display in the process of self and peer assessment. The research was based on a descriptive model. The participants were 58 students at the Guidance and Psychological Counseling Program in 2017-2018 academic year at a foundation university in Ankara.Findings: Many Facet Rasch Model (MFRM) analysis was applied, and no statistically significant difference of raters’ severity and leniency behaviors in the ratings was observed in terms of gender, but there was a statistically significant difference based on the rater types (self and peer). The raters seemed to be more lenient in self-assessments. The study also showed that while raters showed central tendency behavior on individual level, they did not show such tendency at the group level. It was concluded that individuals’ ratings are more biased than group ratings when they evaluate group performance.Implications for Research and Practice: Some of the raters had differentiating rating behaviors based on the groups. The teacher candidates made systematic mistakes in the performance evaluation process and showed behaviors that had negative effect on the validity of the rating. It is important for the raters to conduct studies to reduce the scoring bias of the raters.