Sabtu, 09 April 2016

Makalah Evaluasi


Pengertian Kata operasional, validitas, dan realibilitas,

 Taraf kesukaran test dan analisis daya pembeda.



A.    Kata Kerja Operasional
Komponen penting dalam silabus maupun RPP adalah indikator pencapaian kompetensi. Komponen ini penting karena menjadi dasar untuk menyusun indikator penilaian. Indikator penilaian perlu dirumuskan untuk dijadikan dasar pedoman penialian bagi guru, peserta didik, maupun pengawas di sekolah. Setiap penilaian yang dilakukan melalui tes dan non tes harus sesuai dengan indikator penilaian. Indikator penilaian ini menggunakan kata kerja lebih terukur dibandingkan dengan indikator pencapaian kompetensi. Rumusan indikator penilaian memiliki batasan-batasan tertentu sehingga dapat dikembangkan menjadi instrumen penilaian dalam bentuk soal, lembar pengamatan, dan atau penilaian hasil karya atau produk, termasuk penilaian diri.
Kata Kerja Operasional untuk pengembangan Indikator Silabus dan RPP berdasarkan taksonomi Bloom dibagi dalam beberapa pencapaian kompetensi dasar, yang ditandai oleh perubahan perilaku yang dapat diukur yang mencakup sikap, pengetahuan, dan keterampilan. Indikator dikembangkan sesuai dengan karakteristik peserta didik, mata pelajaran, satuan pendidikan, potensi daerah dan dirumuskan dalam kata kerja operasional yang terukur dan/atau dapat diobservasi.
Taksonomi Bloom pertama kali disusun oleh Benjamin S. Bloom pada tahun 1956. Dalam hal ini, tujuan pendidikan dibagi menjadi beberapa domain dan setiap domain tersebut dibagi kembali ke dalam pembagian yang lebih rinci berdasarkan hirarkinya. Tujuan pendidikan dibagi ke dalam tiga domain, yaitu:
1.      Cognitive Domain (Ranah Kognitif), yang berisi perilaku-perilaku yang menekankan aspek intelektual, seperti pengetahuan, pengertian, dan keterampilan berpikir.
2.       Affective Domain (Ranah Afektif) berisi perilaku-perilaku yang menekankan aspek perasaan dan emosi, seperti minat, sikap, apresiasi, dan cara penyesuaian diri.
3.      Psychomotor Domain (Ranah Psikomotor) berisi perilaku-perilaku yang menekankan aspek keterampilan motorik seperti tulisan tangan, mengetik, berenang, dan mengoperasikan mesin.
Dalam mengembangkan indikator perlu mempertimbangkan:
·         Tuntutan kompetensi yang dapat dilihat melalui kata kerja yang digunakan dalam     Kompetensi Dasar
·          Karakteristik mata pelajaran, peserta didik, dan sekolah;
·          Potensi dan kebutuhan peserta didik, masyarakat, dan lingkungan/ daerah.
Daftar kata kerja operasional dengan tiga ranah yang biasa dipergunakan untuk menyusun indikator:
1.      Ranah Kognitif (Ranah proses berfikir)
Koginitif adalah penilaian yang didasarkan pada perilaku (behavior) siswa yang diharapkan muncul setelah melakukan serangkaian kegiatan untuk mencapai kompetensi yang diharapkan. Perilaku ini sejalan dengan keterampilan proses sains, tetapi yang karakteristiknya untuk mengembangkan kemampuan berfikir siswa. Indikator kognitif produk berkaitan dengan perilaku siswa yang diharapkan tumbuh untuk mencapai kompetensi yang telah ditetapkan.
Ciri-ciri ranah kognitif adalah:
Aspek kognitif berhubungan dengan kemampuan berfikir termasuk di dalamnya kemampuan memahami, menghafal, mengaplikasi, menganalisis, mensistesis dan kemampuan mengevaluasi. Menurut Taksonomi Bloom (Sax 1980), kemampuan kognitif adalah kemampuan berfikir secara hirarki yang terdiri dari pengetahuan, pemahaman, aplikasi, analisis, sintesis dan evaluasi.
Tujuan aspek kognitif berorientasi pada kemampuan berfikir yang mencakup kemampuan intelektual yang lebih sederhana, yaitu mengingat, sampai pada kemampuan memecahkan masalah yang menuntut siswa untuk menghubungkan dan menggabungkan beberapa ide, gagasan, metode atau prosedur yang dipelajari untuk memecahkan masalah tersebut. Dengan demikian aspek kognitif adalah sub-taksonomi yang mengungkapkan tentang kegiatan mental yang sering berawal dari tingkat pengetahuan sampai ke tingkat yang paling tinggi yaitu evaluasi.


Dalam ranah kognitif itu terdapat enam aspek atau jenjang proses berfikir, mulai dari jenjang terendah sampai dengan jenjang yang paling tinggi. Keenam jenjang atau aspek yang dimaksud adalah:
a)      Pengetahuan / hafalan / ingatan (knowledge)
Adalah kemampuan seseorang untuk mengingat-ingat kembali (recall) atau mengenali kembali tentang nama, istilah, ide, rumus-rumus, dan sebagainya, tanpa mengharapkan kemampuan untuk menggunkannya. Pengetahuan atau ingatan adalah merupakan proses berfikir yang paling rendah.
b)      Pemahaman (comprehension)
Adalah kemampuan seseorang untuk mengerti atau memahami sesuatu setelah sesuatu itu diketahui dan diingat. Dengan kata lain, memahami adalah mengetahui tentang sesuatu dan dapat melihatnya dari berbagai segi.  Seseorang peserta didik dikatakan memahami sesuatu apabila ia dapat memberikan penjelasan atau memberi uraian yang lebih rinci tentang hal itu dengan menggunakan kata-katanya sendiri. Pemahaman merupakan jenjang kemampuan berfikir yang setingkat lebih tinggi dari ingatan atau hafalan.
c)      Penerapan (application)
Adalah kesanggupan seseorang untuk menerapkan atau menggunakan ide-ide umum, tata cara ataupun metode-metode, prinsip-prinsip, rumus-rumus, teori-teori dan sebagainya, dalam situasi yang baru dan kongkret. Penerapan ini adalah merupakan proses berfikir setingkat lebih tinggi ketimbang pemahaman.Salah satu contoh hasil belajar kognitif jenjang penerapan misalnya: Peserta didik mampu memikirkan tentang penerapan konsep kedisiplinan yang diajarkan Islam dalam kehidupan sehari-hari baik dilingkungan keluarga, sekolah, maupun masyarakat.
d)     Analisis (analysis)
Adalah kemampuan seseorang untuk merinci atau menguraikan suatu bahan atau keadaan menurut bagian-bagian yang lebih kecil dan mampu memahami hubungan di antara bagian-bagian atau faktor-faktor yang satu dengan faktor-faktor lainnya. Jenjang analisis adalah setingkat lebih tinggi ketimbang jenjang aplikasi.
Contoh: Peserta didik dapat merenung dan memikirkan dengan baik tentang wujud nyata dari kedisiplinan seorang siswa dirumah, disekolah, dan dalam kehidupan sehari-hari di tengah-tengah masyarakat, sebagai bagian dari ajaran Islam.
e)      Sintesis (syntesis)
Adalah kemampuan berfikir yang merupakan kebalikan dari proses berfikir analisis. Sisntesis merupakan suatu proses yang memadukan bagian-bagian atau unsur-unsur secara logis, sehingga menjelma menjadi suatu pola yang yang berstruktur atau bebrbentuk pola baru. Jenjang sintesis kedudukannya setingkat lebih tinggi daripada jenjang analisis. Salah satu jasil belajar kognitif dari jenjang sintesis ini adalah: peserta didik dapat menulis karangan tentang pentingnya kedisiplinan sebagiamana telah diajarkan oleh islam.

f)       Penilaian/penghargaan/evaluasi (evaluation)
Adalah merupakan jenjang berpikir paling tinggi dalam ranah kognitif dalam taksonomi Bloom. Penilian/evaluasi disini merupakan kemampuan seseorang untuk membuat pertimbangan terhadap suatu kondisi, nilai atau ide, misalkan jika seseorang dihadapkan pada beberapa pilihan maka ia akan mampu memilih satu pilihan yang terbaik sesuai dengan patokan-patokan atau kriteria yang ada.
Tujuan aspek kognitif berorientasi pada kemampuan berfikir yang mencakup kemampuan intelektual yang lebih sederhana, yaitu mengingat, sampai pada kemampuan memecahkan masalah yang menuntut siswa untuk menghubungkan dan menggabungkan beberapa ide, gagasan, metode atau prosedur yang dipelajari untuk memecahkan masalah tersebut.
Dengan demikian aspek kognitif adalah sub-taksonomi yang mengungkapkan tentang kegiatan mental yang sering berawal dari tingkat pengetahuan sampai ke tingkat yang paling tinggi yaitu evaluasi.
2.      Ranah Afektif (Ranah nilai atau sikap)
Indikator afektif merupakan sikap yang diharapkan saat dan setelah siswa melakukan serangkaian kegiatan pembelajaran. Indicator afektif disusun dengan menggunakan kata kerja operasional dengan objek sikap ilmiah. Beberapa contoh sikap ilmiah adalah: berlaku jujur, peduli, tanggungjawab, dll. Selain itu, indikator Afektif juga perlu memunculkan keterampilan sosial misalnya: bertanya, menyumbang ide atau berpendapat, menjadi pendengar yang baik, berkomunikasi dll.
Lima tipe karakteristik afektif yang penting berdasarkan tujuannya, yaitu:
a)      Sikap
Sikap merupakan suatu kencendrungan untuk bertindak secara suka atau tidak suka terhadap suatu objek. Sikap dapat dibentuk melalui cara mengamati dan menirukan sesuatu yang positif, kemudian melalui penguatan serta menerima informasi verbal. Perubahan sikap dapat diamati dalam proses pembelajaran, tujuan yang ingin dicapai, keteguhan, dan konsistensi terhadap sesuatu. Penilaian sikap adalah penilaian yang dilakukan untuk mengetahui sikap peserta didik terhadap mata pelajaran, kondisi pembelajaran, pendidik, dan sebagainya.
b)      Minat
Menurut Getzel (1966), minat adalah suatu disposisi yang terorganisir melalui pengalaman yang mendorong seseorang untuk memperoleh objek khusus, aktivitas, pemahaman, dan keterampilan untuk tujuan perhatian atau pencapaian. Sedangkan menurut kamus besar bahasa Indonesia (1990: 583), minat atau keinginan adalah kecenderungan hati yang tinggi terhadap sesuatu. Hal penting pada minat adalah intensitasnya.
c)      Konsep Diri
Menurut Smith, konsep diri adalah evaluasi yang dilakukan individu terhadap kemampuan dan kelemahan yang dimiliki. Target, arah, dan intensitas konsep diri pada dasarnya seperti ranah afektif yang lain. Target konsep diri biasanya orang tetapi bisa juga institusi seperti sekolah. Arah konsep diri bisa positif atau negatif, dan intensitasnya bisa dinyatakan dalam suatu daerah kontinum, yaitu mulai dari rendah sampai tinggi.
d)     Nilai
Nilai menurut Rokeach (1968) merupakan suatu keyakinan tentang perbuatan, tindakan, atau perilaku yang dianggap baik dan yang dianggap buruk. Selanjutnya dijelaskan bahwa sikap mengacu pada suatu organisasi sejumlah keyakinan sekitar objek spesifik atau situasi, sedangkan nilai mengacu pada keyakinan.
e)      Moral
Piaget dan Kohlberg banyak membahas tentang per-kembangan moral anak. Namun Kohlberg mengabaikan masalah hubungan antara judgement moral dan tindakan moral. Ia hanya mempelajari prinsip moral seseorang melalui penafsiran respon verbal terhadap dilema hipotetikal atau dugaan, bukan pada bagaimana sesungguhnya seseorang bertindak.

3.      Ranah Psikomotor (Ranah keterampilan)
Indikator psikomotorik merupakan perilaku (behavior) siswa yang diharapkan tampak setelah siswa mengikuti pembelajaran untuk mencapai kompetensi yang telah ditetapkan.
Ada beberapa ahli yang menjelaskan cara menilai hasil belajar psikomotor. Ryan (1980) menjelaskan bahwa hasil belajar keterampilan dapat diukur melalui
a.       pengamatan langsung dan penilaian tingkah laku peserta didik selama proses pembelajaran praktik berlangsung,
b.       sesudah mengikuti pembelajaran, yaitu dengan jalan memberikan tes kepada peserta didik untuk mengukur pengetahuan, keterampilan, dan sikap,
c.       beberapa waktu sesudah pembelajaran selesai dan kelak dalam lingkungan kerjanya.
Sementara itu Leighbody (1968) berpendapat bahwa penilaian hasil belajar psikomotor mencakup:
a.       kemampuan menggunakan alat dan sikap kerja,
b.       kemampuan menganalisis suatu pekerjaan dan menyusun urut-urutan pengerjaan,
c.        kecepatan mengerjakan tugas,
d.       kemampuan membaca gambar dan atau simbol,
e.        keserasian bentuk dengan yang diharapkan dan atau ukuran yang telah ditentukan.
B.     Validitas
1.      Pengertian validitas
Menurut Azwar (1986) Validitas berasal dari kata validity yang mempunyai arti sejauh mana ketepatan dan kecermatan suatu alat ukur dalam melakukan fungsi ukurnya. Suatu skala atau instrumen pengukur dapat dikatakan mempunyai validitas yang tinggi apabila instrumen tersebut menjalankan fungsi ukurnya, atau memberikan hasil ukur yang sesuai dengan maksud dilakukannya pengukuran tersebut. Sedangkan tes yang memiliki validitas rendah akan menghasilkan data yang tidak relevan dengan tujuan pengukuran.
Menurut Masri Singarimbun, validitas menunjukkan sejauh mana suatu alat pengukur itu mengukur apa yang ingin diukur. Bila seseorang ingin mengukur berat suatu benda, maka dia harus menggunakan timbangan. Timbangan adalah alat pengukur yang valid bila dipakai untuk mengukur berat, karena timbangan memang mengukur berat. Bila panjang sesuatu benda yang ingin diukur, maka dia harus menggunakan meteran. Meteran adalah alat pengukur yang valid bila digunakan untuk mengukur panjang, karena memang meteran mengukur panjang. Tetapi timbangan bukanlah alat pengukur yang valid bilamana digunakan untuk mengukur panjang.
2.      Jenis-jenis validitas
Ebel (dalam Nazirz 1988) membagi validitas menjadi :
a.       Concurrent Validity (validitas konkuren) adalah validitas yang berkenaan dengan hubungan antara skor dengan kinerja.
b.       Empirical Validity (validitas empiris) adalah validitas yang berkenaan dengan hubungan antara skor dengan suatu kriteria. Kriteria tersebut adalah ukuran yang bebas dan langsung dengan apa yang ingin diramalkan oleh pengukuran.
c.        Intrinsic Validity (validitas intrinsik) adalah validitas yang berkenaan dengan penggunaan teknik uji coba untuk memperoleh bukti kuantitatif dan objektif untuk mendukung bhwa suatu alat ukur benar-benar mengukur apa yang seharusny diukur.
Selanjutnya, jenis validitas menurut  Saifuddin Azwar, yaitu:
·         Face Validity (Validitas Muka) adalah tipe validitas yang paling rendah signifikansinya karena hanya didasarkan pada penilaian selintas mengenai isi alat ukur. Apabila isi alat ukur telah tampak sesuai dengan apa yang ingin diukur maka dapat dikatakan maka validitas muka telah terpenuhi.
·         Logical Validity (Validitas Logis) disebut juga sebagai Validitas Sampling (Sampling Validity) adalah validitas yang menunjuk pada sejauh mana isi alat ukur merupakan representasi dari aspek yang hendak diukur.
Validitas logis sangat penting peranannya dalam penyusunan prestasi dan penyusunan skala, yaitu dengan memanfaatkan blue-print atu table spesifikasi.


C.    Reliabilitas
1.       Pengertian Reliabilitas
Menurut Masri Singarimbun, realibilitas adalah indeks yang menunjukkan sejauh mana suatu alat ukur dapat dipercaya atau dapat diandalkan. Bila suatu alat pengukur dipakai dua kali – untuk mengukur gejala yang sama dan hasil pengukuran yang diperoleh relative konsisten, maka alat pengukur tersebut reliable. Dengan kata lain, realibitas menunjukkan konsistensi suatu alat pengukur di dalam pengukur gejala yang sama.
Dengan demikian,  sebuah alat ukur dapat dilihat dari dua petunjuk yaitu kesalahan baku pengukuran dan koefisien reliabilitas. Kedua statistik tersebut masing-masing memiliki kelebihan dan keterbatasan (Feldt & Brennan, 1989: 105)
Reliabilitas adalah konsistensi dari serangkaian pengukuran atau serangkaian alat ukur
Reliabilitas tidak sama dengan validitas. Artinya pengukuran yang dapat diandalkan akan mengukur secara konsisten, tapi belum tentu mengukur apa yang seharusnya di ukur. Dalam penelitian, reliabilitas adalah sejauh mana pengukuran dari suatu tes tetap konsisten setelah dilakukan berulang-ulang terhadap subjek dan dalam kondisi yang sama. Penelitian dianggap dapat diandalkan bila memberikan hasil yang konsisten untuk pengukuran yang sama. Tidak bisa diandalkan bila pengukuran yang berulang itu memberikan hasil yang berbeda-beda.
Dalam kerangka teori tes klasik, suatu tes dapat dikatakan memiliki reliabilitas yang tinggi apabila skor tampak tes tersebut berkorelasi tinggi dengan skor murninya sendiri. Interpretasi lainnya adalah seberapa tinggi korelasi antara skor tampak pada dua tes yang pararel. (Saifuddin Azwar, 2006: 29). Reliabilitas menurut Ross E. Traub (1994: 38) dapat didefinisikan sebagai rasio antara varian skor murni dan varian skor tampak Secara matematis teori di atas dapat ditulis.
Reliabilitas alat ukur tidak dapat diketahui dengan pasti tetapi dapat diperkirakan. Dalam mengestimasi reliabilitas alat ukur, ada tiga cara yang sering digunakan yaitu
a)      pendekatan tes ulang,
b)      pendekatan dengan tes pararel,
c)      pendekatan satu kali pengukuran.
Pendekatan tes ulang merupakan pemberian perangkat tes yang sama terhadap sekelompok subjek sebanyak dua kali dengan selang waktu yang berbeda. Asumsinya adalah bahwa skor yang dihasilkan oleh tes yang sama akan menghasilkan skor tampak yang relatif sama. Estimasi dengan pendekatan tes ulang akan menghasilkan koefisien stabilitas. Untuk memperoleh koefisien reliabilitas melalui pendekatan tes ulang dapat dilakukan dengan menghitung koefisien korelasi linear antara distribusi skor subyek pada pemberian tes pertama dengan skor subyek pada pemberian tes kedua. Pendekatan tes ulang sangat sesuai untuk mengukur ketrampilan terutama ketrampilan fisik.


Misalnya seorang guru hendak melihat reliabilitas tes yang telah dibuatnya. Setelah melakukan dua kali pengukuran didapatkan skor tes sebagai berikut: Koefisien reliabilitas test di atas dapat dihitung dengan menggunakan formula korelasi produk momen dari Pearson sebagai berikut: 

2.      Jenis-jenis Reliabilitas
Walizer (1987) menyebutkan bahwa ada dua cara umum untuk mengukur     reliabilitas, yaitu:
a)      Relibilitas stabilitas. Menyangkut usaha memperoleh nilai yang sama atau serupa untuk setiap orang atau setiap unit yang diukur setiap saat anda mengukurnya. Reliabilitas ini menyangkut penggunaan indicator yang sama, definisi operasional, dan prosedur pengumpulan data setiap saat, dan mengukurnya pada waktu yang berbeda. Untuk dapat memperoleh reliabilitas stabilitas setiap kali unit diukur skornya haruslah sama atau hampir sama.
b)      Reliabilitas ekivalen. Menyangkut usaha memperoleh nilai relatif yang sama dengan jenis ukuran yang berbeda pada waktu yang sama. Definisi konseptual yang dipakai sama tetapi dengan satu atau lebih indicator yang berbeda, batasan-batasan operasional, paeralatan pengumpulan data, atau pengamat-pengamat.
Menguji reliabilitas dengan menggunakan ukuran ekivalen pada waktu yang sama biasanya menempuh beberapa bentuk. Bentuk yang paling umum disebut teknik belah-tengah. Cara ini seringkali dipakai dalam survai. Apabila satu rangkaian pertanyaan yang mengukur satu variable dimasukkan dalam kuesioner, maka pertanyaan-pertanyaan tersebut dibagi dua bagian persis lewat cara tertentu. (Pengacakan atau pengubahan sering digunakan untuk teknik belah tengah ini.) Hasil masing-masing bagian pertanyaan diringkas ke dalam skor, lalu skor masing-masing bagian tersebut dibandingkan. Apabila kedua skor itu relatif sama, dicapailah reliabilitas belah tengah.
Reliabilitas ekivalen dapat juga diukur dengan menggunakan teknik pengukuan yang berbeda. Kecemasan misalnya, telah diukur dengan laporan pulsa. Skor-skor relatif dari satu indikator macam ini haruslah sesuai dengan skor yang lain. Jadi bila seorang subyek nampak cemas pada ”ukuran gelisah” orang tersebut haruslah menunjukkan tingkatan kecermatan relatif yang sama bila tekanan darahnya yang diukur.

3.      Metode pengujian reliabilitas
Tiga tehnik pengujian realibilitas instrument antara lain :
a)      Teknik Paralel (Paralel Form atau Alternate Form)
Teknik paralel disebut juga tenik ”double test double trial”. Sejak awal peneliti harus sudah menyusun dua perangkat instrument yang parallel (ekuivalen), yaitu dua buah instrument yang disusun berdasarkan satu buah kisi-kisi. Setiap butir soal dari instrument yang satu selalu harus dapat dicarikan pasangannya dari instrumen kedua. Kedua instrumen tersebut diujicobakan semua. Sesudah kedua uji coba terlaksana, maka hasil instrumen tersebut dihitung korelasinya dengan menggunakan rumus product moment (korelasi Pearson).
b)      Teknik Ulang (Test Re-test)
Disebut juga teknik ”single test double trial”. Menggunakan sebuah instrument, namun dites dua kali. Hasil atau skor pertama dan kedua kemudian dikorelasikan untuk mengetahui besarnya indeks reliabilitas.Teknik perhitungan yang digunakan sama dengan yang digunakan pada teknik pertama yaitu rumus korelasi Pearson.
 Menurut Saifuddin Azwar, realibilitas tes-retest adalah seberapa besat derajat skor tes konsisten dari waktu ke waktu. Realibilitas diukur dengan menentukan hubungan antara skor hasil penyajian tes yang sama kepada kelompok yang sama, pada waktu yang berbeda.
 Metode pengujian reliabilitas stabilitas yang paling umum dipakai adalah metode pengujian tes-kembali (test-retest). Metode test-retest menggunakan ukuran atau “test” yang sama untuk variable tertentu pada satu saat pengukuran yang diulang lagi pada saat yang lain. Cara lain untuk menunjukkan reliabilitas stabilitas, bila kita menggunakan survai, adalah memasukkan pertanyaan yang sama di dua bagian yang berbeda dari kuesioner atau wawancara. Misalnya the Minnesota Multiphasic Personality Inventory (MPPI) mengecek reliabilitas test-retest dalam satu kuesionernya dengan mengulang pertanyaan tertentu di bagian-bagian yang berbeda dari kuesioner yang panjang.
c)      Teknik Belah Dua (Split Halve Method)
Disebut juga tenik “single test single trial”. Peneliti boleh hanya memiliki seperangkat instrument saja dan hanya diuji cobakan satu kali, kemudian hasilnya dianalisis, yaitu dengan cara membelah seluruh instrument menjadi dua sama besar. Cara yang diambil untuk membelah soal bisa dengan membelah atas dasar nomor ganjil-genap, atas dasar nomor awal-akhir, dan dengan cara undian.
 Ada beberapa sumber ketidakandalan (unreliability), beberapa di antaranya telah dituangkan. Satu sumber ketidakandalan yang terbesar adalah ketidaksahihan (invalidity). Berikut ini adalah daftar periksa (check list) sumber-sumber yang menyebabkannya (Walizer ,1987) :
1)      Orang atau unit yang diukur mungkin telah berubah sejak pengukuran pertama dan kedua. (Tentu saja perubahan dalam skor, haruslah ditafsirkan bukan sebagai ketidakandalan.)
2)      Selama wawancara unit yang sedang diukur berubah, karena:
a.       Pewawancara memperoleh pengalaman
b.       Kelelahan pewawancara
c.        Subyek mengalami hal-hal yang menyebabkan penafsiran mereka terhadap pertanyaan-pertanyaan berubah (sebagai kebalikan dari perubahan seharusnya dari apa yang sedang diukur).
d.       Kesalahan-kesalahan diperbuat.
3)      Aspek situasi tempat pengukuran berlangsung mungkin berubah sejak pengukuran pertama dan yang kedua. Hal-hal seperti waktu (pagi, siang, sore), tempat berlangsungnya pengukuran, orang-orang yang berada dekat di sekitar yang mungkin mempengaruhi respon mereka dan sebagainya mungkin berbeda.
4)      Pertanyaan-pertanyaan mungkin mendua artinya, sehingga ditafsirkan secara berbeda pada saat pengisian kuesioner yang berbeda.
5)       Pengkode dan/atau pengamat mungkin membuat penafsiran sendiri-sendiri.
6)      Apa yang nampak sebagai satu teknik ekivalen sebenarnya tidaklah demikian karena pemilihan pembandingan yang kurang baik.
7)      Terjadi kekeliruan dalam mencatat hasil pengamatan atau memberi kode-kodenya.
8)      Atau mungkin kombinasi penyebab-penyebab terdahulu.

D.    Taraf kesukaran tes
Asumsi yang digunakan untuk memperoleh kwalitas yang baik, disamping memenuhi validitas dan reliabilitas adalah daya keseimbangan dari tingkat kesulitan soal tersebut. Keseimbangan yang dimaksutkan adalah adanya soal-soal yang termasuk mudah sedang dan sukar secara porposional. Tingkat kesukaran soal dipandang dari kesanggupan atau kemampuan siswa dalam menjawabnya, bukan dilihat dari segi guru dalam melakukan analisis pembuat soal.
Ada beberapa dasar pertimbangan dalam menentukan proporsi jumlah soal kategori mudah, sedang, dan sukar.
Pertimbangan pertama adalah adanya keseimbangan, yakni jumlah soal sama untuk ke tiga kategori tersebut. dan ke dua proposi jumlah soal untuk ke tiga kategori tersebut artinya sebagian besar soal berada dalam kategori sedang sebagian lagi termasuk kategori mudah dan sukar dengan proporsi yang seimbang.
Perbandingan antara soal mudah sedang sukar bisa di buat 3-4-3. Artinya, 30% soal kategori mudah 40% soal kategori sedang dan 30% lagi soal kategori sukar. Di samping itu oleh karena suatu tes dimaksutkan untuk memisahkan antara murid-murid yang betul-betul mempelajari suatu pelajaran dengan murid-murid yang tidak mempelajari pelajaran itu, maka tes atau item yang baik adalah tes atau item yang betul-betul dapat memisahkan ke dua golongan murid tadi.
Jadi setiap item disamping harus mempunyai derajat  kesukaran tertentu, juga harus mampu membedakan antara murid yang pandai dengan murid yang kurang pandai. Setelah judgment dilakukan oleh guru kemudian soal tersebut di uji cobakan dan dianalisis apakah judgment tersebut sesuai atau tidak. Cara melakukan analisis untuk menentukan tingkat kesukaran soal adalah dengan menggunakan rumus sebagai berikut.



Keterangan:
I   =Indeks kesulitan untuk setiap butir soal
B =Banyaknya siswa yang menjawab benar setiap butir soal
N =Banyaknya yang memberikan jawaban pada soal yang di maksudkan.
Kriteria yang digunakan makin kecil indeks yang di peroleh makin sulit soal tersebut. Sebaliknya makin besar indeks yang diperoleh makin mudah soal tersebut. Menurut keiteria yang sering di ikuti indeks kesukaran sering di klasifikasikan sebagai berikut :
· Soal dengan  P  0 – 0,30 adalah soal kategori sukar.
· Soal dengan P  0,31 – 0,70  adalah soal kategori sedang.
· Soal dengan  P  0,71 – 1,00  adakah soal kategori mudah.

E.      Analisis Daya Pembeda 
Salah satu tujuan analisis kuantitatif soal adalah untuk menentukan dapat tidaknya suatu soal membedakan kelompok dalam aspek yang di ukur sesuai dengan perbedaan yang ada dlam kelompok itu.  Indeks yang di gunakan dalam membedakan peserta tes yang berkemampuan tinggi dengan peserta tes yang berkemampuan rendah adalah indeks daya pembeda.      Indeks ini menunjukkan kesesuaian antara fungsi soal dengan fungsi tes secara keseluruhan. Dengan demikian validitas soal ini sama dengan daya pembeda soal yaitu daya yang membedakan antara peserta tes yang berkemampuan tinggi dengan peserta tes yang berkemampuan rendah.
1.      Hubungan antara tingkat kesukaran dan daya pembeda.
Tingkat kesukaran berpengaruh langsung pada daya pembeda soal. Jila setiap orang memilih benar jawaban ( P = 1 ), atau jika setiap orang memiliki benar jawaban (P = 0) maka soal tidak dapat digunakan untuk membedakan kemampuan peserta tes. oleh kaena itu soal yang baik adalah soal yang memiliki daya pembeda antara peserta tes kelompok atas dan kelompok rendah. Kelompok rendah memiliki tingkat kemampuam 0.50 dan akan diperoleh daya pembeda kelompok atas maksimal 1.00.
2.      Daya pembeda soal pilihan ganda                  
  Bagaimana menentukan daya pembeda soal pilihan ganda?Yang menunjukkan tingkat kesukaran soal pilihan ganda. Daya pembeda di tentukan dengan melihat kelompok atas dan kelompok bawah berdasarkam sekor total.
3.      Daya pembeda soal uraian 
Bagaimana cara menentukan daya pembeda soal uraian? Langkah yang di lakukan untuk menghitung daya pembeda sama seperti yang dilakukan pada soal pilihan ganda. Urutkan seluruh peserta tes berdasarkan perolehan sekor total dari yang tinggi keperolehan sekor yang rendah.
 dapat disimpulkan bahwa cara menghitung daya pembeda adalah dengan menempuh langkah sebagai berikut :
a.       Memeriksa  jawaban soal semua siswa peserta tes.
b.      Membuat daftar peringkat atau urutan hasil tes berdasarkan sekor yang di capainya.
c.       Menentukan jumlah siswa kelompok atas dan kelompok bawah.
d.      Menghitung selisi tingkat kesukaran menjawab soal antara kelompok atas dan kelompok bawah.
e.       Membandingkan nilai selisih yang di peroleh.
f.       Menentukan ada tidaknya daya pembeda pada setiap nomor soal dengan kriteria “memiliki daya pembeda”.



Tidak ada komentar:

Posting Komentar