Pengertian Kata operasional, validitas, dan realibilitas,
Taraf kesukaran test dan analisis daya pembeda.
A.
Kata Kerja Operasional
Komponen
penting dalam silabus maupun RPP adalah indikator pencapaian kompetensi.
Komponen ini penting karena menjadi dasar untuk menyusun indikator penilaian.
Indikator penilaian perlu dirumuskan untuk dijadikan dasar pedoman penialian
bagi guru, peserta didik, maupun pengawas di sekolah. Setiap penilaian yang
dilakukan melalui tes dan non tes harus sesuai dengan indikator penilaian.
Indikator penilaian ini menggunakan kata kerja lebih terukur dibandingkan
dengan indikator pencapaian kompetensi. Rumusan indikator penilaian memiliki
batasan-batasan tertentu sehingga dapat dikembangkan menjadi instrumen
penilaian dalam bentuk soal, lembar pengamatan, dan atau penilaian hasil karya
atau produk, termasuk penilaian diri.
Kata Kerja
Operasional untuk pengembangan Indikator Silabus dan RPP berdasarkan taksonomi
Bloom dibagi dalam beberapa pencapaian kompetensi dasar, yang ditandai oleh
perubahan perilaku yang dapat diukur yang mencakup sikap, pengetahuan, dan
keterampilan. Indikator dikembangkan sesuai dengan karakteristik peserta didik,
mata pelajaran, satuan pendidikan, potensi daerah dan dirumuskan dalam kata
kerja operasional yang terukur dan/atau dapat diobservasi.
Taksonomi
Bloom pertama kali disusun oleh Benjamin S. Bloom pada tahun 1956. Dalam hal
ini, tujuan pendidikan dibagi menjadi beberapa domain dan setiap domain
tersebut dibagi kembali ke dalam pembagian yang lebih rinci berdasarkan
hirarkinya. Tujuan pendidikan dibagi ke dalam tiga domain, yaitu:
1. Cognitive
Domain (Ranah Kognitif), yang berisi perilaku-perilaku yang menekankan aspek
intelektual, seperti pengetahuan, pengertian, dan keterampilan berpikir.
2. Affective Domain (Ranah Afektif) berisi
perilaku-perilaku yang menekankan aspek perasaan dan emosi, seperti minat,
sikap, apresiasi, dan cara penyesuaian diri.
3. Psychomotor
Domain (Ranah Psikomotor) berisi perilaku-perilaku yang menekankan aspek
keterampilan motorik seperti tulisan tangan, mengetik, berenang, dan
mengoperasikan mesin.
Dalam mengembangkan indikator perlu mempertimbangkan:
·
Tuntutan kompetensi yang dapat dilihat melalui kata
kerja yang digunakan dalam Kompetensi
Dasar
·
Karakteristik
mata pelajaran, peserta didik, dan sekolah;
·
Potensi dan
kebutuhan peserta didik, masyarakat, dan lingkungan/ daerah.
Daftar kata kerja operasional dengan
tiga ranah yang biasa dipergunakan untuk menyusun indikator:
1. Ranah Kognitif
(Ranah
proses berfikir)
Koginitif
adalah penilaian yang didasarkan pada perilaku (behavior) siswa yang diharapkan
muncul setelah melakukan serangkaian kegiatan untuk mencapai kompetensi yang
diharapkan. Perilaku ini sejalan dengan keterampilan proses sains, tetapi yang
karakteristiknya untuk mengembangkan kemampuan berfikir siswa. Indikator
kognitif produk berkaitan dengan perilaku siswa yang diharapkan tumbuh untuk
mencapai kompetensi yang telah ditetapkan.
Ciri-ciri
ranah kognitif adalah:
Aspek
kognitif berhubungan dengan kemampuan berfikir termasuk di dalamnya kemampuan
memahami, menghafal, mengaplikasi, menganalisis, mensistesis dan kemampuan
mengevaluasi. Menurut Taksonomi Bloom (Sax 1980), kemampuan kognitif adalah
kemampuan berfikir secara hirarki yang terdiri dari pengetahuan, pemahaman,
aplikasi, analisis, sintesis dan evaluasi.
Tujuan
aspek kognitif berorientasi pada kemampuan berfikir yang mencakup kemampuan
intelektual yang lebih sederhana, yaitu mengingat, sampai pada kemampuan
memecahkan masalah yang menuntut siswa untuk menghubungkan dan menggabungkan
beberapa ide, gagasan, metode atau prosedur yang dipelajari untuk memecahkan
masalah tersebut. Dengan demikian aspek kognitif adalah sub-taksonomi yang
mengungkapkan tentang kegiatan mental yang sering berawal dari tingkat
pengetahuan sampai ke tingkat yang paling tinggi yaitu evaluasi.
Dalam ranah
kognitif itu terdapat enam aspek atau jenjang proses berfikir, mulai dari
jenjang terendah sampai dengan jenjang yang paling tinggi. Keenam jenjang atau
aspek yang dimaksud adalah:
a)
Pengetahuan / hafalan / ingatan (knowledge)
Adalah
kemampuan seseorang untuk mengingat-ingat kembali (recall) atau
mengenali kembali tentang nama, istilah, ide, rumus-rumus, dan sebagainya,
tanpa mengharapkan kemampuan untuk menggunkannya. Pengetahuan atau ingatan
adalah merupakan proses berfikir yang paling rendah.
b) Pemahaman (comprehension)
Adalah
kemampuan seseorang untuk mengerti atau memahami sesuatu setelah sesuatu itu
diketahui dan diingat. Dengan kata lain, memahami adalah mengetahui tentang
sesuatu dan dapat melihatnya dari berbagai segi. Seseorang peserta didik
dikatakan memahami sesuatu apabila ia dapat memberikan penjelasan atau memberi
uraian yang lebih rinci tentang hal itu dengan menggunakan kata-katanya
sendiri. Pemahaman merupakan jenjang kemampuan berfikir yang setingkat lebih
tinggi dari ingatan atau hafalan.
c) Penerapan (application)
Adalah
kesanggupan seseorang untuk menerapkan atau menggunakan ide-ide umum, tata cara
ataupun metode-metode, prinsip-prinsip, rumus-rumus, teori-teori dan
sebagainya, dalam situasi yang baru dan kongkret. Penerapan ini adalah merupakan
proses berfikir setingkat lebih tinggi ketimbang pemahaman.Salah satu contoh
hasil belajar kognitif jenjang penerapan misalnya: Peserta didik mampu
memikirkan tentang penerapan konsep kedisiplinan yang diajarkan Islam dalam
kehidupan sehari-hari baik dilingkungan keluarga, sekolah, maupun masyarakat.
d) Analisis (analysis)
Adalah
kemampuan seseorang untuk merinci atau menguraikan suatu bahan atau keadaan
menurut bagian-bagian yang lebih kecil dan mampu memahami hubungan di antara
bagian-bagian atau faktor-faktor yang satu dengan faktor-faktor lainnya.
Jenjang analisis adalah setingkat lebih tinggi ketimbang jenjang aplikasi.
Contoh:
Peserta didik dapat merenung dan memikirkan dengan baik tentang wujud nyata
dari kedisiplinan seorang siswa dirumah, disekolah, dan dalam kehidupan
sehari-hari di tengah-tengah masyarakat, sebagai bagian dari ajaran Islam.
e) Sintesis (syntesis)
Adalah
kemampuan berfikir yang merupakan kebalikan dari proses berfikir analisis.
Sisntesis merupakan suatu proses yang memadukan bagian-bagian atau unsur-unsur
secara logis, sehingga menjelma menjadi suatu pola yang yang berstruktur atau
bebrbentuk pola baru. Jenjang sintesis kedudukannya setingkat lebih tinggi
daripada jenjang analisis. Salah satu jasil belajar kognitif dari jenjang
sintesis ini adalah: peserta didik dapat menulis karangan tentang pentingnya
kedisiplinan sebagiamana telah diajarkan oleh islam.
f) Penilaian/penghargaan/evaluasi
(evaluation)
Adalah
merupakan jenjang berpikir paling tinggi dalam ranah kognitif dalam taksonomi
Bloom. Penilian/evaluasi disini merupakan kemampuan seseorang untuk membuat
pertimbangan terhadap suatu kondisi, nilai atau ide, misalkan jika seseorang
dihadapkan pada beberapa pilihan maka ia akan mampu memilih satu pilihan yang
terbaik sesuai dengan patokan-patokan atau kriteria yang ada.
Tujuan aspek kognitif berorientasi pada kemampuan berfikir yang mencakup
kemampuan intelektual yang lebih sederhana, yaitu mengingat, sampai pada
kemampuan memecahkan masalah yang menuntut siswa untuk menghubungkan dan
menggabungkan beberapa ide, gagasan, metode atau prosedur yang dipelajari untuk
memecahkan masalah tersebut.
Dengan demikian aspek kognitif adalah sub-taksonomi yang mengungkapkan
tentang kegiatan mental yang sering berawal dari tingkat pengetahuan sampai ke
tingkat yang paling tinggi yaitu evaluasi.
2. Ranah
Afektif (Ranah nilai atau sikap)
Indikator afektif merupakan sikap yang diharapkan saat dan setelah siswa
melakukan serangkaian kegiatan pembelajaran. Indicator afektif disusun dengan
menggunakan kata kerja operasional dengan objek sikap ilmiah. Beberapa contoh
sikap ilmiah adalah: berlaku jujur, peduli, tanggungjawab, dll. Selain itu,
indikator Afektif juga perlu memunculkan keterampilan sosial misalnya: bertanya,
menyumbang ide atau berpendapat, menjadi pendengar yang baik, berkomunikasi
dll.
Lima tipe
karakteristik afektif yang penting berdasarkan tujuannya, yaitu:
a) Sikap
Sikap
merupakan suatu kencendrungan untuk bertindak secara suka atau tidak suka
terhadap suatu objek. Sikap dapat dibentuk melalui cara mengamati dan menirukan
sesuatu yang positif, kemudian melalui penguatan serta menerima informasi
verbal. Perubahan sikap dapat diamati dalam proses pembelajaran, tujuan yang
ingin dicapai, keteguhan, dan konsistensi terhadap sesuatu. Penilaian sikap
adalah penilaian yang dilakukan untuk mengetahui sikap peserta didik terhadap
mata pelajaran, kondisi pembelajaran, pendidik, dan sebagainya.
b) Minat
Menurut
Getzel (1966), minat adalah suatu disposisi yang terorganisir melalui
pengalaman yang mendorong seseorang untuk memperoleh objek khusus, aktivitas,
pemahaman, dan keterampilan untuk tujuan perhatian atau pencapaian. Sedangkan
menurut kamus besar bahasa Indonesia (1990: 583), minat atau keinginan adalah
kecenderungan hati yang tinggi terhadap sesuatu. Hal penting pada minat adalah
intensitasnya.
c) Konsep Diri
Menurut
Smith, konsep diri adalah evaluasi yang dilakukan individu terhadap kemampuan
dan kelemahan yang dimiliki. Target, arah, dan intensitas konsep diri pada
dasarnya seperti ranah afektif yang lain. Target konsep diri biasanya orang
tetapi bisa juga institusi seperti sekolah. Arah konsep diri bisa positif atau
negatif, dan intensitasnya bisa dinyatakan dalam suatu daerah kontinum, yaitu
mulai dari rendah sampai tinggi.
d) Nilai
Nilai
menurut Rokeach (1968) merupakan suatu keyakinan tentang perbuatan, tindakan,
atau perilaku yang dianggap baik dan yang dianggap buruk. Selanjutnya
dijelaskan bahwa sikap mengacu pada suatu organisasi sejumlah keyakinan sekitar
objek spesifik atau situasi, sedangkan nilai mengacu pada keyakinan.
e) Moral
Piaget dan
Kohlberg banyak membahas tentang per-kembangan moral anak. Namun Kohlberg
mengabaikan masalah hubungan antara judgement moral dan tindakan moral.
Ia hanya mempelajari prinsip moral seseorang melalui penafsiran respon verbal
terhadap dilema hipotetikal atau dugaan, bukan pada bagaimana sesungguhnya
seseorang bertindak.
3. Ranah
Psikomotor (Ranah keterampilan)
Indikator psikomotorik
merupakan perilaku (behavior) siswa yang diharapkan tampak setelah siswa
mengikuti pembelajaran untuk mencapai kompetensi yang telah ditetapkan.
Ada beberapa ahli yang menjelaskan cara
menilai hasil belajar psikomotor. Ryan (1980) menjelaskan bahwa hasil belajar
keterampilan dapat diukur melalui
a. pengamatan
langsung dan penilaian tingkah laku peserta didik selama proses pembelajaran
praktik berlangsung,
b. sesudah mengikuti pembelajaran, yaitu dengan
jalan memberikan tes kepada peserta didik untuk mengukur pengetahuan,
keterampilan, dan sikap,
c. beberapa
waktu sesudah pembelajaran selesai dan kelak dalam lingkungan kerjanya.
Sementara itu Leighbody (1968) berpendapat
bahwa penilaian hasil belajar psikomotor mencakup:
a. kemampuan
menggunakan alat dan sikap kerja,
b. kemampuan menganalisis suatu pekerjaan dan
menyusun urut-urutan pengerjaan,
c. kecepatan mengerjakan tugas,
d. kemampuan membaca gambar dan atau simbol,
e. keserasian bentuk dengan yang diharapkan dan
atau ukuran yang telah ditentukan.
B. Validitas
1. Pengertian
validitas
Menurut Azwar (1986)
Validitas berasal dari kata validity yang mempunyai arti sejauh mana ketepatan
dan kecermatan suatu alat ukur dalam melakukan fungsi ukurnya. Suatu skala atau
instrumen pengukur dapat dikatakan mempunyai validitas yang tinggi apabila
instrumen tersebut menjalankan fungsi ukurnya, atau memberikan hasil ukur yang
sesuai dengan maksud dilakukannya pengukuran tersebut. Sedangkan tes yang
memiliki validitas rendah akan menghasilkan data yang tidak relevan dengan
tujuan pengukuran.
Menurut
Masri Singarimbun, validitas menunjukkan sejauh mana suatu alat pengukur itu
mengukur apa yang ingin diukur. Bila seseorang ingin mengukur berat suatu
benda, maka dia harus menggunakan timbangan. Timbangan adalah alat pengukur
yang valid bila dipakai untuk mengukur berat, karena timbangan memang mengukur
berat. Bila panjang sesuatu benda yang ingin diukur, maka dia harus menggunakan
meteran. Meteran adalah alat pengukur yang valid bila digunakan untuk mengukur
panjang, karena memang meteran mengukur panjang. Tetapi timbangan bukanlah alat
pengukur yang valid bilamana digunakan untuk mengukur panjang.
2. Jenis-jenis
validitas
Ebel (dalam Nazirz 1988) membagi
validitas menjadi :
a. Concurrent
Validity (validitas konkuren) adalah validitas yang berkenaan dengan hubungan
antara skor dengan kinerja.
b. Empirical Validity (validitas empiris) adalah
validitas yang berkenaan dengan hubungan antara skor dengan suatu kriteria.
Kriteria tersebut adalah ukuran yang bebas dan langsung dengan apa yang ingin
diramalkan oleh pengukuran.
c. Intrinsic Validity (validitas intrinsik)
adalah validitas yang berkenaan dengan penggunaan teknik uji coba untuk
memperoleh bukti kuantitatif dan objektif untuk mendukung bhwa suatu alat ukur
benar-benar mengukur apa yang seharusny diukur.
Selanjutnya,
jenis validitas menurut Saifuddin Azwar,
yaitu:
·
Face Validity (Validitas Muka) adalah
tipe validitas yang paling rendah signifikansinya karena hanya didasarkan pada
penilaian selintas mengenai isi alat ukur. Apabila isi alat ukur telah tampak
sesuai dengan apa yang ingin diukur maka dapat dikatakan maka validitas muka telah
terpenuhi.
·
Logical Validity (Validitas Logis)
disebut juga sebagai Validitas Sampling (Sampling Validity) adalah validitas
yang menunjuk pada sejauh mana isi alat ukur merupakan representasi dari aspek
yang hendak diukur.
Validitas logis sangat penting peranannya dalam penyusunan prestasi dan penyusunan skala, yaitu dengan memanfaatkan blue-print atu table spesifikasi.
Validitas logis sangat penting peranannya dalam penyusunan prestasi dan penyusunan skala, yaitu dengan memanfaatkan blue-print atu table spesifikasi.
C.
Reliabilitas
1. Pengertian Reliabilitas
Menurut Masri
Singarimbun, realibilitas adalah indeks yang menunjukkan sejauh mana suatu alat
ukur dapat dipercaya atau dapat diandalkan. Bila suatu alat pengukur dipakai
dua kali – untuk mengukur gejala yang sama dan hasil pengukuran yang diperoleh
relative konsisten, maka alat pengukur tersebut reliable. Dengan kata lain,
realibitas menunjukkan konsistensi suatu alat pengukur di dalam pengukur gejala
yang sama.
Dengan demikian, sebuah alat ukur dapat dilihat dari dua
petunjuk yaitu kesalahan baku pengukuran dan koefisien reliabilitas. Kedua
statistik tersebut masing-masing memiliki kelebihan dan keterbatasan (Feldt
& Brennan, 1989: 105)
Reliabilitas adalah konsistensi dari serangkaian pengukuran atau serangkaian alat ukur
Reliabilitas adalah konsistensi dari serangkaian pengukuran atau serangkaian alat ukur
Reliabilitas tidak sama
dengan validitas. Artinya pengukuran yang dapat diandalkan akan mengukur secara
konsisten, tapi belum tentu mengukur apa yang seharusnya di ukur. Dalam
penelitian, reliabilitas adalah sejauh mana pengukuran dari suatu tes tetap
konsisten setelah dilakukan berulang-ulang terhadap subjek dan dalam kondisi
yang sama. Penelitian dianggap dapat diandalkan bila memberikan hasil yang
konsisten untuk pengukuran yang sama. Tidak bisa diandalkan bila pengukuran
yang berulang itu memberikan hasil yang berbeda-beda.
Dalam kerangka teori
tes klasik, suatu tes dapat dikatakan memiliki reliabilitas yang tinggi apabila
skor tampak tes tersebut berkorelasi tinggi dengan skor murninya sendiri.
Interpretasi lainnya adalah seberapa tinggi korelasi antara skor tampak pada
dua tes yang pararel. (Saifuddin Azwar, 2006: 29). Reliabilitas menurut Ross E.
Traub (1994: 38) dapat didefinisikan sebagai rasio antara varian skor murni dan
varian skor tampak Secara matematis teori di atas dapat ditulis.
Reliabilitas alat ukur
tidak dapat diketahui dengan pasti tetapi dapat diperkirakan. Dalam
mengestimasi reliabilitas alat ukur, ada tiga cara yang sering digunakan yaitu
a) pendekatan
tes ulang,
b) pendekatan
dengan tes pararel,
c) pendekatan
satu kali pengukuran.
Pendekatan tes ulang
merupakan pemberian perangkat tes yang sama terhadap sekelompok subjek sebanyak
dua kali dengan selang waktu yang berbeda. Asumsinya adalah bahwa skor yang
dihasilkan oleh tes yang sama akan menghasilkan skor tampak yang relatif sama.
Estimasi dengan pendekatan tes ulang akan menghasilkan koefisien stabilitas.
Untuk memperoleh koefisien reliabilitas melalui pendekatan tes ulang dapat
dilakukan dengan menghitung koefisien korelasi linear antara distribusi skor
subyek pada pemberian tes pertama dengan skor subyek pada pemberian tes kedua.
Pendekatan tes ulang sangat sesuai untuk mengukur ketrampilan terutama
ketrampilan fisik.
Misalnya seorang guru
hendak melihat reliabilitas tes yang telah dibuatnya. Setelah melakukan dua
kali pengukuran didapatkan skor tes sebagai berikut: Koefisien reliabilitas
test di atas dapat dihitung dengan menggunakan formula korelasi produk momen dari
Pearson sebagai berikut:
2. Jenis-jenis
Reliabilitas
Walizer (1987)
menyebutkan bahwa ada dua cara umum untuk mengukur reliabilitas, yaitu:
a) Relibilitas
stabilitas. Menyangkut usaha memperoleh nilai yang sama atau serupa untuk
setiap orang atau setiap unit yang diukur setiap saat anda mengukurnya.
Reliabilitas ini menyangkut penggunaan indicator yang sama, definisi
operasional, dan prosedur pengumpulan data setiap saat, dan mengukurnya pada
waktu yang berbeda. Untuk dapat memperoleh reliabilitas stabilitas setiap kali
unit diukur skornya haruslah sama atau hampir sama.
b) Reliabilitas
ekivalen. Menyangkut usaha memperoleh nilai relatif yang sama dengan jenis
ukuran yang berbeda pada waktu yang sama. Definisi konseptual yang dipakai sama
tetapi dengan satu atau lebih indicator yang berbeda, batasan-batasan
operasional, paeralatan pengumpulan data, atau pengamat-pengamat.
Menguji reliabilitas dengan menggunakan ukuran ekivalen pada waktu yang sama biasanya menempuh beberapa bentuk. Bentuk yang paling umum disebut teknik belah-tengah. Cara ini seringkali dipakai dalam survai. Apabila satu rangkaian pertanyaan yang mengukur satu variable dimasukkan dalam kuesioner, maka pertanyaan-pertanyaan tersebut dibagi dua bagian persis lewat cara tertentu. (Pengacakan atau pengubahan sering digunakan untuk teknik belah tengah ini.) Hasil masing-masing bagian pertanyaan diringkas ke dalam skor, lalu skor masing-masing bagian tersebut dibandingkan. Apabila kedua skor itu relatif sama, dicapailah reliabilitas belah tengah.
Menguji reliabilitas dengan menggunakan ukuran ekivalen pada waktu yang sama biasanya menempuh beberapa bentuk. Bentuk yang paling umum disebut teknik belah-tengah. Cara ini seringkali dipakai dalam survai. Apabila satu rangkaian pertanyaan yang mengukur satu variable dimasukkan dalam kuesioner, maka pertanyaan-pertanyaan tersebut dibagi dua bagian persis lewat cara tertentu. (Pengacakan atau pengubahan sering digunakan untuk teknik belah tengah ini.) Hasil masing-masing bagian pertanyaan diringkas ke dalam skor, lalu skor masing-masing bagian tersebut dibandingkan. Apabila kedua skor itu relatif sama, dicapailah reliabilitas belah tengah.
Reliabilitas ekivalen
dapat juga diukur dengan menggunakan teknik pengukuan yang berbeda. Kecemasan
misalnya, telah diukur dengan laporan pulsa. Skor-skor relatif dari satu
indikator macam ini haruslah sesuai dengan skor yang lain. Jadi bila seorang
subyek nampak cemas pada ”ukuran gelisah” orang tersebut haruslah menunjukkan
tingkatan kecermatan relatif yang sama bila tekanan darahnya yang diukur.
3. Metode
pengujian reliabilitas
Tiga tehnik pengujian realibilitas
instrument antara lain :
a) Teknik
Paralel (Paralel Form atau Alternate Form)
Teknik paralel disebut
juga tenik ”double test double trial”. Sejak awal peneliti harus sudah menyusun
dua perangkat instrument yang parallel (ekuivalen), yaitu dua buah instrument
yang disusun berdasarkan satu buah kisi-kisi. Setiap butir soal dari instrument
yang satu selalu harus dapat dicarikan pasangannya dari instrumen kedua. Kedua
instrumen tersebut diujicobakan semua. Sesudah kedua uji coba terlaksana, maka
hasil instrumen tersebut dihitung korelasinya dengan menggunakan rumus product
moment (korelasi Pearson).
b) Teknik
Ulang (Test Re-test)
Disebut juga teknik
”single test double trial”. Menggunakan sebuah instrument, namun dites dua
kali. Hasil atau skor pertama dan kedua kemudian dikorelasikan untuk mengetahui
besarnya indeks reliabilitas.Teknik perhitungan yang digunakan sama dengan yang
digunakan pada teknik pertama yaitu rumus korelasi Pearson.
Menurut Saifuddin Azwar, realibilitas
tes-retest adalah seberapa besat derajat skor tes konsisten dari waktu ke waktu.
Realibilitas diukur dengan menentukan hubungan antara skor hasil penyajian tes
yang sama kepada kelompok yang sama, pada waktu yang berbeda.
Metode pengujian reliabilitas stabilitas yang
paling umum dipakai adalah metode pengujian tes-kembali (test-retest). Metode
test-retest menggunakan ukuran atau “test” yang sama untuk variable tertentu
pada satu saat pengukuran yang diulang lagi pada saat yang lain. Cara lain
untuk menunjukkan reliabilitas stabilitas, bila kita menggunakan survai, adalah
memasukkan pertanyaan yang sama di dua bagian yang berbeda dari kuesioner atau
wawancara. Misalnya the Minnesota Multiphasic Personality Inventory (MPPI)
mengecek reliabilitas test-retest dalam satu kuesionernya dengan mengulang
pertanyaan tertentu di bagian-bagian yang berbeda dari kuesioner yang panjang.
c) Teknik
Belah Dua (Split Halve Method)
Disebut juga tenik
“single test single trial”. Peneliti boleh hanya memiliki seperangkat
instrument saja dan hanya diuji cobakan satu kali, kemudian hasilnya
dianalisis, yaitu dengan cara membelah seluruh instrument menjadi dua sama
besar. Cara yang diambil untuk membelah soal bisa dengan membelah atas dasar
nomor ganjil-genap, atas dasar nomor awal-akhir, dan dengan cara undian.
Ada beberapa sumber ketidakandalan (unreliability),
beberapa di antaranya telah dituangkan. Satu sumber ketidakandalan yang
terbesar adalah ketidaksahihan (invalidity). Berikut ini adalah daftar periksa
(check list) sumber-sumber yang menyebabkannya (Walizer ,1987) :
1) Orang
atau unit yang diukur mungkin telah berubah sejak pengukuran pertama dan kedua.
(Tentu saja perubahan dalam skor, haruslah ditafsirkan bukan sebagai
ketidakandalan.)
2) Selama
wawancara unit yang sedang diukur berubah, karena:
a. Pewawancara
memperoleh pengalaman
b. Kelelahan pewawancara
c. Subyek mengalami hal-hal yang menyebabkan
penafsiran mereka terhadap pertanyaan-pertanyaan berubah (sebagai kebalikan
dari perubahan seharusnya dari apa yang sedang diukur).
d. Kesalahan-kesalahan diperbuat.
3) Aspek
situasi tempat pengukuran berlangsung mungkin berubah sejak pengukuran pertama
dan yang kedua. Hal-hal seperti waktu (pagi, siang, sore), tempat
berlangsungnya pengukuran, orang-orang yang berada dekat di sekitar yang
mungkin mempengaruhi respon mereka dan sebagainya mungkin berbeda.
4) Pertanyaan-pertanyaan
mungkin mendua artinya, sehingga ditafsirkan secara berbeda pada saat pengisian
kuesioner yang berbeda.
5) Pengkode dan/atau pengamat mungkin membuat
penafsiran sendiri-sendiri.
6) Apa
yang nampak sebagai satu teknik ekivalen sebenarnya tidaklah demikian karena
pemilihan pembandingan yang kurang baik.
7) Terjadi
kekeliruan dalam mencatat hasil pengamatan atau memberi kode-kodenya.
8) Atau
mungkin kombinasi penyebab-penyebab terdahulu.
D. Taraf
kesukaran tes
Asumsi yang digunakan
untuk memperoleh kwalitas yang baik, disamping memenuhi validitas dan
reliabilitas adalah daya keseimbangan dari tingkat kesulitan soal tersebut.
Keseimbangan yang dimaksutkan adalah adanya soal-soal yang termasuk mudah
sedang dan sukar secara porposional. Tingkat kesukaran soal dipandang dari
kesanggupan atau kemampuan siswa dalam menjawabnya, bukan dilihat dari segi
guru dalam melakukan analisis pembuat soal.
Ada beberapa dasar
pertimbangan dalam menentukan proporsi jumlah soal kategori mudah, sedang, dan
sukar.
Pertimbangan pertama adalah
adanya keseimbangan, yakni jumlah soal sama untuk ke tiga kategori tersebut.
dan ke dua proposi jumlah soal untuk ke tiga kategori tersebut artinya sebagian
besar soal berada dalam kategori sedang sebagian lagi termasuk kategori mudah
dan sukar dengan proporsi yang seimbang.
Perbandingan
antara soal mudah sedang sukar bisa di buat 3-4-3. Artinya, 30% soal kategori
mudah 40% soal kategori sedang dan 30% lagi soal kategori sukar. Di samping itu
oleh karena suatu tes dimaksutkan untuk memisahkan antara murid-murid yang
betul-betul mempelajari suatu pelajaran dengan murid-murid yang tidak
mempelajari pelajaran itu, maka tes atau item yang baik adalah tes atau item
yang betul-betul dapat memisahkan ke dua golongan murid tadi.
Jadi
setiap item disamping harus mempunyai derajat kesukaran tertentu, juga
harus mampu membedakan antara murid yang pandai dengan murid yang kurang
pandai. Setelah judgment dilakukan oleh guru kemudian soal tersebut di uji
cobakan dan dianalisis apakah judgment tersebut sesuai atau tidak. Cara
melakukan analisis untuk menentukan tingkat kesukaran soal adalah dengan
menggunakan rumus sebagai berikut.
Keterangan:
I
=Indeks kesulitan untuk setiap butir soal
B
=Banyaknya siswa yang menjawab benar setiap butir soal
N
=Banyaknya yang memberikan jawaban pada soal yang di maksudkan.
Kriteria
yang digunakan makin kecil indeks yang di peroleh makin sulit soal tersebut.
Sebaliknya makin besar indeks yang diperoleh makin mudah soal tersebut. Menurut
keiteria yang sering di ikuti indeks kesukaran sering di klasifikasikan sebagai
berikut :
·
Soal dengan P 0 – 0,30 adalah soal kategori sukar.
·
Soal dengan P 0,31 – 0,70 adalah soal kategori sedang.
·
Soal dengan P 0,71 – 1,00 adakah soal kategori mudah.
E.
Analisis
Daya Pembeda
Salah
satu tujuan analisis kuantitatif soal adalah untuk menentukan dapat tidaknya
suatu soal membedakan kelompok dalam aspek yang di ukur sesuai dengan perbedaan
yang ada dlam kelompok itu. Indeks yang
di gunakan dalam membedakan peserta tes yang berkemampuan tinggi dengan peserta
tes yang berkemampuan rendah adalah indeks daya pembeda.
Indeks ini menunjukkan kesesuaian antara fungsi soal dengan fungsi tes
secara keseluruhan. Dengan demikian validitas soal ini sama dengan daya pembeda
soal yaitu daya yang membedakan antara peserta tes yang berkemampuan tinggi
dengan peserta tes yang berkemampuan rendah.
1. Hubungan antara tingkat kesukaran dan daya pembeda.
Tingkat kesukaran
berpengaruh langsung pada daya pembeda soal. Jila setiap orang memilih benar
jawaban ( P = 1 ), atau jika setiap orang memiliki benar jawaban (P = 0) maka
soal tidak dapat digunakan untuk membedakan kemampuan peserta tes. oleh kaena
itu soal yang baik adalah soal yang memiliki daya pembeda antara peserta tes
kelompok atas dan kelompok rendah. Kelompok rendah memiliki tingkat kemampuam
0.50 dan akan diperoleh daya pembeda kelompok atas maksimal 1.00.
2. Daya pembeda soal pilihan ganda
Bagaimana
menentukan daya pembeda soal pilihan ganda?Yang menunjukkan tingkat kesukaran
soal pilihan ganda. Daya pembeda di tentukan dengan melihat kelompok atas dan
kelompok bawah berdasarkam sekor total.
3. Daya pembeda soal uraian
Bagaimana cara
menentukan daya pembeda soal uraian? Langkah yang di lakukan untuk menghitung
daya pembeda sama seperti yang dilakukan pada soal pilihan ganda. Urutkan
seluruh peserta tes berdasarkan perolehan sekor total dari yang tinggi
keperolehan sekor yang rendah.
dapat disimpulkan bahwa cara menghitung daya
pembeda adalah dengan menempuh langkah sebagai berikut :
a. Memeriksa
jawaban soal semua siswa peserta tes.
b. Membuat
daftar peringkat atau urutan hasil tes berdasarkan sekor yang di capainya.
c. Menentukan
jumlah siswa kelompok atas dan kelompok bawah.
d. Menghitung
selisi tingkat kesukaran menjawab soal antara kelompok atas dan kelompok bawah.
e. Membandingkan
nilai selisih yang di peroleh.
f. Menentukan
ada tidaknya daya pembeda pada setiap nomor soal dengan kriteria “memiliki daya
pembeda”.
Tidak ada komentar:
Posting Komentar