IMDB, Rotten Tomatoes, atau Metacritic? Panduan ilmuwan data untuk peringkat film

IMDB, Rotten Tomatoes, atau Metacritic? Panduan ilmuwan data untuk peringkat film

 

IMDB, Rotten Tomatoes, atau Metacritic Panduan ilmuwan data untuk peringkat film
IMDB, Rotten Tomatoes, atau Metacritic Panduan ilmuwan data untuk peringkat film

Ya, ada banyak faktor yang perlu dipertimbangkan, seperti sutradara, aktor, dan anggaran film. Sebagian besar dari kita mendasarkan keputusan kita pada ulasan, trailer pendek, atau hanya dengan memeriksa peringkat film.

Ada beberapa alasan bagus yang ingin Anda hindari membaca ulasan, atau menonton trailer, meskipun mereka membawa lebih banyak informasi daripada peringkat.

Pertama, Anda mungkin ingin sepenuhnya menghindari spoiler, tidak peduli seberapa kecil. Aku mengerti itu!

Kedua, bisa jadi Anda menginginkan pengalaman menonton film itu tanpa pengaruh. Ini biasanya hanya berlaku untuk ulasan, yang ditaburi bingkai, seperti “ini adalah film tentang kompleksitas alam semesta” atau “film ini benar-benar bukan tentang cinta”. Setelah bingkai ini dikodekan dalam memori jangka pendek Anda, sangat sulit untuk menghentikannya agar tidak mengganggu pengalaman film Anda sendiri.

Alasan bagus lainnya adalah jika Anda lelah atau tergesa-gesa, Anda mungkin tidak ingin membaca ulasan, apalagi menonton trailer 2 menit.

Jadi peringkat film numerik tampaknya menjadi solusi yang baik dalam beberapa situasi, untuk beberapa orang.

Artikel ini bertujuan untuk merekomendasikan satu situs web untuk secara cepat mendapatkan peringkat film yang akurat, dan menawarkan argumentasi yang kuat dan digerakkan oleh data untuk itu.

Kriteria untuk “yang terbaik”
Membuat rekomendasi semacam itu sangat mirip dengan mengatakan “ini adalah tempat terbaik untuk mencari peringkat film,” yang merupakan pernyataan evaluatif, bersandar pada beberapa kriteria yang digunakan untuk menentukan apa yang lebih baik, apa yang lebih buruk atau terburuk, dan apa yang terbaik , pada kasus ini. Untuk rekomendasi saya, saya akan menggunakan satu kriteria tunggal: distribusi normal.

Tempat terbaik untuk mencari peringkat film adalah melihat peringkat siapa yang terdistribusi dalam pola yang paling mirip, atau identik dengan, pola distribusi normal, yaitu: diberi seperangkat nilai yang terletak dalam interval tertentu , kebanyakan dari mereka berada di tengah-tengahnya, dan beberapa yang lain pada interval itu ekstrem. Secara umum, ini adalah bagaimana distribusi normal (juga disebut Gaussian) terlihat seperti:

Distribusi peringkat film yang normal (atau Gaussian) berarti ada beberapa peringkat rendah, banyak yang rata-rata, dan beberapa yang tinggi. Distribusi normal yang ideal berarti yang terbaik dalam konteks ini.
Apa alasan di balik kriteria ini? Nah, dari pengalaman saya sendiri yang terdiri dari beberapa ratus film, saya dapat mengatakan bahwa saya telah melihat:

beberapa yang luar biasa yang telah saya tonton beberapa kali
pasangan yang benar-benar mengerikan, dan membuatku menyesal telah menghabiskan waktu menonton mereka
dan sejumlah besar rata-rata, yang sebagian besar di antaranya bahkan saya tidak dapat mengingat alurnya.
Saya percaya bahwa kebanyakan orang – apakah kritikus, bioskop, atau hanya penonton bioskop biasa – memiliki pengalaman serupa.

Jika peringkat film memang mengekspresikan kualitas film, maka kita harus melihat pola yang sama untuk keduanya.

Mengingat sebagian besar dari kita menilai sebagian besar film sebagai kualitas rata-rata, kita harus melihat pola yang sama ketika kita menganalisis peringkat film. Logika yang sama berlaku untuk film yang buruk dan bagus.

Setiap bilah dianggap di sini sesuai dengan peringkat (itu juga dapat sesuai dengan interval peringkat). Semakin tinggi bilah, semakin besar jumlah film dengan peringkat itu.
Jika Anda belum yakin bahwa harus ada korespondensi di antara polanya, pikirkan distribusi peringkat untuk satu film.

Karena banyak orang menilai film, itu bukan lompatan iman untuk berasumsi bahwa paling sering akan ada banyak dari mereka dengan preferensi yang sama. Mereka umumnya akan setuju bahwa film itu baik, buruk, atau baik (saya akan mengukur nanti nilai-nilai kualitatif ini).

Juga, akan ada beberapa orang lain yang menilai film dengan salah satu dari dua nilai kualitatif lainnya.

Jika kami memvisualisasikan distribusi semua peringkat untuk setiap film, kami kemungkinan besar akan melihat bahwa satu kluster tunggal terbentuk di salah satu area yang sesuai dengan peringkat rendah, rata-rata, atau tinggi.

Asalkan sebagian besar film dianggap rata-rata, kluster di sekitar area rata-rata memiliki kemungkinan terbesar terjadi, dan dua kluster lainnya memiliki kemungkinan lebih kecil (tetapi masih signifikan). (Perhatikan bahwa semua kemungkinan ini dapat diukur pada prinsipnya, tetapi ini akan membutuhkan banyak data dan akan berpotensi mengubah artikel ini menjadi buku.)

Yang paling tidak mungkin adalah distribusi yang seragam di mana tidak ada kelompok, dan preferensi orang-orang terpecah hampir sama di ketiga nilai kualitatif.

Dengan kemungkinan-kemungkinan ini, distribusi peringkat untuk sampel film yang cukup besar haruslah satu dengan gugus tumpul di area rata-rata, dibatasi oleh jeruji yang menurunkan tinggi (frekuensi), menyerupai, dengan demikian, distribusi normal.

Jika Anda merasa ini sangat sulit untuk dipahami, pertimbangkan ilustrasi ini:

Harap perhatikan perbedaan antara “kemungkinan” dan “sangat mungkin”.
IMDB, Rotten Tomatoes, Fandango, atau Metacritic?
Sekarang kita memiliki kriteria untuk dikerjakan, mari selami data tersebut.

Ada banyak situs web di luar sana yang muncul dengan peringkat film mereka sendiri. Saya hanya memilih empat, terutama berdasarkan popularitas mereka, sehingga saya bisa mendapatkan peringkat untuk film dengan jumlah suara yang dapat diterima. Pemenang yang bahagia adalah IMDB , Fandango , Rotten Tomatoes , dan Metacritic .

Untuk terakhir dua, saya telah berfokus hanya pada jenis Peringkat ikonik mereka – yaitu Tomatometer , dan metascore – terutama karena ini lebih terlihat oleh pengguna pada masing-masing website (berarti itu lebih cepat untuk menemukan mereka). Ini juga dibagikan di dua situs web lain (met SofaScore dibagikan di IMDB dan tomatometer di Fandango). Selain peringkat ikonik ini, kedua situs web ini juga memiliki tipe peringkat yang tidak terlalu banyak fitur di mana hanya pengguna yang dapat berkontribusi.

Saya telah mengumpulkan peringkat untuk beberapa film yang paling banyak dipilih dan diulas pada tahun 2016 dan 2017. Dataset yang dibersihkan memiliki peringkat untuk 214 film dan dapat diunduh dari repo Github ini .

Saya belum mengumpulkan peringkat untuk film yang dirilis sebelum 2016, hanya karena sedikit perubahan terjadi pada sistem peringkat Fandango segera setelah analisis Walt Hickey , yang akan saya rujuk nanti dalam artikel ini.

Saya sadar bahwa bekerja dengan sampel kecil berisiko, tetapi setidaknya ini dikompensasi dengan mengambil snapshot terbaru dari distribusi peringkat.

Sebelum merencanakan dan menafsirkan distribusi, izinkan saya menghitung nilai-nilai kualitatif yang saya gunakan sebelumnya: pada skala 0 hingga 10, film yang buruk berada di antara 0 dan 3, rata – rata antara 3 dan 7, dan yang bagus antara 7 dan 10 .

Harap perhatikan perbedaan antara kualitas dan kuantitas. Agar tetap jelas dalam apa yang berikut, saya akan merujuk peringkat (kuantitas) sebagai rendah, rata-rata, atau tinggi. Seperti sebelumnya, kualitas film dinyatakan buruk, rata-rata, atau baik. Jika Anda khawatir tentang istilah “rata-rata” sama, jangan, karena saya akan berhati-hati untuk menghindari ambiguitas.

Sekarang mari kita lihat distribusi:

Setiap peringkat memiliki kekhasan masing-masing. Untuk IMDB dan Fandango, setiap bilah sesuai dengan rentang 0,5, dan untuk dua lainnya, kisaran bilah memiliki nilai 5.
At a simple glance, it can be noticed that the metascore’s histogram (that’s what this kind of graph is called) most closely resembles a normal distribution. It has a thick cluster in the average area composed of bars of irregular heights, which makes the top neither blunt, neither sharp.

However, they are more numerous and taller than the bars in each of the other two areas, which decrease in height towards extremes, more or less gradually. All these clearly indicate that most of the metascores have an average value, which is pretty much what we’re looking for.

In the case of IMDB, the bulk of the distribution is in the average area as well, but there is an obvious skew towards the highest average values. The high ratings area looks similar to what would be expected to be seen for a normal distribution in that part of the histogram. However, the striking feature is that the area representing low movie ratings is completely empty, which raises a big question mark.

Initially, I put the blame on the small sample, thinking that a larger one would do more justice to IMDB. Luckily, I was able to find a ready-made dataset on Kaggle containing IMDB ratings for 4,917 different movies. To my great surprise, the distribution looked like this:

This similarity raises the confidence with regard to the representativity of the smaller sample.
The shape of the distribution looks almost the same as that for the sample with 214 movies, except for the low ratings area, which is in this case feebly populated with 46 movies (out of 4917). The bulk of the values is still in the average area, which makes the IMDB rating worth considering further for a recommendation, although is clearly hard to rival the metascore, with that skew.

Anyway, what’s really great about this outcome is that it can be used as a strong argument to support the thesis that the 214-movies sample is fairly representative of the whole population. In other words, there’s a greater confidence now that the results of this analysis would be the same — or at least similar — to the results reached if absolutely all the movie ratings from all the four websites were analyzed.

With this increased confidence, let’s move on to examining the distribution of Fandango’s ratings, which doesn’t seem to have changed much since Hickey’s analysis. The skew is still visibly towards the higher part of the movie rating spectrum, where most of the ratings reside. The area for the lower half of the average ratings is completely empty, just like the one for low ratings. It can easily be concluded that the distribution is quite far from fitting my criterion. Consequently, I won’t consider it further for a possible recommendation.

(I promise that the torment of scrolling up will end soon. It’s much easier to compare the distributions if they are placed one near the other, rather than having them scattered across the article.)

Lastly, the tomatometer’s distribution is unexpectedly uniform, and would look even flatter under a different binning strategy (a binning strategy is defined by the total number of bars and their ranges; you can play with these two parameters when you’re generating a histogram).

This distribution is not easy to interpret in context, because the tomatometer it’s not a classical rating, but rather represents the percentage of critics who gave a positive review to a movie. This makes it unfit for the bad-average-good qualitative framework, because it makes movies either good, either bad. Anyway, I guess it should still boil down to the same normal distribution, with most of the movies having a moderate difference between the number of positive reviews and the negative ones (rendering many ratings of 30% — 70% positive reviews), and a few movies having a significantly bigger difference, in one way or the other.

Given the last consideration and the shape of the distribution, the tomatometer doesn’t meet my criterion. It could be that a larger sample would do it more justice, but even so, if I were to recommend it, I would do it with some reserves because of the vague positive or negative rating system.

At this point of the analysis, I could say that by looking at the distributions, my recommendation is the metascore.

However, the IMDB’s distribution seems to be worth considering as well, especially if you tweak a little the rating intervals for the three qualitative categories (intervals which I defined myself, more or less arbitrarily). From this perspective, recommending the metascore by mostly doing a visual examination is clearly not enough.

So, I will try to delimit between these two by using a quantitative method.

The idea is to use the Fandango variable as a negative reference, and then determine which variable, from the IMDB rating and the metascore, is the least correlated with it (I call these variables because they can take different values — for example, the metascore is a variable because it takes different values, depending on the movie).

I will simply compute some correlation coefficients, and the variable with the smallest value will be my recommendation (I will explain then how these correlation coefficients work). But before that, let me briefly justify choosing the Fandango variable as a negative reference.

Fandango’s users love movies too much
One reason for this choice is that the distribution of Fandango’s movie ratings is the furthest from that of a normal one, having that obvious skew towards the higher part of the movie rating spectrum.

The other reason is the cloud of suspicion around Fandango left by Walt Hickey’s analysis. On October 2015, he was also puzzled by a similar distribution, and discovered that on Fandango’s website the numerical ratings were always rounded to the next highest half-star, not to the nearest one (for example, a 4.1 average rating for a movie would have been rounded to 4.5 stars, instead of 4.0).

Tim Fandango memperbaiki sistem peringkat bias dan memberi tahu Hickey bahwa logika peringkat agaknya adalah “kesalahan perangkat lunak” di situs web mereka, menunjuk ke arah sistem yang tidak bias pada aplikasi seluler mereka. (Lebih lanjut tentang ini pada artikel Hickey .) Penyesuaian memang mengubah beberapa parameter statistik menjadi lebih baik, tetapi tidak cukup untuk meyakinkan saya untuk tidak bekerja dengan variabel Fandango sebagai referensi negatif.

Seperti inilah perubahannya.

Saya telah menormalkan semua jenis peringkat lainnya agar sesuai dengan Fandango – Saya mengonversinya menjadi sistem peringkat 0–5 dan kemudian membulatkan nilai yang dikonversi ke 0,5 terdekat. Singkatan “FTE” adalah singkatan dari FiveThirtyEight, publikasi online yang ditulis oleh Hickey.
Sekarang, mari kita memperbesar Fandango:

Bilah biru mewakili tahun 2017, dan bilah merah 2015.
Antara met SofaScore dan peringkat IMDB, manakah yang paling sedikit berkorelasi dengan peringkat Fandango?
Yang paling tidak berkorelasi dengan peringkat Fandango adalah met SofaScore. Ini memiliki nilai r Pearson 0,38 sehubungan dengan Fandango, sedangkan peringkat IMDB memiliki nilai 0,63.

Sekarang izinkan saya menjelaskan semua ini.

Ketika dua variabel berubah, dengan mengambil nilai yang berbeda, mereka

berkorelasi jika ada pola yang sesuai dengan kedua perubahan tersebut. Mengukur korelasi hanya berarti mengukur sejauh mana ada pola seperti itu.

Salah satu cara untuk melakukan pengukuran ini adalah dengan menghitung r Pearson. Jika nilainya +1.0, itu berarti ada korelasi positif sempurna, dan jika -1.0, itu berarti ada korelasi negatif sempurna.

Sejauh mana variabel berkorelasi menurun ketika r Pearson mendekati 0, baik dari sisi negatif dan positif.

Mari kita bayangkan ini dengan lebih baik:

Peringkat dapat diplot pada grafik. Setiap poin kecil yang bersama-sama membentuk bentuk di atas dapat menggambarkan peringkat dua variabel (katakanlah, Fandango dan IMDB) untuk film tertentu. Kredit gambar: Denis Boigelot (sumber: Wikipedia ).
Sekarang, untuk menempatkan abstraksi di atas ke dalam konteks, jika kita membandingkan bagaimana nilai untuk dua tipe peringkat berubah – katakanlah Fandango dan IMDB – kita dapat menentukan sejauh mana ada pola yang sesuai dengan kedua perubahan tersebut.

Mengingat koefisien korelasi yang baru saja disebutkan, ada pola antara Fandango dan IMDB pada tingkat yang lebih besar daripada Fandango dan met SofaScore. Kedua koefisien positif, dan, dengan demikian, korelasinya dikatakan positif, yang berarti bahwa ketika peringkat Fandango naik, peringkat IMDB cenderung naik juga, lebih banyak daripada yang dilakukan oleh metascore.

Dengan kata lain, untuk peringkat film apa pun yang diberikan pada Fandango,

kemungkinan besar met SofaScore akan lebih berbeda darinya daripada peringkat IMDB.

Putusan: gunakan metacritic’s SofaScore
Secara keseluruhan, saya sarankan memeriksa met SofaScore setiap kali Anda mencari peringkat film. Begini cara kerjanya, dan itu kerugian.

Singkatnya, met SofaScore adalah rata-rata tertimbang dari banyak ulasan yang berasal dari kritikus terkenal. Tim Metacritic membaca ulasan dan memberikan skor masing-masing skor 0-100, yang kemudian diberi bobot, terutama berdasarkan kualitas dan sumber ulasan. Anda dapat menemukan lebih banyak tentang sistem peringkat mereka di sini .

Sekarang, saya hanya ingin menunjukkan beberapa kelemahan dari met SofaScore:

Koefisien pembobotan bersifat rahasia, sehingga Anda tidak akan bisa melihat

sejauh mana setiap ulasan dihitung dalam met SofaScore.
Anda akan kesulitan menemukan metascore untuk film yang kurang dikenal yang muncul sebelum 1999, tahun Metacritic dibuat.
Beberapa film terbaru yang bahasa utamanya bukan bahasa Inggris bahkan tidak tercantum dalam Metacritic. Misalnya, film Romania Two Lottery Tickets (2016) dan Eastern Business (2016) tidak terdaftar di Metacritic, sementara mereka berada di IMDB, dengan peringkat.
Lebih sedikit kata
Singkatnya, dalam artikel ini saya membuat rekomendasi tunggal di mana mencari peringkat film. Saya merekomendasikan met SofaScore, berdasarkan pada dua argumen: distribusinya paling mirip dengan yang normal, dan paling tidak berkorelasi dengan peringkat Fandango.

Baca Juga: