Чиїм рейтингам слід довіряти? IMDB, Гнилі помідори, Метакритик чи Фанданго?

Вчений досліджує дані

Чи варто дивитися фільм? Ну, є багато факторів, які слід враховувати, наприклад, режисер, актори та бюджет фільму. Більшість з нас базується на своєму огляді, короткому трейлері або просто перевіряючи рейтинг фільму.

Є кілька вагомих причин, чому ви хотіли б уникати читання оглядів або перегляду трейлера, хоча вони приносять набагато більше інформації, ніж рейтинг.

По-перше, ви можете повністю уникати спойлерів, якими б маленькими вони не були. Я розумію, що!

По-друге, може статися так, що ви хочете отримати незабутній досвід перегляду цього фільму. Зазвичай це стосується лише оглядів, які обсипані рамками, як-от «це фільм про складність Всесвіту» або «цей фільм насправді не про кохання». Після того, як ці кадри закодуються у вашій короткочасній пам’яті, дійсно важко зупинити їх від втручання у ваш власний досвід перегляду фільмів.

Ще однією вагомою причиною є те, що якщо ви втомилися або поспішили, ви, можливо, не захочете читати огляд, не кажучи вже про перегляд 2-хвилинного трейлера.

Тож числовий рейтинг фільмів видається хорошим рішенням у багатьох ситуаціях для досить багатьох людей.

Ця стаття має на меті рекомендувати єдиний веб-сайт, щоб швидко отримати точний рейтинг фільмів, і пропонує надійну аргументованість на основі даних.

Критерії "найкращий"

Прийняття такої рекомендації багато в чому нагадує "це найкраще місце для пошуку рейтингу фільму", що є оціночним твердженням, спираючись на деякі критерії, що використовуються для визначення того, що краще, що гірше чи гірше, а що найкраще , в цьому випадку. Для своєї рекомендації я буду використовувати один єдиний критерій: нормальний розподіл.

Найкраще місце для пошуку рейтингу фільмів - це побачити, чиї рейтинги розподіляються за шаблоном, що найбільше нагадує або ідентичний шаблону нормального розподілу, який є таким: з урахуванням набору значень, що лежать у певному інтервалі , більшість з них перебувають посередині, а деякі інші в крайніх межах цього інтервалу. Як правило, так виглядає нормальний (також званий гауссовим) розподіл:

Яке обґрунтування цього критерію? Ну, на власному досвіді, що складається з декількох сотень фільмів, я можу сказати, що бачив:

  • кілька видатних, які я переглядав кілька разів
  • пара, яка була справді жахливою, і змусила мене шкодувати про час, витрачений на їх перегляд
  • і цілу купу середніх, для більшості з яких я вже навіть не можу згадати сюжет.

Я вважаю, що більшість людей - чи то критики, чи кінофільми, чи просто звичайні кіномани - мали подібний досвід.

Якщо рейтинги фільмів справді виражають якість фільму, то ми повинні бачити однакову схему для обох.

Враховуючи, що більшість із нас оцінює основну масу фільмів як середню якість, ми повинні бачити ту ж модель, коли аналізуємо рейтинги фільмів. Подібна логіка застосовується до поганих та хороших фільмів.

Якщо вас ще не переконали, що між шаблонами має бути така відповідність, подумайте про розподіл рейтингів для одного фільму. Як багато людей оцінюють фільм, це не стрибок у вірі, якщо припустити, що найчастіше їх буде багато з подібними уподобаннями. Вони, як правило, погоджуються, що фільм є поганим, середнім або хорошим (пізніше я оціню кількісно ці якісні значення). Крім того, буде декілька інших, хто оцінює фільм за однією з двох інших якісних цінностей.

Якби ми візуалізували розподіл усіх рейтингів для окремого фільму, ми, швидше за все, побачили б, що один кластер формується в одній із областей, що відповідає низькому, середньому або високому рейтингу.

За умови, що більшість фільмів вважаються середніми, скупчення навколо середньої площі має найбільшу ймовірність появи, а інші два кластери мають меншу (але все ще значну) ймовірність. (Зверніть увагу, що всі ці ймовірності в принципі можуть бути визначені кількісно, ​​але для цього знадобиться багато даних і може перетворити цю статтю на книгу.)

Найменш імовірним буде рівномірний розподіл, при якому немає кластерів, а уподобання людей поділяються майже порівну на три якісні значення.

З огляду на ці ймовірності, розподіл рейтингів для досить великої вибірки фільмів повинен бути таким, що має тупий скупчення в середній площі, обмежене смугами зменшуваної висоти (частоти), що нагадує, таким чином, нормальний прокат.

Якщо вам все це важко зрозуміти, розгляньте цю ілюстрацію:

IMDB, гнилі помідори, фанданго чи метакритик?

Тепер, коли у нас є критерій для роботи, давайте зануримось у дані.

Існує багато веб-сайтів, які придумують власні рейтинги фільмів. Я вибрав лише чотири, головним чином, виходячи з їх популярності, щоб отримати оцінки для фільмів з прийнятною кількістю голосів. Щасливими переможцями є IMDB, Fandango, Rotten Tomatoes та Metacritic.

Останні два я зосередився лише на їх знакових типах рейтингу - а саме на томатометрі та на метаоцінці -головним чином тому, що вони більш видимі для користувача на кожному з веб-сайтів (тобто швидше їх знайти). Вони також розповсюджуються на інших двох веб-сайтах (метарезультат ділиться на IMDB, а томатометр на Fandango). Окрім цих знакових рейтингів, обидва веб-сайти мають і менш функціональний тип рейтингу, де лише користувачі можуть брати участь.

Я зібрав рейтинги деяких з найбільш голосованих та рецензованих фільмів у 2016 та 2017 роках. Очищений набір даних має рейтинги для 214 фільмів, і їх можна завантажити з цього репозиторію Github.

Я не збирав рейтинги для фільмів, випущених до 2016 року, просто тому, що незабаром після аналізу Уолта Хікі відбулася невелика зміна рейтингової системи Фанданго, на яку я посилатимусь далі в цій статті.

Я усвідомлюю, що робота з невеликою вибіркою є ризикованою, але принаймні це компенсується отриманням останнього знімка розподілу рейтингів.

Перш ніж складати графіки та інтерпретувати розподіл, дозвольте мені кількісно визначити якісні значення, які я використовував раніше: за шкалою від 0 до 10 поганий фільм десь від 0 до 3, середній від 3 до 7, а хороший між 7 і 10 .

Зверніть увагу на різницю між якістю та кількістю. Щоб це було помітно в подальшому, я буду називати рейтинги (кількість) низькими, середніми або високими. Як і раніше, якість фільму виражається як погана, середня чи хороша. Якщо ви турбуєтесь про те, що “середній” термін не збігається, не варто, тому що я подбаю, щоб уникнути будь-якої двозначності.

Тепер давайте подивимось на розподіли:

З одного простого погляду можна помітити, що гістограма метарезультату (саме так називається такий графік) найбільше нагадує нормальний розподіл. Він має густе скупчення в середній площі, що складається з брусків неправильної висоти, що робить верх ні тупим, ні гострим.

Однак вони більш численні і вищі за бруски в кожній з двох інших областей, які зменшуються у висоту до крайнощів більш-менш поступово. Все це чітко вказує на те, що більшість метабалів мають середнє значення, яке в значній мірі є тим, що ми шукаємо.

У випадку з IMDB основна частина розподілу також знаходиться в середній області, але є очевидний перекіс до найвищих середніх значень. Область високих оцінок виглядає подібною до тієї, яку можна було б побачити при нормальному розподілі в цій частині гістограми. Однак вражаюча особливість полягає в тому, що область, що представляє низький рейтинг фільмів, абсолютно порожня, що викликає великий знак запитання.

Спочатку я покладав провину на малу вибірку, думаючи, що більша з них зробить більше справедливості для IMDB. На щастя, мені вдалося знайти готовий набір даних на Kaggle, що містить рейтинги IMDB для 4917 різних фільмів. На мій великий подив, розподіл виглядав так:

Форма розподілу виглядає майже такою ж, як у зразка з 214 фільмами, за винятком області з низьким рейтингом, яка в цьому випадку слабко заповнена 46 фільмами (з 4917). Основна частина значень все ще знаходиться в середній області, що робить рейтинг IMDB вартим подальшого розгляду для рекомендації, хоча, очевидно, важко порівняти метаоцінку з цим перекосом.

У будь-якому випадку, справді чудовим у цьому результаті є те, що він може бути використаний як вагомий аргумент на підтвердження тези про те, що вибірка з 214 фільмів є досить репрезентативною для всієї сукупності. Іншими словами, зараз є більша впевненість, що результати цього аналізу будуть однаковими - або, принаймні, подібними - до результатів, досягнутих, якщо проаналізувати абсолютно всі рейтинги фільмів з усіх чотирьох веб-сайтів.

З цією підвищеною впевненістю перейдемо до вивчення розподілу рейтингів Фанданго, який, схоже, не сильно змінився після аналізу Хікі. Перекос все ще помітно спрямований на вищу частину спектра рейтингу фільмів, де проживає більшість рейтингів. Область для нижньої половини середнього рейтингу абсолютно порожня, як і зона для низьких оцінок. Легко зробити висновок, що розподіл досить далекий від мого критерію. Отже, я не буду розглядати це далі для можливої ​​рекомендації.

(Я обіцяю, що мука прокрутки скоро закінчиться. Набагато простіше порівняти розподіли, якщо вони розміщені один біля іншого, а не розкидати їх по статті.)

Нарешті, розподіл томатометра несподівано рівномірний і виглядав би ще більш рівним за іншої стратегії бінінгу (стратегія бінінгу визначається загальною кількістю стовпчиків та їх діапазонами; ви можете грати з цими двома параметрами, коли створюєте гістограму) .

Цей розподіл непросто інтерпретувати в контексті, оскільки томатометр - це не класичний рейтинг, а швидше представляє відсоток критиків, які дали позитивний відгук про фільм. Це робить його непридатним для якісного середовища погано-середньо-добре, оскільки робить фільми або хорошими, або поганими. У будь-якому випадку, я думаю, це все-таки повинно зводитися до того самого звичайного розподілу, причому більшість фільмів мають помірну різницю між кількістю позитивних та негативних відгуків (надання багатьох рейтингів 30% - 70% позитивних відгуків), і мало фільмів, що мають значно більшу різницю, так чи інакше.

З огляду на останнє врахування та форму розподілу, томатометр не відповідає моєму критерію. Це може бути , що велика вибірка буде робити це більше справедливості, але навіть так, якби я , щоб рекомендувати його, я б зробив це з деякими запасами з - за нечітку позитивну або негативну рейтингову систему.

На цьому етапі аналізу я міг би сказати, що, дивлячись на розподіли, моя рекомендація - це метаоцінка.

Однак розподіл IMDB, здається, також варто розглянути, особливо якщо ви трохи налаштували рейтингові інтервали для трьох якісних категорій (інтервали, які я визначив сам, більш-менш довільно). З цієї точки зору рекомендувати метабал, переважно проводячи візуальний огляд, явно недостатньо.

Отже, я спробую розмежувати ці два за допомогою кількісного методу.

Ідея полягає в тому, щоб використовувати змінну Фанданго як негативне посилання, а потім визначити, яка змінна, за рейтингом IMDB та метабалами, найменш корелює з нею (я називаю ці змінні, оскільки вони можуть приймати різні значення - наприклад, метабал є змінною, оскільки вона приймає різні значення, залежно від фільму).

Я просто обчислюю деякі коефіцієнти кореляції, і змінна з найменшим значенням буде моєю рекомендацією (тоді я поясню, як ці коефіцієнти кореляції працюють). Але перед цим дозвольте мені коротко обґрунтувати вибір змінної Фанданго як негативного посилання.

Користувачі Fandango занадто люблять фільми

Однією з причин такого вибору є те, що розподіл рейтингів фільмів Фанданго є найвіддаленішим від звичайного, маючи той очевидний перекіс у бік вищої частини спектра рейтингу фільмів.

Інша причина - хмара підозр навколо Фанданго, залишена аналізом Уолта Хікі. У жовтні 2015 року він також був здивований подібним розповсюдженням і виявив, що на веб-сайті Фанданго числові рейтинги завжди були округлені до наступної найвищої півзірки, а не до найближчої (наприклад, середній рейтинг 4.1 для фільму були округлені до 4,5 зірок замість 4,0).

Команда Fandango виправила упереджену рейтингову систему і сказала Хікі, що логічна оцінка є скоріше "програмним збоєм" на їх веб-сайті, вказуючи на неупереджену систему в їх мобільному додатку. (Детальніше про це в статті Хікі.) Коригування змінило деякі статистичні параметри на краще, але недостатньо, щоб переконати мене не працювати зі змінною Фанданго як негативним посиланням.

Ось як виглядає зміна:

Тепер давайте збільшимо масштаб Фанданго:

Між метаоцінками та рейтингом IMDB, що найменше співвідноситься з рейтингом Фанданго?

Найменш корелює з рейтингом Фанданго - це метаоцінка. Він має значення r Пірсона 0,38 щодо Фанданго, тоді як рейтинг IMDB має значення 0,63.

А тепер дозвольте мені все це пояснити.

Оскільки дві змінні змінюються, приймаючи різні значення, вони співвідносяться, якщо існує закономірність, що відповідає обом змінам. Вимірювання кореляції просто означає вимірювання ступеня існування такої закономірності.

Одним із способів виконати цю міру є обчислення r Пірсона. Якщо значення +1,0, це означає, що існує ідеальна позитивна кореляція, а якщо -1,0, це означає, що існує ідеальна негативна кореляція.

Ступінь кореляції змінних зменшується в міру наближення r Пірсона до 0, як з негативної, так і з позитивної сторони.

Давайте краще візуалізуємо це:

Тепер, щоб поставити абстракцію вище в контекст, якщо порівняти, як змінюються значення для двох типів рейтингу - скажімо, Фанданго та IMDB, - ми можемо визначити ступінь існування шаблону, відповідного обом змінам.

Враховуючи щойно згадані коефіцієнти кореляції, існує закономірність між Фанданго та IMDB більшою мірою, ніж для Фанданго та метаоцінки. Обидва коефіцієнти є позитивними, і, як такий, кореляція називається позитивною, що означає, що в міру того, як рейтинги Фанданго зростають, рейтинги IMDB, як правило, зростають більше, ніж метабали.

Іншими словами, для будь-якого даного рейтингу фільмів на "Фанданго" більш вірогідно, що метарезультат буде значно відрізнятися від нього, ніж рейтинг IMDB.

Вирок: використовуйте метарезультат Metacritic

Загалом, я рекомендую перевіряти метарезультат кожного разу, коли ви шукаєте рейтинг фільму. Ось як це працює та його мінуси.

У двох словах, метарезультат є середньозваженим серед багатьох оглядів відомих критиків. Команда Metacritic читає огляди та присвоює кожному 0–100 балів, які потім отримують вагу, головним чином на основі якості огляду та джерела. Детальніше про їх рейтингову систему ви можете знайти тут.

Тепер я хочу лише вказати на кілька мінусів метарезультату:

  • Вагові коефіцієнти є конфіденційними, тому ви не зможете побачити, наскільки кожен огляд враховувався в метарезультаті.
  • Вам буде важко шукати метабали для менш відомих фільмів, які з’являлися до 1999 року, коли був створений Metacritic.
  • Деякі останні фільми, основною мовою яких не є англійська, навіть не перелічені на Metacritic. Наприклад, румунські фільми «Два лотерейні квитки» (2016) та «Східний бізнес» (2016) не перелічені на Metacritic, тоді як вони на IMDB, з рейтингами.

Ще кілька слів

Підводячи підсумок, у цій статті я дав єдину рекомендацію, де шукати рейтинг фільмів. Я рекомендував метарезультат, базуючись на двох аргументах: його розподіл нагадує найбільш звичайний, і він найменш корелює з рейтингом Фанданго.

Усі кількісні та візуальні елементи статті відтворюються на Python, як це показано тут.

Дякуємо за читання! І щасливого кінофільму!