Гістограма (Histogram)

Гістограма (Histogram) - це наближене представлення розподілу числових даних. Вперше цей термін ввів Карл Пірсон. Щоб побудувати гістограму, першим кроком є "розбиття" діапазону значень - тобто розбиття всього діапазону значень на ряд інтервалів - а потім підрахунок кількості значень, що потрапляють в кожен інтервал.

Діапазони (інтервали) повинні бути суміжними і часто (але не обов'язково) однакового розміру.

Якщо інтервали мають однаковий розмір, над ними проводиться смуга висотою, пропорційною частоті - кількості випадків у кожному інтервалі. Гістограма також може бути нормалізована для відображення "відносних" частот, що показують частку випадків, які потрапляють у кожну з декількох категорій, при цьому сума висот дорівнює 1.

Однак, не обов'язково, щоб відсіки були однакової ширини; в такому випадку, площа побудованого прямокутника визначається пропорційно частоті випадків у відсіку. Тоді по вертикальній осі відкладається не частота, а щільність частоти - кількість випадків на одиницю змінної на горизонтальній осі.

Приклади змінної ширини інтервалу наведені нижче на основі даних Бюро перепису населення. Оскільки сусідні діапазони не залишають проміжків, прямокутники гістограми торкаються один одного, вказуючи на те, що вихідна змінна є неперервною.

Гістограми дають приблизне уявлення про щільність основного розподілу даних і часто використовуються для оцінки щільності: оцінки функції щільності ймовірності основної змінної. Загальна площа гістограми, яка використовується для щільності ймовірності, завжди нормується до 1. Якщо довжина інтервалів на осі х дорівнює 1, то гістограма ідентична графіку відносної частоти.

Гістограми (Histograms) є одним із семи основних інструментів контролю якості.

Гістограми (Histograms) іноді плутають з гістограмами. Гістограма використовується для безперервних даних, де стовпчики представляють діапазони даних, тоді як гістограма - це графік категоріальних змінних. Деякі автори рекомендують, щоб гістограми мали проміжки між прямокутниками, щоб пояснити відмінності.

Стовпчаста діаграма (bar graph) та гістограма (histogram) - це два поширені типи графічного представлення даних. Хоча вони можуть виглядати схожими, між ними є деякі ключові відмінності, які важливо розуміти.

Стовпчаста діаграма (bar graph) - це діаграма, яка використовує стовпчики для представлення частоти або кількості різних категорій даних. Смуги можуть бути як вертикальними, так і горизонтальними, і зазвичай їх розташовують горизонтально або вертикально, щоб полегшити порівняння різних категорій. Стовпчасі діаграми (bar graph) корисні для відображення даних, які можна розділити на окремі категорії, наприклад, кількість учнів у різних класах школи.

З іншого боку, гістограма (histogram)  - це графік, який показує розподіл числових даних. Це тип стовпчастій діаграми (bar graph), який показує частоту або кількість спостережень у різних числових діапазонах, які називаються діапазонами. Діапазони зазвичай вказуються як послідовні інтервали змінної, що не перекриваються. Гістограма забезпечує візуальне представлення розподілу даних, показуючи кількість спостережень, які потрапляють у кожну область. Це може бути корисно для виявлення закономірностей і тенденцій у даних, а також для порівняння між різними наборами даних.

Приклади гістограм

Це дані для гістограми праворуч, з використанням 500 елементів:

Слова, що використовуються для опису патернів на гістограмі, є такими: "симетрична", "зміщена вліво" або "вправо", "унімодальна", "бімодальна" або "мультимодальна".

Бюро перепису населення США виявило, що 124 мільйони людей працюють поза домом. Використовуючи їхні дані про час, який займає дорога на роботу, у таблиці нижче показано, що абсолютна кількість людей, які відповіли, що витрачають на дорогу "щонайменше 30, але менше 35 хвилин", є більшою, ніж у категоріях, що знаходяться вище та нижче. Це, ймовірно, пов'язано з тим, що люди округляють час, який вони витрачають на дорогу. Проблема надання дещо довільно округлених значень є поширеним явищем під час збору даних від людей.

Ця гістограма показує кількість випадків на одиничний інтервал як висоту кожного блоку, так що площа кожного блоку дорівнює кількості людей в опитуванні, які потрапили в його категорію. Площа під кривою представляє загальну кількість випадків (124 мільйони). Цей тип гістограми показує абсолютні числа, з Q в тисячах.

Ця гістограма відрізняється від першої лише вертикальною шкалою. Площа кожного блоку - це частка від загальної кількості, яку представляє кожна категорія, а сумарна площа всіх стовпчиків дорівнює 1 (дріб означає "всі"). Відображена крива є простою оцінкою щільності. Ця версія показує пропорції і також відома як гістограма з одиничною площею.

Іншими словами, гістограма представляє розподіл частот за допомогою прямокутників, ширина яких представляє інтервали класів, а площа пропорційна відповідним частотам: висота кожного з них є середньою щільністю частот для інтервалу. Інтервали розміщені разом для того, щоб показати, що дані, представлені гістограмою, хоча і є винятковими, але також є суміжними. (Наприклад, на гістограмі можуть бути два з'єднувальні інтервали 10,5-20,5 і 20,5-33,5, але не два з'єднувальні інтервали 10,5-20,5 і 22,5-32,5. Порожні інтервали відображаються як порожні і не пропускаються).

Звичайна та кумулятивна гістограма тих самих даних. Наведені дані є випадковою вибіркою з 10 000 точок з нормального розподілу із середнім значенням 0 і стандартним відхиленням 1.