Набор данных Radio Ngrams позволяет проводить новые исследования
Posted: Thu Jul 10, 2025 6:39 am
Радио остаётся одним из самых популярных традиционных медиа сегодня: по состоянию на 2018 год 89% американцев слушают радио хотя бы раз в неделю, и во время пандемии это число растёт . Новости — самый популярный радиоформат, и 60% американцев считают, что радионовости «предоставляют актуальную информацию о текущей ситуации с COVID-19».
Местное разговорное радио предлагает разнообразный ассортимент программ, основанных на личностных характеристиках, которые предлагают уникальный взгляд на проблемы и интересы граждан по всей стране. Однако радио остаётся недоступным для учёных из-за технических сложностей, связанных с мониторингом и расшифровкой трансляций в больших масштабах.
Радиоархив Интернет-архива, запущенный в июле прошлого года, использует Данные телеграммы технологию автоматического распознавания речи для транскрибирования обширной коллекции ежедневных новостей и радиопередач разговорного радио в текст с возможностью поиска, начиная с 2016 года. Он продолжает архивировать и транскрибировать избранные станции по настоящее время, делая их доступными для просмотра и поиска по ключевым словам .
Набор данных Ngrams
Основываясь на этом невероятном архиве, проект GDELT и я превратили его в исследовательский набор данных новостных радиограмм , охватывающий 26 миллиардов слов английского языка по частям 550 станций с 2016 года по настоящее время.
Вы можете выполнить поиск по ключевым словам по всем 3 миллионам передач, но для исследователей, интересующихся более глубоким изучением лингвистических закономерностей радионовостей, новый набор данных ngrams включает в себя 1-5 грамм с разрешением 10 минут, охватывающие все четыре года и обновляемые каждые 30 минут. Для тех, кто не так хорошо знаком с концепцией ngrams , это таблицы частоты слов, в которых расшифровка каждой передачи разбита на слова, и для каждого 10-минутного блока эфирного времени составляется список всех слов, произнесённых за эти 10 минут на каждой станции, с указанием количества упоминаний каждого слова.
Местное разговорное радио предлагает разнообразный ассортимент программ, основанных на личностных характеристиках, которые предлагают уникальный взгляд на проблемы и интересы граждан по всей стране. Однако радио остаётся недоступным для учёных из-за технических сложностей, связанных с мониторингом и расшифровкой трансляций в больших масштабах.
Радиоархив Интернет-архива, запущенный в июле прошлого года, использует Данные телеграммы технологию автоматического распознавания речи для транскрибирования обширной коллекции ежедневных новостей и радиопередач разговорного радио в текст с возможностью поиска, начиная с 2016 года. Он продолжает архивировать и транскрибировать избранные станции по настоящее время, делая их доступными для просмотра и поиска по ключевым словам .
Набор данных Ngrams
Основываясь на этом невероятном архиве, проект GDELT и я превратили его в исследовательский набор данных новостных радиограмм , охватывающий 26 миллиардов слов английского языка по частям 550 станций с 2016 года по настоящее время.
Вы можете выполнить поиск по ключевым словам по всем 3 миллионам передач, но для исследователей, интересующихся более глубоким изучением лингвистических закономерностей радионовостей, новый набор данных ngrams включает в себя 1-5 грамм с разрешением 10 минут, охватывающие все четыре года и обновляемые каждые 30 минут. Для тех, кто не так хорошо знаком с концепцией ngrams , это таблицы частоты слов, в которых расшифровка каждой передачи разбита на слова, и для каждого 10-минутного блока эфирного времени составляется список всех слов, произнесённых за эти 10 минут на каждой станции, с указанием количества упоминаний каждого слова.