Набор данных событий GitHub
Набор данных содержит все события на GitHub с 2011 года по 6 декабря 2020 года, объём составляет 3,1 миллиарда записей. Размер загрузки составляет 75 ГБ, и это будет требовать до 200 ГБ пространства на диске, если хранить в таблице с сжатием lz4.
Полное описание набора данных, аналитика, инструкции по загрузке и интерактивные запросы размещены здесь.