Windows

Планы данных большого размера Facebook включают в себя склады, более быструю аналитику

Настя и сборник весёлых историй

Настя и сборник весёлых историй
Anonim

Facebook может сокровище данных, которые он имеет на своих миллиардных пользователях за свои рекламные доходы, но анализ, который сайт выполняет по этим данным, как ожидается, будет продолжать создавать многочисленные проблемы в течение следующего года, сказал инженер.

Проблемы, которые Facebook был вынужден преодолевать «намного раньше, чем более широкая отрасль», включают в себя вычисление более эффективные способы обработки пользовательского поведения на сайте, как улучшить доступ и консолидировать различные типы данных в нескольких центрах обработки данных Facebook, а также разработать новые программные системы с открытым исходным кодом для обработки этих данных, Ra vi Murty, который управляет инфраструктурой аналитики Facebook, сказал во вторник.

«Facebook - компания данных, и наиболее очевидная вещь, о которой люди думают на этом фронте, - это таргетинг на рекламу», - сказал он на отраслевой конференции в Сан-Франциско во время поговорить о внутренней инфраструктуре Facebook, аналитике данных и проектах с открытым исходным кодом.

[Читать дальше: Лучшие телевизионные потоковые службы]

«Но это глубже, чем это», - сказал он.

Одна из основных областей закулисная работа связана с инфраструктурой аналитики Facebook, которая призвана ускорить разработку продукта и улучшить работу пользователя благодаря глубокому анализу всех доступных данных, независимо от того, состоит ли это из действий, которые пользователи принимают на сайте, таких как обновления статуса публикации или приложения, которые они используют в Facebook, на разных устройствах.

В настоящее время Facebook использует несколько различных программных систем с открытым исходным кодом, известных как Hadoop, Corona и Prism, для обработки и анализа своих данных, которые компания сосредоточит на создании быстрее и эффективнее в течение следующих шести-двенадцати месяцев, сказал Мурти.

Многие из проблем компании связаны с тем, что Facebook называет своим хранилищем данных, которое объединяет данные из нескольких источников в базу данных, где можно анализировать активность пользователя в совокупности, например, путем ежедневного отчета о количестве фотографий, помеченных в определенной стране, или о том, сколько пользователей в определенной области задействовано со страницами, которые им были рекомендованы.

Анализ чтобы оптимизировать пользовательский опыт и узнать, что пользователям нравится и не нравится, но он также становится все более подверженным налогообложению, поскольку Facebook имеет доступ к большему количеству данных о своих пользователях, сказал Мерти. В настоящее время склад Facebook занимает 500 терабайт новых данных каждый день, или 500 000 гигабайт. За последние четыре года склад вырос почти в 4000 раз, «опередив рост пользователей Facebook», - сказал Мурти.

Чтобы решить эти проблемы, Facebook разработал свою программную систему Prism, которая предназначена для выполнения ключевые аналитические функции во всех центрах обработки данных по всему миру и разделить анализы на «куски», сказал Мерти. Таким образом, выполнение анализа, скажем, некоторой метрики, связанной с новостными каналами пользователей, не будет более сглаживать склад в целом.

«Мы все больше думаем о том, как фиксировать эти данные», - сказал он.

Компания также работает над системой, которая использует совершенно другой подход, чтобы запросить склад, чтобы дать время отклика в течение нескольких секунд, сказал Мурти.

Другая область Facebook постоянно смотрит на улучшение своей «транзакционной инфраструктуры», », Который обрабатывает более простую, повседневную обработку данных, скажем, симпатий, комментариев и обновлений статуса, чтобы поддерживать бесперебойную работу социальной сети. Murphy сказал, что некоторые из вопросов, на которые обращают внимание инженеры и аналитики компании, включают в себя выяснение того, как прогнозировать фактический рост данных этого типа, и сколько компьютеров Facebook действительно должны выделять для этого.

«Можем ли мы предсказать, что будет через шесть месяцев?» - сказал он.

Между тем, Facebook также участвует в долгосрочных усилиях по повышению эффективности своих физических серверов. Компания начала свой Открытый проект в 2011 году с целью создания модульных серверов, которые дают клиентам более широкий контроль над сетями, памятью, источниками питания и другими компонентами, которые входят в их серверы. Он был расширен для включения процессоров ARM в январе.