Big-Data: Una nueva forma de tratamiento de datos

En el área de la tecnología, en especial la informática, suelen aparecer nuevos términos que se usan para denominar una novedad o línea de trabajo. Big-Data parece ser uno de ellos y se está rapidamente imponiendo. A continuación traducimos y transcribimos un artículo de una entrevista realizada para la revista «Wired» por Robert MacMillan a Victor Mayer-Schönberger y Kenneth Cukier, autores de un libro sobre el tema.

Considero que dicha conversación nos aporta un conocimiento inicial. Queda para nosotros la opción de seguir estudiando lo que está detrás de estos términos, observar como evoluciona el nuevo paradigma tecnológico y sus posibles ramas de aplicación.

Ustede pueden leer el artículo original en inglés en el link:

http://www.wired.com/wiredenterprise/2013/03/big-data

A continuación la traducción del artículo de la revista WIRED:

Una entrevista sobre “Big-Data”: Dando sentido a un nuevo orden mundial.

By Robert McMillan

En abril del 2003, investigadores británicos y estadounidenses declararon el Proyecto Genoma Humano completo. Esta maratón de cómputo de diez años de duración, fue la primera vez que alguien trazó la secuencia de más de 3 billones de bloques químicos que componen el ADN humano.

Ello fue un gran avance; pionero en la ciencia de la computación y la biología. También fue uno de los primeros problemas de «Big Data». Un reto computacional que requiere una supercomputadora, y no una base de datos (Oracle por ejemplo), para resolver el problema. Bienvenidos a la era “Big Data”. Hoy en día, el poder de procesamiento ha avanzado hasta el punto en que se podría secuenciar el genoma humano en un día. Y en cuanto más y más del mundo se este digitalizando; desde imágenes de Street View de Google hasta nuestra historia de ¨Me gusta” de Facebook, un montón de gente estará hablando de grandes volúmenes de datos en estos días.

Vamos a realizar una introducción a Victor Mayer-Schönberger y Kenneth Cukier y su nuevo libro: “Big Data: Una revolución que transformarán la forma de vivir, trabajar y pensar”.

Victor Mayer-Schonberger Photo:Rob Judges

Como el título indica, Mayer-Schönberger, un profesor de Oxford y Cukier, un editor de la revista “The Economist”, están entusiasmados por el tema de Big Data, pero su libro es más que un simple folletín. Es una lectura matizada y legible de los cambios tecnológicos que han hecho la era de grandes volúmenes de datos posible, y una cartilla sobre muchas de las cosas interesantes que están sucediendo en la intersección del tratamiento informático de gran alcance, aprendizaje automático, y el análisis de datos. Ellos cubren todo; desde la sed de Google para explorar y hacer minería de datos, hasta el análisis de datos de Steven Levitt para predecir los resultados en la lucha libre profesional de Sumo.

Wired: ¿Te gusta la expresión: “Big Data”? Obviamente, es el título de su libro, pero hay una sensación en una gran cantidad de personas que trabajan en ese campo, que es un término usado en exceso.

Kenneth Cukier: El término está muy en boga hoy. No hay duda de ello. Pero sigue siendo muy útil para la industria como manera de hablar, para entender y para pensar en ello.

El nombre es muy imperfecto. Por supuesto, lo es. Y la mayor imperfección es que no se trata sólo de volumen y, para las personas que no saben más sobre él, parece ser más un caballito de batalla, y no lo es.

Wired: Usted dice que no se trata sólo de volumen: ¿De qué se trata entonces?

Victor Mayer-Schönberger: No se trata acerca de volumen en términos absolutos. Sí, de que la cantidad total de datos que estamos analizando y captando se vuelve mucho más grande. Pero en lo que realmente estamos enfocados es que tenemos más datos relativamente sobre un fenómeno que la cantidad total de datos disponibles.

Sigue diciendo:

– Tenemos 60.000 elementos de datos y sólo hemos muestreado 100. Si conseguimos todos los 60.000 elementos de datos disponibles, es decir – en nuestros términos – un montón de datos. 60.000 es el número de peleas de Sumo que se analizaron con el fin de descubrir los resultados, como se describe en el libro. Eso es todas las luchas de Sumo a lo largo de los diez años que hemos mirado. Eso no es una muestra de 100 o 200.

Wired: Usted dice que la idea de identificar mecanismos causales es una «ilusión de auto-felicitación», y que los Big Data pueden destruir esa ilusión. ¿Qué es lo que realmente quieres decir con eso? Creo que mucha gente sentirá como que el análisis de Big Data le quitará algo de su humanidad; ¿Está de acuerdo?

Mayer-Schönberger: O la ganará. Daniel Kahneman, en su libro “Thinking, Fast and Slow”, demuestra que los seres humanos tienden a presentar explicaciones heurísticas de las causas de las cosas que nos rodean todo el tiempo, pero la mayoría de las veces, estas rápidas explicaciones heurísticas causales son incorrectas. Comemos en un restaurante, nos enfermamos al día siguiente, pensamos que era porque comimos en el restaurante. Casi siempre la causa de nuestra enfermedad no tiene nada que ver con el restaurante. Tiene que ver con el que nos dimos la mano. Nuestro pensamiento causal rápido nos hace creer en rápidas conexiones causales.

Esto es a menudo muy preocupante. Debemos tener mucho cuidado con este tipo de pensamiento causal rápido. Y los Big Data nos ayudaran porque los Big Data dicen: «Dá un paso atrás al mirar las causas. Mira las correlaciones. Mira el “qué” en lugar del “por qué”, porque la respuesta es a menudo suficientemente buena. «

Wired: Estamos en los primeros días de la aplicación de estas técnicas de análisis de Big Data, así que quizás es un poco pronto para esta pregunta, pero ¿Cree usted que este fenómeno está cambiando la manera en que pensamos? ¿Nos estamos emancipando de las ataduras de esta tendencia arraigada de ver la relación de causalidad donde no existe realmente?

Cukier: Una cosa que me llamó la atención acerca de su pregunta es cómo ya hemos cambiado … la manera en que pensamos de una manera cuantificada sobre todas las cosas.

Cuando hablé con la gente sobre el libro en Gran Bretaña, había muchos profesores universitarios de las artes que se me acercaban, y todos quejándose de que en realidad no se puede proponer una subvención en estos días sin poder cuantificar lo que estás haciendo. Y tienes artistas – que venian a mí y me gritaban que: «¿Cómo se supone que voy a cuantificar mi éxito, yo soy un artista? «Ellos creen que esta búsqueda de la cuantificación ha ido demasiado lejos.

Ahora me gustaría retroceder en contra de eso. Yo creo que en realidad es muy razonable que si vas a producir algo como el arte, que intentas buscar formas de mejorarlo y entenderlo , si se quiere, ¿a cuánta gente que llega?, ¿cuántas veces ha sido compartida en el Internet?. Si se trata de algo que tiene un complemento on line, eso tendrá un impacto.

En las etapas iniciales, lo que estamos viendo es que en todas las dimensiones de la vida, la gente está pensando en una manera cuantificada. El movimiento auto cuantificado es sólo un ejemplo de ello. Las becas de investigación es otra. Obviamente, con la vigilancia y la idea de vigilancia de predicción, tenemos fuerzas policiales que están usando algoritmos para identificar la probabilidad de que ocurra un crimen y enviar a las fuerzas allí.

Se trata de la primera ola del camino que estamos viendo la ola de la capa de datos grande en sí mismo por encima de toda la sociedad.

Mayer-Schönberger: Una consecuencia inmediata de esta comprensión del poder de correlación es un cambio en nuestra forma de entender el mundo. Los científicos desarrollaron el llamado método científico. Se le ocurrió una teoría o una hipótesis de cómo el mundo iba a funcionar y luego salían y recopilaban datos para probar o refutar sus hipótesis. Pero que sucede si usted no sabe la hipótesis? ¿Cómo puede probar 50 millones de hipótesis? En la era de datos grandes esto puede variar, al igual que hizo Google con Google Flu Trends. Ellos no sabían cuáles de los 50 millones de términos de búsqueda que probaron necesitaban ser conectados y puesto en un modelo para modelar la propagación de la gripe, pero fueron capaces de encontrar los 45 términos que daban el mayor sentido.

Los Big Data nos permiten no poner a prueba la hipótesis, sino dejar que los datos hablen y nos digan qué hipótesis es la mejor. Y de esa forma se modifica completamente lo que llamamos el método científico o – más en general – cómo entender y dar sentido al mundo.

Wired: En su libro, usted habla de Farecast. Ellos fueron adquiridos por Microsoft por US $ 110 millones en 2006. Y luego, Google pagó 700 millones de dólares un par de años después por ITA Software, su proveedor de datos. Si está empezando una empresa hoy, ¿usted es dueño de los datos o serías un intermediario?

Mayer-Schönberger: Me gustaría ser dueño de los datos absolutamente. Sin embargo, a los intermediarios les irá igual de bien – si las personas o empresas dueñas de los datos no tienen otra opción que licenciarles los datos a ellos.

Wired: ¿Cómo sucedió eso?

Mayer-Schönberger: Tomemos el ejemplo de los datos de mantenimiento predictivo que tiene UPS. Tienen una flota de 60.000. Y eso es muy útil, pero para hacer el mantenimiento predictivo realmente bueno, usted necesita tener un par de cientos de miles de coches – tal vez un millón de automóviles en su base de datos.

No pueden hacerlo ellos mismos. Si FedEx va a UPS y dice: ‘¿Por qué no nos dan los datos y los ponemos todos juntos? «, tienen un problema con la defensa de la competencia y así sucesivamente. Así que si bien un hombre común y dice «Dame tus datos. Voy a hacer el análisis y te daré los resultados de los análisis «, es un buen motivo para que existan los intermediarios.

Wired: ¿Cómo esto cambia la informática. ¿Todo el mundo necesita ser un programador?

Mayer-Schönberger: Sí, se necesita una población muy grande de programadores, pero la programación cambiará en el sentido de que la programación se centrará más en Big Data y análisis de datos en lugar de la interfaz de usuario web o programación transaccional como ha ocurrido en el pasado.

Al final del día, todavía es necesaria la escritura de código para manipular los datos, per tendrá una aplicación y objetivo diferentes.

Illustraciones: Ross Patton

Nota importante:

Traducción no profesional realizada por José M. Ciampagna y corregida por Fabio Fortuni.

Trabajo realizado sin fines de lucro y a fines de difusión.

muy majo y muy guspo la verdad cabe resaltar q lo hace muy bien

Hola César, sí.. Juan Manuel Castagnino es uno de los autores de texto que mencionas. Lo busque en la Biblioteca…

José, la vida hace que con mucho orgullo y satisfacción estoy practicando 4 Mensuras de Posesión en La Cumbre. El…

Lamentablemente, por voluntad del Arinci, se hicieron pocos ejemplares del libro. Por otro lado imagino que los que pueden autorizar…

Buenos dias desde España ¿Sería posible recibir una copia digital del libro o un resumen extenso? El dónde estoy es…

Big-Data: Una nueva forma de tratamiento de datos

Publicado por El profe José

Deja un comentario Cancelar la respuesta

Tu voto:

Comparte en:

Relacionado

Publicado por El profe José

Deja un comentario Cancelar la respuesta