miércoles, 23 de diciembre de 2015

La enseñanza universitaria en la era de internet

1. La “internet-alización” de las universidades

Una primera respuesta visible de muchas universidades se ha expresado de tres maneras:
    a. mediante la proyección de su imagen y de sus servicios a través de sitios web orientados al gran público;
    b. mediante el desarrollo de sistemas de apoyo a su labor académica: sitios de consulta para alumnos (que incluyen eventualmente apuntes de cursos), manejo de registros académicos, intranets administrativas;
    c. en algunos casos, algo más escasos, en el desarrollo de sistemas de docencia a distancia.
En este último caso podemos observar dos fenómenos que se están desarrollando en paralelo:
    c1. Los cursos a distancia de algunas universidades de renombre se están ofreciendo a toda la comunidad intelectual conectada a Internet, produciéndose de este modo una competencia donde el renombre de la universidad es evidentemente un factor promocional clave;
    c2. Algunas universidades están formando alianzas estratégicas para ofrecer cursos conjuntamente, lo cual permite un apoyo mutuo mediante la selección de los mejores cursos y el “compartir imagen”.
Un aspecto especial a tener en cuenta en la opción de la teleducación es la “extemporalidad” o “asincronía” de la docencia: los alumnos se conectan en el horario que más les conviene y deben tener –habitualmente- plazos relativamente amplios para realizar las evaluaciones en línea. (No se puede hablar ni de universidades ni de enseñanza “virtual”, por cuanto universidades y enseñanza son totalmente reales, siendo “real” y “virtual” antónimos).

2. Cambios estructurales


Pero existe otro factor que pocas universidades, a nuestro juicio, han tenido en cuenta: el de la rápida evolución de los conocimientos y la correspondiente desactualización del conocimiento de los profesionales egresados. Si recogemos la afirmación de que el conocimiento se duplica cada cinco años, tenemos que concluir que los profesionales que no se preocupan en forma permanente de mantenerse al tanto de los avances en su disciplina pierden completamente su vigencia ya a los cinco años de egresados de la universidad. Y, como lo hemos señalado, este problema no afecta solamente al mundo de la informática y de las tecnologías de comunicación: afecta y afectará cada vez más a todas las disciplinas del saber.

El remedio lo ofrecen las mismas tecnologías que potencian este avance: las tecnologías de comunicación, en particular Internet y la WWW, siempre que se conciba una adecuada estrategia de transferencia de conocimientos.
En la situación antes descrita, parece obvio que la Universidad ha de revisar la forma en que concibe su servicio a la sociedad en materia de transferencia del conocimiento. La estructura tradicional que plantea como elemento central los pre- y posgrados no está respondiendo a las necesidades reales de un mundo que evoluciona a la velocidad que hemos señalado. Pregrado, posgrado y extensión (este tercero, como “pariente pobre” de los anteriores) son un concepto ligada a un modelo de transferencia enraizado en el pasado. Corresponde a la concepción de una institución cuyo objetivo central consiste en formar a los jóvenes, para entregar a la sociedad nuevos profesionales (pregrado). Y a los más capaces o los que tienen aspiraciones mayores (o diferentes, como la investigación o la docencia), ofrece un complemento profundizador. Pero en el resto de la sociedad, sólo piensa de modo excepcional y puntual, a través de su actividades de “extensión”.

La Universidad del Siglo XXI, para cumplir su rol social, ha de concebirse sobre las nuevas bases de los requerimientos de conocimiento perpetuamente renovado. Esto significa que, en lugar de estructurarse en torno a pregrado, posgrado y extensión – asociados a períodos y plazos fijos-, ha de buscar una estructura adecuada para ofrecer una educación permanente. El profesional de mañana no podrá pensar que “sale de la universidad” en un determinado momento. Deberá permanecer en el sistema universitario durante toda su vida activa si quiere evitar la obsolescencia de sus conocimientos y la degeneración de su quehacer. Esto no quiere decir que abogamos por la supresión de los grados académicos: éstos son indicadores de calidad y de capacidad que mantendrán sin duda su importancia. Pero es más dudoso que ocurra lo mismo con los títulos profesionales, por cuanto éstos indican principalmente una habilitación para cierto tipo de tarea. Y dicha habilitación requerirá ser permanentemente actualizada.

Por ello, una Universidad “adecuada a los tiempos” debería organizar su docencia de tal modo que todo egresado pueda volver a tener acceso a la enseñanza en el momento en que el cuerpo de conocimientos de su área –o de alguna de las áreas que dominabasufra una transformación significativa. Esto significa que múltiples cursos, tanto de pregrado como de posgrado, deberían estar abiertos a los egresados que quieran o deban actualizar sus conocimientos. Obviamente, lo más probable es que no puedan asistir a clases presenciales, sea por el horario sea por la distancia. Sus conocimientos previos, además, los preparan para una forma diferente de autoconstrucción del conocimiento. 
Esto nos lleva, en consecuencia, a una concepción de la universidad cuyo objetivo fundamental no ha cambiado pero cuya presencia y cuyo “ciclo de influencia” es muy diferente, siendo mucho más prolongado en el tiempo. También obliga a considerar el uso de las nuevas tecnologías como un componente vital y no como un elemento marginal o de mero “apoyo”. Los cursos a distancia ya no pueden ser un “apéndice”: todos los cursos que enseñen materias en rápida evolución o en cuyo ámbito se han producido cambios significativos en los últimos años deberían contar con una versión enlínea (única o en paralelo con una versión presencial), abierta tanto a los alumnos “regulares” como a los profesionales en ejercicio.

La “extensión universitaria”, desde este punto de vista, ya no es un componente secundario, sino que pasa a ser un elemento intrínseco clave: tenemos una “universidad extensa”, porque se ha de considerar ahora como una “docente permanente”,que operaría con métodos de divulgación tanto presenciales como remotos. 
Para los alumnos “externos”, se habrían de establecer mecanismos adecuados de registro y de conservación de antecedentes, permitiendo que diseñen de algún modo un currículum personal de actualización y cuenten (en condiciones por determinar) con el reconocimiento y la certificación correspondiente.
Este planteamiento no tiene nada de fantasioso y diversas universidades de la región ofrecen programas de formación permanente o complementaria basados en las nuevas tecnologías aunque no necesariamente asumiendo la concepción de universidad esbozada aquí. El MIT (Instituto Tecnológico de Massachussets), las universidades Rice, Tufts, Berkeley de Californa y de Michigan tienen programas por internet abiertos a alumnos externos. El sitio web de videos educativos “Academic Earth” ofrece videocursos y clases de Yale, Harvard, Stanford, MIT, UC Berkeley y Princeton.

3. Docencia por Internet


Las TIC pueden integrarse de dos maneras a la enseñanza: incorporando los recursos comunes de internet (páginas web, redes sociales, etc.) a la docencia o bien diseñando materiales o cursos completos en la modalidad “a distancia” (e-learning). 
La séptima encuesta annual del Centre for Learning & Performance Technologiessobre herramientas para la enseñanza mostró que los diez recursos son los más valorados por los docentes que utilizan medios digitales son los que aparecen en la tabla adjunta (J.Hart, CLPT, 27/09/2013).
De acuerdo con la Encuesta Sloan de Aprendizaje en Línea 2010, aproximadamente 5,6 millones de estudiantes tomaron al menos una clase basada en la web durante el semestre de otoño 2009, lo que marcó un crecimiento del 21% respecto al año anterior, y los expertos predijeron que la educación en línea podría llegar a 14 millones en 2014 (The Next Web, 11/11/2013). Para fines de 2014, se esperaba que el 80% de los estudiantes de la educación superior norteamericana estudiasen una o varias asignaturas en línea (Pulp PR, vía eCampusNews.com, 16/06/2014). 

En otro post hablaré de las bases del e-learning y de los tipos de proyectos. 


miércoles, 9 de diciembre de 2015

RV: Realidad e irrealidad digital


Este año parece ser el del despegue de cierto fanatismo por la visión/publicación 3D o al menos en 360°. La hemos visto aparecer en la prensa digital y también en los planes de las redes sociales. Pero, al parecer, se confunden muchas veces los conceptos de realidad virtual, realidad aumentada y vídeo envolvente (360°).

ViceNews y otros profesionales ya han producido noticieros que han llamado “realidad virtual”, pero son vídeos en 360°, lo cual no tiene nada de "virtual". Un equipo chino a presentado en verdadero 3D un reportaje sobre las protestad de Hong-Kong de 2014 (requiere lentes 3D; ver aquí debajo). La “3D móvil” podría ser común en 2020.

Un vídeo en 360° no es realidad virtual, como tampoco lo es un reportaje en 3D, aunque requiera lentes 3D. La confusión, probablemente, provenga justamente de la necesidad de éstas para gozar adecuadamente de la experiencia. ¡Pero no se justifica que los periodistas o editores de medios se confundan y confundan de este modo a sus destinatarios! 

Sería más correcto, desde ahora, hablar de "espacio virtual", como han empezado a hacerlo algunos especialistas. Con los lentes VR, accedemos a un espacio que no es el de nuestra realidad del momento: puede ser tanto real (captado en otro lugar u otro momento) como total o parcialmente ficticio. 

Es dentro de ese espacio que, como lo proyectan ejecutivos de Facebook, podríamos ser capaces -de aquí a 10 años- compartir nuestras vivencias con amigos y familiares de todo el mundo mediante un casco de realidad como Oculus VR. 

Microsoft va más lejos, pretendiendo transformar nuestro entorno, proyectando en él la realidad ajena: es su proyecto RoomAlive (inicialmente llamado IllumiRoom), que combinaba una serie de proyectores con Kinect y la consola Xbox para transformar una habitación completa en sala de juegos. Se podría combinar con sus Hololens, semi-transparentes, que ofrecen una visión holográfica dentro del mismo ambiente del usuario. 




El mayor y más completo espacio virtual, por ahora, podría ser el proyecto "Immersive TV", en el que se han embarcado en 2013 varias universidades y empresas españolas, que pretende sumergir al espectador en la retransmisión de TV para que se sienta parte de la escena y pueda interactuar con los contenidos. Este proyecto va más allá de lo audiovisual, ya que pretende combinar con estas señales otros elementos que estimulen nuestros sentidos, como olores, movimientos de muebles (domótica), encendido y apagado de luces, etc., para "crear así la cuarta dimensión".(El Mundo, 29/04/2013) 

Es evidente que los cascos de realidad virtual no parecen ser la mejor solución (especialmente cuando requieren cables unidos a una computadora) y que la proyección en el ambiente es mucho más cómoda. Ésta también evita un importante defecto asociado a la visión en un casco: tiende a generar náuseas cuando el sentido del cuerpo y la forma en que se está moviendo entra en conflicto con lo que se está viendo. El espacio "inmersivo" mixto (real-virtual) parece ser la respuesta más adecuada para el futuro. 

Pero con ello estamos alterando el concepto mismo y la experiencia de la realidad. Pasar de la realidad virtual (en sentido estricto) al espacio virtual, si se generaliza, puede hacer perder el sentido de la verdadera realidad. El espacio virtual altera radicalmente la experiencia y, a la larga, puede alterar el cerebro, como la actual sobreexposición a los sistemas de transmisión inmediata desarrolla el cortex prefrontal pero frena el área de la reflexión (cfr. cap. 5 de mi libro "¿Ser digital o ser humano?"

Sin embargo, como escribí en mi blog Notibytes, los visores de realidad virtual no toman adecuadamente en cuenta el factor de acomodación de los ojos. En reposo el ojo está “diseñado” para ver de lejos, eso significa a más de 6 metros. A medida que nos acercamos más a un objeto, debe esforzarse más. Después de los 45 años, se hace cada vez más difícil mirar a menos de 25 cm y se produce un rápido cansancio, por lo que se recomienda no superar los 15 a 20 minutos a menor distancia, como ocurre con los visores de RV. (Oculus.es, 4/12/2005). 

miércoles, 25 de noviembre de 2015

Vida digital: Exhibirse y esconderse


Éstas son las dos nuevas dimensiones de las comunicaciones digitales. Lo privado se hace público, hasta el nivel pornográfico. Lo íntimo se ventila en la mayor plaza pública que jamás existió. Y se aprovecha la misma plaza para lanzar "tormentas de mierda" (shitstroms) escondiéndose en el anonimato, como dice Byung-Chul Han ("En el enjambre", Herder, p.15). 

La explosión de los insultos, que se observan por ejemplo en Twitter, en mensages de Whatsapp enviados a los medios de comunicación y en algunos comentarios de Facebook, es una expresión de la pérdida del respeto, indicio de una pérdida de valores personales y morales. La gran duda es: ¿la comunicación digital es lo que está produciendo esta degradación o es la cultura (la educación) lo que está llevando a este tipo de (mal) uso de los medios digitales? 

No se han de confundir las tormentas de insultos con las olas de indignación ciudadana aunque pueden ser parte de éstas. Pero Han nos advierte que la indignación digital no es capaz de narración ni de acción. Se esparce rápido pero se esfuma igual de rápido. Con insultos e indignación (generalmente en 140 caracteres), la lengua y la cultura se empobrecen, se hacen vulgares. 

El "tsunami digital" trae consigo una crisis del espíritu. Todo es inmediato, lo cual quiere decir que la reflexión es escasa. Y, como ya dicho, los valores son olvidados. Para informar, se "transparentar" todo. Pero transparentar no aclara nada ("la luz pasa de largo"): no se somete esta supuesta información a ninguna escalade valores. Se puede tomar nota de ella, pero ésto no es conocimiento. El conocimiento exige reflexión. 

Y hablando de esconderse, no olvidemos la "red profunda" (deep web), donde todo es posible, menos la transparencia. Parte de ella, por lo mismo, es llamada la "red oscura" (dark web - tratada en detalle en el cap. 3.3 de mi libro "Internet ayer, hoy y mañana"). 


Referencias:
Byung-Chul Han, "En el enjambre", Herder, 2014.
R.Colle: ¿Ser digital o no ser? INCOM-Chile, Santiago, 2015

miércoles, 11 de noviembre de 2015

Evaluar la información en Internet

Aunque saben manejar un computador, los jóvenes tienen dificultades para evaluar la utilidad y credibilidad de las fuentes que consultan (si es que se preocupan de ello), lo cual puede ser peligroso. 
    "Para ser lectores en línea competentes, los estudiantes deben poder planificar y ejecutar una búsqueda, evaluar la utilidad de la información y enjuiciar la credibilidad de las fuentes. Para la mayoría de los alumnos no es posible desarrollar estas habilidades a través de la práctica ocasional solitaria; para dominar estas destrezas cada vez más importantes se necesita de orientación explícita de los profesores y recursos educativos de alta calidad", plantea el último informe Pisa in Focus de la OCDE. (El Mercurio 18/10/2015)

Desde 1996, la World Wide Web (WWW) está abierta a la publicación de todo tipo de mensaje, sin que nadie -salvo los propios autores o las organizaciones que ellos representen- pueda garantizar la calidad de la información. Es sin duda, hoy, el medio de comunicación que se pliega más ferreamente al principio de la libertad de expresión, con todas las ventajas e inconvenientes que ello implica. ¿Cómo saber, entonces, si una página que encontramos mediante un "motor de búsqueda" contiene información confiable? ¿Es posible desarrollar un "índice de calidad" de las páginas o de los sitios que encontramos? 


Presento primero una pauta general de evaluación y luego criterios complementarios para diferentes tipos de páginas o sitios y, finalmente, indico procedimientos para "rastrear" la información complementaria necesaria para evaluar.

1. Pauta general de evaluación

    (Esta pauta sintetiza los criterios enunciados por Jan Alexander y Marsha Ann Tate en "Web Wisdom: How to Evaluate and Create Information Quality on the Web", Ed. Lawrence Erlbaum)

Criterio 1: AUTORIDAD 


1.1. ¿Se señala el nombre del responsable de la página?

1.2. ¿El autor o responsable aparece como perteneciendo a alguna organización o empresa?

Si es así:
    1.2a.¿La página contiene un enlace hacia una página que describe los objetivos de la organización?
    1.2b. ¿Aparece algún medio para verificar la legitimidad de esta mención: número de teléfono o dirección postal para contactar la organización (un e-mail no es suficiente ya que puede ser engañoso)?
    1.2c. ¿Se señala si la información cuenta con la aprobación de la institución o es "oficial"?

1.3. ¿Se señalan las calificaciones del autor, que le confieren autoridad en el tema que aborda?

1.4. Si el material tiene copyright, ¿se indica a quién pertenece? 



Criterio 2: EXACTITUD 



2.1. ¿Se señalan las fuentes de la información factual, de tal modo que se pueda verificar con otra fuente?

2.2. ¿Está el texto exento de errores gramaticales y de ortografía?

2.3. ¿Está claro quién tiene la última responsabilidad acerca de la exactitud del contenido?
2.4. Si hay gráficos, ¿están claramente titulados y son fáciles de leer? 



Criterio 3: OBJETIVIDAD 



3.1. ¿La información se ofrece como un servicio a todo público o un público específico?

3.2. ¿La página está libre de publicidad?

3.3. Si hay publicidad, ¿está claramente separada del resto de la página?
3.4. Si la información es institucional o personal, ¿se indica claramente la orientación (filosófica, ideológica o religiosa) de la institución o del autor? 



Criterio 4: ACTUALIDAD 



4.1. ¿Aparece la fecha de instalación o de actualización en web?

4.2. ¿Se indica si el contenido se actualiza con regularidad? 



Criterio 5: COBERTURA 



5.1. ¿Queda claro si la página está completa o se encuentra aún "en construcción"?

5.2. Si se señalan varios temas ("menú"), ¿se cubren efectivamente todos los señalados?

5.3. Si se indica que existe una versión impresa de una o varias páginas
    5.3a. Si hay varias ediciones no-web, ¿se indica a cuál corresponde la versión web?
    5.3b. ¿Se indica si la versión en web es completa o sólo parcial?
    5.3c. ¿Se indica dónde y cómo se puede obtener la versión impresa, si la hay?

2. Tipos de páginas


2.1. Páginas informativas 


Son páginas destinadas esencialmente a entregar información factual, objetiva, o contenidos científicos. Se pueden incluir aquí principalmente las páginas de instituciones educacionales, centros de investigación, organismos públicos (estatales), diccionarios, directorios y, con algunas posibles reservas, las de agencias y medios informativos (periodísticos). En este mismo orden se puede evaluar, en general, la confiabilidad de este tipo de fuente. 



Criterio complementarios de autoridad:

Si se trata de un medio periodístico ¿existe una versión en otro medio (prensa, radio, TV) con el cual se pueda comparar la legitimidad? 



Criterios complementarios de exactitud:

Si se trata de un medio periodístico ¿existe una versión en otro medio (prensa, radio, TV) con el cual se pueda comparar la exactitud?

¿Se señalan los nombres de los editores responsables? 


Criterios complementarios de objetividad:

¿La información factual se distingue claramente de la opinática? 



2.2. Páginas comerciales 



Son las páginas de empresas comerciales que ofrecen sus productos o servicios. Aún cuando tengan el aspecto de ser meramente informativas, es necesario tomar en cuenta que es muy dudoso que sean totalmente objetivas. 



Criterios complementarios de autoridad:

¿Se indican quienes son los dueños de la empresa? ¿Hay alguna manera de comprobar la solidez de la empresa (p.ej. balance, valor en bolsa)? 



Criterio complementario de exactitud:

¿Hay algún enlace hacia un organismo independiente donde se pueda

  • certificar la existencia/vigencia de la empresa?
  • encontrar una evaluación crítica de sus productos (como páginas de organismos de defensa de consumidores)?

Criterios complementarios de cobertura:

¿Se describe clara y detalladamente cada producto/servicio (especificaciones técnicas, condiciones de uso, aplicabilidad)? ¿Foto?

¿Ésto se hace de igual manera para todos los productos/servicios? 



2.3. Páginas "advocativas" 



Son páginas de difusión de opiniones o de propaganda, tendientes a influenciar la opinión de los lectores. Han de considerarse parte de esta categoría las páginas de partidos políticos, organizaciones religiosas, así como -también- las "paginas de opinión" (como los comentarios editoriales) de los medios periodísticos. La evaluación principal, en estos casos, depende evidentemente de la opinión y del grado de conocimiento del propio lector. Pero también es importante tener en cuenta que, en este campo -como en los otros-, se filtra cierta cantidad de páginas que falsean su fuente, para desprestigiar instituciones o agrupaciones. 



2.4. Páginas personales 



Éstas son páginas compuestas y publicadas por individuos a título totalmente personal, por lo cual la información que incluyan (o no incluyan) acerca de la autoridad de sus autores es de suma importancia pero también puede ser muy fácilmente falseada. Por ello es de suma importancia verificar, además de los criterios generales antes mencionados: 



Criterio complementario de autoridad:

¿Hay algún enlace hacia un organismo oficial o académico que pueda respaldar la idoneidad del autor? 



Obviamente las páginas oficiales de las instituciones académicas son altamente confiables, pero a veces permiten que profesores o alumnos publiquen páginas personales. Será siempre un poco más confiable una página personal de un profesor, pero hay universidades que permiten también páginas de alumnos sin control alguno (por lo que hasta grupos terroristas han aparecido con páginas en sitios universitarios), así que más vale ser cauteloso. 



NOTA 

El orden en que hemos colocado estos cuatro tipos de páginas sigue a su vez, como se puede apreciar, la variable de confiabilidad. Es importante que el lector forme, en la práctica, mediante juicio crítico basado en sus propios conocimientos, su propia jerarquía de sitios y personas confiables.

3. Procedimientos de rastreo de información sobre la fuente

Si la página encontrada no contiene información sobre la fuente, conviene:
  • seguir un enlace hacia la portada del Sitio Web, si existe, o bien
  • seguir el proceso llamado de "afeitado" (shaving) de la dirección (URL), el que se realiza del siguiente modo: 
    Tomemos la URL de una página de la UDP (ya no existe), por ejemplo:
      http://facom.udp.cl/CEM/TDC/fichas/pda.htm
    "Afeitamos" una primera capa borrando "pda.htm", para ver si hay una página general en el directorio en que se encuentra dicha pagina; queda la dirección
      http://facom.udp.cl/CEM/TDC/fichas/
    que no es aceptada. Debemos "cortar" la siguiente "hoja", o sea sacar fichas/ quedando la dirección
      http://facom.udp.cl/CEM/TDC/
    Nos aparecería entonces una página que pertenecía al CEM y a la Facultad de Ciencias de la Comunicación e Información, de la Universidad Diego Portales. Tenemos así todos los datos necesarios. Sin embargo, podríamos seguir "afeitando", llegando a la portada del CEM (http://facom.udp.cl/CEM/) y luego a la portada de la Facultad (http://facom.udp.cl/). Ésta última parte (inicial) de una dirección es siempre la dirección del sitio que "hospeda" a la página encontrada.

De este modo hemos de poder ubicar la fuente de la información y su "hospedaje" (el sitio) y, en alguna de las páginas de mayor jerarquía (en la estructura de datos de los servidores) -que así se descubren- es de esperar que encontremos alguna información que nos permita juzgar la confiabilidad de la información. 


Por cierto habrá servidores de los cuales no sepamos nada: ¡no confiemos fácilmente, porque no faltan los verdaderos "depósitos de basura"! Y hay algunos sitios que ofrecen espacios gratis para páginas personales, como "Tripod" y "Geocities" o Google Sites: sus contenidos no son avalados por ninguna institución, sino solo por los autores, que pueden fácilmente mentir acerca de sus credenciales, por lo cual sólo deben aceptarse si existen medios para comprobar su autenticidad (por ejemplo publicaciones de los autores en otros sitios o revistas de prestigio establecido).

Conclusión


Con lo que es hoy la World Wide Web, con millones de páginas a nuestra disposición, la cautela ha de ser la regla básica universal. Si no conocemos la fuente, démonos el trabajo de evaluarla.


Recordemos que Internet es también un campo de batalla político, comercial e ideológico, por lo que conviene estar alerta acerca de esta dinámica bélica. 


NOTA: Ya había publicado esta información en uno de mis cursos en 1997.
La imagen inicial es del blog "Docente 2.0" que usó la misma fuente (Alexander y Tate).

miércoles, 28 de octubre de 2015

La prensa digital al servicio del conocer


"Lleguará el día en que la letra impresa se haga insostenible" y "los propietarios de medios de comunicación deben transformar sus compañías en empresas digitales" nos dice Jeff Jarvis (p.110). Y es lapidario: "Nada indica que los actores tradicionales —desde los periódicos hasta los servicios de teletipos y desde los sindicatos fotográficos hasta las emisoras de radiodifusión y los canales de cable— merezcan sobrevivir." (p.147). 

Hoy, cualquiera puede elaborar contenidos y, para distribuirlos, no es necesario ser su autor: lo puede hacer un lector que los recomienda, un agregador o curador que los recopila, un motor de búsqueda que los señala. Frente a esta situación (este nuevo ecosistema), el periodismo debe buscar su esencia, y su esencia es servir a sus lectores.
¿Cuál es este servicio? "Escudriñar el ecosistema, con editores y algoritmos, para encontrar el material bueno, ahorrando a los lectores esa ardua tarea y atrayendo la atención sobre lo mejor que encuentran." (Jarvis, p.145) Auscultar les medios sociales y seguir las publicaciones de otros medios conforman ahora una estrategia indispensable, junto con la inserción personal y los contactos directos en el ambiente local (conversar con el público, para responder localmente a necesidades locales). "Es el público que debe informar a la prensa", así la prensa podrá cumplir su objetivo real: "ayudar a la comunidad a lograr sus propios objetivos" (pp.199-200).

    "Debemos empezar por conocer a las personas como base de una nueva estrategia de negocio, no sólo ajustando contenidos, sino creando servicios en respuesta a necesidades e intereses manifiestos." (p.158).

Es aquí donde también ha de recurrirse al análisis de datos, como lo hacen empresas comerciales presentes en internet (ver mi post "Cambios en el acceso al conocimiento"). Hay que identificar a los lectores, tratando de obtener el máximo de información sobre ellos para entregarles lo que más les pueda interesar. (Vea al respecto mi post "Adaptar las noticias a los nuevos medios"). Recoger y analizar los datos de quienes leen en internet es una forma de escucharlos (que conviene complementar con formas más directas). 

La característica principal de la información digital es que fluye por múltiples canales. La "noticia exclusiva" practicamente no existe más. Y la información no es una propiedad que se posee y se vende o compra (aunque hay empresas que aún piensan en ello, cobrando los "derechos de autor", pero éstos -en realidad- se aplican más a la forma que al contenido). De lo contrario se cobraría por el derecho a saber, dice Jarvis (p.182).

    "Cuando una información, un hecho, aparece en un periódico, puede repetirse y extenderse, de un ciudadano a otro, del presentador a la audiencia: «Oíd, oíd, oíd —grita el pregonero—. El rey ha muerto. Larga vida al rey. Divulgadlo». La información no puede ni debe ser propiedad de nadie. Bajo la ley de protección de derechos de autor, un creador no puede proteger la propiedad de hechos subyacentes o conocimientos, sólo su tratamiento. Es decir, no se puede registrar el hecho de que el bosón de Higgs fuera descubierto en el CERN en 2012; únicamente puedes registrar el tratamiento que has hecho de esa información: tu convincente informe oficial o la ingeniosa gráfica que explica qué coño es un bosón." (p.181)

Ésto no quiere decir que conseguir la información, como hacen los periodistas, no pueda ser costoso. Y éste es el mayor problema actual de los medios de prensa: los lectores están cada vez menos dispuestos a pagar pero exigen contenido de calidad, que es costoso. Éste es otro tema, pero hay que aprender del "dogma de fe" de Silicon Valley: las nuevas empresas empiezan siendo útiles y el valor vendrá a continuación. No olvidemos que los más exitosos en términos de usuarios -como Facebook y Google- no cobran (al menos directamente) por sus servicios. Y empiezan de a poco... 

Nos recuerda Jarvis que existen dos formas de crear valor en los medios de comunicación: la creación de contenido y la creación de una audiencia para dicho contenido, cosas que, en internet, están ahora separadas (p.186). El nuevo ecosistema de la información es el de los múltiples accesos y las múltiples formas, por múltiples sujetos con una multiplicidad y gran variedad de contenidos. Ésto hace que sean muy valiosas las páginas que reúnan numerosos enlaces. ¿Para qué vamos a volver a escribir lo que otro ya publicó en internet (especialmente si está bien escrito)? ¿Para qué colocar, en medio de una noticia, la síntesis de la biografía de algún personaje importante si está en la Wikipedia y podemos poner el enlace?

    "En internet, el contenido sin enlaces no tiene valor porque no tiene audiencia. El contenido gana valor a medida que gana enlaces." (p.186).
Recordemos que la web es hipertexto e hipertexto significa enlazar y dejar que le lector construya el discurso que quiere leer.
    "El enlace —la genialidad de sir Tim Berners-Lee, el Gutenberg de nuestra época— cambia los medios de comunicación a un nivel tan atómico que es imposible creer que podemos continuar operando según modelos de negocio antiguos, marcos legales antiguos, métricas antiguas y tecnologías antiguas. Tenemos que rediseñar el negocio de los medios de comunicación y de la información desde el primer céntimo, preguntándonos dónde se crea valor, quién lo aporta, dónde reside y cómo extraerlo." (p.194)


The Washington Post propone este tipo de periodismo-servicio.

Referencia:
Jarvis, J. (2014): El fin de los medios de comunicación de masas, Barcelona, Gestión 2000.

miércoles, 14 de octubre de 2015

¿Inteligencia? artificial

Las referencias a los big data y al análisis de los mismos remiten casi siempre al uso de procedimientos de "inteligencia artificial" para extraer información. Pero es necesario introducir algunas precisiones en torno a este concepto.

Problemas de definición

No es difícil definir "artificial" ya que, simplemente, es algo que no existe en la naturaleza. Pero definir "inteligencia" puede ser un problema porque no todos los filósofos o psicólogos entregan la misma explicación. El mismo David Chalmers, un experto en el tema, sugirió incluso el año pasado que no se debía esperar unanimidad siquiera en este siglo. Y John McCarthy, un pionero de la IA en la Universidad de Stanford abordó la cuestión en noviembre de 2007:
    "Q: ¿No hay una definición sólida de inteligencia que no depende de relacionarlo con la inteligencia humana? 
    R: Todavía no. El problema es que todavía no podemos caracterizar, en general, qué tipo de procedimientos computacionales queremos llamar inteligente. Entendemos algunos de los mecanismos de la inteligencia y no a otros." (Agenda Wold Economic Forum, 7/09/2015).
A pesar de ello, Marcus Hutter y Shane Legg han propuesta la siguiente definición general: "la inteligencia mide la capacidad de un agente para lograr objetivos en una amplia gama de entornos" (ibidem). Pero podría ser demasiado amplia (¿no hay muchos programas de computación que logran ésto pero que nadie consideraría "inteligente"?) y es dudoso que consigan una aceptación unánime, especialmente por parte de los psicólogos.

Inteligencia de máquina

Ante todo, ¿que significa realmente "inteligencia artificial"? El concepto es fruto de unas famosas conferencias que tuvieron lugar en 1956 en el Dartmouth College, en Hanover (New Hampshire, Estados Unidos). Los investigadores reunidos ahí discutieron acerca de la posibilidad de construir máquinas que no se limitaran a hacer cálculos prefijados sino operaciones genuinamente "inteligentes". Y, para ello, se inspiraban en los trabajos de Alan Turing quien, deseoso de crear un cerebro artificial, inventó la siguiente prueba:
    Un interrogador permanece encerrado en una pieza, enviando mensajes por un buzón a dos interlocutores, un hombre y una mujer, siendo su objetivo determinar quién es el hombre y quién la mujer (sin preguntar, obviamente, por el sexo de cada uno). En el modelo inicial de la prueba, se supone que el varón quiere hacerse pasar por mujer. Luego se pregunta: ¿qué ocurrirá si el varón es reemplazado por una máquina? Si el diálogo que ocurra y el número de errores en la solución dada se acerca al número de errores ocurridos en la comunicación con un ser humano, se podrá estimar -según Turing- que estamos ante una máquina "inteligente".
    (Tengamos en cuenta que la diferencia de sexo era mucho más fácil de descubrir en su época -1950-, razón por la cual este aspecto desapareció en las aplicaciones (y en muchos comentarios) posteriores de este test. Esto significa que las exigencias -para equiparar la máquina y el sujeto que trata de engañar- eran bastante modestas.)

A partir del grupo del Darmouth College, se formaron dos grandes "escuelas" de IA: la de la Universidad de Carnegie-Mellon que se propuso desarrollar modelos de comportamiento humano con aparatos cuya estructura se pareciese lo más posible a la del cerebro (lo que posteriormente derivó en los trabajos sobre redes neuronales artificiales) y la del Instituto Tecnológico de Massachusett (MIT), que se centró más en que los productos del procesamiento tuvieran el carácter de inteligente, sin preocuparse por el funcionamiento o la estructura de los componentes (lo cual se podría eventualmente lograr con computadores normales). 

En la propuesta de Turing -y en las fórmulas mejoradas del test que se han construido después- es importante tener en cuenta que la definición de la inteligencia está íntimamente relacionada con el protocolo que se estima correcto para determinar su existencia. Desde este punto de vista, Turing habría concebido el test de tal modo que fuese fácil considerar a los computadores como "inteligentes", ya que se "define" la inteligencia como lo que el computador logra demostrar en dicho test. Pero es una definición muy peculiar (y limitada) de la inteligencia, como han recalcado los psicólogos expertos en desarrollo de la inteligencia, los cuales han aportado múltiples argumentos que tienden a situar la inteligencia fuera del alcance del protocolo del Turing. Suponiendo que una máquina pasa con éxito el test de Turing (incluso con mayores exigencias), estaremos frente a un ente que reacciona adecuadamente, pero ello no implica que tenga entendimiento (o que sea realmente "inteligente" al modo humano). (H. Collins). 

El análisis del lenguaje fue una de las áreas en que más se trabajó. Se descubrió pronto que el mero reconocimiento del léxico no llevaba a ninguna parte y los trabajos de Chomsky llevaron a estudiar cómo era posible convertir una cadena lingüística -con una estructura determinada- en otra, lo cual sería clave para los sistemas actuales (aunque se ha renunciado a aplicar directamente sus ideas). Se llegó así a reconocer que la comprensión del lenguaje se demuestra fundamentalmente en la capacidad de parafrasear, es decir de referirse a un mismo contenido cambiando su forma de expresión (cfr. Schank, pp.108-109). 

    "Aunque se han dado ciertos avances, no se ha solucionado el problema del sentido común y las computadoras siguen sin poder enfrentarse a entornos poco formalizados. Hemos descubierto que la inteligencia no se reduce a mero cálculo (en lo cual las máquinas son las campeonas), sino que hay muchos tipos de inteligencias muy interconectadas: hay inteligencia social, emocional, creativa… ¿Cómo implementar en una máquina algo parecido a una emoción? No hay ingeniero en el mundo que tenga la más remota idea de cómo hacerlo." (Sánchez-Migallón)

Sistemas expertos

Aunque se habla de las interfaces de voz como Siri y Cortana como sistemas de IA, en realidad son solo sistemas expertos, que corresponden a una fase inicial de desarrollo de la IA (por esta razón implantable hoy en aparatos como los smartphones, ya que utilizan menos recursos). Contienen información básica que les permiten realizar operaciones en un dominio muy específico y, actualmente, pueden además "aprender" a partir del uso que se les da (básicamente a partir de una estadística de los términos dictados). Sin embargo, solo han sido posibles gracias a trabajos previos de poderosos computadores funcionando de forma paralela y aprendiendo patrones a partir de enormes volúmenes de información. Este trabajo ha sido mérito de Google, que reunió en 2008 en sus computadores la información entregada por sus usuarios, logrando llevar la cifra de aciertos, de acuerdo a sus investigaciones, al 90% de exactitud en el reconocimiento del habla humana. (BBC Mundo, 15/09/2015).

Minería de datos

Es un método de investigación propio de la “ingeniería de sistemas” destinado a explorar grandes conjuntos de datos para sacar de ellos conocimientos nuevos que, de otro modo, permanecerían por siempre escondidos. Consiste esencialmente en encontrar, entre los objetos representados, relaciones que serían imposible de encontrar de otra forma. Se aplica a cualquier tipo de Base de Datos con grandes cantidades de registros cuyos contenidos sean principalmente numéricos. Ha sido utilizado para investigar fraudes y el crimen organizado, en análisis financiero (bancos, bolsas), telecomunicaciones (operación de redes), medicina (influencias de la interacción de medicamentos), etc. El motor de búsqueda de Google es un ejemplo de IA de este tipo. (He analizado detalladamente esta técnica en mi libro "Explotar la información noticiosa", disponible en ISSUU.)

Aprendizaje de máquina

El aprendizaje de máquina pretende inducir conocimiento a partir de la acumulación de información no estructurada suministrada en forma de ejemplos o casos. Esta acumulación se complementa con los datos de las operaciones realizadas y cada resultado positivo de las búsquedas refuerza los circuitos (algoritmos) que facilitan la obtención de mejores respuestas. De este modo, la programación apunta a generalizar comportamientos o diseñar soluciones factibles a diversos problemas específicos. 

Este tipo de técnica existe desde al menos 30 años. Si no se utilizó con frecuencia anteriormente, es porque no se contaba con computadores capaces de utilizarla con suficiente rapidez y grandes cantidades de datos. Si el supercomputador Watson es capaz de responder correctamente a la pregunta "cuáles son las mayores ciudades de Estados Unidos", es porque es capaz de encontrar muchas variantes de frases como "Nueva York es la mayor ciudad" o "no hay ciudad mayor que Nueva York" y porque dispone de un cuerpo (base de datos) muy grande de informaciones. Lo mismo hace Google cuando compara fotos y es capaz de distinguir entre un perro y un gato (y otros animales u objetos). 

IBM lo ha llamado "computación cognitiva" y lo ofrece comercialmente como servicio de Watson. Así, en el Centro para el Cáncer MD Anderson de Houston (EEUU) hay una versión de Watson que ayuda a los médicos a desarrollar regímenes de tratamiento a partir de los síntomas de un paciente en base a un análisis de miles de páginas de artículos médicos y anotaciones de doctores. IBM también anunció el lanzamiento de Watson Personality Insights en español a través de Bluemix, servicio que utiliza el análisis lingüístico para inferir la personalidad y características sociales a partir del análisis de texto (Transmedia, 18/08/2015). 

Lo más novedoso, en el campo del aprendizaje automático parece ser el sistema desarrollado por Affectiva, una start-up de Waltham, Massachusetts, que puede descubrir las emociones ocultas mediante la observación de los movimientos de la cara. El enfoque le permite saber qué siente la gente a cada momento, mientras un anuncio aparece en la pantalla, y no sólo lo que se dice una vez que ha terminado. El software de Affectiva identifica primero marcadores faciales importantes, como la boca, las cejas y la punta de la nariz. A continuación, los algoritmos de aprendizaje automático siguen los movimientos de esas regiones o cómo cambia la textura y el color de la piel a lo largo del vídeo. Estos cambios se analizan en expresiones discretas que indican los cambios emocionales.
Los investigadores descubrieron después que podían usar los datos faciales para predecir con precisión los resultados en encuestas personales, lo que sugiere que se puede confiar en el análisis computacional para saber si un anuncio es exitoso. Piensan que, en el futuro, el sistema podría servir a los servicios de televisión como Netflix para producir programas de televisión o películas más agradables. (New Scientist, 16/09/2015) 

Una forma avanzada de este tipo de aprendizaje es el aprendizaje por "refuerzo profundo" (deep learning), que realiza estas operaciones mediantes redes neuronales artificiales.

Redes neuronales

Las redes neuronales artificiales intentan imitar las conexiones de las neuronas cerebrales.
    "Para comprender las operaciones básicas del tipo más simple de red neural, imaginen tres nodos de entrada dispuestos en una columna y una columna de dos nodos de salida a la derecha de los de entrada. Cada uno de los tres de entrada está conectado por cables a cada uno de los dos de salida; pero en la mitad de cada cable hay un interruptor que puede cerrar el paso de la corriente eléctrica a través del cable desde el nodo de entrada al de salida. Cuando se expone cualquiera de los tipos de nodos a una corriente lo suficientemente grande, se dice que el nodo está «activo»; cuando la corriente es muy pequeña o inexistente, está inactivo. Para resolver un problema con una red de este tipo, se puede asignar a cada nodo de entrada la representación de un rasgo particular del problema [y atribuir un determinado significado a los de salida] [...] Por supuesto, la clave para que la red produzca la respuesta correcta está en ajustar los interruptores entre los nodos de entrada y de salida. En las redes más sencillas, este ajuste puede ser simplemente cosa de abrir o cerrar por completo cada uno de ellos". (Freedman, pp.90-91)

Sin embargo, no se usan hoy simples interruptores (sistema binario) sino sistemas que permiten ajustar los valores en una escala contínua (potenciómetros). Se habla así del "peso" de una conexión, el que debe ser ajustado para que una determinada entrada produzca la salida correcta, tarea bastante difícil si no se cuenta con un sistema que permite a la red "aprender" de sucesivas experiencias. 

El desafío con estas redes es comprender exactamente qué proceso ocurre en cada capa: "Por ejemplo, la primera capa puede buscar por los bordes o esquinas de los elementos de la fotografía. Las capas intermedias interpretan las características básicas para buscar formas o componentes, como una puerta o una hoja. Y las últimas capas arman ésto en una interpretación completa, las que se activan en respuesta a cosas complejas como edificios o árboles". Pero los resultados pueden ser impredecibles:



Lo que Google ha hecho es una labor de lo que llaman «incepcionismo»: resaltar sobre una imagen convencional las diferencias y detalles que el software reconoce de forma más acusada. De este modo logramos ver algo así como «lo que llama la atención a la inteligencia artificial», algo que normalmente no se ve pero que está dando vueltas por los circuitos de memoria (Microsiervos, 19/06/2015) .

Yahoo y Google utilizan este tipo de redes (simuladas en un supercomputador) para el reconocimiento de rostros. Pero la respuesta no siempre es correcta como lo demostró lo ocurrido en Google al etiquetar como gorilas a dos personas de color, por lo que el mismísimo arquitecto jefe de Google+, Yonatan Zunger, debió disculparse, aclarando que el problema no era exclusivo de los afroamericanos, ya que también habían tenido problemas con personas blancas que habían sido etiquetadas como perros y focas, debido a que el aprendizaje de la red de IA era difícil y, por ahora, requiere la intervención de supervisores que "afinen" permanentemente el sistema para descartar los malos resultados. (MIT Technology Review, 16/02/2015; imagen adjunta). 

Goggle también usa su programa DeepMind para "enseñar a leer" a sus computadores. Sus redes neuronales pueden responder a un 60 por ciento de las consultas formuladas acerca de los artículos conservados (MIT Technology Review, 19/06/2015). 

Microsoft es otro de los competidores y consigue por ahora una calificación del 29.1%, lo que equivale a que 3 de cada 10 veces sus respuestas son al menos tan buenas como las que podría brindar un humano. La idea es utilizarla para crear subtítulos (pies de fotos). También es el sistema, llamado Memory Network, que Facebook está desarrollando para procesar textos y responder cualquier pregunta acerca de los mismos (MIT Technology Review, 26/03/2015). 

Se trabaja ahora en mejorar aún más estos sistemas para llegar a un nivel en que la máquina pueda demostrar su competencia a la hora de analizar una imagen "comprendiendo" qué ocurre en la escena y no solo identificar objetos, o sea pasar de algún modo el test de Turing aplicado a las imágenes. En ello trabaja el profesor Stuart Geman y compañeros suyos de la Universidad Brown, en colaboración con DARPA. (Xataka, 11/03/2015; imagen adjunta)

Algoritmos evolutivos

    "Una floreciente vía de investigación en los últimos tiempos es la llamada IA bioinspirada: aprender de los seres vivos. Se crean entornos virtuales en los que se sitúan “organismos” con distintas características para ver cómo evolucionan. La gran idea está en lo que se denomina algoritmo genético o evolutivo. Se propone un objetivo y se ponen a infinidad de “bichos” a intentar conseguirlo. Luego se introduce en cada uno de ellos una variación aleatoria (una mutación). A los que la variación no les mejore para conseguir el objetivo o, incluso, les perjudique, se eliminan. Los que mejoren siguen y se les introduce una nueva mutación aleatoria. Así, tras muchas generaciones, obtendremos seres altamente especializados en lo que queremos obtener. Todo consiste en copiar la selección natural darwiniana, pero acelerarla tanto como nos permiten hoy nuestros computadores." (Sánchez-Migallón)

La NASA utilizó ya este tipo de programación para resolver problemas de conexiones diseñando nuevos tipos de antenas para microsatélites en órbita. 

El futuro


Por cierto falta mucho para llegar a robots al estilo de los de Asimov, con una inteligencia casi humana. Por ahora, los esfuerzos de desarrollo de la IA van en otra dirección, conducidos por los intereses económicos. La inteligencia artificial, ya presente en los otros negocios de Google, jugará un papel primordial en sus vehículos autónomos. Para ello, el año pasado contrataron a Geoffrey Hinton, una de las mentes más brillantes en la materia. Apple también estaría trabajando en el desarrollo de su propio modelo de coche y, según Reuters, estaría por contratar hasta 86 personas para incrementar sus efectivos en inteligencia artificial. 
Pero ambos se encontrarán con una fuerte resistencia de la industria automotriz, que está llevando a cabo actualmente una verdadera guerra por contratar sus propios expertos en IA. ¿Por qué? Porque también tienen a la vista el desarrollo de los coches autónomos y necesitan buenos sistemas de IA para conducirlos. Y no quieren dejar que sistemas como Android Auto y (Apple)CarPlay acaparen a sus clientes, quedando ellos relegados a simples usuarios de un producto commodity. Las soluciones propias les dan mayor independencia. Así, según Bloomberg, Toyota ha contratado a la "cabeza pensante" del equipo de ingeniería de inteligencia artificial del ejército estadounidense, que ayudaría a incorporar en sus vehículos sistemas de seguridad que le permitan reducir el número de accidentes en las carreteras. Está invirtiendo 50 millones de dólares en la investigación de tecnología relacionada con inteligencia artificial y el coche autónomo. General Motors, Ford y Honda también están invirtiendo grandes sumas en I+D. Uber también contrató a 40 investigadores del departamento de inteligencia artificial de Carnegie Mellon, dejando ahí un departamento diezmado. ¿Su objetivo? Con coches autónomos ya no necesitarían a sus conductores, evitando numerosos quebraderos de cabeza. (Xataka, 16/09/2015

Todas las técnicas señaladas son "muy primitivas" a juicio de Rafael Yuste, ideólogo del Proyecto BRAIN ((Investigación del Cerebro a través del Avance de Neurotecnologías Innovadoras), cuyo fin último es mapear la actividad del cerebro, lo que permitirá desarrollar técnicas para alterar la actividad de circuitos neuronales y, de esa manera, corregir los defectos que provocan las enfermedades mentales, entre otras utilidades. BRAIN involucra a laboratorios de muchos países, requiere cientos de millones de dólares para ser financiado (una parte de los cuales aseguró el presidente Obama) y la dedicación de investigadores de distintas disciplinas. (One, El País.com, 16-09-2015)


Referencias:
BBC: "15 key moments in the story of artificial intelligence"
Colle, R.: Explotar la información noticiosa - “Data Mining” en el Periodismo, Ed.Depto de Biblioteconomía y Documentación, Universidad Complutense de Madrid, 2002. Disponible en ISSUU.
Collins, H.: Experts artificiels - Machines intelligentes et savoir social, Paris, Seuil, 1992.
Freedman, D.: Los hacedores de cerebros, Santiago de Chile, A.Bello, 1995.
Hammond, K.: "Why artificial intelligence is succeeding: Then and now", Computer World, 14/09/2015.
Knight, W.: " Watsoncito, Watsoncito, ¿hacia dónde debe IBM redirigir su negocio?", MIT Tecnology Review, 7/11/2014.
Pastor, J.: "
La Skynet benévola: los ordenadores "conscientes" están cada vez más cerca", Xataka, 9/12/2014.
Penalva, J.: "Este es uno de los nuevos exámenes que tendrán que aprobar las máquinas avanzadas", Xataka, 11/03/2015. Penrose, R.:Las sombras de la mente, Barcelona, Critica, 2007.
Pratt, I.: Artificial Intelligence, Londres, Macmillan, 1994.
Sánchez-Migallón, S.: "El gran debate sobre si será posible o no una inteligencia artificial", Xataka, 18/08/2015.
Schank, R.: El ordenador inteligente, Barcelona, A.Bosch, 1986.
Searle, J.: Mentes, cerebros y ciencia, Madrid, Cátedra, 1985.
Simonite, T.: "Demis Hassabis, Founder of DeepMind Technologies and Artificial-Intelligence Wunderkind at Google, Wants Machines to Think Like Us", MIT Technology Review, 3/12/2014.
Zamorano, E.: "Conoce las lisérgicas imágenes que crea una inteligencia artificial tratando de reconocer fotos, FayerWayer, 19/06/2015.
Foto inicial: "I Robot" (24.media.tumblr.com)

miércoles, 30 de septiembre de 2015

Análitica de textos en big data


Se considera generalmente que la información no estructurada representa el 80% de los datos con que cuenta una organización. Con los servicios "en la nube" y el rastreo de las actividades de los clientes o "visitantes" en las redes sociales, estos datos han crecido a gran velocidad y resulta casi imposible que un grupo humano los pueda analizar sin recurrir a nuevos métodos informáticos. Ya me he referido a ello al hablar de los cambios en el acceso al conocimiento, a la ciencia de datos y en el post pasado sobre acumulación comercial de datos personales. 

Si bien en muchos casos cada atributo registrado será el equivalente a una palabra o un par de ellas, también se darán múltiples casos en que serán más, lo cual dificulta aún más el análisis, obligando a entrar en el campo de la semántica, o sea de la comprensión del lenguaje, que deberá ser automática para poder generar en tiempo útil una información relevante. 

Mediante la comprensión de la lengua, del contexto, y de cómo se utiliza el lenguaje en las conversaciones, el análisis de texto descubre el "qué", el "quién", el "dónde" y el "cuándo" de la conversación, "cómo" la gente se siente y "por qué" la conversación está sucediendo. Es ésto lo que permite que las conversaciones sean clasificadas y los temas de discusión identificados y lo que el programa de análisis automático debe lograr lo mejor posible, para así convertir los datos no estructurados en datos estructurados y permitir a las empresas "escuchar" globalmente las transmisiones que captan. 

Aquí es donde entran a jugar un rol clave los sistemas de "inteligencia de negocios", que incluyen sistemas completos de análisis de textos, orientados al monitoreo de medios de comunicación social o de gestión de la "experiencia del cliente". Muchos proveedores incorporan ambos aspectos en un solo paquete, permitiendo a las empresas "escuchar" y responder a las necesidades o deseos de sus clientes.

    "El análisis de texto puede ser utilizado para desarrollar una mejor comprensión de los gustos, disgustos y motivaciones del cliente. Cambiar los incentivos del programa de fidelidad para que coincidan con los deseos de los clientes puede mejorar las ventas y aumentar la fidelización de clientes" nos dice Jeff Catlin, CEO de Lexalytic. una empresa que provee este tipo de servicios.

Hace poco, Facebook dió a conocer su sistema de análisis "Topic Data" que utiliza el análisis de texto para revelar lo que las audiencias están diciendo en esta red sobre eventos, marcas, sujetos y actividades. Los vendedores pueden utilizarlo para tomar mejores decisiones sobre sus productos y sus actividades. 
IBM también impulsa el uso de su supercomputador Watson para este tipo de análisis, para lo cual compró Alchemy, y Microsoft compró Equivio, una compañía de análisis de texto que se centra en eDiscovery. 
Y la tecnología de análisis de texto no sólo cubre el inglés, sino también muchos otros idiomas como francés, español, alemán, mandarín y japonés.

* Actualización / Complemento
Ha quedado demostrado, sin embargo, que los actuales sistemas de análisis automático de textos que ofrecen las empresas están lejos de ser realmente útiles como métodos de análisis de contenido. Estos sistemas (salvo quizás Watson) no tienen aún ninguna capacidad de crear categorías conceptuales a partir de lo leído. Solo pueden confeccionar estadísticas de frecuencia de las palabras y eventualmente de conexiones entre algunas en una misma oración ("segmentos"), con lo cual los resultados entregados siguen siendo poco útiles y sin justificación alguna en el caso de los "segmentos" computados (siendo los algoritmos desconocidos y no revelados). Para obtener algo más útil, se requiere definir palabras clave, lo cual obliga al usuario a leer al menos parte de los textos... e introducir desviaciones. "No vamos a poder obtener ninguna información útil a no ser que codifiquemos de forma manual, al menos mínimamente, los textos a partir de un tesauro con su estructura jerárquica y correspondencias que, también, hemos de crear nosotros mismos. Y la pregunta es, ¿de qué nos sirve el software y Big Data entonces?" advierte un investigador en la Revista Latina de Comunicación Social (artículo en preparación). ¡Lo que se espera de la "inteligencia artificial" es justamente que la máquina nos evite este tedioso proceso! 

Sin embargo...
La BSA (Business Software Association), defensora del desarrollo de software a nivel mundial, encabeza una campaña de marketing para incentivar el uso del análisis Big Data, mostrando "sus potencialidades y en qué áreas ya ha comenzado a marcar diferencias". "La innovación en software continua encendiendo avances sin precedentes que transforman el mundo a nuestro alrededor, empoderándonos como individuos y haciendo crecer nuestras economías", declara. Y lo justifica en un informe denominado "¿Por qué son tan importantes los datos?", disponible para descargar gratis desde su página web, donde muestra cómo, mediante el seguimiento de más de 1.000 datos por segundo, se han logrado importantes avances en la medicina infantil, disminuir la congestión vehicular, aumentar el rendimiento de las cosechas desde Iowa a la India, desarrollar edificios de bajo consumo energético, ciudades inteligentes y mejorar la planificación de las trayectorias de vuelo en los aviones... todos casos donde el análisis semántico parece muy poco relevante. (FayerWayer, 11/11/2015)


Fuente: Catlin, J.: "Text Analytics: The Next Generation of Big Data", Inside Big data, 5/06/2015.

miércoles, 16 de septiembre de 2015

La acumulación comercial de datos personales


Al utilizar la web, los teléfonos y los televisores “inteligentes”, proporcionamos informaciones sobre nosotros mismos, que lo queramos o no. Siempre dejamos rastros de nuestra actividad en la web, sea que usemos las redes sociales o no. Y todas las empresas ahí presentes tratan de capturar esta información, que es ahora un valioso producto comercial. Y éste crecerá exponencialmente con los gadgets que formarán la llamada “Internet de las Cosas” o IoT (Internet of Things). Nuestras actividades online son fuente de conocimiento no solo para nosotros mismos sino para quienes nos prestan sus servicios en la red. 

Los datos recopilados en internet por las empresas se acumulan en grandes bases de datos que han pasado a llamarse “big data”. Google procesa 3.500 millones de búsquedas por día y almacena unos 10 exabytes de datos. Tiene más de un millón de servidores. Facebook agrega 500 terabytes de datos diariamente. Amazon mantiene los datos de compras de 152 millones de clientes en alrededor de 1 exabyte. (Fuente: Adeptia; Infographic Journal, 6/03/2015). 

Los captores de datos personales, en el mundo de internet, no son todos equivalentes ni tienen los mismos objetivos. Las empresas tratan de aprovechar los contactos logrados a través de la web o de sus apps para conocer mejor a sus posibles clientes y rentabilizar mejor la relación. Los gobiernos ofrecen y recopilan información para orientar su gestión y mejorar sus servicios... y realizan actividades de espionaje para proteger su seguridad. Los políticos están interesados en la opinión pública y en la forma de influir en ella. Y no olvidemos los piratas (hackers) que tratan de acceder a informaciones reservadas, servicios financieros, infraestructuras, etc. con las intenciones más oscuras. Las instituciones académicas, además de darse a conocer, ofrecen cada vez más alternativas de enseñanza a distancia y publican los resultados de sus proyectos de investigación. 

¿Cuáles son los usos que las empresas dan a las herramientas de análisis de datos? Principalmente (48%) el análisis del comportamiento de los consumidores (Betanews, 21/11/2014). La predicción del comportamiento de los consumidores es uno de los campos que más interesan y se espera que el marketing predictivo personalizado, utilizando los datos sociales, sea una de las áreas de negocio que más se beneficiarán del análisis de big data en los próximos años, a pesar de que el 71% de los directores de marketing de todo el mundo dicen que su organización no está preparada para hacer frente a esta explosión de datos en los próximos 3 a 5 años (Business Insider, 12/05/2014). Y es que analizar estas montañas de datos de modo que se obtenga información útil no es tarea fácil, como lo muestra el hecho de que los grandes “recopiladores” intenten recurrir a la inteligencia artificial, como ocurre con Facebook, Google, Twitter, LinkedIn y algunos otros, que están comenzando a utilizar estas técnicas avanzadas para desarrollar su capacidad de “aprendizaje profundo” a partir de los datos que acumulan en sus redes, desde las conversaciones hasta el reconocimiento facial de las fotos y la actividad en los juegos. Así, tienen el potencial de ser mucho más personalizados. Y hacen emerger nuevos campos de marketing: la agrupación de audiencia (clustering), el marketing predictivo y el análisis de los sentimientos frente a las marcas. 

El siguiente esquema muestra la complejidad del tema de la gestión de datos privados en el ambiente actual. Abordo más detalladamente este tema en mi libro "Secuestrados y secuestrados: Nuestros datos en internet" (PDF en ISSU y ePub). 


Nota: Mis posts dejarán de ser semanales. Mientras me sea posible aparecerán quincenalmente.

miércoles, 2 de septiembre de 2015

La Wikipedia cuestionada

Una pareja de connotados científicos estadounidenses realizó un análisis de la estabilidad y precisión de artículos de la Wikipedia en inglés durante diez años sobre siete temas: lluvia ácida, calentamiento global, evolución, deriva continental, heliocentrismo, teoría general de la relatividad y modelo estándar. Encontraron que "calentamiento global" alcanzó en un solo día un máximo de 231 cambios mientras que "evolución" llegó a 89. En cambio, "deriva continental" y "heliocentrismo" no pasaron de una veintena de cambios en un día. Publicaron estos resultado en PLOS ONE, concluyendo que "Ya que nuestra sociedad ha convertido a Wikipedia en una fuente primaria de información científica, es vital leer su contenido en forma crítica y con el entendimiento de que es dinámico y vulnerable al vandalismo y otras irregularidades". Advierten también que una alta tasa de cambios hace difícil a los editores expertos de Wikipedia monitorear la precisión de los artículos. Antes de citar la Wikipedia, conviene revisar la página de discusión asociada a cada artículo así como las fuentes señaladas al final. "Los usuarios deben ser conscientes de que el contenido de la Wikipedia puede ser muy dinámico; dos estudiantes podrían obtener, en cuestión de segundos, información diametralmente diferente sobre un tema científico controvertido. Los educadores deben asegurarse de que los estudiantes entiendan las limitaciones y usos adecuados de Wikipedia, sobre todo para cuestiones científicas controvertidas.

Según anota el diario "El Mercurio", a juicio de Eduardo Testart, vicepresidente de Wikimedia Chile, el estudio está sesgado porque modificar una página muy seguido no siempre tiene una connotación negativa. "Puede que se estén corrigiendo errores gramaticales o agregando contenido valioso". El estudio no gustó a la Fundación Wikimedia, la ONG sin fines de lucro detrás de la enciclopedia. A través de su vocera, Samantha Lien, criticó que la investigación solo examinó la tasa de ediciones sobre los temas y no su precisión. 


La misma Wikipedia señala, en su política sobre el uso académico aclara que "Wikipedia no es considerado una fuente creíble o autoritaria ... cualquier enciclopedia es un punto de partida para la investigación, no un punto final.

En años anteriores, otros estudios también habían advertido de los riesgos de basarse únicamente en la Wikipedia, aunque los autores admitían que podían ser una importante lectura para obtener una visión más amplia (background reading; cfr. F.Nielsen) 


Fuentes:
El Mercurio, 19/08/2015
Wikipedia:Academic use
Wilson, A.M., Likens, G.E.: Content Volatility of Scientific Topics in Wikipedia: A Cautionary Tale, Plos ONE 10(8), August 14, 2015, DOI: 10.1371/journal.pone.0134454
Nielsen, F.Å.: Scientific citations in Wikipedia, First Monday 12(8), 6 August 2007.