como termina un job

20090915121712-icivis-wu-activas.png

Aqui seria interesante postular el modelo matematico y ver como encaja la curva. El caso es que esta semana hemos pillado a la vez dos terminaciones de jobs, que estaban calculados mas o menos para el verano. Ya lo he contado antes: un job no acaba de golpe sino que decae en lo que parece una exponencial, que depende de tiempos de caducidad y de duracion de las workunits. Cuando detectamos el modo de terminacion comenzamos a mandar cada seis horas una segunda copia de los trabajos que no han terminado, eso ayuda un poco. Si os fijais con lupa, se puede apreciar un poco despues de la medianoche del lunes y del viernes. No obstante, sigue siendo cierto que un trabajo de unas 20000 workunits tarda dos dias en terminar, eso haria mas apropiada la Grid que BOINC para los trabajos "cortos", digamos de hasta 64Kcpus. o Kprocesos.

15/09/2009 12:17. Autor: ibercivis. #.

Comentarios > Ir a formulario

gravatar.comAutor: luis

Pues andais flojos de bless docking, yo llevo 2 dias sin unidades y hoy con que no cuadra el hash osea que se ha "estropeado" por el camino, a ver si echais mas carbón al docking y sube a curva.
Un saludo

Fecha: 15/09/2009 23:33.


gravatar.comAutor: METEORWARM

Una idea que se me ocurre es que podeis acelerar mas los resultados con los ordenadores con Cuda y Tesla y Ati modificando las aplicaciones como gromacs y demas para trabajar con las gpu directamente y puedan ser acelerados esos resultados mucho mas rapido,las actuales memorias de las tarjetas graficas son rapidisimas,el solo cargar las proteinas en memoria de gpu para que recurra a ella la cpu acelera muchisimo los resultados,de hasta el 50% dependiendo de la aplicacion.Seleccionando estos ordenadores previamente podriais encargarle los trabajos mas pesados.

Fecha: 17/09/2009 22:30.


gravatar.comAutor: METEORSWARM

http://www.nvidia.es/object/molecular_dynamics_es.html

Esperemos que con algo mas de tiempo se desarrollen estas nuevas capacidades y las vayamos implementando.

Llevo dias recibiendo solo tareas de prueba y muchas de ellas no se descargan completas o presentan fallos en las descargas de expected number 2214 and have 0,cant rename file,etc

Saludos

Fecha: 20/09/2009 16:48.


gravatar.comAutor: Cazamarcianos

Hola, a la gente de Ibercivis:

Esto ya lo comenté hace tiempo y no se si en su día verificasteis si había un problema con esto.
Hay un ordenador, el 91733, que aparentemente es antiguo y poco potente, pero esta entregando cientos de tareas, solo de neurosim, en un día. Pero lo raro es que cada tarea la procesa en 3 minutos cuando lo normal es de mas de 30.

El ordenador:
http://registro.ibercivis.es/show_host_detail.php?hostid=91733

Ejemplo de las tareas:
http://registro.ibercivis.es/results.php?hostid=91733&offset=200

Deberíais de comprobar si los resultados de esas tareas son correctos, porque puede ser que el programa no procese la tarea pero si genere el algoritmo de validación, con lo que, si es asi, tendréis un montón de valores erróneos.
Un saludo
Jose.

Fecha: 24/09/2009 09:26.


gravatar.comAutor: METEORSWARM

01/10/2009 12:08:24 ibercivis Scheduler request completed: got 4 new tasks
01/10/2009 12:08:27 ibercivis Started download of 1bm7_gridmaps.7z
01/10/2009 12:08:27 ibercivis Started download of ZINC09505531.7z
01/10/2009 12:08:28 ibercivis Finished download of ZINC09505531.7z
01/10/2009 12:08:28 ibercivis Started download of job_ZINC09505531.xml
01/10/2009 12:08:29 ibercivis Finished download of job_ZINC09505531.xml
01/10/2009 12:08:29 ibercivis Started download of ZINC09505534.7z
01/10/2009 12:08:30 ibercivis Finished download of ZINC09505534.7z
01/10/2009 12:08:30 ibercivis Started download of job_ZINC09505534.xml
01/10/2009 12:08:32 ibercivis Finished download of job_ZINC09505534.xml
01/10/2009 12:08:32 ibercivis Started download of ZINC09505537.7z
01/10/2009 12:08:33 ibercivis Finished download of ZINC09505537.7z
01/10/2009 12:08:33 ibercivis Started download of job_ZINC09505537.xml
01/10/2009 12:08:34 ibercivis Finished download of job_ZINC09505537.xml
01/10/2009 12:08:34 ibercivis Started download of ZINC09505539.7z
01/10/2009 12:08:35 ibercivis Finished download of ZINC09505539.7z
01/10/2009 12:08:35 ibercivis Started download of job_ZINC09505539.xml
01/10/2009 12:08:37 ibercivis Finished download of job_ZINC09505539.xml
01/10/2009 12:08:58 ibercivis Finished download of 1bm7_gridmaps.7z
01/10/2009 12:08:58 ibercivis [error] File 1bm7_gridmaps.7z has wrong size: expected 10362741, got 10301098
01/10/2009 12:08:58 ibercivis [error] Checksum or signature error for 1bm7_gridmaps.7z

Fecha: 01/10/2009 12:15.


gravatar.comAutor: Cazamarcianos

No se si sabreis que, desde ayer, todos los resultados de docking no salen, por lo menos a mi.

Un saludo
Jose.

Fecha: 15/10/2009 10:16.


gravatar.comAutor: Cazamarcianos

Hola,

LLevo un tiempo que he notado una bajada importante en mis estadisticas de Ibercivis.

Investigando por si era un problema de mis ordenadores, he descubierto que llevais unos dias que, me imagino que por error, puntuais las unidades de docking a 0.5 creditos, creo que 6 veces por debajo de lo normal.

Un saludo
Jose.

Fecha: 21/10/2009 09:31.


gravatar.comAutor: Morly

es muy extraño lo que dice cazamarcianos pero suena familiar.apuesto algo a que pronto aparecen mas ordenadores que hacen lo mismo.huele a los de siempre.

Fecha: 26/10/2009 20:16.


gravatar.comAutor: Victor

Buenos dias
llevo un par de dias con problemas a la hora de enviar trabajos y tambien pero menos a la hora de recibirlos me pasa sobre todo con trabajos de docking. Ahora mismo tengo mas de una docena de trabajos terminados y no los envia

Un saludo

Fecha: 29/10/2009 10:37.


gravatar.comAutor: cosubaru

asi es, a mi tambien me ocurre, http error

Fecha: 29/10/2009 15:36.


gravatar.comAutor: Victor

Perdon por ser tan canso, pero tengo tres ordenadores con unas 50 tareas de dockin terminadas al 100% que no las envia, y lo malo no es eso, es que tampoco reciben nuevas tareas, ¿hay alguna solucion? o simplemente las cancelo?

adjunto un ejemplo del mensaje que me dan al reintentarlo

30/10/2009 8:35:59 Internet access OK - project servers may be temporarily down.
30/10/2009 8:54:36 ibercivis Started upload of molecula3058238_1t39_finalScreening_28-09-24-35-25_0_0
30/10/2009 8:54:39 ibercivis Temporarily failed upload of molecula3058238_1t39_finalScreening_28-09-24-35-25_0_0: HTTP error
30/10/2009 8:54:39 ibercivis Backing off 3 hr 10 min 56 sec on upload of molecula3058238_1t39_finalScreening_28-09-24-35-25_0_0
30/10/2009 9:34:47 ibercivis Started upload of molecula305781_1t39_finalScreening_28-09-20-34-32_0_0
30/10/2009 9:34:48 ibercivis Temporarily failed upload of molecula305781_1t39_finalScreening_28-09-20-34-32_0_0: HTTP error
30/10/2009 9:34:48 ibercivis Backing off 2 hr 11 min 17 sec on upload of molecula305781_1t39_finalScreening_28-09-20-34-32_0_0

Fecha: 30/10/2009 10:49.


gravatar.comAutor: luis

Yo llevo 3 dias sin poder enviar resultados y tengo muchos acumulados, lo peor esque ya no hay workunits de docking. Todo parado lo tengo, encima si pasa tiempo no me daran credito por las horas de computacion de esas unidades que esperan puedan ser subidas :-(

Fecha: 30/10/2009 21:23.


gravatar.comAutor: Alejandro Rivero

A medianoche de hoy estara reactivado docking. De veras que lo siento, nuestro partner nos dijo que era solo un problema temporal de DNS.

Fecha: 30/10/2009 21:26.


gravatar.comAutor: Carlos J. Gil Bellosta

Hola...

Supongo que el problema del "decaimiento exponencial" tiene que ver con el hecho de que hay ordenadores que no terminan sus tareas. Y que esto es así porque a lo mejor, las últimas se han mandado a ordenadores que están desconectados y que, por lo tanto, son incapaces de rematar su labor a tiempo.

No sé si podría implementarse un sistema de manera que cuando hubiese muchas tareas pendientes (carga de trabajo para un periodo largo) fuese más probable enviarles tareas a ordenadores que operen de manera más o menos esporádica y reservar los "remates" (cuando queden pocas tareas pendientes) a esos ordenadores que históricamente están conectados de manera más continua. Así disminuiría la probabilidad de que quedasen trabajos atrapados en ordenadores no operativos.

Y BOINC funcionaría, como dices arriba, de manera más similar a un GRID.

Un saludo,

Carlos J. Gil Bellosta

Fecha: 24/11/2009 12:13.


Añadir un comentario

*

*
No será mostrado.


*

* Datos requeridos.


Blog creado con Blogia. Derechos de autor con . Estadísticas. Suscribir RSS. Admin.
Blogia apoya: Fundación Josep Carreras, y Evento Blog España. Vota en los Premios Bitacoras.com [Blog Oficial en LaInformacion.com]