como termina un job

Aqui seria interesante postular el modelo matematico y ver como encaja la curva. El caso es que esta semana hemos pillado a la vez dos terminaciones de jobs, que estaban calculados mas o menos para el verano. Ya lo he contado antes: un job no acaba de golpe sino que decae en lo que parece una exponencial, que depende de tiempos de caducidad y de duracion de las workunits. Cuando detectamos el modo de terminacion comenzamos a mandar cada seis horas una segunda copia de los trabajos que no han terminado, eso ayuda un poco. Si os fijais con lupa, se puede apreciar un poco despues de la medianoche del lunes y del viernes. No obstante, sigue siendo cierto que un trabajo de unas 20000 workunits tarda dos dias en terminar, eso haria mas apropiada la Grid que BOINC para los trabajos "cortos", digamos de hasta 64Kcpus. o Kprocesos.
Comentarios > Ir a formulario
Autor: luis
Un saludo
Fecha: 15/09/2009 23:33.
Autor: METEORWARM
Fecha: 17/09/2009 22:30.
Autor: METEORSWARM
Esperemos que con algo mas de tiempo se desarrollen estas nuevas capacidades y las vayamos implementando.
Llevo dias recibiendo solo tareas de prueba y muchas de ellas no se descargan completas o presentan fallos en las descargas de expected number 2214 and have 0,cant rename file,etc
Saludos
Fecha: 20/09/2009 16:48.
Autor: Cazamarcianos
Esto ya lo comenté hace tiempo y no se si en su día verificasteis si había un problema con esto.
Hay un ordenador, el 91733, que aparentemente es antiguo y poco potente, pero esta entregando cientos de tareas, solo de neurosim, en un día. Pero lo raro es que cada tarea la procesa en 3 minutos cuando lo normal es de mas de 30.
El ordenador:
http://registro.ibercivis.es/show_host_detail.php?hostid=91733
Ejemplo de las tareas:
http://registro.ibercivis.es/results.php?hostid=91733&offset=200
Deberíais de comprobar si los resultados de esas tareas son correctos, porque puede ser que el programa no procese la tarea pero si genere el algoritmo de validación, con lo que, si es asi, tendréis un montón de valores erróneos.
Un saludo
Jose.
Fecha: 24/09/2009 09:26.
Autor: METEORSWARM
01/10/2009 12:08:27 ibercivis Started download of 1bm7_gridmaps.7z
01/10/2009 12:08:27 ibercivis Started download of ZINC09505531.7z
01/10/2009 12:08:28 ibercivis Finished download of ZINC09505531.7z
01/10/2009 12:08:28 ibercivis Started download of job_ZINC09505531.xml
01/10/2009 12:08:29 ibercivis Finished download of job_ZINC09505531.xml
01/10/2009 12:08:29 ibercivis Started download of ZINC09505534.7z
01/10/2009 12:08:30 ibercivis Finished download of ZINC09505534.7z
01/10/2009 12:08:30 ibercivis Started download of job_ZINC09505534.xml
01/10/2009 12:08:32 ibercivis Finished download of job_ZINC09505534.xml
01/10/2009 12:08:32 ibercivis Started download of ZINC09505537.7z
01/10/2009 12:08:33 ibercivis Finished download of ZINC09505537.7z
01/10/2009 12:08:33 ibercivis Started download of job_ZINC09505537.xml
01/10/2009 12:08:34 ibercivis Finished download of job_ZINC09505537.xml
01/10/2009 12:08:34 ibercivis Started download of ZINC09505539.7z
01/10/2009 12:08:35 ibercivis Finished download of ZINC09505539.7z
01/10/2009 12:08:35 ibercivis Started download of job_ZINC09505539.xml
01/10/2009 12:08:37 ibercivis Finished download of job_ZINC09505539.xml
01/10/2009 12:08:58 ibercivis Finished download of 1bm7_gridmaps.7z
01/10/2009 12:08:58 ibercivis [error] File 1bm7_gridmaps.7z has wrong size: expected 10362741, got 10301098
01/10/2009 12:08:58 ibercivis [error] Checksum or signature error for 1bm7_gridmaps.7z
Fecha: 01/10/2009 12:15.
Autor: Cazamarcianos
Un saludo
Jose.
Fecha: 15/10/2009 10:16.
Autor: Cazamarcianos
LLevo un tiempo que he notado una bajada importante en mis estadisticas de Ibercivis.
Investigando por si era un problema de mis ordenadores, he descubierto que llevais unos dias que, me imagino que por error, puntuais las unidades de docking a 0.5 creditos, creo que 6 veces por debajo de lo normal.
Un saludo
Jose.
Fecha: 21/10/2009 09:31.
Autor: Morly
Fecha: 26/10/2009 20:16.
Autor: Victor
llevo un par de dias con problemas a la hora de enviar trabajos y tambien pero menos a la hora de recibirlos me pasa sobre todo con trabajos de docking. Ahora mismo tengo mas de una docena de trabajos terminados y no los envia
Un saludo
Fecha: 29/10/2009 10:37.
Autor: Victor
adjunto un ejemplo del mensaje que me dan al reintentarlo
30/10/2009 8:35:59 Internet access OK - project servers may be temporarily down.
30/10/2009 8:54:36 ibercivis Started upload of molecula3058238_1t39_finalScreening_28-09-24-35-25_0_0
30/10/2009 8:54:39 ibercivis Temporarily failed upload of molecula3058238_1t39_finalScreening_28-09-24-35-25_0_0: HTTP error
30/10/2009 8:54:39 ibercivis Backing off 3 hr 10 min 56 sec on upload of molecula3058238_1t39_finalScreening_28-09-24-35-25_0_0
30/10/2009 9:34:47 ibercivis Started upload of molecula305781_1t39_finalScreening_28-09-20-34-32_0_0
30/10/2009 9:34:48 ibercivis Temporarily failed upload of molecula305781_1t39_finalScreening_28-09-20-34-32_0_0: HTTP error
30/10/2009 9:34:48 ibercivis Backing off 2 hr 11 min 17 sec on upload of molecula305781_1t39_finalScreening_28-09-20-34-32_0_0
Fecha: 30/10/2009 10:49.
Autor: luis
Fecha: 30/10/2009 21:23.
Autor: Alejandro Rivero
Fecha: 30/10/2009 21:26.
Autor: Carlos J. Gil Bellosta
Supongo que el problema del "decaimiento exponencial" tiene que ver con el hecho de que hay ordenadores que no terminan sus tareas. Y que esto es así porque a lo mejor, las últimas se han mandado a ordenadores que están desconectados y que, por lo tanto, son incapaces de rematar su labor a tiempo.
No sé si podría implementarse un sistema de manera que cuando hubiese muchas tareas pendientes (carga de trabajo para un periodo largo) fuese más probable enviarles tareas a ordenadores que operen de manera más o menos esporádica y reservar los "remates" (cuando queden pocas tareas pendientes) a esos ordenadores que históricamente están conectados de manera más continua. Así disminuiría la probabilidad de que quedasen trabajos atrapados en ordenadores no operativos.
Y BOINC funcionaría, como dices arriba, de manera más similar a un GRID.
Un saludo,
Carlos J. Gil Bellosta
Fecha: 24/11/2009 12:13.

